專利名稱:基于稀疏非負矩陣分解的圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像的檢索領(lǐng)域,尤其涉及一種基于稀疏非負矩陣分解的圖像檢索方法。
背景技術(shù):
作為web 2. 0的特征之一,當前社會化標簽日益流行。在Flickr、YouTube和Del. icio. US等網(wǎng)站中,用戶可對照片、視頻、網(wǎng)頁等進行標注,也可按興趣檢索相關(guān)資源。但是,用戶所加標簽存在噪音、歧義性和主觀性等問題,直接利用用戶標注的標簽檢索資源無法取得滿意結(jié)果。因此,如何從現(xiàn)有標簽出發(fā),提高圖像檢索效果是當前研究的一個熱點問題。近年來,針對該問題,很多方法被提出。但這些方法有一個共同的局限性,即其大多利用單一數(shù)據(jù)源信息,忽視其他數(shù)據(jù)源的作用。實際上,隨著網(wǎng)絡和多媒體技術(shù)的迅猛發(fā)展, 不同來源的數(shù)據(jù)較易獲取。在分析某一來源數(shù)據(jù)時,將其他來源數(shù)據(jù)作為輔助信息充分利用,將優(yōu)于僅依靠單一來源數(shù)據(jù)所取得的效果。作為一個子空間學習方法,非負矩陣分解(Nonnegative Matrix Factorization, NMF)被廣泛用于高維數(shù)據(jù)的降維。非負矩陣分解在很多時候可得到原始數(shù)據(jù)中有意義的基向量,與“整體由部分組成”這一人的高層感知相符,因此非負矩陣分解得到了較為廣泛應用。在現(xiàn)實情況中,需要對原始數(shù)據(jù)去除冗余,得到其緊湊表達。雖然NMF中的非負性約束也會產(chǎn)生數(shù)據(jù)的緊湊表達(即帶來稀疏性),但是這一稀疏性是不被控制的。為解決這一問題,《生物信息學》雜志中[1] (Bioinformatics/computer Applications in The Biosciences,2007,23 :1495-1502)提出了一種稀疏非負矩陣分解(Sparse NMF)算法,該算法可控制基矩陣或系數(shù)矩陣的稀疏程度。知識發(fā)現(xiàn)與數(shù)據(jù)挖掘2010年會議集中 [2] (Proceedings of Knowledge Discovery and Data Mining, 2010 :1169-1178)利用非負矩陣分解和共享子空間學習等方法,提出聯(lián)合共享非負矩陣分解(Multiple Shared Nonnegative Matrix Factorization,MS-NMF)算法,該算法利用多數(shù)據(jù)源中知識來輔助圖像檢索,克服傳統(tǒng)算法中僅利用單一數(shù)據(jù)源的不足。然而[1]中提出的方法雖然考慮了矩陣分解中稀疏性的控制,但該方法卻僅限于單一數(shù)據(jù)源(即單一矩陣)的利用;而[2]中提出的方法雖然利用多數(shù)據(jù)源中的知識來輔助圖像檢索,卻忽略了對稀疏性的控制。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于稀疏非負矩陣分解的圖像檢索方法。基于稀疏非負矩陣分解的圖像檢索的方法包括如下步驟1)編寫爬蟲程序,從兩個不同的圖像數(shù)據(jù)源下分別查詢并提取檢索結(jié)果的圖像及其伴隨文本,構(gòu)成第一圖像數(shù)據(jù)集D1和第二圖像數(shù)據(jù)集D2 ;2)提取伴隨文本中的標簽,并根據(jù)詞頻過濾構(gòu)成詞匯表;
也可寫作
權(quán)利要求
1.一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于包括如下步驟1)編寫爬蟲程序,從兩個不同的圖像數(shù)據(jù)源下分別查詢并提取檢索結(jié)果的圖像及其伴隨文本,構(gòu)成第一圖像數(shù)據(jù)集D1和第二圖像數(shù)據(jù)集D2 ;2)提取伴隨文本中的標簽,并根據(jù)詞頻過濾構(gòu)成詞匯表;3)對每一個圖像數(shù)據(jù)集,利用標簽與圖像的關(guān)聯(lián)關(guān)系,形成標簽與圖像的關(guān)聯(lián)矩陣;4)利用稀疏非負矩陣分解分析步驟幻所得的關(guān)聯(lián)矩陣,得到不同來源數(shù)據(jù)對應的子空間,對應的子空間包括不同來源數(shù)據(jù)的共享子空間和各數(shù)據(jù)源對應的獨立子空間;5)對某數(shù)據(jù)源上的圖像檢索請求,形成查詢向量并映射到該數(shù)據(jù)源對應的子空間上, 與所有圖像計算相似度并排序,返回最相似的前N個圖像。
2.根據(jù)權(quán)利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟2)為1)從第一圖像數(shù)據(jù)集D1的伴隨文本中提取標簽構(gòu)成第一標簽集合T1,從第二圖像數(shù)據(jù)集D2的伴隨文本中提取標簽構(gòu)成第二標簽集合T2 ;2)統(tǒng)計第一標簽集合T1和第二標簽集合T2中的標簽在第一圖像數(shù)據(jù)集D1和第二圖像數(shù)據(jù)集A的伴隨文本中出現(xiàn)次數(shù),僅保留出現(xiàn)次數(shù)大于10次的標簽,構(gòu)成過濾后的第一標簽集合S1和過濾后的第二標簽集合&,過濾后的第一標簽集合S1的基數(shù)為Hl1,過濾后的第二標簽集合S1的基數(shù)為m2 ;3)取過濾后的第一標簽集合S1和過濾后的第二標簽集合&的交集和并集依次得到兩標簽集合的交集^和兩標簽集合的并集&,兩標簽集合的交集^的基數(shù)為IV兩標簽集合的并集&的基數(shù)為mu,兩標簽集合的并集&即為詞匯表。
3.根據(jù)權(quán)利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟3)為根據(jù)兩標簽集合的并集&,在第一圖像數(shù)據(jù)集D1上構(gòu)建第一關(guān)聯(lián)矩陣X1 G Mmx"1,在第二圖像數(shù)據(jù)集D2上構(gòu)建第二關(guān)聯(lián)矩陣Z2 e Rm ,其中m = mu,ni為第一圖像數(shù)據(jù)集D1中圖像的個數(shù),n2為第二圖像數(shù)據(jù)集&中圖像的個數(shù),矩陣每一行對應一個標簽,矩陣每一列對應一個文檔,第一關(guān)聯(lián)矩陣X1的元素或第二關(guān)聯(lián)矩陣&的元素I2y 按如下賦值當?shù)谝粓D像數(shù)據(jù)集D1或第二圖像數(shù)據(jù)集&中第i個標簽標注第j個文檔時, 賦值為1 ;否則,賦值為0。
4.根據(jù)權(quán)利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟4)為利用稀疏非負矩陣分解聯(lián)合分析步驟幻所得的第一關(guān)聯(lián)矩陣^C1和第二關(guān)聯(lián)矩陣\,得到兩個關(guān)聯(lián)矩陣的共享子空間記為W12,第一關(guān)聯(lián)矩陣X1的獨立子空間記為W1,第二關(guān)聯(lián)矩陣)(2的獨立子空間w2,在矩陣分解中,上述三個子空間表示如下
5.根據(jù)權(quán)利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟5)為采用如下的基于稀疏非負矩陣分解的圖像檢索算法進行圖像檢索 輸入在目標數(shù)據(jù)集和輔助數(shù)據(jù)集上分別構(gòu)建矩陣&和&,查詢向量q,需要檢索返回的圖片數(shù)N;輸出檢索得到最相關(guān)的前N個圖片,按相似度降序返回;步驟1.利用基于稀疏非負矩陣分解的多源利用算法,對矩陣&和\進行分解得到
全文摘要
本發(fā)明公開了一種基于稀疏非負矩陣分解的圖像檢索的方法。包括如下步驟1)在兩個不同的圖片數(shù)據(jù)源下分別查詢并提取檢索結(jié)果的圖像及伴隨文本;2)提取伴隨文本中的標簽,根據(jù)詞頻過濾結(jié)果來構(gòu)成詞匯表;3)對每一個圖像集,利用標簽與圖像的關(guān)聯(lián)關(guān)系,形成標簽與圖像的關(guān)聯(lián)矩陣;4)利用稀疏非負矩陣分解分析步驟3)中所得的關(guān)聯(lián)矩陣,得到不同來源數(shù)據(jù)的共享子空間及其所對應獨立子空間;5)用戶對某數(shù)據(jù)源上的圖像發(fā)出檢索請求,形成查詢向量并映射到該數(shù)據(jù)源對應子空間上,與所有圖像計算相似度并排序,返回最相似的前N個圖像。本發(fā)明充分利用多數(shù)據(jù)源下標簽與圖像的關(guān)聯(lián)知識,通過稀疏非負矩陣分解進行遷移學習,提高了目標數(shù)據(jù)源上圖像檢索的準確性。
文檔編號G06F17/30GK102270241SQ201110234110
公開日2011年12月7日 申請日期2011年8月16日 優(yōu)先權(quán)日2011年8月16日
發(fā)明者吳飛, 肖俊, 邵健, 馬帥 申請人:浙江大學