專(zhuān)利名稱(chēng):基于詞匯樹(shù)層次語(yǔ)義模型的圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像檢索的方法,具體涉及一種基于內(nèi)容的圖像檢索方法,尤其是一種考慮圖像所包含的圖像高層語(yǔ)義信息,并加入用戶(hù)對(duì)圖像內(nèi)容理解和檢索結(jié)果反饋的方法。
背景技術(shù):
隨著因特網(wǎng)和多媒體技術(shù)的迅速發(fā)展,從20世紀(jì)90年代初至今,基于內(nèi)容的圖像檢索(CBIR)得到了廣泛的研究?,F(xiàn)有圖像檢索技術(shù)中,由于其使用圖像紋理、顏色和形狀等低層特征作為索引來(lái)對(duì)圖像進(jìn)行檢索,而圖像低層特征表達(dá)出的信息與用戶(hù)對(duì)這些特征圖像理解的含義存在不一致性,即語(yǔ)義鴻溝,所以檢索效果往往不能滿(mǎn)足用戶(hù)的需求。如果檢索過(guò)程中能夠考慮圖像所包含的圖像高層語(yǔ)義信息,加入用戶(hù)對(duì)圖像內(nèi)容的理解,則會(huì)是一種更貼近用戶(hù)理解的圖像檢索。然而,目前語(yǔ)義檢索中語(yǔ)義映射關(guān)系大多是通過(guò)人工標(biāo)注建立,對(duì)于待檢索圖像中的語(yǔ)義信息難以獲得較好的映射,并且,建立的映射關(guān)系不能隨著用戶(hù)檢索的反饋信息自動(dòng)進(jìn)行修正,從而影響檢索效果的提升。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的是提供一種基于詞匯樹(shù)層次語(yǔ)義模型的圖像檢索方法,利用詞匯樹(shù)將圖像特征與人工標(biāo)注的語(yǔ)義特征進(jìn)行關(guān)聯(lián),以實(shí)現(xiàn)檢索過(guò)程中的自動(dòng)語(yǔ)義映射;并實(shí)現(xiàn)高層語(yǔ)義映射的自動(dòng)修正,以獲得更好的檢索效果,更貼近檢索用戶(hù)的需求。為達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是一種圖像檢索方法,提供用于檢索的圖像庫(kù)和待檢索的圖片,包括下列步驟(I)提取圖像庫(kù)中所有圖片的SIFT特征,得到特征集合;(2)構(gòu)建詞匯樹(shù),方法是設(shè)定聚類(lèi)個(gè)數(shù)K,樹(shù)的深度P,對(duì)步驟⑴獲得的特征集合進(jìn)行分層聚類(lèi),第一層獲得K個(gè)聚類(lèi),作為詞匯樹(shù)的K個(gè)子節(jié)點(diǎn),計(jì)算出每個(gè)子節(jié)點(diǎn)的中心向量;對(duì)每個(gè)子節(jié)點(diǎn)分別進(jìn)行聚類(lèi),每一子節(jié)點(diǎn)生成K個(gè)下一層的子節(jié)點(diǎn),并計(jì)算出每個(gè)子節(jié)點(diǎn)的中心向量;不斷重復(fù)直到樹(shù)的深度達(dá)到預(yù)設(shè)值P,獲得SIFT詞匯樹(shù);其中,K取5 10的整數(shù),P取3 6的整數(shù);(3)將圖像庫(kù)中的圖片與詞匯樹(shù)進(jìn)行關(guān)聯(lián)詞匯樹(shù)的葉節(jié)點(diǎn)個(gè)數(shù)為M=KXP,每個(gè)葉節(jié)點(diǎn)具有中心向量Cm,其中,m為I M的整數(shù),將每個(gè)葉節(jié)點(diǎn)稱(chēng)為一個(gè)視覺(jué)詞匯單詞Wm,圖像庫(kù)中的總圖片數(shù)為N,其中每個(gè)圖片稱(chēng)為一個(gè)文檔Fi, i是I N的整數(shù),則文檔Fi和視覺(jué)詞匯單詞Wm的相關(guān)度為Weight (i,m) =NUMimXidfm,式中,NUMim表示視覺(jué)詞匯單詞Wm
在圖片文檔Fi中出現(xiàn)的次數(shù),=lg},Nm表示視覺(jué)詞匯單詞Wm —共包含的圖片文檔數(shù)
m
目;計(jì)算每個(gè)圖片與詞匯樹(shù)的每個(gè)葉節(jié)度的相關(guān)度,完成圖片與詞匯樹(shù)的關(guān)聯(lián);(4)設(shè)定圖像庫(kù)的語(yǔ)義主題信息集,先采用人工標(biāo)注的方法將圖像庫(kù)中的圖片分類(lèi)至語(yǔ)義主題信息集中的各語(yǔ)義主題信息;再利用Bayesian統(tǒng)計(jì)決策理論實(shí)現(xiàn)視覺(jué)詞匯層到語(yǔ)義信息層的映射,映射方法為,每個(gè)視覺(jué)詞匯單詞和語(yǔ)義主題信息間的映射概率為
權(quán)利要求
1.一種基于詞匯樹(shù)層次語(yǔ)義模型的圖像檢索方法,提供用于檢索的圖像庫(kù)和待檢索的圖片,其特征在于,包括下列步驟 (1)提取圖像庫(kù)中所有圖片的SIFT特征,得到特征集合; (2)構(gòu)建詞匯樹(shù),方法是設(shè)定聚類(lèi)個(gè)數(shù)K,樹(shù)的深度P,對(duì)步驟(I)獲得的特征集合進(jìn)行分層聚類(lèi),第一層獲得K個(gè)聚類(lèi),作為詞匯樹(shù)的K個(gè)子節(jié)點(diǎn),計(jì)算出每個(gè)子節(jié)點(diǎn)的中心向量;對(duì)每個(gè)子節(jié)點(diǎn)分別進(jìn)行聚類(lèi),每一子節(jié)點(diǎn)生成K個(gè)下一層的子節(jié)點(diǎn),并計(jì)算出每個(gè)子節(jié)點(diǎn)的中心向量;不斷重復(fù)直到樹(shù)的深度達(dá)到預(yù)設(shè)值P,獲得SIFT詞匯樹(shù);其中,K取5 10的整數(shù),P取3 6的整數(shù); (3)將圖像庫(kù)中的圖片與詞匯樹(shù)進(jìn)行關(guān)聯(lián)詞匯樹(shù)的葉節(jié)點(diǎn)個(gè)數(shù)為M=KXP,每個(gè)葉節(jié)點(diǎn)具有中心向量Cm,其中,m為I M的整數(shù),將每個(gè)葉節(jié)點(diǎn)稱(chēng)為一個(gè)視覺(jué)詞匯單詞Wm,圖像庫(kù)中的總圖片數(shù)為N,其中每個(gè)圖片稱(chēng)為一個(gè)文檔Fi, i是I N的整數(shù),則文檔Fi和視覺(jué)詞匯單詞Wm的相關(guān)度為Weight (i, m) =NUMimX idfm,式中,NUMim表示視覺(jué)詞匯單詞Wm在圖片文檔Fi中出現(xiàn)的次數(shù),MC=lgy,Nm表示視覺(jué)詞匯單詞Wm—共包含的圖片文檔數(shù)目; 計(jì)算每個(gè)圖片與詞匯樹(shù)的每個(gè)葉節(jié)度的相關(guān)度,完成圖片與詞匯樹(shù)的關(guān)聯(lián); (4)設(shè)定圖像庫(kù)的語(yǔ)義主題信息集,先采用人工標(biāo)注的方法將圖像庫(kù)中的圖片分類(lèi)至語(yǔ)義主題信息集中的各語(yǔ)義主題信息;再利用Bayesian統(tǒng)計(jì)決策理論實(shí)現(xiàn)視覺(jué)詞匯層到語(yǔ)義信息層的映射,映射方法為,每個(gè)視覺(jué)詞匯單詞和語(yǔ)義主題信息間的映射概率為
2.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于根據(jù)用戶(hù)搜索結(jié)果的反饋信息修正語(yǔ)義映射并擴(kuò)展圖像庫(kù),方法為 ①根據(jù)用戶(hù)的查詢(xún)圖片返回查詢(xún)結(jié)果,用戶(hù)根據(jù)返回結(jié)果標(biāo)記滿(mǎn)意的結(jié)果為正反饋記錄I+,其余為負(fù)反饋記錄r ; ②將用戶(hù)的查詢(xún)圖片加入到詞匯樹(shù)中,其量化到的每一個(gè)視覺(jué)詞匯單詞節(jié)點(diǎn),都加入該圖片的記錄,并且更新idf值。
③根據(jù)步驟(4)的語(yǔ)義映射公式在視覺(jué)詞匯層到主題語(yǔ)義信息層映射的過(guò)程中,對(duì)于正反饋圖像分布的每一個(gè)視覺(jué)詞匯單詞節(jié)點(diǎn),其視覺(jué)詞匯單詞y上出現(xiàn)包含語(yǔ)義主題信息節(jié)點(diǎn)%的圖片數(shù)目占總圖像庫(kù)中數(shù)目的比值P(Qi)都增加一個(gè)正比例因子U+,而對(duì)于負(fù)反饋圖像分布的每一個(gè)視覺(jué)詞匯單詞節(jié)點(diǎn),其P(Qi)都加上一個(gè)負(fù)比例因子『,其中,U+=O. 1,IT=-O.10
3.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于步驟(2)中,聚類(lèi)的方法采用K-means聚類(lèi)法,聚類(lèi)個(gè)數(shù)K取6,樹(shù)的深度P取4。
4.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于步驟(10)中,g的取值為10。
全文摘要
本發(fā)明公開(kāi)了一種圖像檢索方法,基于詞匯樹(shù)層次語(yǔ)義模型實(shí)現(xiàn)。首先提取圖像包含顏色信息的SIFT特征來(lái)構(gòu)造圖像庫(kù)的特征詞匯樹(shù),生成描述圖像視覺(jué)信息的視覺(jué)詞匯。并在此基礎(chǔ)上利用Bayesian決策理論實(shí)現(xiàn)視覺(jué)詞匯到語(yǔ)義主題信息的映射,進(jìn)而構(gòu)造了一個(gè)層次語(yǔ)義模型,并在此模型基礎(chǔ)上完成了基于內(nèi)容的語(yǔ)義圖像檢索算法。通過(guò)檢索過(guò)程中用戶(hù)的相關(guān)反饋,不僅可以加入正反饋圖像擴(kuò)展圖像查詢(xún)庫(kù),同時(shí)能夠修正高層語(yǔ)義映射。實(shí)驗(yàn)結(jié)果表明,本發(fā)明的檢索方法性能穩(wěn)定,并且隨著反饋次數(shù)的增加,檢索效果明顯提升。
文檔編號(hào)G06F17/30GK103020111SQ201210422998
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年10月29日 優(yōu)先權(quán)日2012年10月29日
發(fā)明者吳健, 崔志明, 張?jiān)螺x, 李承超 申請(qǐng)人:蘇州大學(xué)