本發(fā)明涉及計(jì)算機(jī)應(yīng)用及計(jì)算視覺(jué)領(lǐng)域,涉及一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注算法。
背景技術(shù):
通過(guò)圖像標(biāo)簽來(lái)管理、檢索圖像是一種常見(jiàn)且比較簡(jiǎn)單有效的方式,但是互聯(lián)網(wǎng)上仍然存在著大量沒(méi)有標(biāo)注或者標(biāo)注不完全的圖像,所以設(shè)計(jì)一種有效的圖像自動(dòng)標(biāo)注與分類(lèi)算法是解決這個(gè)問(wèn)題的關(guān)鍵技術(shù)。近年來(lái),在圖像自動(dòng)標(biāo)注問(wèn)題上已存在很多的研究工作。主要的研究方法可以分為兩類(lèi):基于模型學(xué)習(xí)的方法和基于搜索數(shù)據(jù)庫(kù)的方法。
基于搜索數(shù)據(jù)庫(kù)的方法根據(jù)數(shù)據(jù)庫(kù)中已標(biāo)注的圖像的標(biāo)簽直接提供標(biāo)簽候選序列,具有簡(jiǎn)單、有效的特點(diǎn)。tagprop(guillauminm,mensinkt,verbeekj,etal.tagprop:discriminativemetriclearninginnearestneighbormodelsforimageauto-annotation[c]//ieee,internationalconferenceoncomputervision.ieee,2010:309-316.)算法設(shè)計(jì)了一個(gè)度量學(xué)習(xí)模型得到一個(gè)更加有區(qū)分力度的特征表示,提高了knn方法的性能。2pknn(vermay,jawaharcv.imageannotationusingmetriclearninginsemanticneighbourhoods[m]//computervision–eccv2012.springerberlinheidelberg,2012:836-849.)算法考慮了數(shù)據(jù)集不平衡的問(wèn)題,在處理后的數(shù)據(jù)平衡的子集中利用knn方法完成標(biāo)注,提高了算法效率。nmf-knn(kalayehmm,idreesh,shahm.nmf-knn:imageannotationusingweightedmulti-viewnon-negativematrixfactorization[c]//ieeeconferenceoncomputervisionandpatternrecognition.ieee,2014:184-191.)算法為每個(gè)待標(biāo)注圖像生成一個(gè)特定的生成模型完成標(biāo)注任務(wù),提升了標(biāo)注效果,但是算法復(fù)雜度高不適合實(shí)際應(yīng)用。swim(liuh,lix,zhangs.learninginstancecorrelationfunctionsformultilabelclassification[j].ieeetransactionsoncybernetics,2016,47(2):499-510.)算法則考慮了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的映射關(guān)系,提出了一種加權(quán)形式的knn算法,實(shí)現(xiàn)圖像標(biāo)注。
基于數(shù)據(jù)集搜索的方法主要存在兩個(gè)問(wèn)題,一是忽略了標(biāo)簽共現(xiàn)的問(wèn)題,從而導(dǎo)致了較低的準(zhǔn)確率,另一個(gè)是大規(guī)模數(shù)據(jù)庫(kù)條件下knn-based算法效率低下。
基于模型學(xué)習(xí)的方法中,自動(dòng)圖像標(biāo)注問(wèn)題可以看作多類(lèi)別分類(lèi)問(wèn)題或者針對(duì)每個(gè)標(biāo)簽的二分類(lèi)問(wèn)題。svia(sunl,geh,yoshidas,etal.supportvectordescriptionofclustersforcontent-basedimageannotation[j].patternrecognition,2014,47(3):1361-1374.)算法為每個(gè)標(biāo)簽學(xué)習(xí)一個(gè)one-class的svmmodel,之后考慮標(biāo)簽之間的統(tǒng)計(jì)關(guān)系利用貝葉斯推理重新為推薦的標(biāo)簽序列計(jì)分完成標(biāo)注任務(wù)。ldmkl和sdmkl(jium,sahbih.nonlineardeepkernellearningforimageannotation.[c]//ieeeinternationalconferenceonacoustics,speechandsignalprocessing.ieee,2016:1551-1555.)算法設(shè)計(jì)了一個(gè)非線性深度核學(xué)習(xí)模型,采用one-vs-rest策略獨(dú)立的對(duì)每個(gè)標(biāo)簽學(xué)習(xí)分類(lèi)器實(shí)現(xiàn)標(biāo)注任務(wù)。算法(darwishsm.combiningfireflyalgorithmandbayesianclassifier:newdirectionforautomaticmultilabelimageannotation[j].ietimageprocessing,2016,10(10):763-772.)將圖像過(guò)分割成多個(gè)區(qū)域(region),基于在圖像區(qū)域中提取的特征(regionfeature)利用貝葉斯分類(lèi)器實(shí)現(xiàn)圖像標(biāo)注算法。lift(zhangml,wul.lift:multi-labellearningwithlabel-specificfeatures[j].ieeetransactionsonpatternanalysisandmachineintelligence,2015,37(1):107-120.)算法首先為每個(gè)類(lèi)別標(biāo)簽構(gòu)建標(biāo)簽特定的特征,然后對(duì)每個(gè)標(biāo)簽在該標(biāo)簽特定的特征上學(xué)習(xí)分類(lèi)器實(shí)現(xiàn)標(biāo)注任務(wù)。
此類(lèi)方法將標(biāo)簽視為類(lèi)別將標(biāo)注問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,當(dāng)數(shù)據(jù)集標(biāo)簽數(shù)量巨大時(shí),則意味著巨大的分類(lèi)輸出空間,從而導(dǎo)致此類(lèi)方法不再適合。算法lcmkl(guy,qianx,liq,etal.imageannotationbylatentcommunitydetectionandmultikernellearning[j].ieeetransactionsonimageprocessingapublicationoftheieeesignalprocessingsociety,2015,24(11):3450.)采用fastunfoldingalgorithm算法將標(biāo)簽硬分類(lèi),并對(duì)不同類(lèi)別訓(xùn)練mkl分類(lèi)器,緩解了基于模型學(xué)習(xí)的算法不適合標(biāo)簽個(gè)數(shù)多的數(shù)據(jù)集的問(wèn)題,但是由于采用硬分類(lèi)算法忽略了標(biāo)簽屬于多個(gè)類(lèi)別的情況,從而導(dǎo)致標(biāo)簽分類(lèi)不合理、樣本映射不準(zhǔn)確,算法效果較差。
針對(duì)在圖像標(biāo)注問(wèn)題中沒(méi)有考慮標(biāo)簽與語(yǔ)義場(chǎng)景間的映射關(guān)系以及存在的標(biāo)簽硬分類(lèi)問(wèn)題,本發(fā)明基于非負(fù)矩陣分解提出了一種標(biāo)簽的語(yǔ)義場(chǎng)景劃分方法,實(shí)現(xiàn)了標(biāo)簽與語(yǔ)義場(chǎng)景間的概率映射。繼而利用場(chǎng)景分類(lèi),將待標(biāo)注樣本映射到場(chǎng)景相關(guān)的樣本子集中采用knn(knearestneighbor)方法完成標(biāo)注。由于本方法在樣本場(chǎng)景相關(guān)的樣本集合中利用knn完成標(biāo)注,這不僅提升了knn算法效率,也減少了噪音的干擾,提高了標(biāo)注效果。再者,由于場(chǎng)景個(gè)數(shù)遠(yuǎn)小于標(biāo)簽個(gè)數(shù),從而解決了基于模型學(xué)習(xí)的方法不適合標(biāo)簽數(shù)量龐大的數(shù)據(jù)集的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)在圖像標(biāo)注問(wèn)題中沒(méi)有考慮標(biāo)簽與語(yǔ)義場(chǎng)景間的映射關(guān)系以及存在的標(biāo)簽硬分類(lèi)問(wèn)題,本發(fā)明提出了一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法。首先,根據(jù)訓(xùn)練集中的標(biāo)簽信息利用nmf-based(基于非負(fù)矩陣分解的)方法進(jìn)行場(chǎng)景檢測(cè),得到標(biāo)簽屬于每個(gè)場(chǎng)景的概率。然后依據(jù)訓(xùn)練集中樣本的標(biāo)簽信息,將樣本以概率的方式映射到對(duì)應(yīng)的場(chǎng)景。繼而,將得到的場(chǎng)景視為不同的類(lèi)別信息,場(chǎng)景內(nèi)的訓(xùn)練集樣本作為訓(xùn)練數(shù)據(jù),訓(xùn)練場(chǎng)景分類(lèi)器。最后根據(jù)訓(xùn)練而來(lái)的分類(lèi)器,將測(cè)試集中的樣本進(jìn)行場(chǎng)景分類(lèi),在得到的top-2最相關(guān)場(chǎng)景對(duì)應(yīng)的訓(xùn)練子集上利用knn方法完成標(biāo)注。
本發(fā)明技術(shù)方案如下:
本發(fā)明實(shí)施例提供一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法及框架。
1、特征提取。
對(duì)圖像提取多種不同的特征,例如gist(512d),densehue(100d),harrishue(100d),densesift(1000d),harrissift(1000d)。
2、構(gòu)建標(biāo)簽關(guān)系圖、場(chǎng)景檢測(cè)和場(chǎng)景個(gè)數(shù)確定。
a、構(gòu)建標(biāo)簽關(guān)系圖
利用公式(1)建立標(biāo)簽之間的關(guān)系圖c:
n(ci,cj)表示訓(xùn)練集中同時(shí)標(biāo)注有標(biāo)簽ci和標(biāo)簽cj的樣本數(shù),n(cj)表示標(biāo)注有標(biāo)簽cj的樣本數(shù)。cij表示在標(biāo)注有標(biāo)簽cj的樣本中,標(biāo)注有標(biāo)簽ci的樣本所占比例。
b、場(chǎng)景檢測(cè)
依據(jù)關(guān)系圖c和公式(2)建立非負(fù)矩陣分解模型,利用更新規(guī)則(3)和公式(4)更新公式(2),收斂后利用公式(5)歸一化w。
wswt=(wd-1)(dsdt)(wd-1)t(5)
c、場(chǎng)景個(gè)數(shù)確定
通過(guò)設(shè)定不同的場(chǎng)景個(gè)數(shù)k,運(yùn)行b中所述方法。將得到的w矩陣0/1化(將w每行中最大值設(shè)定為1,其他設(shè)為0),再根據(jù)公式(6)計(jì)算社區(qū)模塊性。
其中wi,j表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的連接權(quán)重,
3、映射樣本到場(chǎng)景
給定訓(xùn)練樣本{xi,yi}(其中xi是該樣本的特征向量,yi表示該樣本的標(biāo)簽向量,yi∈r1*m,如果該樣本標(biāo)注有第k個(gè)標(biāo)簽,則yik=1),根據(jù)每個(gè)樣本的標(biāo)簽信息映射到各個(gè)場(chǎng)景。本發(fā)明假設(shè)圖像的每個(gè)標(biāo)簽對(duì)圖像屬于哪個(gè)場(chǎng)景獨(dú)立起作用,并基于此假設(shè)提供了一種映射樣本到場(chǎng)景的策略,即可以如下(7)計(jì)算樣本i屬于場(chǎng)景sk的概率:
其中,wk表示w的第k列,w為步驟2中b小節(jié)計(jì)算得到。
從而對(duì)于訓(xùn)練集{x,y},利用公式(8)得到所有樣本的場(chǎng)景信息:
p=v*(y*w)(8)
其中,p∈rn1*k,pik表示樣本i屬于場(chǎng)景sk的概率,v∈rn1*n1是一個(gè)對(duì)角陣來(lái)歸一化(y*w),
其中pi為p的第i行。則訓(xùn)練集由{x,y}轉(zhuǎn)為{x,y,z},其中,如果zki=1,則表示第i個(gè)樣本所屬場(chǎng)景為sk。
4、分類(lèi)器訓(xùn)練
針對(duì)多特征問(wèn)題本發(fā)明采用了基于差分de(查分進(jìn)化)和elm(極限學(xué)習(xí)機(jī))的加權(quán)投票法,如下:
本發(fā)明采用加權(quán)投票法線性組合多個(gè)特征的分類(lèi)結(jié)果,作為最終分類(lèi)結(jié)果,即:
其中cv表示測(cè)試集的第v個(gè)視角特征對(duì)應(yīng)的elm分類(lèi)器的分類(lèi)結(jié)果,即:cv=gelm(xv),θv表示第v個(gè)特征對(duì)應(yīng)分類(lèi)結(jié)果的權(quán)重,其中θ∈rv*1。本發(fā)明采用5-fold交叉驗(yàn)證的方式確定這里的權(quán)重θ,構(gòu)建如下目標(biāo)函數(shù):
采用de算法優(yōu)化公式(11)求解上述參數(shù)θ,z為步驟3得到的場(chǎng)景類(lèi)別信息。
5、對(duì)未標(biāo)注圖像進(jìn)行標(biāo)注。
對(duì)未標(biāo)注圖像提取同樣的特征信息,并輸入到4中訓(xùn)練的分類(lèi)器里,得到分類(lèi)結(jié)果。在最相關(guān)的兩個(gè)場(chǎng)景內(nèi)的訓(xùn)練集樣本上運(yùn)行knn-based算法,得到預(yù)測(cè)標(biāo)簽。下面是本步驟所使用的標(biāo)注算法偽代碼。
本發(fā)明的有益效果為:
由于本方法在樣本場(chǎng)景相關(guān)的樣本集合中利用knn完成標(biāo)注,這不僅提升了knn算法效率,也減少了噪音的干擾,提高了標(biāo)注效果。再者,由于場(chǎng)景個(gè)數(shù)遠(yuǎn)小于標(biāo)簽個(gè)數(shù),從而解決了基于模型學(xué)習(xí)的方法不適合標(biāo)簽數(shù)量龐大的數(shù)據(jù)集的問(wèn)題。
附圖說(shuō)明
圖1算法流程圖;
圖2場(chǎng)景檢測(cè)損失函數(shù)變化曲線;
圖3基準(zhǔn)實(shí)例iaprtc12模塊性變化曲線;
圖4基準(zhǔn)實(shí)例iaprtc12不同最鄰近樣本個(gè)數(shù)下的效果曲線;(a)準(zhǔn)確率、(b)召回率、(c)f1值、(d)平均準(zhǔn)確率;
圖5基準(zhǔn)實(shí)例iaprtc12不同隱藏節(jié)點(diǎn)個(gè)數(shù)下的效果曲線;(a)準(zhǔn)確率、(b)召回率、(c)f1值、(d)平均準(zhǔn)確率。
具體實(shí)施方式
所論述的具體實(shí)施例僅用于說(shuō)明本發(fā)明的實(shí)現(xiàn)方式,而不限制本發(fā)明的范圍。下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。
本發(fā)明在基準(zhǔn)實(shí)例iaprtc12的實(shí)施例如下:
符號(hào)表示:訓(xùn)練集合{x,y},測(cè)試集合{x′},x表示樣本特征矩陣,y表示訓(xùn)練集標(biāo)簽信息,x′表示測(cè)試集特征矩陣。
(1)特征提取
利用基準(zhǔn)實(shí)例iaprtc12已存在的gist(512d),densehue(100d),harrishue(100d),densesift(1000d),harrissift(1000d)五種特征作為本本實(shí)施例的特征{x}。
(2)場(chǎng)景檢測(cè)示例
根據(jù)公式(1)和標(biāo)簽矩陣y構(gòu)建標(biāo)簽關(guān)系圖c,依據(jù)公式(2)和關(guān)系矩陣c建立非負(fù)分解模型,利用公式(3)和公式(4)更新所建模型,并利用公式(5)歸一化所得w。圖2展示了算法在基準(zhǔn)實(shí)例iaprtc12上的損失值變化曲線;圖3給出了模塊性標(biāo)準(zhǔn)在k=3,…,15時(shí)的取值情況。依據(jù)圖3本實(shí)施例選取k=9作為該基準(zhǔn)實(shí)例的場(chǎng)景個(gè)數(shù),并將k=9時(shí)公式(2)得到的w作為映射樣本的依據(jù)。
(3)樣本映射到場(chǎng)景
依據(jù)上述步驟得到的w,根據(jù)公式(8)和公式(9)將樣本映射到對(duì)應(yīng)的場(chǎng)景中,從而訓(xùn)練集成為{x,y,z},其中,如果zki=1,則表示第i個(gè)樣本所屬場(chǎng)景為sk。
(4)分類(lèi)器訓(xùn)練
將上一步驟得到的{x,z},依據(jù)公式(10)和公式(11),訓(xùn)練分類(lèi)器。
(5)對(duì)未標(biāo)注圖像進(jìn)行標(biāo)注。
對(duì)于測(cè)試樣本x∈x′,首先依據(jù)(4)步驟訓(xùn)練的分類(lèi)器找到最相關(guān)的兩個(gè)場(chǎng)景,在這個(gè)兩個(gè)相關(guān)場(chǎng)景內(nèi)的樣本子集中利用knn算法完成標(biāo)注。圖4展示了基準(zhǔn)實(shí)例對(duì)于最鄰近樣本個(gè)數(shù)取值為10,20,…,150時(shí),算法的準(zhǔn)確率、召回率、f1值、平均準(zhǔn)確率的變化曲線。圖5展示了基準(zhǔn)實(shí)例對(duì)于極限學(xué)習(xí)機(jī)隱藏層節(jié)點(diǎn)個(gè)數(shù)取值100,200,…,1500時(shí)的效果變化曲線。