一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法與流程

文檔序號(hào)：11200242閱讀：845來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法與流程

本發(fā)明涉及計(jì)算機(jī)應(yīng)用及計(jì)算視覺(jué)領(lǐng)域，涉及一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注算法。

背景技術(shù)：

通過(guò)圖像標(biāo)簽來(lái)管理、檢索圖像是一種常見(jiàn)且比較簡(jiǎn)單有效的方式，但是互聯(lián)網(wǎng)上仍然存在著大量沒(méi)有標(biāo)注或者標(biāo)注不完全的圖像，所以設(shè)計(jì)一種有效的圖像自動(dòng)標(biāo)注與分類(lèi)算法是解決這個(gè)問(wèn)題的關(guān)鍵技術(shù)。近年來(lái)，在圖像自動(dòng)標(biāo)注問(wèn)題上已存在很多的研究工作。主要的研究方法可以分為兩類(lèi)：基于模型學(xué)習(xí)的方法和基于搜索數(shù)據(jù)庫(kù)的方法。

基于搜索數(shù)據(jù)庫(kù)的方法根據(jù)數(shù)據(jù)庫(kù)中已標(biāo)注的圖像的標(biāo)簽直接提供標(biāo)簽候選序列，具有簡(jiǎn)單、有效的特點(diǎn)。tagprop(guillauminm,mensinkt,verbeekj,etal.tagprop:discriminativemetriclearninginnearestneighbormodelsforimageauto-annotation[c]//ieee,internationalconferenceoncomputervision.ieee,2010:309-316.)算法設(shè)計(jì)了一個(gè)度量學(xué)習(xí)模型得到一個(gè)更加有區(qū)分力度的特征表示，提高了knn方法的性能。2pknn(vermay,jawaharcv.imageannotationusingmetriclearninginsemanticneighbourhoods[m]//computervision–eccv2012.springerberlinheidelberg,2012:836-849.)算法考慮了數(shù)據(jù)集不平衡的問(wèn)題，在處理后的數(shù)據(jù)平衡的子集中利用knn方法完成標(biāo)注，提高了算法效率。nmf-knn(kalayehmm,idreesh,shahm.nmf-knn:imageannotationusingweightedmulti-viewnon-negativematrixfactorization[c]//ieeeconferenceoncomputervisionandpatternrecognition.ieee,2014:184-191.)算法為每個(gè)待標(biāo)注圖像生成一個(gè)特定的生成模型完成標(biāo)注任務(wù)，提升了標(biāo)注效果，但是算法復(fù)雜度高不適合實(shí)際應(yīng)用。swim(liuh,lix,zhangs.learninginstancecorrelationfunctionsformultilabelclassification[j].ieeetransactionsoncybernetics,2016,47(2):499-510.)算法則考慮了訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的映射關(guān)系，提出了一種加權(quán)形式的knn算法，實(shí)現(xiàn)圖像標(biāo)注。

基于數(shù)據(jù)集搜索的方法主要存在兩個(gè)問(wèn)題，一是忽略了標(biāo)簽共現(xiàn)的問(wèn)題，從而導(dǎo)致了較低的準(zhǔn)確率，另一個(gè)是大規(guī)模數(shù)據(jù)庫(kù)條件下knn-based算法效率低下。

基于模型學(xué)習(xí)的方法中，自動(dòng)圖像標(biāo)注問(wèn)題可以看作多類(lèi)別分類(lèi)問(wèn)題或者針對(duì)每個(gè)標(biāo)簽的二分類(lèi)問(wèn)題。svia(sunl,geh,yoshidas,etal.supportvectordescriptionofclustersforcontent-basedimageannotation[j].patternrecognition,2014,47(3):1361-1374.)算法為每個(gè)標(biāo)簽學(xué)習(xí)一個(gè)one-class的svmmodel，之后考慮標(biāo)簽之間的統(tǒng)計(jì)關(guān)系利用貝葉斯推理重新為推薦的標(biāo)簽序列計(jì)分完成標(biāo)注任務(wù)。ldmkl和sdmkl(jium,sahbih.nonlineardeepkernellearningforimageannotation.[c]//ieeeinternationalconferenceonacoustics,speechandsignalprocessing.ieee,2016:1551-1555.)算法設(shè)計(jì)了一個(gè)非線性深度核學(xué)習(xí)模型，采用one-vs-rest策略獨(dú)立的對(duì)每個(gè)標(biāo)簽學(xué)習(xí)分類(lèi)器實(shí)現(xiàn)標(biāo)注任務(wù)。算法(darwishsm.combiningfireflyalgorithmandbayesianclassifier:newdirectionforautomaticmultilabelimageannotation[j].ietimageprocessing,2016,10(10):763-772.)將圖像過(guò)分割成多個(gè)區(qū)域(region)，基于在圖像區(qū)域中提取的特征(regionfeature)利用貝葉斯分類(lèi)器實(shí)現(xiàn)圖像標(biāo)注算法。lift(zhangml,wul.lift:multi-labellearningwithlabel-specificfeatures[j].ieeetransactionsonpatternanalysisandmachineintelligence,2015,37(1):107-120.)算法首先為每個(gè)類(lèi)別標(biāo)簽構(gòu)建標(biāo)簽特定的特征，然后對(duì)每個(gè)標(biāo)簽在該標(biāo)簽特定的特征上學(xué)習(xí)分類(lèi)器實(shí)現(xiàn)標(biāo)注任務(wù)。

此類(lèi)方法將標(biāo)簽視為類(lèi)別將標(biāo)注問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題，當(dāng)數(shù)據(jù)集標(biāo)簽數(shù)量巨大時(shí)，則意味著巨大的分類(lèi)輸出空間，從而導(dǎo)致此類(lèi)方法不再適合。算法lcmkl(guy,qianx,liq,etal.imageannotationbylatentcommunitydetectionandmultikernellearning[j].ieeetransactionsonimageprocessingapublicationoftheieeesignalprocessingsociety,2015,24(11):3450.)采用fastunfoldingalgorithm算法將標(biāo)簽硬分類(lèi)，并對(duì)不同類(lèi)別訓(xùn)練mkl分類(lèi)器，緩解了基于模型學(xué)習(xí)的算法不適合標(biāo)簽個(gè)數(shù)多的數(shù)據(jù)集的問(wèn)題，但是由于采用硬分類(lèi)算法忽略了標(biāo)簽屬于多個(gè)類(lèi)別的情況，從而導(dǎo)致標(biāo)簽分類(lèi)不合理、樣本映射不準(zhǔn)確，算法效果較差。

針對(duì)在圖像標(biāo)注問(wèn)題中沒(méi)有考慮標(biāo)簽與語(yǔ)義場(chǎng)景間的映射關(guān)系以及存在的標(biāo)簽硬分類(lèi)問(wèn)題，本發(fā)明基于非負(fù)矩陣分解提出了一種標(biāo)簽的語(yǔ)義場(chǎng)景劃分方法，實(shí)現(xiàn)了標(biāo)簽與語(yǔ)義場(chǎng)景間的概率映射。繼而利用場(chǎng)景分類(lèi)，將待標(biāo)注樣本映射到場(chǎng)景相關(guān)的樣本子集中采用knn(knearestneighbor)方法完成標(biāo)注。由于本方法在樣本場(chǎng)景相關(guān)的樣本集合中利用knn完成標(biāo)注，這不僅提升了knn算法效率，也減少了噪音的干擾，提高了標(biāo)注效果。再者，由于場(chǎng)景個(gè)數(shù)遠(yuǎn)小于標(biāo)簽個(gè)數(shù)，從而解決了基于模型學(xué)習(xí)的方法不適合標(biāo)簽數(shù)量龐大的數(shù)據(jù)集的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)在圖像標(biāo)注問(wèn)題中沒(méi)有考慮標(biāo)簽與語(yǔ)義場(chǎng)景間的映射關(guān)系以及存在的標(biāo)簽硬分類(lèi)問(wèn)題，本發(fā)明提出了一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法。首先，根據(jù)訓(xùn)練集中的標(biāo)簽信息利用nmf-based(基于非負(fù)矩陣分解的)方法進(jìn)行場(chǎng)景檢測(cè)，得到標(biāo)簽屬于每個(gè)場(chǎng)景的概率。然后依據(jù)訓(xùn)練集中樣本的標(biāo)簽信息，將樣本以概率的方式映射到對(duì)應(yīng)的場(chǎng)景。繼而，將得到的場(chǎng)景視為不同的類(lèi)別信息，場(chǎng)景內(nèi)的訓(xùn)練集樣本作為訓(xùn)練數(shù)據(jù)，訓(xùn)練場(chǎng)景分類(lèi)器。最后根據(jù)訓(xùn)練而來(lái)的分類(lèi)器，將測(cè)試集中的樣本進(jìn)行場(chǎng)景分類(lèi)，在得到的top-2最相關(guān)場(chǎng)景對(duì)應(yīng)的訓(xùn)練子集上利用knn方法完成標(biāo)注。

本發(fā)明技術(shù)方案如下：

本發(fā)明實(shí)施例提供一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法及框架。

1、特征提取。

對(duì)圖像提取多種不同的特征，例如gist(512d)，densehue(100d)，harrishue(100d)，densesift(1000d)，harrissift(1000d)。

2、構(gòu)建標(biāo)簽關(guān)系圖、場(chǎng)景檢測(cè)和場(chǎng)景個(gè)數(shù)確定。

a、構(gòu)建標(biāo)簽關(guān)系圖

利用公式(1)建立標(biāo)簽之間的關(guān)系圖c：

n(ci，cj)表示訓(xùn)練集中同時(shí)標(biāo)注有標(biāo)簽ci和標(biāo)簽cj的樣本數(shù)，n(cj)表示標(biāo)注有標(biāo)簽cj的樣本數(shù)。cij表示在標(biāo)注有標(biāo)簽cj的樣本中，標(biāo)注有標(biāo)簽ci的樣本所占比例。

b、場(chǎng)景檢測(cè)

依據(jù)關(guān)系圖c和公式(2)建立非負(fù)矩陣分解模型，利用更新規(guī)則(3)和公式(4)更新公式(2)，收斂后利用公式(5)歸一化w。

wsw^t＝(wd^-1)(dsd^t)(wd^-1)^t(5)

k為潛在場(chǎng)景個(gè)數(shù)，m為標(biāo)簽的個(gè)數(shù)，公式(5)在w和s之間引入一個(gè)對(duì)角矩陣d歸一化w，wik表示樣本i屬于場(chǎng)景k的概率。

c、場(chǎng)景個(gè)數(shù)確定

通過(guò)設(shè)定不同的場(chǎng)景個(gè)數(shù)k，運(yùn)行b中所述方法。將得到的w矩陣0/1化(將w每行中最大值設(shè)定為1，其他設(shè)為0)，再根據(jù)公式(6)計(jì)算社區(qū)模塊性。

其中wi，j表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的連接權(quán)重，表示與節(jié)點(diǎn)i連接的所有權(quán)重的和；當(dāng)節(jié)點(diǎn)i和節(jié)點(diǎn)j屬于同一個(gè)社區(qū)時(shí)，φ(nodei，nodej)等于1，否則等于0。本發(fā)明中的場(chǎng)景檢測(cè)實(shí)質(zhì)可以理解為標(biāo)簽連接矩陣的社區(qū)檢測(cè)，通過(guò)選取不同的值計(jì)算法模塊性值m，選取m最大的k作為場(chǎng)景個(gè)數(shù)。

3、映射樣本到場(chǎng)景

給定訓(xùn)練樣本{xi，yi}(其中xi是該樣本的特征向量，yi表示該樣本的標(biāo)簽向量，yi∈r^1*m,如果該樣本標(biāo)注有第k個(gè)標(biāo)簽，則yik＝1)，根據(jù)每個(gè)樣本的標(biāo)簽信息映射到各個(gè)場(chǎng)景。本發(fā)明假設(shè)圖像的每個(gè)標(biāo)簽對(duì)圖像屬于哪個(gè)場(chǎng)景獨(dú)立起作用，并基于此假設(shè)提供了一種映射樣本到場(chǎng)景的策略，即可以如下(7)計(jì)算樣本i屬于場(chǎng)景sk的概率：

其中，wk表示w的第k列,w為步驟2中b小節(jié)計(jì)算得到。

從而對(duì)于訓(xùn)練集{x，y},利用公式(8)得到所有樣本的場(chǎng)景信息：

p＝v*(y*w)(8)

其中，p∈r^n1*k，pik表示樣本i屬于場(chǎng)景sk的概率，v∈r^n1*n1是一個(gè)對(duì)角陣來(lái)歸一化(y*w),y∈r^n1*m，n1表示訓(xùn)練集樣本個(gè)數(shù),m表示標(biāo)簽個(gè)數(shù)。將p矩陣0/1化處理得到z∈r^k*n1，即：

其中pi為p的第i行。則訓(xùn)練集由{x，y}轉(zhuǎn)為{x，y，z}，其中，如果zki＝1，則表示第i個(gè)樣本所屬場(chǎng)景為sk。

4、分類(lèi)器訓(xùn)練

針對(duì)多特征問(wèn)題本發(fā)明采用了基于差分de(查分進(jìn)化)和elm(極限學(xué)習(xí)機(jī))的加權(quán)投票法，如下：

本發(fā)明采用加權(quán)投票法線性組合多個(gè)特征的分類(lèi)結(jié)果，作為最終分類(lèi)結(jié)果，即：

其中c^v表示測(cè)試集的第v個(gè)視角特征對(duì)應(yīng)的elm分類(lèi)器的分類(lèi)結(jié)果，即：c^v＝gelm(x^v)，θv表示第v個(gè)特征對(duì)應(yīng)分類(lèi)結(jié)果的權(quán)重，其中θ∈r^v*1。本發(fā)明采用5-fold交叉驗(yàn)證的方式確定這里的權(quán)重θ，構(gòu)建如下目標(biāo)函數(shù)：

采用de算法優(yōu)化公式(11)求解上述參數(shù)θ，z為步驟3得到的場(chǎng)景類(lèi)別信息。

5、對(duì)未標(biāo)注圖像進(jìn)行標(biāo)注。

對(duì)未標(biāo)注圖像提取同樣的特征信息，并輸入到4中訓(xùn)練的分類(lèi)器里，得到分類(lèi)結(jié)果。在最相關(guān)的兩個(gè)場(chǎng)景內(nèi)的訓(xùn)練集樣本上運(yùn)行knn-based算法，得到預(yù)測(cè)標(biāo)簽。下面是本步驟所使用的標(biāo)注算法偽代碼。

本發(fā)明的有益效果為：

由于本方法在樣本場(chǎng)景相關(guān)的樣本集合中利用knn完成標(biāo)注，這不僅提升了knn算法效率，也減少了噪音的干擾，提高了標(biāo)注效果。再者，由于場(chǎng)景個(gè)數(shù)遠(yuǎn)小于標(biāo)簽個(gè)數(shù)，從而解決了基于模型學(xué)習(xí)的方法不適合標(biāo)簽數(shù)量龐大的數(shù)據(jù)集的問(wèn)題。

附圖說(shuō)明

圖1算法流程圖；

圖2場(chǎng)景檢測(cè)損失函數(shù)變化曲線；

圖3基準(zhǔn)實(shí)例iaprtc12模塊性變化曲線；

圖4基準(zhǔn)實(shí)例iaprtc12不同最鄰近樣本個(gè)數(shù)下的效果曲線；(a)準(zhǔn)確率、(b)召回率、(c)f1值、(d)平均準(zhǔn)確率；

圖5基準(zhǔn)實(shí)例iaprtc12不同隱藏節(jié)點(diǎn)個(gè)數(shù)下的效果曲線；(a)準(zhǔn)確率、(b)召回率、(c)f1值、(d)平均準(zhǔn)確率。

具體實(shí)施方式

所論述的具體實(shí)施例僅用于說(shuō)明本發(fā)明的實(shí)現(xiàn)方式，而不限制本發(fā)明的范圍。下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。

本發(fā)明在基準(zhǔn)實(shí)例iaprtc12的實(shí)施例如下：

符號(hào)表示：訓(xùn)練集合{x，y}，測(cè)試集合{x′}，x表示樣本特征矩陣，y表示訓(xùn)練集標(biāo)簽信息，x′表示測(cè)試集特征矩陣。

(1)特征提取

利用基準(zhǔn)實(shí)例iaprtc12已存在的gist(512d)，densehue(100d)，harrishue(100d)，densesift(1000d)，harrissift(1000d)五種特征作為本本實(shí)施例的特征{x}。

(2)場(chǎng)景檢測(cè)示例

根據(jù)公式(1)和標(biāo)簽矩陣y構(gòu)建標(biāo)簽關(guān)系圖c，依據(jù)公式(2)和關(guān)系矩陣c建立非負(fù)分解模型，利用公式(3)和公式(4)更新所建模型，并利用公式(5)歸一化所得w。圖2展示了算法在基準(zhǔn)實(shí)例iaprtc12上的損失值變化曲線；圖3給出了模塊性標(biāo)準(zhǔn)在k＝3,…,15時(shí)的取值情況。依據(jù)圖3本實(shí)施例選取k＝9作為該基準(zhǔn)實(shí)例的場(chǎng)景個(gè)數(shù)，并將k＝9時(shí)公式(2)得到的w作為映射樣本的依據(jù)。

(3)樣本映射到場(chǎng)景

依據(jù)上述步驟得到的w，根據(jù)公式(8)和公式(9)將樣本映射到對(duì)應(yīng)的場(chǎng)景中，從而訓(xùn)練集成為{x，y，z}，其中，如果zki＝1，則表示第i個(gè)樣本所屬場(chǎng)景為sk。

(4)分類(lèi)器訓(xùn)練

將上一步驟得到的{x，z}，依據(jù)公式(10)和公式(11)，訓(xùn)練分類(lèi)器。

(5)對(duì)未標(biāo)注圖像進(jìn)行標(biāo)注。

對(duì)于測(cè)試樣本x∈x′，首先依據(jù)(4)步驟訓(xùn)練的分類(lèi)器找到最相關(guān)的兩個(gè)場(chǎng)景，在這個(gè)兩個(gè)相關(guān)場(chǎng)景內(nèi)的樣本子集中利用knn算法完成標(biāo)注。圖4展示了基準(zhǔn)實(shí)例對(duì)于最鄰近樣本個(gè)數(shù)取值為10,20,…,150時(shí)，算法的準(zhǔn)確率、召回率、f1值、平均準(zhǔn)確率的變化曲線。圖5展示了基準(zhǔn)實(shí)例對(duì)于極限學(xué)習(xí)機(jī)隱藏層節(jié)點(diǎn)個(gè)數(shù)取值100，200，…,1500時(shí)的效果變化曲線。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葛宏偉;王志強(qiáng);孫瑋婷;孫亮
技術(shù)所有人：大連理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像標(biāo)注相關(guān)技術(shù)

圖像語(yǔ)義分割標(biāo)注工具相關(guān)技術(shù)

圖像語(yǔ)義標(biāo)注相關(guān)技術(shù)

圖像場(chǎng)景分類(lèi)相關(guān)技術(shù)

場(chǎng)景圖像分類(lèi)技術(shù)綜述相關(guān)技術(shù)

圖像分類(lèi)的應(yīng)用場(chǎng)景相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于語(yǔ)義場(chǎng)景分類(lèi)的圖像自動(dòng)標(biāo)注方法與流程