本發(fā)明屬于圖像處理,更具體地,涉及一種無監(jiān)督語義分割模型的構(gòu)建方法、圖像語義分割方法及設(shè)備。
背景技術(shù):
1、無監(jiān)督語義分割旨在沒有任何標簽注釋的情況下發(fā)現(xiàn)和定位圖像語料庫中具有語義意義的類別,從而節(jié)省大量的人力和財力。目前,已經(jīng)有許多工作試圖利用一些先驗知識在無任何監(jiān)督的情況下訓練語義分割模型,例如超像素分割、邊緣檢測以及顯著對象檢測等,然而此類方法依賴于像素的底層特征例如顏色,即使顯著對象檢測方法可以利用圖像的中級語義先驗,依然嚴重依賴于以對象為中心的場景?,F(xiàn)實場景經(jīng)常具有復雜的語義結(jié)構(gòu),這使得以上方法都不能產(chǎn)生很好的表示。最近,由于自監(jiān)督表示模型在視覺領(lǐng)域中的成功應用,利用其所帶來的高級語義先驗來訓練語義分割模型,成為無監(jiān)督語義分割的熱門方向。
2、vit(vision?transformer)把圖像劃分成多個圖像塊,在無監(jiān)督語義分割領(lǐng)域每個圖像塊被稱為錨點。為每個錨點添加位置信息,并在圖像錨點和位置信息應用自注意力層之前加入一個額外的全局標記用來匹配全局信息,另外由于自注意力機制涉及圖像塊特征的比較,因此很自然的可以在錨點上構(gòu)建一個基于注意力分數(shù)具有語義的加權(quán)矩陣,這成功的將自注意力機制引入到視覺領(lǐng)域?;趘it的特征獲取和表達能力,學者們提出了許多vit用于監(jiān)督學習、無監(jiān)督學習和密集預測等的改進方案。由于vit模型的獨特特性,許多自監(jiān)督框架圍繞著vit模型展開研究,另外,利用其在自監(jiān)督框架所帶來的高質(zhì)量語義表示,極大的推動了無監(jiān)督語義分割方法的發(fā)展。這些無監(jiān)督語義分割方法利用自監(jiān)督模型dino所產(chǎn)生的高級語義先驗的基礎(chǔ)上,進一步的通過聚類將像素級語義表示分組到不同的語義分組中,并取得了一個較好的結(jié)果。可以預見,采用自監(jiān)督vit模型所帶來的先驗勢必為接下來的無監(jiān)督語義分割方法提供一個很好的思路。
3、盡管現(xiàn)有的一些基于自監(jiān)督vit密集特征的無監(jiān)督語義分割方法憶經(jīng)產(chǎn)生了很好的效果,然而其中的一些方法只是簡單的在其之上利用各種聚類方案對這些密集特征進行聚類,過于依賴自監(jiān)督vit所產(chǎn)生的密集特征的語義質(zhì)量,忽略了該密集特征的不可靠性,容易在訓練過程中將偽負樣本誤判為偽正樣本。而為了最大程度擺脫誤判可能,另一些方法依賴高閾值,僅選取十分可靠的偽正樣本進行聚類訓練,從而忽略樣本數(shù)量較少的小類別,導致模型難以發(fā)現(xiàn)潛在類別,無法準確地識別潛在小類別像素,進而無法精細準確地實現(xiàn)圖像語義分割。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種無監(jiān)督語義分割模型的構(gòu)建方法、圖像語義分割方法及設(shè)備,用以解決現(xiàn)有技術(shù)無法準確地識別潛在小類別像素,進而無法精細準確地實現(xiàn)圖像語義分割的技術(shù)問題。
2、為了實現(xiàn)上述目的,第一方面,本發(fā)明提供了一種無監(jiān)督語義分割模型的構(gòu)建方法,包括:
3、針對預采集的一批圖像中的每一個批內(nèi)圖像t:
4、采用vit網(wǎng)絡將t劃分為r行r列個圖像塊并進行特征提取,得到t的各圖像塊特征,以及兩兩圖像塊之間的互注意力權(quán)重;將t的各圖像塊特征依次經(jīng)過分割頭和投影頭進行處理,得到各圖像塊的投影特征;r為正整數(shù);
5、將經(jīng)過分割頭后所得的t的各圖像塊的分割頭特征構(gòu)成r×r大小的第一分割頭特征矩陣s1;為t的第k個圖像塊構(gòu)建對應的r×r大小的權(quán)重矩陣ak,ak的第l個元素為t的第k個圖像塊與第l個圖像塊之間的互注意力權(quán)重;將ak中的各元素歸一化后,計算平均值ak,并將ak中小于ak的元素均置為0;k=1,2,…r×r,;l=(i-1)×r+j;i=1,2,…,r;j=1,2,…,r;將s1與ak進行點乘運算后的各元素相加得到t的第k個圖像塊的分割頭聚合特征;將t各圖像塊的分割頭聚合特征輸入至投影頭中,得到t各圖像塊的投影聚合特征;
6、構(gòu)建訓練損失函數(shù),并基于訓練損失函數(shù),同時對分割頭和投影頭進行訓練;訓練損失函數(shù)包括:以批內(nèi)圖像圖像塊的投影特征與該圖像塊的偽正樣本的投影特征的相似度最大、且與該圖像塊的偽負樣本的投影特征的相似度最小為目標的第一聚類損失函數(shù),以及以批內(nèi)圖像圖像塊的投影聚合特征與該圖像塊的偽正樣本的投影聚合特征的相似度最大、且與該圖像的偽負樣本的投影聚合特征的相似度最小為目標的第二聚類損失函數(shù);
7、訓練結(jié)束后,構(gòu)建包括級聯(lián)的vit網(wǎng)絡、分割頭、投影頭和分類模塊的無監(jiān)督語義分割模型;
8、其中,分類模塊用于在應用階段,為待分割圖像的每一個圖像塊,計算其投影特征與其每一個偽正樣本的投影特征的相似度,并將該圖像塊標注為與其相似度最大的偽正樣本所攜帶的類別編號,進而得到待分割圖像的語義分割結(jié)果;
9、任一圖像塊b的偽正、負樣本通過以下方式確定:將圖像塊集中與圖像塊b的相似度大于預設(shè)正樣本閾值、且除圖像塊b之外的圖像塊均作為圖像塊b的偽正樣本;將圖像塊集中與圖像塊b相似度小于或等于預設(shè)正樣本閾值的圖像塊均作為圖像塊b的偽負樣本;圖像塊集包括:每一個批內(nèi)圖像的每一個圖像塊。
10、進一步優(yōu)選地,上述無監(jiān)督語義分割模型的構(gòu)建方法還包括:
11、針對每一個批內(nèi)圖像t:
12、采用vit網(wǎng)絡分別將t的增強圖像ta和近鄰圖像tn劃分為r行r列個圖像塊并進行特征提取,得到ta和tn的各圖像塊特征;其中,tn通過以下方式獲取:分別計算t與預采集的圖像集中的各圖像之間的相似度,并從相似度最高的前m個圖像中隨機選取一幅圖像作為tn;m≥1;
13、將tn的各圖像塊特征采用分割頭進行處理,得到tn各圖像塊的分割頭特征,并構(gòu)成r×r大小的第二分割頭特征矩陣s2;
14、計算t的第l個的圖像塊特征與ta的第l個圖像塊特征之間的相似度,作為對應的篩選閾值;l=(i-1)×r+j;i=1,2,…,r;j=1,2,…,r;
15、為tn的第k個圖像塊構(gòu)建對應的r×r大小的權(quán)重矩陣bk,bk的第l個元素為tn的第k個圖像塊特征與t的第l個圖像塊特征之間的相似度;將bk中小于對應的篩選閾值的元素均置為0;k=1,2,…,r×r;將s2與bk進行點乘運算后的各元素相加得到tn的第k個圖像塊的分割頭聚合特征;將tn各圖像塊的分割頭聚合特征輸入至投影頭中,得到tn各圖像塊的投影聚合特征;
16、訓練損失函數(shù)還包括:以批內(nèi)圖像的近鄰圖像圖像塊的投影聚合特征與該圖像塊的偽正樣本的投影聚合特征的相似度最大,且與該圖像塊的偽負樣本的投影聚合特征相似度最小為目標的第三聚類損失函數(shù)。
17、進一步優(yōu)選地,t與預采集的圖像集中的某一圖像c之間的相似度通過以下方式計算:
18、將t的各圖像塊特征的平均值作為t的場景特征;
19、將c的各圖像塊特征的平均值作為c的場景特征;其中,c的各圖像塊特征通過vit網(wǎng)絡獲取得到;
20、計算t的場景特征與圖像c的場景特征之間的相似度,作為t與c之間的相似度。
21、進一步優(yōu)選地,ta為對t進行亮度變換后的圖像。
22、進一步優(yōu)選地,上述無監(jiān)督語義分割模型的構(gòu)建方法還包括:
23、針對每一個批內(nèi)圖像t:采用vit網(wǎng)絡將t的增強圖像ta劃分為r行r列個圖像塊并進行特征提取,得到ta的各圖像塊特征;將ta的各圖像塊特征依次經(jīng)過分割頭和投影頭進行處理,得到ta各圖像塊的投影特征;
24、訓練損失函數(shù)還包括:以批內(nèi)圖像的第k個圖像塊的投影特征與其增強圖像的第k個圖像塊的投影特征的相似度最大為目標的對齊損失函數(shù);k=1,2,…,r×r。
25、進一步優(yōu)選地,任一圖像塊b的偽正、負樣本通過以下方式確定:
26、獲取圖像塊b的圖像塊特征f與正樣本參照池中各參照特征之間的相似度中的最大值,作為對應的正樣本閾值th;f通過vit網(wǎng)絡得到;
27、分別計算f與批內(nèi)錨點特征集中除f之外的各圖像塊特征的相似度,并將相似度大于th的圖像塊特征所對應的圖像塊均作為b的偽正樣本,將相似度小于或等于th的圖像塊特征所對應的圖像塊均作為b的偽負樣本;
28、其中,批內(nèi)錨點特征集包括:每一個批內(nèi)圖像的每一個圖像塊特征;
29、正樣本參照池通過以下方式獲?。翰捎胿it網(wǎng)絡將預采集的樣本池中的每一個樣本圖像劃分為多個圖像塊并進行特征提取,得到各圖像塊特征后,從中隨機選取一個圖像塊特征作為該樣本圖像的參照特征;構(gòu)建包括所有樣本圖像的參照特征的正樣本參照池。
30、進一步優(yōu)選地,在訓練過程中,每隔預設(shè)訓練迭代次數(shù),重新獲取正樣本參照池;訓練結(jié)束后,正樣本參照池固定。
31、第二方面,本發(fā)明提供了一種圖像語義分割方法,用于應用階段,包括:
32、將待分割圖像輸入到無監(jiān)督語義分割模型中,得到對應的語義分割結(jié)果;
33、其中,無監(jiān)督語義分割模型采用本發(fā)明第一方面所提供的無監(jiān)督語義分割模型的構(gòu)建方法構(gòu)建得到。
34、第三方面,本發(fā)明提供了一種電子設(shè)備,包括:存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時執(zhí)行本發(fā)明第一方面和/或第二方面所提供的方法。
35、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時執(zhí)行本發(fā)明第一方面和/或第二方面所提供的方法。
36、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案,能夠取得以下有益效果:
37、1、本發(fā)明提供了一種無監(jiān)督語義分割模型的構(gòu)建方法,基于同類樣本成群出現(xiàn)的先驗原則,利用vit網(wǎng)絡得到的批內(nèi)圖像中兩兩圖像塊之間的互注意力權(quán)重,并將小于權(quán)重均值的權(quán)重值置0后,來表征圖像塊與圖像塊之間的相關(guān)程度,進而尋找每個圖像塊的圖像特征在整張圖像中的潛在相似特征;通過將分割頭輸出的批內(nèi)圖像各圖像塊的分割頭特征,基于處理后的兩兩圖像塊之間的互注意力權(quán)重進行聚合,得到批內(nèi)圖像各圖像塊的分割頭聚合特征,并進一步輸入至投影頭中,得到對應的投影聚合特征;通過特征聚合的方式提高了分割頭和投影頭特征的表達能力,在給予大概率出現(xiàn)的強勢語義充分表達的同時,還給予了小概率出現(xiàn)的弱勢語義足夠的表達,能夠準確地識別潛在小類別像素,進而精細準確地實現(xiàn)圖像語義分割。
38、2、進一步地,本發(fā)明所提供的無監(jiān)督語義分割模型的構(gòu)建方法,考慮到同一張圖像內(nèi)具有相同的場景信息,同一圖像內(nèi)的同一類別圖像塊特征的語義相似度會相對于其他圖像內(nèi)的同一類別語義相似度偏高,這種差異性使得利用圖像塊特征選取其他圖像中偽正樣本時誤判幾率增加,因此,本發(fā)明在跨圖像尋找偽正樣本時,僅從與該圖像場景相似的圖像中搜尋偽正樣本,基于同類別像素樣本擁有相似場景的先驗規(guī)則,引入批內(nèi)圖像的近鄰圖像,并計算近鄰圖像中各圖像塊特征與批內(nèi)圖像中各圖像塊特征之間的相似度,且為了減少不同圖像之間同類圖像塊的圖像塊特征語義相似度的偏差,以及提高相似特征篩選的泛化性,計算批內(nèi)圖像的圖像塊特征和增強圖像對應圖像塊的圖像塊特征的相似度作為對應的篩選閾值,將小于對應篩選閾值的近鄰圖像的圖像塊特征與批內(nèi)圖像的圖像塊特征之間的相似度置為0;通過將分割頭輸出的近鄰圖像各圖像塊的分割頭特征,基于處理后的近鄰圖像的圖像塊特征與批內(nèi)圖像的圖像塊特征之間的相似度進行聚合,得到近鄰圖像各圖像塊的分割頭聚合特征,并進一步輸入至投影頭中,得到對應的投影聚合特征,能夠進一步提高分割頭和投影頭特征的表達能力,從而進一步提高了圖像語義分割的質(zhì)量。
39、3、進一步地,本發(fā)明所提供的無監(jiān)督語義分割模型的構(gòu)建方法,在獲取批內(nèi)圖像的近鄰圖像時,將批內(nèi)整張圖像的各圖像塊特征向量的均值作為該張圖像的場景特征向量,通過求取與圖像集中其他圖像的場景特征向量之間的相似度,能夠為批內(nèi)的每張圖像找到最相似的多張近鄰圖像。
40、4、進一步地,本發(fā)明所提供的無監(jiān)督語義分割模型的構(gòu)建方法,構(gòu)建以每一個批內(nèi)圖像的每一圖像塊的投影特征與增強圖像的對應圖像塊的投影特征的相似度最大為目標的損失函數(shù),對分割頭和投影頭進行訓練;通過該操作,對齊了批內(nèi)圖像的投影特征和其增強圖像的投影特征之間的語義一致性,拉近了批內(nèi)圖像和其增強圖像之間的關(guān)系,提高了特征的語義質(zhì)量,進一步提升了模型性能。
41、5、進一步地,本發(fā)明所提供的無監(jiān)督語義分割模型的構(gòu)建方法,由于正樣本參照池選取較大,且同一張圖像內(nèi)的圖像塊特征存在一定的相關(guān)性,為了減少計算閾值時的復雜度,以及保證樣本池選取的隨機性,從每個樣本圖像經(jīng)vit網(wǎng)絡得到的各圖像塊特征中隨機挑選一個圖像塊特征作為該樣本圖像的參照特征,并加入到正樣本參照池中。在獲取圖像塊的偽正、負樣本時,將圖像塊的圖像塊特征與正樣本參照池中各參照特征之間的相似度中的最大值,作為對應的正樣本閾值;正樣本閾值是圖像塊特征與隨機一個特征最相似的閾值,大于該閾值的圖像塊特征作為與此圖像塊特征有相同語義特征的正樣本特征,小于此該閾值的圖像塊特征作為隨機的與此圖像塊特征無關(guān)的負樣本特征,以此來依據(jù),能夠準確地獲取圖像塊的偽正、負樣本。
42、6、進一步地,本發(fā)明所提供的無監(jiān)督語義分割模型的構(gòu)建方法,在訓練過程中,每隔預設(shè)訓練迭代次數(shù),重新獲取正樣本參照池,能夠進一步提高模型的泛化能力。