本發(fā)明屬于計算機視覺,尤其涉及一種面向遙感小目標的高精度目標檢測方法。
背景技術(shù):
1、遙感技術(shù)作為遠距離獲取地球表面信息的重要手段,廣泛應(yīng)用于環(huán)境監(jiān)測、災(zāi)害評估、農(nóng)業(yè)管理和城市規(guī)劃等領(lǐng)域。隨著遙感技術(shù)的不斷進步,衛(wèi)星和無人機等遙感平臺能夠提供更高分辨率的圖像數(shù)據(jù),而從海量數(shù)據(jù)中獲取細節(jié)信息愈發(fā)關(guān)鍵。在遙感圖像中,小目標檢測(如行人、車輛、船舶等)因其在軍事和民用中的重要性,受到了廣泛關(guān)注。然而,相比于其他的目標檢測任務(wù),遙感小目標檢測面臨著更大的挑戰(zhàn)。這些小目標廣泛的分布在遙感圖像中,具有尺寸小、信噪比低和可分性差的特性。這些特性使得在利用傳統(tǒng)的目標檢測算法處理遙感小目標的過程中,難以取得理想的效果。在實際應(yīng)用中,小目標通常包含更多的關(guān)鍵信息,一旦出現(xiàn)漏檢及錯檢,可能導(dǎo)致較大的損失。此外,各種跨學(xué)科領(lǐng)域,如海上救援、海洋保護、精準農(nóng)業(yè)觀測和野生動物探測等領(lǐng)域,都需要精確探測小目標。因此,遙感圖像的小目標檢測問題亟待解決。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明創(chuàng)造旨在提供一種面向遙感小目標的高精度目標檢測方法,以解決現(xiàn)有技術(shù)無法精確探測小目標的問題,本發(fā)明提供了一種從局部到全局引導(dǎo)的改進的transformer網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)能夠關(guān)注小目標周圍的局部數(shù)據(jù),并從遠距離探索與小目標高相關(guān)度的全局數(shù)據(jù),從而為小目標提取關(guān)鍵的局部特征與全局特征。同時,本發(fā)明提供了一種尺度平衡的樣本分配策略,該分配策略著手于均勻分配,結(jié)合小目標的尺度與網(wǎng)絡(luò)的確定度,動態(tài)地決定小目標的正樣本,能夠為低信噪比的小目標分配更多的正樣本,在訓(xùn)練階段引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)移學(xué)習(xí)重心到小目標上,因此提升了小目標的檢測效果。另外,該分配策略根據(jù)訓(xùn)練進程逐步調(diào)整樣本量,提升了網(wǎng)絡(luò)結(jié)構(gòu)的魯棒性。
2、為達到上述目的,本發(fā)明創(chuàng)造的技術(shù)方案是這樣實現(xiàn)的:
3、一種面向遙感小目標的高精度目標檢測方法,具體包括如下步驟:
4、s1:將包含目標的遙感圖像輸入至改進的transformer網(wǎng)絡(luò)中進行特征提取,獲得局部特征和全局特征,將局部特征和全局特征均輸入至特征金字塔網(wǎng)絡(luò)進行跨尺度特征融合,獲得融合特征;
5、s2:在區(qū)域建議網(wǎng)絡(luò)中預(yù)設(shè)不少于一萬個的錨框,并基于尺度平衡樣本分配策略為各目標分配正負樣本;
6、s3:基于步驟s2的分配結(jié)果生成感興趣區(qū)域,并將感興趣區(qū)域輸入至檢測頭部網(wǎng)絡(luò)進行預(yù)測,獲得分類與定位結(jié)果。
7、進一步的,在步驟s1中,在將包含小目標的遙感圖像輸入至改進的transformer網(wǎng)絡(luò)之前,利用3×3卷積層對包含小目標的遙感圖像進行圖像劃分,獲得待處理圖像子集,待處理圖像子集包含n張待處理子圖像。
8、進一步的,改進的transformer網(wǎng)絡(luò)包括依次連接的第一階段網(wǎng)絡(luò)模塊、第二階段網(wǎng)絡(luò)模塊、第三階段網(wǎng)絡(luò)模塊和第四階段網(wǎng)絡(luò)模塊;
9、第一階段網(wǎng)絡(luò)模塊包括不少于一個的ltb模塊和線性映射層,輸入至第一階段網(wǎng)絡(luò)模塊的特征經(jīng)線性映射層進行映射處理后,經(jīng)依次連接的ltb模塊進行局部特征提??;
10、第二階段網(wǎng)絡(luò)模塊包括不少于一個的ltb模塊和線性映射層,輸入至第二階段網(wǎng)絡(luò)模塊的特征經(jīng)線性映射層進行映射處理后,經(jīng)依次連接的ltb模塊進行局部特征提?。?/p>
11、第三階段網(wǎng)絡(luò)模塊包括不少于一個的gtb模塊和線性映射層,輸入至第三階段網(wǎng)絡(luò)模塊的特征經(jīng)線性映射層進行映射處理后,經(jīng)依次連接的gtb模塊進行全局特征提取;
12、第四階段網(wǎng)絡(luò)模塊包括不少于一個的gtb模塊和線性映射層,輸入至第四階段網(wǎng)絡(luò)模塊的特征經(jīng)線性映射層進行映射處理后,經(jīng)依次連接的gtb模塊進行全局特征提取。
13、進一步的,步驟s1具體包括如下步驟:
14、s101:將各待處理子圖像依次輸入至第一階段網(wǎng)絡(luò)模塊,各待處理子圖像依次經(jīng)線性映射層進行處理后,經(jīng)ltb模塊的三個并行的線性映射層進行映射處理,對應(yīng)獲得各待處理子圖像的q矩陣、k矩陣和v矩陣;
15、s102:以q矩陣的元素為中心,設(shè)置大小為w×w的局部窗口,在當(dāng)前局部窗口內(nèi),利用元素分別在k矩陣和v矩陣中選擇局部相關(guān)的token特征矩陣:
16、;
17、;
18、;
19、其中,為q矩陣中位置為的元素,為在局部窗口內(nèi)的第個鄰近的token特征矩陣,為在局部窗口內(nèi)的第個鄰近的token特征矩陣,,,均為映射矩陣,與分別為利用選擇的局部相關(guān)的token特征矩陣,為位置坐標為的像素的像素值;
20、s103:基于局部窗口注意力機制對元素進行稀疏局部注意力計算:
21、
22、;
23、其中,為矩陣轉(zhuǎn)置,為softmax函數(shù),為放縮因子,為利用個token特征矩陣執(zhí)行局部窗口注意力的計算結(jié)果,為對于位置坐標為的token特征矩陣,取k個局部相關(guān)的token矩陣進行自注意力計算,attention為自注意力計算,與分別為利用選擇的局部相關(guān)token特征矩陣;
24、s104:用q矩陣的下一元素替換當(dāng)前元素,重復(fù)步驟s102~步驟s103,直至完成q矩陣的所有元素的計算;
25、s105:將經(jīng)步驟s104選取的所有token特征矩陣在c通道上劃分成n份,將劃分為n份token特征矩陣進行局部窗口注意力計算,并將級聯(lián)后的n份計算結(jié)果通過前饋神經(jīng)網(wǎng)絡(luò)輸出,獲得局部特征:
26、;
27、;
28、;
29、;
30、其中,為輸入的token特征矩陣,為級聯(lián)操作,為局部特征,ln為歸一化層,mlp為線性映射層,ffn為前饋神經(jīng)網(wǎng)絡(luò),為第n個注意力頭,multihead為多頭自注意力計算,為前饋神經(jīng)網(wǎng)絡(luò)的輸入,為第n個注意力頭上的q矩陣中的token特征矩陣,為第n個注意力頭上的k矩陣中的token特征矩陣,為第n個注意力頭上的v矩陣中的token特征矩陣;
31、s106:將第一階段網(wǎng)絡(luò)模塊輸出的局部特征輸入至第二階段網(wǎng)絡(luò)模塊,重復(fù)步驟s101-步驟s105,獲得第二階段網(wǎng)絡(luò)模塊輸出的局部特征;
32、s107:將第二階段網(wǎng)絡(luò)模塊輸出的局部特征輸入至第三階段網(wǎng)絡(luò)模塊,經(jīng)gtb模塊的三個并行的線形映射層處理后,輸出q矩陣、k矩陣和v矩陣,gtb模塊的偏移網(wǎng)絡(luò)基于q矩陣的周圍位置采樣區(qū)域的坐標{(-1,-1),(-1,0),…,(0,0),…,(1,0),(1,1)}預(yù)測偏移矩陣,其中,分別為當(dāng)前待處理圖像的長和寬,為在當(dāng)前待處理圖像的每個像素位置上預(yù)測的個相關(guān)的token特征矩陣的x方向和y方向的偏移值;
33、s108:引入空洞系數(shù),空洞系數(shù)的基礎(chǔ)采樣區(qū)域為{(-r,-r),(-r,0),…,(0,0),…,(r,0),(r,r)},通過下式預(yù)測q矩陣中與元素相關(guān)的token特征矩陣的位置:
34、;
35、其中,為向上取整函數(shù),為以空洞系數(shù)對位置為的token特征矩陣進行相關(guān)的token特征矩陣計算所獲得的預(yù)測位置的token特征矩陣,x(i,j)為位置坐標(i,j)上的像素值,(i,j)為以x(i,j)為中心,計算獲得的9個相關(guān)位置的位置偏移矩陣;
36、s109:基于步驟s108的計算結(jié)果,元素與預(yù)測位置的token特征矩陣的全局相關(guān)矩陣為:
37、;
38、;
39、;
40、其中,均為在元素中引入空洞系數(shù)r建立的全局相關(guān)矩陣;
41、s110:基于步驟s109的計算結(jié)果,對元素與全局相關(guān)矩陣進行全局可變形注意力計算:
42、
43、;
44、其中,為以個token特征矩陣執(zhí)行的全局可變形注意力的計算結(jié)果;
45、s111:用q矩陣的下一元素替換當(dāng)前元素,重復(fù)步驟s108~步驟s110,直至完成q矩陣的所有元素的計算;
46、s112:將步驟s111獲得的所有token特征矩陣在c通道上劃分成n份,并將劃分為n份token特征矩陣在各通道上進行獨立的全局注意力計算,并將全局注意力計算結(jié)果進行級聯(lián),輸出全局特征;
47、s113:將第三階段網(wǎng)絡(luò)模塊輸出的全局特征輸入至第四階段網(wǎng)絡(luò)模塊,重復(fù)步驟s107-步驟s112,獲得第四階段網(wǎng)絡(luò)模塊輸出的全局特征;
48、s114:將第一階段網(wǎng)絡(luò)模塊和第二階段網(wǎng)絡(luò)模塊提取的局部特征,以及第三階段網(wǎng)絡(luò)模塊和第四階段網(wǎng)絡(luò)模塊提取的全局特征均輸入至特征金字塔網(wǎng)絡(luò)進行多尺度特征融合,獲得融合特征。
49、進一步的,在步驟s112中,gtb模塊由兩條支路組成,第一分支進行全局可變形注意力操作,第二分支時進行局部窗口注意力操作:
50、;
51、;
52、;
53、;
54、其中,為第一分支的第n個注意力頭的計算結(jié)果,為第二分支的第n個注意力頭的計算結(jié)果,為全局可變形注意力操作,為局部窗口注意力操作,concat為級聯(lián)操作,為第一分支輸出的多頭自注意力的計算結(jié)果,為第二分支輸出的多頭自注意力的計算結(jié)果;
55、且在將提取的全局特征輸入至前饋神經(jīng)網(wǎng)絡(luò)之前,將兩條支路的計算結(jié)果進行相加融合,實現(xiàn)局部信息與全局信息的上下文整合:
56、;
57、;
58、其中,為第三階段網(wǎng)絡(luò)模塊或第四階段網(wǎng)絡(luò)模塊輸出的全局特征。
59、進一步的,步驟s2具體包括如下步驟:
60、s21:區(qū)域建議網(wǎng)絡(luò)根據(jù)預(yù)設(shè)的訓(xùn)練進程確定正樣本的總采樣數(shù)量:
61、;
62、;
63、其中,為時間相關(guān)變量,和分別為最大epoch和最小epoch,和均為控制變量的作用范圍的超參數(shù),n為包含目標的遙感圖像的采樣總量,為取整函數(shù);
64、s22:計算包含目標的遙感圖像中,各目標的平均樣本數(shù):
65、;
66、其中,為各目標的平均樣本數(shù),g為包含目標的遙感圖像中目標的數(shù)量;
67、s23:區(qū)域建議網(wǎng)絡(luò)采用錨框?qū)Ξ?dāng)前目標的預(yù)測準確度進行度量,并利用區(qū)域建議網(wǎng)絡(luò)預(yù)測的分類得分與iou得分進行錨框的質(zhì)量評價:
68、;
69、其中,為錨框?qū)?yīng)的當(dāng)前目標的質(zhì)量得分,是的類別標簽,為錨框?qū)儆陬悇e標簽的預(yù)測分類分數(shù),為錨框的坐標,為目標的坐標,為超參數(shù)控制的分類得分和iou得分的重要性系數(shù),為匹配指示器,且錨框在目標的候選集中;
70、s24:將每個目標對應(yīng)的前個錨框質(zhì)量得分的均值用于評估區(qū)域建議網(wǎng)絡(luò)對當(dāng)前目標的預(yù)測確定度:
71、;
72、其中,為數(shù)量,為質(zhì)量得分最高的前k個錨框;
73、s25:計算當(dāng)前目標分配到的正樣本數(shù):
74、;
75、其中,,為兩個超參數(shù)負責(zé)控制映射函數(shù)的能力,為目標j,w和h分別為目標的寬與高;
76、s26:根據(jù)iou得分,將目標的前個錨框作為正樣本,并根據(jù)正樣本占據(jù)包含目標的遙感圖像的比例為包含目標的遙感圖像分配等比例的負樣本;
77、s27:用下一目標替換當(dāng)前目標,重復(fù)步驟s23~s26,實現(xiàn)對各目標的正負樣本分配。
78、進一步的,在步驟s3中,將正負樣本和融合特征輸入至roi對齊層生成感興趣區(qū)域,并將感興趣區(qū)域輸入至檢測頭部網(wǎng)絡(luò)進行檢測,獲得分類與定位結(jié)果。
79、與現(xiàn)有技術(shù)相比,本發(fā)明創(chuàng)造能夠取得如下有益效果:
80、本發(fā)明創(chuàng)造所述的面向遙感小目標的高精度目標檢測方法,提供了一種新的從局部到全局的改進的transformer網(wǎng)絡(luò),以解決遙感圖像中的小目標檢測問題。為了提取小目標周圍的局部信息,提供了一種ltb模塊(local?transformer?block),該ltb模塊能夠?qū)⒆宰⒁饬τ嬎阆拗圃谝粋€局部窗口內(nèi),并通過局部相關(guān)的數(shù)據(jù)進行注意力交互,提取局部特征。為了探索與小目標關(guān)聯(lián)的全局特征,設(shè)計了一種gtb模塊(global?transformerblock),該gtb模塊能夠搜尋遠處與小目標相關(guān)聯(lián)的數(shù)據(jù),以補充全局上下文特征。為了分配學(xué)習(xí)資源到小目標上,本發(fā)明提供了一種基于均勻分配的尺度平衡樣本分配策略,該策略能為小目標分配足量的正樣本,從而生成更多的訓(xùn)練內(nèi)容。本發(fā)明提供的小目標檢測方法從特征提取和樣本分配這兩方面給小目標提供更多的學(xué)習(xí)資源。利用本發(fā)明提出的小目標檢測方法在三個大尺度的遙感數(shù)據(jù)集dior、ai-tod、nwpu?vhr-10上進行了大量的實驗,實驗結(jié)果表明:本發(fā)明提出的目標檢測方法能夠有效識別遙感圖像中的小目標,實現(xiàn)高精度檢測。