本發(fā)明屬于計(jì)算機(jī)檢測,具體涉及到一種基于卷積注意力的紅外目標(biāo)檢測方法及模型。
背景技術(shù):
1、目標(biāo)檢測是計(jì)算機(jī)視覺應(yīng)用的基石,包括識別、定位和分割視覺相機(jī)捕獲的圖像或視頻中的目標(biāo)。它是無數(shù)視覺目標(biāo)檢測應(yīng)用的基本技術(shù),甚至取代了其他傳感或檢測方法。在自主駕駛和導(dǎo)彈制導(dǎo)等領(lǐng)域中,強(qiáng)大的檢測算法是必不可少的,這需要對日間、夜間、雨天和霧天等多種照明和環(huán)境條件進(jìn)行恢復(fù)。然而,傳統(tǒng)的可見光系統(tǒng)通常無法在不利條件下發(fā)揮作用,導(dǎo)致某些任務(wù)無法實(shí)現(xiàn)。相反,紅外成像系統(tǒng)通過捕獲目標(biāo)的熱輻射圖像而表現(xiàn)出對復(fù)雜天氣和照明場景的魯棒適應(yīng)性。它們晝夜無縫運(yùn)行,擁有擴(kuò)展的探測范圍。在紅外目標(biāo)檢測領(lǐng)域,方法可分為傳統(tǒng)的和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法,尤其是單幀檢測器,因其簡單、高實(shí)時(shí)性能和易于硬件實(shí)現(xiàn)而在歷史上占主導(dǎo)地位。這些方法包括基于目標(biāo)特征、基于背景特征和基于形態(tài)學(xué)的技術(shù),每種技術(shù)被調(diào)整以增強(qiáng)在特定條件下的目標(biāo)檢測。然而,在以復(fù)雜背景和低信噪比為特征的環(huán)境中,傳統(tǒng)方法常常難以實(shí)現(xiàn),嚴(yán)重依賴手動(dòng)參數(shù)調(diào)整和產(chǎn)生低于標(biāo)準(zhǔn)的檢測性能。目前,傳統(tǒng)方法正逐漸被基于深度學(xué)習(xí)的技術(shù)所取代。近年來,基于深度學(xué)習(xí)的檢測算法由于其優(yōu)異的學(xué)習(xí)能力和特征化能力而備受關(guān)注。這些算法已廣泛應(yīng)用于各種目標(biāo)檢測任務(wù),顯示出優(yōu)越的適應(yīng)性和準(zhǔn)確性。值得注意的研究工作包括探測小型車輛目標(biāo)的方法以及解決弱小紅外目標(biāo)帶來的挑戰(zhàn)。基于深度學(xué)習(xí)的方法雖然有效,但在復(fù)雜背景下檢測弱小目標(biāo)時(shí)仍可能出現(xiàn)錯(cuò)誤預(yù)測。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中紅外圖像紋理信息差、分辨率低和噪聲高的缺陷,提供一種提高紅外小目標(biāo)探測的準(zhǔn)確性和效率的基于卷積注意力的紅外目標(biāo)檢測方法。
2、解決上述技術(shù)問題所采用的技術(shù)方案是:一種基于卷積注意力的紅外目標(biāo)檢測方法,包括以下步驟:
3、步驟1.通過骨干網(wǎng)絡(luò)重復(fù)的特征提取和注意力調(diào)整,生成多個(gè)尺度的特征圖
4、步驟1.1.對于輸入的紅外圖像做二維方向的卷積操作,得到初級特征圖;
5、步驟1.2.對所述初級特征圖進(jìn)行歸一化處理,然后通過整流線性單元relu中進(jìn)行非線性變換并輸出到cbam注意力模塊;
6、步驟1.3.cbam注意力模塊對輸入的特征圖進(jìn)行注意力調(diào)整,生成調(diào)整后的特征圖;
7、步驟1.4.重復(fù)步驟1.1~1.3四次,分別生成四個(gè)調(diào)整后的特征圖形成多層特征圖;
8、步驟2.通過頸部網(wǎng)絡(luò)模塊對所述多層特征圖進(jìn)行多尺度特征融合,生成適用于檢測的最終特征圖
9、步驟2.1.通過特征金字塔網(wǎng)絡(luò)fpn對所述多層特征圖進(jìn)行多尺度特征融合,輸出融合特征圖;
10、步驟2.2.通過路徑聚合網(wǎng)絡(luò)pan進(jìn)一步整合所述融合特征圖并輸出;
11、步驟2.3.對步驟2.2的輸出進(jìn)行卷積操作,生成適用于檢測的最終特征圖;
12、步驟3.通過檢測層將所述最終特征圖轉(zhuǎn)換為最終的目標(biāo)檢測結(jié)果
13、步驟3.1.使用優(yōu)化的yolo檢測頭結(jié)構(gòu)處理所述最終特征圖,以提取更加精細(xì)的特征用于目標(biāo)檢測;
14、步驟3.2.應(yīng)用anchor機(jī)制,選擇適合小目標(biāo)的anchor尺度,并調(diào)整邊界框位置;
15、步驟3.3.計(jì)算預(yù)測的類別概率和邊界框偏移;
16、步驟3.4.引入核加權(quán)距離損失lnwd并按照下式得到預(yù)測框與真實(shí)框的距離,減少小目標(biāo)定位誤差;
17、
18、式中,是計(jì)算預(yù)測框和真實(shí)框之間的距離或差異的權(quán)重函數(shù),是預(yù)測框,p是真實(shí)框,z是歸一化因子;
19、步驟3.5.輸出最終的檢測結(jié)果,包括目標(biāo)的類別和位置坐標(biāo)。
20、作為一種優(yōu)選的技術(shù)方案,步驟1.1中所述卷積操作按照下式進(jìn)行;
21、
22、式中,padding[·]是填充操作,dilation[·]是卷積核點(diǎn)的間距,kernel_size[·]是卷積核的大小,stride[·]是卷積步長,hin是輸入的紅外圖像的像素高度,win是輸入的紅外圖像的像素寬度,hout是輸出初級特征圖的像素高度,wout是輸出初級特征圖的像素寬度。
23、作為一種優(yōu)選的技術(shù)方案,步驟1.2中所述歸一化處理為:
24、
25、式中,batchnorm2d(x)n,c,h,w是對四維張量x進(jìn)行二維批量歸一化操作,xn,c,h,w是輸入張量x在第n個(gè)樣本、第c個(gè)通道、第h行、第w列的元素,h是初級特征圖的像素高度,w是初級特征圖的像素寬度,γc是歸一化的縮放因子,βc是歸一化的偏移量,ε是不等于0的常數(shù)。
26、作為一種優(yōu)選的技術(shù)方案,步驟1.3.中所述cbam注意力模塊進(jìn)行注意力調(diào)整的方法為:
27、1)按照下式對輸入的特征圖進(jìn)行全局平均池化和全局最大池化;
28、
29、式中,favg是全局平均池化結(jié)果,表示輸入的特征圖中每個(gè)通道的平均值,fmax是全局最大池化結(jié)果,表示輸入的特征圖圖中每個(gè)通道的最大值,f1是輸入的特征圖;
30、2)使用共享的全連接層按照下式得到通道權(quán)重并通過sigmoid激活函數(shù)得到通道注意力權(quán)重mc;
31、mc=σ(w1δ(w0+favg)+w1δ(w0fmax))
32、式中σ(·)是sigmoid激活函數(shù),δ是relu激活函數(shù),w0,w1均是全連接層的權(quán)重矩陣;
33、3)根據(jù)下式在通道維度上對輸入的特征圖進(jìn)行平均池化和最大池化操作,將結(jié)果堆疊得到池化后的特征圖fpool,fpool=[avgpool(f1);maxpool(f1)];
34、4)池化后的特征圖fpool通過一個(gè)7×7卷積操作生成空間注意力圖ms,
35、ms=δ(f(7x7)(fpool))
36、式中,f7×7是7×7的卷積操作,用于生成空間注意力圖;
37、5)將通道注意力權(quán)重mc和空間注意力圖ms按照下式應(yīng)用于輸入的特征圖f1,得到調(diào)整后的特征圖fout,fout=f1×mc×ms。
38、作為一種優(yōu)選的技術(shù)方案,步驟2.1中所述通過特征金字塔網(wǎng)絡(luò)fpn對所述多層特征圖進(jìn)行多尺度特征融合,具體操作為:通過雙線性插值將多層特征圖中低分辨率特征圖上采樣到高分辨率,得到上采樣特征圖fup,將上采樣特征圖fup與對應(yīng)的高分辨率特征圖fhigh相加進(jìn)行橫向連接得到融合特征圖。
39、作為一種優(yōu)選的技術(shù)方案,步驟2.2中所述路徑聚合網(wǎng)絡(luò)pan進(jìn)一步整合所述融合特征圖的操作為:使用最大池化層將融合特征圖中高分辨率特征圖下采樣,以保持與其他特征圖相同的分辨率,通過在不同尺度的特征圖之間進(jìn)行橫向連接,使得低層次細(xì)節(jié)和高層次語義特征得到充分的結(jié)合。
40、一種基于卷積注意力的紅外目標(biāo)檢測方法的模型,包括:骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)、檢測層;
41、所述骨干網(wǎng)絡(luò)包括依次相連的輸入層、卷積層、歸一化層、卷積塊注意力模塊、輸出層;所述輸入層,用于接收紅外圖像作為輸入;所述卷積層,用于提取紅外圖像的局部特征;所述歸一化層,用于穩(wěn)定學(xué)習(xí)過程,減少內(nèi)部協(xié)變量偏移;所述卷積塊注意力模塊,用于增強(qiáng)網(wǎng)絡(luò)對重要特征的關(guān)注;所述輸出層,用于向頸部網(wǎng)絡(luò)將輸出經(jīng)過骨干網(wǎng)絡(luò)處理的特征圖;
42、所述頸部網(wǎng)絡(luò)包括特征金字塔網(wǎng)絡(luò)和路徑聚合網(wǎng)絡(luò),所述特征金字塔網(wǎng)絡(luò)用于融合不同尺度的特征圖,以便于檢測不同大小的目標(biāo);所述路徑聚合網(wǎng)絡(luò),用于進(jìn)一步整合特征金字塔網(wǎng)絡(luò)輸出的特征圖,以增強(qiáng)特征的表達(dá)能力;
43、所述檢測層,用于將頸部網(wǎng)絡(luò)輸出的融合特征圖轉(zhuǎn)換為最終的目標(biāo)檢測結(jié)果。
44、本發(fā)明的有益效果如下:
45、本發(fā)明通過引入注意力機(jī)制,能更有效地關(guān)注圖像中的小目標(biāo),從而提高檢測精度,利用多尺度特征融合技術(shù),能夠同時(shí)捕捉到圖像的細(xì)節(jié)信息和上下文信息,增強(qiáng)了特征的表達(dá)能力,有助于更細(xì)致地理解圖像內(nèi)容。
46、本發(fā)明輕量化的網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的算法減少了模型的計(jì)算負(fù)擔(dān),使得訓(xùn)練和推理過程更加高效,通過批量歸一化和引入損失函數(shù)的優(yōu)化,在不同的數(shù)據(jù)集和環(huán)境下都能保持較好的性能,增強(qiáng)了魯棒性和泛化能力。
47、本發(fā)明優(yōu)化的損失函數(shù)和檢測層的設(shè)計(jì)有助于減少預(yù)測邊界框和真實(shí)邊界框之間的誤差,定位準(zhǔn)確性高。