本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork)與選擇性注意機制的合成孔徑雷達sar(syntheticaperturerader)圖像目標檢測方法,并且可用于后續(xù)合成孔徑雷達sar圖像的目標分類與識別。
背景技術(shù):
合成孔徑雷達作為一種主動式傳感器,其分辨率與觀測距離無關(guān),因此能夠在保證分辨率的情況下完成遠距離的觀測任務,是重要的遙感手段之一。與紅外及光學等被動成像設(shè)備相比,其成像過程不受光照、氣候、云層等環(huán)境因素的影響,具有對地面全天候、全天時不間斷觀測并且采集數(shù)據(jù)的能力。目前,sar已經(jīng)成為軍事偵察及地理遙感不可或缺的手段之一,其在目標探測、海域監(jiān)控、漁業(yè)管理、環(huán)境監(jiān)視、地形測繪、災害評估等領(lǐng)域得到了一定程度的應用。
sar圖像的目標檢測是sar圖像處理與解譯中的重要問題。隨著很多特征提取方法的出現(xiàn),基于機器學習的目標檢測引起了很大的關(guān)注。雖然現(xiàn)在已有很多的特征提取方法,但是由于sar圖像的噪聲,陰影等影響圖像顯著性的因素存在,sar圖像的目標檢測依舊是一個具有挑戰(zhàn)的難題。近些年來,深度學習方法,比如卷積網(wǎng)(cnn)、深度堆棧網(wǎng)(dbn)、自編碼(ae)在計算機視覺領(lǐng)域展現(xiàn)出了強大有效的特征表征能力。
目前在sar圖像的目標檢測方面,很多方法都是像素級處理,要考慮像素的統(tǒng)計信息,計算量大,不適合復雜場景圖。最為廣泛應用的sar目標檢測算法是恒虛警率(cfar)檢測算法。cfar算法簡單、快速、實時性強。然而由于背景雜波的估計需要一定的先驗知識,在先驗信息不足的情況下,背景雜波不一定服從預設(shè)的分布,將造成雜波統(tǒng)計模型不夠準確,帶來了檢測不準確、虛警率高的問題。同時,由于是像素級處理,在sar圖像尺寸較大時,耗時將相當長。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對上述問題,提出一種基于cnn(卷積神經(jīng)網(wǎng)絡(luò))和選擇性注意機制的sar圖像目標檢測方法,克服了目前很多基于像素級別的sar目標檢測在復雜場景下,檢測性能差,有很多虛警的問題,提高了目標檢測定位的準確性。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是,一種基于cnn和選擇性注意機制的sar圖像目標檢測方法,包括以下步驟:
1)從mstar數(shù)據(jù)集和sar場景圖中獲取訓練樣本集;
2)對步驟1)中的訓練樣本集進行擴充,得到新訓練樣本集;
3)構(gòu)建分類網(wǎng)絡(luò)模型,選擇一個由卷積層→池化層→卷積層→池化層→卷積層→池化層→卷積層→池化層→卷積層→全連接層→softmax分類器組成的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)提取sar圖像特征及分類;
4)利用步驟2)得到的新訓練樣本集對步驟3)中構(gòu)建的分類網(wǎng)絡(luò)模型進行訓練,得到訓練好的模型;
5)用圖像視覺顯著注意模型對待檢測sar場景圖進行顯著性檢測,得到顯著特征圖;
6)對步驟5)得到的顯著特征圖進行形態(tài)學處理后,進行連通域標記,確定每個連通域的質(zhì)心為中心,提取與各個質(zhì)心對應的目標候選區(qū),將各個目標候選區(qū)在其周圍若干像素點內(nèi)平移,擴充每個目標候選區(qū)的待判斷數(shù)量;
7)利用步驟4)中訓練好的模型對步驟6)中的目標候選區(qū)進行分類,將每個目標候選區(qū)周圍多個候選區(qū)域中判斷為目標的檢測數(shù)量與閾值對比,大于閾值,則為目標,所有目標對比完成后得到sar場景圖中的目標定位框;
8)將步驟7)中的目標定位框用非極大值抑制的方法去除多余的框,選出分類得分最大的定位框并在sar場景圖進行標記,得到測試圖像的目標檢測結(jié)果。
步驟1)中的訓練樣本集包括正樣本和負樣本:從mstar數(shù)據(jù)集中選取若干sar圖像作為訓練樣本集的正樣本;從sar場景圖隨機選取背景塊作為訓練樣本集的負樣本(比如樹木,建筑,草地)。
步驟2)按如下步驟進行:
2a)取訓練樣本集正樣本中每幅sar圖像的中間88×88的區(qū)域部分,得到對應每幅sar圖像的中間88×88的左上角坐標(x,y),每幅sar圖像的中間區(qū)域為(x+88,y+88);
2b)將步驟2a)中每幅sar圖像的中間區(qū)域進行上下左右五個像素單位的平移,得到新左上角坐標(x',y'),其中x'=x±tx,y'=y(tǒng)±ty,tx和ty為平移單位,進而得到每幅sar圖像的新中間區(qū)域為(x'+88,y'+88),作為訓練樣本集的正樣本。
步驟3)中的卷積神經(jīng)網(wǎng)絡(luò)分類模型的參數(shù)如下:
第一層為卷積-池化層,使用16個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出16個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第二層;
第二層為卷積-池化層,使用32個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出32個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第三層;
第三層為卷積-池化層,使用64個卷積核,卷積核窗口大小為4*4個像素,相鄰局部接受域的中心距離為1個像素,輸出64個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第四層;
第四層為卷積-池化層,使用128個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出128個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖經(jīng)過dropout處理,減少參數(shù)量,防止過擬合,再輸入到第五層;
第五層為卷積層,使用2個卷積核,卷積核窗口大小為2*2個像素,相鄰局部接受域的中心距離為1個像素,輸出2個特征圖,將特征圖向量化,即轉(zhuǎn)化為列向量,輸入到第六層;
第六層為2個神經(jīng)元的全連接層,最后連接softmax分類器。
步驟4)的分類模型訓練按如下步驟進行:mstar數(shù)據(jù)平移擴充后的數(shù)據(jù)集作為網(wǎng)絡(luò)的訓練正樣本,從sar場景圖中選取的背景圖像塊(比如樹木,建筑,草地)作為網(wǎng)絡(luò)的訓練負樣本輸入到構(gòu)建的分類模型,訓練數(shù)據(jù)集的正負類別作為分類模型的輸出,通過求解模型輸出類別與給定正確類別之間的誤差并對誤差進行反向傳播,來優(yōu)化分類模型的網(wǎng)絡(luò)參數(shù),得到訓練好的分類模型。
步驟5)的具體步驟如下:
對于給定的一幅圖像(i)首先計算其二維離散傅里葉變換,將其從空間域轉(zhuǎn)換到頻域,對幅值取對數(shù)后得到log譜l(f):
p(f)=φ(f[i(x)])<1>
l(f)=log(|f[i(x)|])<2>
式中:f代表二維離散傅里葉變換,φ代表其相位;由于log曲線滿足局部線性條件,所以用局部平均濾波器hn(f)對其進行平滑,獲得log譜的大致形狀:
v(f)=l(f)*hn(f)<3>
式中:hn(f)是一個n×n矩陣,n為正整數(shù);
因此譜殘差就是log譜與其進行均值濾波后的差,公式如下:
r(f)=l(f)-v(f)<4>
譜殘差能夠描述一幅圖像中的異常區(qū)域,因此樂意用來進行顯著性檢測;將譜殘差和相位p(f)進行二維離散傅里葉逆變換:
s(x)=|f-1[exp{r(f)+ip(f)}]|2<5>
由此可以重構(gòu)出一幅圖像,用來表示原圖像各像素的顯著性,即為顯著圖;
步驟6)中確定目標候選區(qū)按照如下步驟進行:
6a)利用圖像形態(tài)學處理去除大面積連通區(qū)域的方法,去除掉顯著圖不可能是目標的大片區(qū)域,進一步縮小代檢測目標區(qū)域,得到最終的目標顯著圖;
6b)對上述顯著圖中的連通區(qū)域進行標記,確定質(zhì)心位置,根據(jù)其質(zhì)心位置擴充到88×88的大小區(qū)域,為了減緩場景圖中漏檢和誤檢情況的出現(xiàn),在場景圖的上述目標候選區(qū)周圍進行上下左右若干像素點的平移,這樣增多了每個目標候選區(qū)的待判斷數(shù)量。
步驟7)中將目標候選區(qū)輸入到分類模型中進行判斷按如下步驟進行:利用訓練好的模型對目標候選區(qū)進行分類,訓練好的模型的輸出為對目標候選區(qū)的類別判斷,將每個目標候選區(qū)周圍多個候選區(qū)域中判斷為目標的檢測數(shù)量與設(shè)定的閾值對比,若大于閾值,則為要檢測的目標裝甲車,若小于閾值,則為背景;所有目標對比完成后,得到sar場景圖中的目標定位框。
步驟8)的具體步驟如下:輸入步驟7)中得到的定位框的坐標及分類后由softmax得到的概率值,采用非極大值抑制方法去除多余的框,選出分類得分最大的定位框并在sar場景圖進行標記。
所述圖像視覺顯著注意模型為譜殘差方法。
與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下優(yōu)點:本發(fā)明由于利用cnn模型進行目標檢測,克服了現(xiàn)在技術(shù)對切片的像素級處理,不僅適用于復雜的場景圖,而且提高了檢測效率;本發(fā)明在網(wǎng)絡(luò)分類前使用選擇性注意機制,選擇出合理的目標候選區(qū),避免盲目選取大量目標候選區(qū)的步驟,隨后用準確率較高的二分類模型對目標候選區(qū)進行分類,不僅提高檢測定位的準確性,也提高了檢測效率。
進一步的,因為目前mstar裝甲車的數(shù)據(jù)只有六百多張,對于深度學習的訓練遠遠不夠,mstar數(shù)據(jù)集中每幅sar圖像的裝甲車大都是位于其中央位置;對訓練集中正樣本(即128×128裝甲車sar圖像)的中間區(qū)域進行平移,這樣每幅圖像可以擴充很多倍,將這些平移后的訓練樣本圖像組成擴充后的新訓練正樣本集,可防止網(wǎng)絡(luò)訓練時發(fā)生過擬合。
進一步的,待檢測sar場景圖中除了待定位目標mstar裝甲車,可能也會有樹木,山野等的大片顯著區(qū)域,本發(fā)明先撇除大片顯著區(qū)域然后去找小的顯著區(qū)域中的待檢測目標,去除掉顯著圖不可能是目標的大片區(qū)域,進一步縮小代檢測目標區(qū)域,得到最終的目標顯著圖。
進一步的,由于要檢測的sar場景圖較大,除了要檢測的人工目標,還有樹木或建筑等,所以將整幅sar圖像分割成若干塊分別由上述方法得到場景圖的顯著圖,進一步處理得到全局二值顯著圖;不僅提高檢測效率,也進一步接近想要的檢測效果。
進一步的,本發(fā)明的步驟7)能夠有效減緩了漏檢和誤檢的問題,步驟8)采用非極大值抑制方法去除多余的框,選出分類得分最大的定位框并在sar場景圖進行標記,這樣最后的目標框會盡可能得到目標在中間,不會有很大的偏移,最后得到測試圖像的目標檢測結(jié)果。
附圖說明
圖1是本發(fā)明的實現(xiàn)流程圖;
圖2(a)和圖2(b)均為本發(fā)明實驗中輸入的檢測sar場景圖;
圖3(a)和圖3(b)均為用本發(fā)明的檢測結(jié)果圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的實現(xiàn)步驟和實驗效果作進一步詳細描述:
參照圖1,本發(fā)明的具體實現(xiàn)步驟如下:
步驟1,獲取sar圖像。
(1a)從mstar數(shù)據(jù)集中選取一部分作為訓練集的正樣本;
(1b)從幾幅sar場景圖隨機選取背景塊作為訓練集的負樣本(比如樹木,建筑,草地等)
步驟2,擴充訓練樣本集。
目前mstar裝甲車的數(shù)據(jù)只有六百多張,對于深度學習的訓練遠遠不夠。每幅sar圖像的裝甲車大都是位于其中央位置,所以對訓練集中正樣本即這些128×128裝甲車sar圖像的中間區(qū)域進行平移,這樣每幅圖像可以擴充很多倍,將這些平移后的訓練樣本圖像組成擴充后的訓練正樣本集。
(2a)取每幅圖像的中間88×88的區(qū)域部分,得到對應每一個sar圖像的中間88×88的左上角坐標(x,y)這樣中間區(qū)域部分為(x+88,y+88)。
(2b)將上述的每一幅sar圖像的中間區(qū)域進行上下左右四五個像素單位的平移,得到(x',y'),其中x'=x±tx,y'=y(tǒng)±ty,tx,ty等于平移單位。這樣每幅圖像都能在其中間區(qū)域擴充100倍左右,這些平移后的訓練樣本圖像組成訓練正樣本集。
步驟3,構(gòu)建分類網(wǎng)絡(luò)模型,選擇一個由卷積層→池化層→卷積層→池化層→卷積層→池化層→卷積層→池化層→卷積層→全連接層→softmax分類器組成的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)提取sar圖像特征及分類。
其中,第一層為卷積層,使用16個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出16個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第二層;
第二層為卷積層,使用32個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出32個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第三層;
第三層為卷積層,使用64個卷積核,卷積核窗口大小為4*4個像素,相鄰局部接受域的中心距離為1個像素,輸出64個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖輸入到第四層;
第四層為卷積層,使用128個卷積核,卷積核窗口大小為5*5個像素,相鄰局部接受域的中心距離為1個像素,輸出128個特征圖,每個特征圖經(jīng)過一個下采樣進行降維,下采樣的核窗口大小為2*2個像素相鄰局部接受域的中心距離為2個像素,將降維后的特征圖經(jīng)過dropout處理,減少參數(shù)量,防止過擬合,再輸入到第五層;
第五層為卷積層,使用2個卷積核,卷積核窗口大小為2*2個像素,相鄰局部接受域的中心距離為1個像素,輸出2個特征圖,將特征圖向量化,即轉(zhuǎn)化為列向量,輸入到第六層;
第六層為2個神經(jīng)元的全連接層,最后連接softmax分類器。
步驟4,利用訓練數(shù)據(jù)集對分類模型進行訓練,得到訓練好的模型。
mstar數(shù)據(jù)平移擴充后的數(shù)據(jù)集作為網(wǎng)絡(luò)的訓練正樣本,從sar場景圖中選取的背景圖像塊(樹木,建筑,草地)作為網(wǎng)絡(luò)的訓練負樣本輸入到構(gòu)建的分類模型,訓練數(shù)據(jù)集的正負類別作為分類模型的輸出,通過求解模型輸出類別與給定正確類別之間的誤差并對誤差進行反向傳播,來優(yōu)化分類模型的網(wǎng)絡(luò)參數(shù),得到訓練好的分類模型。
步驟5,用一種圖像視覺顯著注意模型(譜殘差方法)對sar場景圖進行顯著性檢測,得到顯著特征圖。
對于給定的一幅圖像(i)首先計算其二維離散傅里葉變換,將其從空間域轉(zhuǎn)換到頻域,對幅值取對數(shù)后得到log譜l(f):
p(f)=φ(f[i(x)])<1>
l(f)=log(|f[i(x)|])<2>
式中:f代表二維離散傅里葉變換,φ代表其相位。由于log曲線滿足局部線性條件,所以用局部平均濾波器hn(f)對其進行平滑,獲得log譜的大致形狀:
v(f)=l(f)*hn(f)<3>
式中:hn(f)是一個n×n矩陣,實驗中n取3。
因此譜殘差就是log譜與其進行均值濾波后的差,公式如下:
r(f)=l(f)-v(f)<4>
譜殘差能夠描述一幅圖像中的異常區(qū)域,因此樂意用來進行顯著性檢測。將譜殘差和相位p(f)進行二維離散傅里葉逆變換:
s(x)=|f-1[exp{r(f)+ip(f)}]|2<5>
由此可以重構(gòu)出一幅圖像,用來表示原圖像各像素的顯著性,即為顯著圖。
由于要檢測的sar場景圖較大,除了要檢測的人工目標,還有樹木或建筑等,所以將整幅sar圖像分割成若干塊分別由上述方法得到場景圖的顯著圖,進一步處理得到全局二值顯著圖。不僅提高檢測效率,也進一步接近想要的檢測效果。
步驟6,對顯著圖進行形態(tài)學處理后,進行連通域標記,確定每個連通域的質(zhì)心為中心,提取與各個質(zhì)心對應的目標候選區(qū),將各個目標候選區(qū)在其周圍若干像素點內(nèi)平移,擴充每個目標候選區(qū)的待判斷數(shù)量。
(6a)場景圖中除了待定位目標mstar裝甲車,可能也會有樹木,山野等的大片顯著區(qū)域。根據(jù)人類視覺習慣,直觀感覺就是先撇除大片顯著區(qū)域然后去找小的顯著區(qū)域中的待檢測目標,所以利用圖像形態(tài)學處理去除大面積連通區(qū)域的方法,去除掉顯著圖不可能是目標的大片區(qū)域,進一步縮小代檢測目標區(qū)域,得到最終的目標顯著圖。
(6b)對上述顯著圖中的連通區(qū)域進行標記,確定質(zhì)心位置,根據(jù)其質(zhì)心位置擴充到88×88的大小區(qū)域。為了減緩場景圖中漏檢和誤檢情況的出現(xiàn),在場景圖的上述目標候選區(qū)周圍進行上下左右若干像素點的平移,這樣增多了每個目標候選區(qū)的待判斷數(shù)量。
步驟7,利用訓練好的模型對上述的目標候選區(qū)進行分類,訓練好的分類模型的輸出為對目標候選區(qū)的類別判斷。將每個目標候選區(qū)周圍多個候選區(qū)域中判斷為目標的檢測數(shù)量與設(shè)定的閾值對比,若大于閾值,則為要檢測的目標裝甲車,若小于閾值,則為背景。通過實驗發(fā)現(xiàn),這樣的做法確實減緩了漏檢和誤檢的問題。最后在原輸入的場景sar圖像中標記出這些目標定位框。
步驟8,將上述目標定位框用非極大值抑制的方法去除多余的框。輸入的是這些定位框的坐標及分類后由softmax得到的概率值,非極大值抑制方法會去除多余的框,選出分類得分最大的定位框,這樣最后的目標框會盡可能使得目標在中間,不會有很大的偏移,最后得到測試圖像的目標檢測結(jié)果。
本發(fā)明的效果可以通過以下仿真實驗進一步說明:
1.仿真條件:
硬件平臺為:hpz840。
軟件平臺為:torch7、matlabr2014a。
2.仿真內(nèi)容與結(jié)果:
用本發(fā)明方法在上述仿真條件下進行實驗,從目標檢測結(jié)果圖,圖3(a)和圖3(b)可以看到,本發(fā)明方法的檢測準確率高,在測試圖片上幾乎沒有漏檢,極少的虛警。將本發(fā)明與os-cfar檢測方法對圖2(a),圖2(b)的檢測結(jié)果進行對比,結(jié)果如表1所示:
表1
從表1及實驗結(jié)果可見,針對實驗所用的復雜場景下的sar圖像數(shù)據(jù),本發(fā)明的檢測方法相比于傳統(tǒng)的os-cfar具有良好的性能。
綜上,本發(fā)明引入了基于cnn和選擇性注意機制的sar目標檢測方法,有效提高了檢測準確率和檢測效率。