本發(fā)明屬于圖像處理,具體涉及一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法。
背景技術(shù):
1、給定一個自然光或紅外相機拍攝的查詢圖像,visible-infrared?person?re-identification(vi-reid)的目的是在紅外或自然光庫中檢索相同身份的行人。隨著監(jiān)控攝像頭的普及以及相關(guān)數(shù)據(jù)集的提出,vi-reid任務(wù)收到了大量研究人員的關(guān)注。
2、作為一個圖像檢索任務(wù),vi-reid面臨兩個挑戰(zhàn):度量函數(shù)存在的數(shù)據(jù)偏見和度量與表征學(xué)習(xí)的不適配問題。
3、為了拉近類內(nèi)間距以及模態(tài)差異,當前的方法可分成基于像素與基于特征兩類?;谙袼豙aligngan,jsia]方法旨在通過生成模型生成對應(yīng)模態(tài)著色風(fēng)格的假圖,假圖用來輔助圖像檢索。但是由于模態(tài)差異大,風(fēng)格遷移需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),這種方式并沒有取得好的表現(xiàn)。
4、目前主流的方式是通過設(shè)計度量函數(shù),通過限制模態(tài)間的特征距離來訓(xùn)練模型學(xué)習(xí)模態(tài)共存特征。mmn、agw和fbp-al基于經(jīng)典的三元組策略,限制同類模態(tài)間與類間的相對距離來緩解模態(tài)差異。但這些方法每次僅優(yōu)化一對樣本,缺乏魯棒性且容易陷入子優(yōu)結(jié)果。hct和mpnaet提出約束樣本點到模態(tài)中心的距離,一定程度緩解上述問題。但是模態(tài)中心是基于當前批量的特征均值,仍無法避免小批量帶來的數(shù)據(jù)偏見。除此之外,度量函數(shù)從特征距離角度出發(fā)評估特征,而表征學(xué)習(xí)從身份表達角度評估特征,這一區(qū)別會影響模型訓(xùn)練。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法,從時序角度進行特征的分層融合,幫助模型學(xué)習(xí)到更豐富的特征,有效緩解了模態(tài)差異。
2、為實現(xiàn)上述目的,本發(fā)明所采取的技術(shù)方案為:
3、一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法,所述基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法,包括:
4、步驟s1、給定一張可見光模態(tài)圖像/紅外線模態(tài)圖像作為查詢圖像,以及給定包含紅外線模態(tài)圖像/可見光模態(tài)圖像的圖像庫;
5、步驟s2、加載多特征分層融合學(xué)習(xí)網(wǎng)絡(luò),所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)包括模態(tài)特征增強模塊、四流resnet-50主干網(wǎng)絡(luò)模型和基于時序的特征融合模塊;
6、步驟s3、通過所述模態(tài)特征增強模塊對可見光模態(tài)圖像和紅外線模態(tài)圖像分別進行兩種模態(tài)增強,得到可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像;
7、步驟s4、將可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型,輸出不同尺寸的特征圖c2、c3、c4和c5;
8、步驟s5、將不同尺寸的特征圖c2、c3、c4和c5輸入基于時序的特征融合模塊進行層級時序融合,所述基于時序的特征融合模塊操作如下:
9、將特征圖c3和c4分別經(jīng)過1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸,分別記為特征f3和f4,同時將特征圖c2記為特征f2,將特征圖c5經(jīng)過1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸,記為特征fori;
10、首先將特征ft傳入lstm2網(wǎng)絡(luò)進行處理,t∈[2,t]為層級,且最高層級t=4,然后將輸出的結(jié)果與原始特征進行融合,得到融合后的特征用如下公式表示:
11、
12、然后對得到的特征進行注意力處理,得到特征用如下公式表示:
13、
14、最后將得到的特征與特征fori進一步融合,用如下公式表示:
15、
16、其中,set表示針對第t層級特征的注意力處理操作,表示第t層級的融合特征,fout表示基于時序的特征融合模塊最終輸出的融合特征,且表示可見光第一增強模態(tài)融合特征,表示可見光第二增強模態(tài)融合特征,表示紅外線第一增強模態(tài)融合特征,表示紅外線第二增強模態(tài)融合特征;
17、步驟s6、基于可見光對應(yīng)的融合特征以及紅外線對應(yīng)的融合特征計算查詢圖像和圖像庫中圖像的匹配度,提取圖像庫中匹配度最高的前top-k張圖像作為重識別結(jié)果。
18、以下還提供了若干可選方式,但并不作為對上述總體方案的額外限定,僅僅是進一步的增補或優(yōu)選,在沒有技術(shù)或邏輯矛盾的前提下,各可選方式可單獨針對上述總體方案進行組合,還可以是多個可選方式之間進行組合。
19、作為優(yōu)選,所述對可見光模態(tài)圖像和紅外線模態(tài)圖像分別進行兩種模態(tài)增強,得到可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像,包括:
20、對于可見光模態(tài)圖像xvis的第一種增強方式:先對原始的可見光模態(tài)圖像xvis的三個通道xr,xg,xb進行隨機加權(quán)得到退化圖xds,再與原始的可見光模態(tài)圖像xvis進行加權(quán)融合得到可見光第一增強模態(tài)圖像用如下公式表示:
21、xds=α1×xr+α2×xg+α3×xb
22、
23、其中,xr,xg,xb分別為可見光模態(tài)圖像xvis的r通道、g通道和b通道,α1、α2、α3為隨機加權(quán)權(quán)重,屬于[0,1],且α1+α2+α3=1,β1、β2為加權(quán)融合權(quán)重,屬于[0,1],且β1+β2=1;
24、對于可見光模態(tài)圖像xvis的第二種增強方式:在可見光模態(tài)圖像xvis的三個通道中隨機選擇一個通道,并在隨機選定的通道中,以預(yù)設(shè)系數(shù)加入其他兩個通道的信息,用如下公式表示:
25、
26、其中,為可見光第二增強模態(tài)圖像,randselect為隨機選擇操作,為在可見光模態(tài)圖像xvis的三個通道中隨機選擇所選中的一個通道,為可見光模態(tài)圖像xvis的三個通道中除所選中通道外的其他兩個通道,(xr,xg,xb)為可見光模態(tài)圖像xvis的三個通道,γ1、γ2、γ3為預(yù)設(shè)系數(shù),屬于[0,1],且γ1+γ2+γ3=1,0<γ2+γ3≤0.15;
27、對于紅外線模態(tài)圖像xir的第一種增強方式:對紅外線模態(tài)圖像的通道xir的像素值進行乘法倍增,用如下公式表示:
28、
29、其中,為紅外線第一增強模態(tài)圖像,δ為倍增系數(shù),屬于[0.01,0.5];
30、對于紅外線模態(tài)圖像xir的第二種增強方式:將圖片進行隨機翻轉(zhuǎn)和/或隨機擦除,用如下公式表示:
31、
32、其中,為紅外線第二增強模態(tài)圖像,randerase表示隨機擦除函數(shù),randflip表示隨機翻轉(zhuǎn)函數(shù)。
33、作為優(yōu)選,所述四流resnet-50主干網(wǎng)絡(luò)模型,包含四個分別處理可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像的分支,每個分支包含一個獨立參數(shù)的子網(wǎng)絡(luò)記為evis1、evis2、eir1和eir2,均由resnet-50網(wǎng)絡(luò)的第一層實現(xiàn);
34、所述四流resnet-50主干網(wǎng)絡(luò)模型,還包含一個共享參數(shù)的子網(wǎng)絡(luò)es,由resnet-50網(wǎng)絡(luò)除第一層以外的剩余層實現(xiàn)。
35、作為優(yōu)選,所述將可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型,輸出不同尺寸的特征圖c2、c3、c4和c5,包括:
36、將可見光第一增強模態(tài)圖像輸入子網(wǎng)絡(luò)evis1;
37、將可見光第二增強模態(tài)圖像輸入子網(wǎng)絡(luò)evis2;
38、將紅外線第一增強模態(tài)圖像輸入子網(wǎng)絡(luò)eir1;
39、將紅外線第二增強模態(tài)圖像輸入子網(wǎng)絡(luò)eir2;
40、取子網(wǎng)絡(luò)evis1、evis2、eir1和eir2的輸出進行拼接,得到特征圖c1;
41、將特征圖c1輸入子網(wǎng)絡(luò)es,得到子網(wǎng)絡(luò)es每層輸出的特征圖c2、c3、c4和c5。
42、作為優(yōu)選,所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程如下:
43、獲取訓(xùn)練數(shù)據(jù)集劃分為自然光集和紅外線集,所自然光集中包含可見光模態(tài)圖像,所述紅外線集包含紅外線模態(tài)圖像;
44、將自然光集和紅外線集輸入所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò),根據(jù)所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的輸出計算聯(lián)合優(yōu)化損失進行訓(xùn)練更新。
45、作為優(yōu)選,所述計算聯(lián)合優(yōu)化損失,包括:
46、
47、其中,為聯(lián)合優(yōu)化損失,表示異中心簇損失,表示id損失,表示模態(tài)間的三元組損失,表示四元中心簇損失;
48、所述id損失對可見光第一增強模態(tài)圖像和紅外線第一增強模態(tài)圖像經(jīng)過四流resnet-50主干網(wǎng)絡(luò)模型得到的特征進行損失的計算,計算公式如下:
49、
50、其中,p是訓(xùn)練數(shù)據(jù)集中的類別個數(shù),a表示第a個類別,qa表示第a個類別實際的標簽分布概率,pa表示第a個類別預(yù)測的分布概率,ε為常數(shù),y表示行人的類別標簽;
51、所述異中心簇損失計算公式如下:
52、
53、其中,q是訓(xùn)練階段批次中和每類圖像的數(shù)量,f()是四流resnet-50主干網(wǎng)絡(luò)模型的全連接層之前的輸出,mean[a-b]是對象a和對象b之差的均值運算,表示訓(xùn)練階段批次中第i張可見光第一增強模態(tài)圖像,表示訓(xùn)練階段批次中第i張紅外線第一增強模態(tài)圖像;
54、所述模態(tài)間的三元組損失計算公式表示為:
55、
56、其中,表示vis1和ir1模態(tài)間的三元組損失,表示輸入來自vis1和ir1模態(tài)的正樣本對和來自vis1模態(tài)的負樣本對計算得到的三元組損失,表示輸入來自vis1和ir1模態(tài)的正樣本對和來自ir1模態(tài)的負樣本對計算得到的三元組損失,vis1模態(tài)表示可見光第一增強模態(tài)圖像對應(yīng)的可見光第一增強模態(tài),ir1模態(tài)表示紅外線第一增強模態(tài)圖像對應(yīng)的紅外線第一增強模態(tài),與可用公式表示為:
57、
58、其中,m表示每次迭代隨機選擇的行人數(shù)量,b表示第b個行人,c表示第c個行人,ξ是間隔參數(shù),表示vis1圖像中第b個行人和ir1圖像中第c個行人之間的歐式距離,表示vis1圖像中第b個行人和ir1圖像中第k個行人之間的歐式距離,表示ir1圖像中第b個行人和vis1圖像中第c個行人之間的歐式距離,表示ir1圖像中第b個行人和vis1圖像中第k個行人之間的歐式距離,并且b與c相同,表示同一個行人;k與b、c不相同,表示不同的行人,yb表示當前模態(tài)的第b個行人的類別標簽,yc表示與yb不同模態(tài)的同一行人的類別標簽,yk表示與yb和yc不同行人的類別標簽,[z]+=max(z,0),z為函數(shù)輸入;
59、所述四元中心簇損失計算公式表示為:
60、
61、其中,表示vis1和ir1模態(tài)間的中心簇損失,表示vis1和ir2模態(tài)間的中心簇損失,表示vis2和ir1模態(tài)間的中心簇損失,表示vis2和ir2模態(tài)間的中心簇損失,vis2模態(tài)表示可見光第二增強模態(tài)圖像對應(yīng)的可見光第二增強模態(tài),ir2模態(tài)表示紅外線第二增強模態(tài)圖像對應(yīng)的紅外線第二增強模態(tài);
62、將v1或v2記為v,將i1或i2記為i,則中心簇損失用如下公式表示:
63、
64、其中,d表示第d個類別,g表示第g個類別,ρ為預(yù)設(shè)參數(shù),表示包含第d個類別的行人對應(yīng)的vis融合特征的平均中心位置,表示包含第d個類別的行人對應(yīng)的ir融合特征的平均中心位置,vis為vis1或vis2,ir為ir1或ir2,表示包含第g個類別的行人對應(yīng)的vis或ir融合特征的平均中心位置,∥a-b∥2表示計算對象a和對象b之間的歐氏距離。
65、本發(fā)明提供的一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法,與現(xiàn)有技術(shù)相比,具有以下有益效果:
66、(1)本發(fā)明方法為了提取多樣化的特征,從圖像增強角度出發(fā),通過對每種增強的圖像提取特征來豐富模型可以學(xué)習(xí)到的網(wǎng)絡(luò)。
67、(2)本發(fā)明方法首次從時序融合的角度考慮跨模態(tài)行人重識別問題。具體來說,面對得到的多樣特征,本方法設(shè)計了一種基于時序的方法來分層融合所學(xué)習(xí)到的特征,有效緩解了模態(tài)差異,提高重識別準確度。