一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法

文檔序號：40613921發(fā)布日期：2025-01-07 21:00閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于圖像處理，具體涉及一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法。

背景技術(shù)：

1、給定一個自然光或紅外相機拍攝的查詢圖像，visible-infrared?person?re-identification(vi-reid)的目的是在紅外或自然光庫中檢索相同身份的行人。隨著監(jiān)控攝像頭的普及以及相關(guān)數(shù)據(jù)集的提出，vi-reid任務(wù)收到了大量研究人員的關(guān)注。

2、作為一個圖像檢索任務(wù)，vi-reid面臨兩個挑戰(zhàn)：度量函數(shù)存在的數(shù)據(jù)偏見和度量與表征學(xué)習(xí)的不適配問題。

3、為了拉近類內(nèi)間距以及模態(tài)差異，當前的方法可分成基于像素與基于特征兩類?；谙袼豙aligngan,jsia]方法旨在通過生成模型生成對應(yīng)模態(tài)著色風(fēng)格的假圖，假圖用來輔助圖像檢索。但是由于模態(tài)差異大，風(fēng)格遷移需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，這種方式并沒有取得好的表現(xiàn)。

4、目前主流的方式是通過設(shè)計度量函數(shù)，通過限制模態(tài)間的特征距離來訓(xùn)練模型學(xué)習(xí)模態(tài)共存特征。mmn、agw和fbp-al基于經(jīng)典的三元組策略，限制同類模態(tài)間與類間的相對距離來緩解模態(tài)差異。但這些方法每次僅優(yōu)化一對樣本，缺乏魯棒性且容易陷入子優(yōu)結(jié)果。hct和mpnaet提出約束樣本點到模態(tài)中心的距離，一定程度緩解上述問題。但是模態(tài)中心是基于當前批量的特征均值，仍無法避免小批量帶來的數(shù)據(jù)偏見。除此之外，度量函數(shù)從特征距離角度出發(fā)評估特征，而表征學(xué)習(xí)從身份表達角度評估特征，這一區(qū)別會影響模型訓(xùn)練。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法，從時序角度進行特征的分層融合，幫助模型學(xué)習(xí)到更豐富的特征，有效緩解了模態(tài)差異。

2、為實現(xiàn)上述目的，本發(fā)明所采取的技術(shù)方案為：

3、一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法，所述基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法，包括：

4、步驟s1、給定一張可見光模態(tài)圖像/紅外線模態(tài)圖像作為查詢圖像，以及給定包含紅外線模態(tài)圖像/可見光模態(tài)圖像的圖像庫；

5、步驟s2、加載多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)，所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)包括模態(tài)特征增強模塊、四流resnet-50主干網(wǎng)絡(luò)模型和基于時序的特征融合模塊；

6、步驟s3、通過所述模態(tài)特征增強模塊對可見光模態(tài)圖像和紅外線模態(tài)圖像分別進行兩種模態(tài)增強，得到可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像；

7、步驟s4、將可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型，輸出不同尺寸的特征圖c2、c3、c4和c5；

8、步驟s5、將不同尺寸的特征圖c2、c3、c4和c5輸入基于時序的特征融合模塊進行層級時序融合，所述基于時序的特征融合模塊操作如下：

9、將特征圖c3和c4分別經(jīng)過1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸，分別記為特征f3和f4，同時將特征圖c2記為特征f2，將特征圖c5經(jīng)過1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸，記為特征fori；

10、首先將特征ft傳入lstm2網(wǎng)絡(luò)進行處理，t∈[2,t]為層級，且最高層級t＝4，然后將輸出的結(jié)果與原始特征進行融合，得到融合后的特征用如下公式表示：

11、

12、然后對得到的特征進行注意力處理，得到特征用如下公式表示：

13、

14、最后將得到的特征與特征fori進一步融合，用如下公式表示：

15、

16、其中，set表示針對第t層級特征的注意力處理操作，表示第t層級的融合特征，fout表示基于時序的特征融合模塊最終輸出的融合特征，且表示可見光第一增強模態(tài)融合特征，表示可見光第二增強模態(tài)融合特征，表示紅外線第一增強模態(tài)融合特征，表示紅外線第二增強模態(tài)融合特征；

17、步驟s6、基于可見光對應(yīng)的融合特征以及紅外線對應(yīng)的融合特征計算查詢圖像和圖像庫中圖像的匹配度，提取圖像庫中匹配度最高的前top-k張圖像作為重識別結(jié)果。

18、以下還提供了若干可選方式，但并不作為對上述總體方案的額外限定，僅僅是進一步的增補或優(yōu)選，在沒有技術(shù)或邏輯矛盾的前提下，各可選方式可單獨針對上述總體方案進行組合，還可以是多個可選方式之間進行組合。

19、作為優(yōu)選，所述對可見光模態(tài)圖像和紅外線模態(tài)圖像分別進行兩種模態(tài)增強，得到可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像，包括：

20、對于可見光模態(tài)圖像xvis的第一種增強方式：先對原始的可見光模態(tài)圖像xvis的三個通道xr,xg,xb進行隨機加權(quán)得到退化圖xds，再與原始的可見光模態(tài)圖像xvis進行加權(quán)融合得到可見光第一增強模態(tài)圖像用如下公式表示：

21、xds＝α1×xr+α2×xg+α3×xb

22、

23、其中，xr,xg,xb分別為可見光模態(tài)圖像xvis的r通道、g通道和b通道，α1、α2、α3為隨機加權(quán)權(quán)重，屬于[0,1]，且α1+α2+α3＝1，β1、β2為加權(quán)融合權(quán)重，屬于[0,1]，且β1+β2＝1；

24、對于可見光模態(tài)圖像xvis的第二種增強方式：在可見光模態(tài)圖像xvis的三個通道中隨機選擇一個通道，并在隨機選定的通道中，以預(yù)設(shè)系數(shù)加入其他兩個通道的信息，用如下公式表示：

25、

26、其中，為可見光第二增強模態(tài)圖像，randselect為隨機選擇操作，為在可見光模態(tài)圖像xvis的三個通道中隨機選擇所選中的一個通道，為可見光模態(tài)圖像xvis的三個通道中除所選中通道外的其他兩個通道，(xr,xg,xb)為可見光模態(tài)圖像xvis的三個通道，γ1、γ2、γ3為預(yù)設(shè)系數(shù)，屬于[0,1]，且γ1+γ2+γ3＝1，0<γ2+γ3≤0.15；

27、對于紅外線模態(tài)圖像xir的第一種增強方式：對紅外線模態(tài)圖像的通道xir的像素值進行乘法倍增，用如下公式表示：

28、

29、其中，為紅外線第一增強模態(tài)圖像，δ為倍增系數(shù)，屬于[0.01,0.5]；

30、對于紅外線模態(tài)圖像xir的第二種增強方式：將圖片進行隨機翻轉(zhuǎn)和/或隨機擦除，用如下公式表示：

31、

32、其中，為紅外線第二增強模態(tài)圖像，randerase表示隨機擦除函數(shù)，randflip表示隨機翻轉(zhuǎn)函數(shù)。

33、作為優(yōu)選，所述四流resnet-50主干網(wǎng)絡(luò)模型，包含四個分別處理可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像的分支，每個分支包含一個獨立參數(shù)的子網(wǎng)絡(luò)記為evis1、evis2、eir1和eir2，均由resnet-50網(wǎng)絡(luò)的第一層實現(xiàn)；

34、所述四流resnet-50主干網(wǎng)絡(luò)模型，還包含一個共享參數(shù)的子網(wǎng)絡(luò)es，由resnet-50網(wǎng)絡(luò)除第一層以外的剩余層實現(xiàn)。

35、作為優(yōu)選，所述將可見光第一增強模態(tài)圖像、可見光第二增強模態(tài)圖像、紅外線第一增強模態(tài)圖像和紅外線第二增強模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型，輸出不同尺寸的特征圖c2、c3、c4和c5，包括：

36、將可見光第一增強模態(tài)圖像輸入子網(wǎng)絡(luò)evis1；

37、將可見光第二增強模態(tài)圖像輸入子網(wǎng)絡(luò)evis2；

38、將紅外線第一增強模態(tài)圖像輸入子網(wǎng)絡(luò)eir1；

39、將紅外線第二增強模態(tài)圖像輸入子網(wǎng)絡(luò)eir2；

40、取子網(wǎng)絡(luò)evis1、evis2、eir1和eir2的輸出進行拼接，得到特征圖c1；

41、將特征圖c1輸入子網(wǎng)絡(luò)es，得到子網(wǎng)絡(luò)es每層輸出的特征圖c2、c3、c4和c5。

42、作為優(yōu)選，所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程如下：

43、獲取訓(xùn)練數(shù)據(jù)集劃分為自然光集和紅外線集，所自然光集中包含可見光模態(tài)圖像，所述紅外線集包含紅外線模態(tài)圖像；

44、將自然光集和紅外線集輸入所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)，根據(jù)所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的輸出計算聯(lián)合優(yōu)化損失進行訓(xùn)練更新。

45、作為優(yōu)選，所述計算聯(lián)合優(yōu)化損失，包括：

46、

47、其中，為聯(lián)合優(yōu)化損失，表示異中心簇損失，表示id損失，表示模態(tài)間的三元組損失，表示四元中心簇損失；

48、所述id損失對可見光第一增強模態(tài)圖像和紅外線第一增強模態(tài)圖像經(jīng)過四流resnet-50主干網(wǎng)絡(luò)模型得到的特征進行損失的計算，計算公式如下：

49、

50、其中，p是訓(xùn)練數(shù)據(jù)集中的類別個數(shù)，a表示第a個類別，qa表示第a個類別實際的標簽分布概率，pa表示第a個類別預(yù)測的分布概率，ε為常數(shù)，y表示行人的類別標簽；

51、所述異中心簇損失計算公式如下：

52、

53、其中，q是訓(xùn)練階段批次中和每類圖像的數(shù)量，f()是四流resnet-50主干網(wǎng)絡(luò)模型的全連接層之前的輸出，mean[a-b]是對象a和對象b之差的均值運算，表示訓(xùn)練階段批次中第i張可見光第一增強模態(tài)圖像，表示訓(xùn)練階段批次中第i張紅外線第一增強模態(tài)圖像；

54、所述模態(tài)間的三元組損失計算公式表示為：

55、

56、其中，表示vis1和ir1模態(tài)間的三元組損失，表示輸入來自vis1和ir1模態(tài)的正樣本對和來自vis1模態(tài)的負樣本對計算得到的三元組損失，表示輸入來自vis1和ir1模態(tài)的正樣本對和來自ir1模態(tài)的負樣本對計算得到的三元組損失，vis1模態(tài)表示可見光第一增強模態(tài)圖像對應(yīng)的可見光第一增強模態(tài)，ir1模態(tài)表示紅外線第一增強模態(tài)圖像對應(yīng)的紅外線第一增強模態(tài)，與可用公式表示為：

57、

58、其中，m表示每次迭代隨機選擇的行人數(shù)量，b表示第b個行人，c表示第c個行人，ξ是間隔參數(shù)，表示vis1圖像中第b個行人和ir1圖像中第c個行人之間的歐式距離，表示vis1圖像中第b個行人和ir1圖像中第k個行人之間的歐式距離，表示ir1圖像中第b個行人和vis1圖像中第c個行人之間的歐式距離，表示ir1圖像中第b個行人和vis1圖像中第k個行人之間的歐式距離，并且b與c相同，表示同一個行人；k與b、c不相同，表示不同的行人，yb表示當前模態(tài)的第b個行人的類別標簽，yc表示與yb不同模態(tài)的同一行人的類別標簽，yk表示與yb和yc不同行人的類別標簽，[z]+＝max(z,0)，z為函數(shù)輸入；

59、所述四元中心簇損失計算公式表示為：

60、

61、其中，表示vis1和ir1模態(tài)間的中心簇損失，表示vis1和ir2模態(tài)間的中心簇損失，表示vis2和ir1模態(tài)間的中心簇損失，表示vis2和ir2模態(tài)間的中心簇損失，vis2模態(tài)表示可見光第二增強模態(tài)圖像對應(yīng)的可見光第二增強模態(tài)，ir2模態(tài)表示紅外線第二增強模態(tài)圖像對應(yīng)的紅外線第二增強模態(tài)；

62、將v1或v2記為v，將i1或i2記為i，則中心簇損失用如下公式表示：

63、

64、其中，d表示第d個類別，g表示第g個類別，ρ為預(yù)設(shè)參數(shù)，表示包含第d個類別的行人對應(yīng)的vis融合特征的平均中心位置，表示包含第d個類別的行人對應(yīng)的ir融合特征的平均中心位置，vis為vis1或vis2，ir為ir1或ir2，表示包含第g個類別的行人對應(yīng)的vis或ir融合特征的平均中心位置，∥a-b∥2表示計算對象a和對象b之間的歐氏距離。

65、本發(fā)明提供的一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法，與現(xiàn)有技術(shù)相比，具有以下有益效果：

66、(1)本發(fā)明方法為了提取多樣化的特征，從圖像增強角度出發(fā)，通過對每種增強的圖像提取特征來豐富模型可以學(xué)習(xí)到的網(wǎng)絡(luò)。

67、(2)本發(fā)明方法首次從時序融合的角度考慮跨模態(tài)行人重識別問題。具體來說，面對得到的多樣特征，本方法設(shè)計了一種基于時序的方法來分層融合所學(xué)習(xí)到的特征，有效緩解了模態(tài)差異，提高重識別準確度。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：產(chǎn)思賢,孟煒浩,盧雅婷,王佳龍,毛家發(fā),白琮
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識別方法