本發(fā)明屬于領(lǐng)域人工智能以及計算機(jī)視覺技術(shù),具體涉及一種基于不等寬卷積塊的擁擠行人重識別方法。
背景技術(shù):
1、隨著社會經(jīng)濟(jì)飛速發(fā)展,公共安全愈加凸顯其重要性。如今,監(jiān)控設(shè)備已經(jīng)遍布日常生活的方方面面,然而,對監(jiān)控信息的應(yīng)用仍然局限于較為基礎(chǔ)的水平。在緊急情況下,采用手動查看監(jiān)控錄像以識別和檢索嫌疑人是一項耗時耗力的任務(wù),尤其是在拍攝環(huán)境復(fù)雜的情況下,人眼分辨的準(zhǔn)確度也相對較低。因此,行業(yè)開始積極探索行人重識別(personre-identification,re-id)技術(shù)[1],這已成為智能安防領(lǐng)域的重要環(huán)節(jié)。
2、行人重識別(reid)是一項旨在從大量不同攝像頭捕捉的行人圖像中,識別出特定行人以滿足各種尋人需求的技術(shù)。人員重新識別任務(wù)涉及匹配跨越多個非重疊相機(jī)捕捉的相關(guān)個體的圖像或視頻。由于其廣泛的實際應(yīng)用,如刑事偵查、危險預(yù)警、無人超市管理、走失人員救援等眾多領(lǐng)域,這一任務(wù)變得至關(guān)重要。行人重識別已經(jīng)成為科研領(lǐng)域的一個熱門課題,受到廣泛關(guān)注。
3、現(xiàn)有的行人重識別技術(shù)在科研人員的不斷推進(jìn)下,獲得了極大地進(jìn)展。然而,盡管行人重識別技術(shù)在不斷進(jìn)步,但是由于任務(wù)設(shè)置中,目標(biāo)人物總是單獨地出現(xiàn)在一個場景中,由于人物旁邊的環(huán)境與人物表現(xiàn)出極強(qiáng)的差異性,因此,該任務(wù)的難度獲得了極大的降低。該任務(wù)往往只適用于人數(shù)較少的場景中的人物識別,從而脫離了現(xiàn)實應(yīng)用場景。
4、比如論文《dip:learning?discriminative?implicit?parts?for?person?re-identification》[2]中,作者提出了學(xué)習(xí)鑒別性隱式部分(dips)的方法,這些部分與顯式的身體部位解耦。因此,dips可以學(xué)習(xí)提取任何有助于區(qū)分身份的特征,這超出了預(yù)定義的身體部位(例如配飾)。此外,作者提出了一種新穎的隱式位置,為每個dip提供了幾何解釋。最后,引入了額外的dip權(quán)重來處理不可見或被遮擋的情況,并進(jìn)一步改善了dips的特征表示。該模型很好地解決了常規(guī)行人重識別的問題,帶來了一定的提升,但是在后面的實施例中證明,其因為不適合用于擁擠行人重識別中,所以效果并不明顯。
5、在實際應(yīng)用場景中,使用者常常需要識別商場、路口或者學(xué)校等人員擁擠的場景,大量的人物緊密地重疊在一起,這就無法再像現(xiàn)有的行人重識別一樣,提取出一個只有一個人物的圖片以供識別,而當(dāng)擁擠場景下的某個人的圖片中,同時出現(xiàn)了多個人,這將使得現(xiàn)有的模型陷入了困惑,因為其不具備排除強(qiáng)相似性的干擾的能力,從而無法識別擁擠場景下的人物。這也導(dǎo)致了模型在科研中不斷增進(jìn),但是在實際應(yīng)用中,仍然表現(xiàn)不佳。過度理想的任務(wù)設(shè)置,造成了科研與應(yīng)用極大的脫軌。
6、[1]masson?h,bhuiyan?a,nguyen-meidine?l?t,et?al.a?survey?of?pruningmethods?for?efficient?person?re-identification?across?domains[j].arxivpreprint?arxiv:1907.02547,2019.
7、[2]li?d,chen?s,zhong?y,et?al.dip:learning?discriminative?implicitparts?for?person?re-identification[j].arxiv?preprint?arxiv:2212.13906,2022.
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)存在的問題,提供了提出一種基于不等寬卷積塊的擁擠行人重識別方法。在該方法中,首先,該網(wǎng)絡(luò)提出關(guān)鍵人物注意模塊,通過將輸入圖片輸入該模塊,利用關(guān)鍵人物注意模塊與關(guān)鍵人物注意損失共同加強(qiáng)模型對行人的辨別能力。其次,在卷積神經(jīng)網(wǎng)絡(luò)中引入兩層不等寬卷積塊,充分利用其強(qiáng)大的非線性表達(dá)能力和對大范圍空間特征的捕捉能力,以挖掘特征圖中全局范圍內(nèi)不同位置的差異性信息。第三,引入隨機(jī)人物方法進(jìn)行數(shù)據(jù)增強(qiáng),以使網(wǎng)絡(luò)能夠有效處理行人在擁擠場景下的復(fù)雜問題,并增強(qiáng)其泛化能力。最終,提高模型識別擁擠場景下行人身份的準(zhǔn)確率。
2、為解決以上技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于不等寬卷積塊的擁擠行人重識別方法,包括以下步驟:
3、s1、采集行人圖像,針對行人圖像應(yīng)用隨機(jī)人物圖片的數(shù)據(jù)增強(qiáng)方法進(jìn)行預(yù)處理獲得可見光圖像;
4、s2、構(gòu)建關(guān)鍵人物注意力模塊,以可見光圖像為輸入提取人物重要性特征圖,并基于圖像的原始特征進(jìn)行拼接,獲得關(guān)鍵人物注意力圖;
5、s3、利用resnet50網(wǎng)絡(luò)和不等寬卷積塊nucb,對關(guān)鍵人物注意力圖提取富含關(guān)鍵人物信息的圖片特征;
6、s4、基于關(guān)鍵人物注意力模塊、resnet50網(wǎng)絡(luò)和不等寬卷積塊nucb,以行人圖像為輸入,行人的識別結(jié)果為輸出構(gòu)建并訓(xùn)練行人重識別模型,訓(xùn)練中使用關(guān)鍵人物約束損失,并將s3輸出的圖片特征,聯(lián)合難樣本三元組損失函數(shù)和標(biāo)簽平滑正則化的交叉熵?fù)p失函數(shù)來共同訓(xùn)練行人重識別模型;
7、s5、將采集到的行人圖像是輸入至行人重識別模型,獲得行人識別結(jié)果。
8、進(jìn)一步地,前述的步驟s1包括以下子步驟:
9、s1.1、對行人圖像用deeplabv3_resnet101扣出imagenet的人物圖片,對人物圖片采用隨機(jī)人物圖片方法,圖片以概率p被隨機(jī)選擇進(jìn)行擦除;
10、s1.2、針對被選中的圖片,隨機(jī)選擇一個總面積小于等于總圖片預(yù)設(shè)面積的矩形的區(qū)域,同時從扣下來的imagenet的人物圖片中隨機(jī)選擇一張并修改面積至矩形區(qū)域大?。?/p>
11、s1.3、用修改過大小的imagenet的人物圖片,填充至圖片選擇的矩形區(qū)域中。
12、進(jìn)一步地,前述的一種基于不等寬卷積塊的擁擠行人重識別方法,修改過大小的imagenet的人物圖片,填充至圖片選擇的矩形區(qū)域,如下公式:
13、
14、式中,s是隨機(jī)選擇的圖像區(qū)域,a(i,j)代表圖片像素輸入值,another(i,j)代表填充圖像的像素值,i0是區(qū)域s的橫坐標(biāo)起點,j0是區(qū)域s的縱坐標(biāo)起點。
15、進(jìn)一步地,前述的步驟s2包括以下子步驟:
16、s2.1、將可將見光圖像經(jīng)過關(guān)鍵人物識別,輸出關(guān)鍵人物重要性特征;
17、s2.2、將關(guān)鍵人物重要性特征圖和圖片的mask圖片,共同輸入至關(guān)鍵人物約束損失;s2.3、將關(guān)鍵人物重要性特征圖和圖片的原始特征進(jìn)行拼接,輸入卷積網(wǎng)絡(luò),獲得關(guān)鍵人物注意力圖,并將其并與輸入圖像進(jìn)行點乘計算。
18、進(jìn)一步地,前述的步驟s2.1中,通過構(gòu)造關(guān)鍵注意力模塊提取輸出關(guān)鍵人物重要性特征;關(guān)鍵注意力模塊包括順序連接的第一基礎(chǔ)卷積塊、第一最大池化層、第二基礎(chǔ)卷積塊、第二最大池化層、第三基礎(chǔ)卷積塊、第三最大池化層、第四基礎(chǔ)卷積塊、第一反卷積層、第五基礎(chǔ)卷積塊、第二個反卷積層、第六基礎(chǔ)卷積塊、第三反卷積層、卷積層;
19、第一基礎(chǔ)卷積塊、第二基礎(chǔ)卷積塊、第三基礎(chǔ)卷積塊,用于將輸入特征的維度提升;
20、第一最大池化層、第二最大池化層、第三最大池化層用于下采樣,縮小輸入特征尺寸;
21、第四基礎(chǔ)卷積塊、第五基礎(chǔ)卷積塊、第六基礎(chǔ)卷積塊用于將輸入特征的維度降低;
22、第一反卷積層、第二個反卷積層、第三反卷積層用于將輸入特征的尺寸放大,將低分辨率特征圖轉(zhuǎn)換為高分辨率特征圖;
23、卷積層用于將高分辨率特征圖維度降至1。
24、進(jìn)一步地,前述的步驟s2.2中,關(guān)鍵人物約束損失,如下式:
25、
26、式中,yij表示在橫縱坐標(biāo)分別為i和j時,mask在此處真實類別對應(yīng)的類別,表示在橫縱坐標(biāo)分別為i和j時,模型預(yù)測的值,n代表一個批次中的圖片總數(shù)量,h和w分別代表圖片的總高和寬;
27、mask圖片是多種類別時,對yij約束如下:
28、
29、對mask圖片應(yīng)用labelsmooth的思想,基于mask圖片是一個三值的矩陣,對矩陣值作如下約束:
30、
31、式中,根據(jù)實驗設(shè)置的超參數(shù),∈為預(yù)設(shè)超參數(shù),k預(yù)設(shè)超參數(shù)。
32、進(jìn)一步地,前述的步驟s3包括以下子步驟:
33、s3.1、將關(guān)鍵人物注意力圖輸入至由resnet50和不等寬卷積塊組成的網(wǎng)絡(luò)中,進(jìn)行卷積操作,輸出富含信息的圖片特征;
34、在不等寬卷積塊nucb中,卷積操作由不等寬卷積核實現(xiàn),在小卷積核的一部分維度提升其寬度至(n+2)*(n+2),輸出圖片特征如下式:
35、
36、式中,input[c,h+i-1,w+j-1]是輸入特征圖中的元素,h和w分別代表卷積核的高和寬,kernel[k,c,i,j]是第k個卷積核的第c個通道的(i,j)位置的權(quán)重,b[k]是第k個輸出通道的偏置項;
37、s3.2、對步驟s3.2獲得的特征進(jìn)行max-pooling池化,輸出池化特征圖。
38、進(jìn)一步地,前述的步驟s4中,難樣本三元組損失函數(shù)是在包含p個不同行人的批次樣本中,每個行人選取k張圖像,然后將它們組成一個大小為p×k的數(shù)據(jù)集,接著,對于每次訓(xùn)練,從這個數(shù)據(jù)集中以每個圖片作為錨點圖片,選擇圖片的類內(nèi)距離最遠(yuǎn)和類間距離最近的兩張圖像組成困難三元組,構(gòu)建難樣本三元組損失函數(shù),如下:
39、
40、其中a為錨點樣本,pos為正樣本,neg為負(fù)樣本,α為閾值參數(shù),da.pos為錨點到正樣本的距離,da.neg為錨點到負(fù)樣本的距離。
41、進(jìn)一步地,前述的步驟s4中,在交叉熵?fù)p失中引入平滑標(biāo)簽具體如下:
42、
43、式中,n為行人id數(shù)量,y為行人真實標(biāo)簽,pi為輸出預(yù)測身份概率值,ε為錯誤率,。
44、進(jìn)一步地,前述的步驟s4中,聯(lián)合損失函數(shù)lsum如下式:
45、lsum=lkeyperson+ltri_hard+llsr
46、其中,λ為超參數(shù)。
47、相較于現(xiàn)有技術(shù),本發(fā)明采用以上技術(shù)方案的有益技術(shù)效果如下:
48、本方法提出了一個基于不等寬卷積塊的擁擠行人重識別方法。在該方法中,首先,該網(wǎng)絡(luò)提出關(guān)鍵人物注意模塊,通過將輸入圖片輸入該模塊,利用關(guān)鍵人物注意模塊與關(guān)鍵人物注意損失共同加強(qiáng)模型對行人的辨別能力。其次,在卷積神經(jīng)網(wǎng)絡(luò)中引入兩層不等寬卷積塊,充分利用其強(qiáng)大的非線性表達(dá)能力和對大范圍空間特征的捕捉能力,以挖掘特征圖中全局范圍內(nèi)不同位置的差異性信息。第三,引入隨機(jī)人物方法進(jìn)行數(shù)據(jù)增強(qiáng),以使網(wǎng)絡(luò)能夠有效處理行人在擁擠場景下的復(fù)雜問題,并增強(qiáng)其泛化能力。這些操作旨在賦予重要特征更高的權(quán)重,從而抑制無用特征的表達(dá)。最終提高了擁擠場景下行人重識別的rank-1準(zhǔn)確率至90.5%。