本發(fā)明涉及人群計數,具體涉及一種基于尺度注意力的人群計數方法。
背景技術:
1、人群計數是指對獲取的特定區(qū)域中的圖像或視頻流進行算法分析,通過計算得到該區(qū)域中的行人總數。早期的傳統(tǒng)人群計數方法主要依賴于手工提取特征,當前流行的人群計數方法則主要基于深度學習,通常采用卷積神經網絡(cnn)或transformer架構?;谏疃葘W習的人群計數算法中,使用密度圖來計算人群總數是主流方法。使用密度圖實現人群計數的整體過程如下:首先在圖像中的每個行人位置標記一個點,然后通過二維高斯核函數將這些離散的標記點轉換為像素級的真實密度圖,以此作為網絡訓練的監(jiān)督信號。密度圖中的每個像素值反映了該位置的人群密度,通過對整個密度圖進行積分,即可得出圖像中行人的總數量。
2、考慮到大規(guī)模人群聚集事件的頻繁發(fā)生,對容易出現人群擁擠的公共場所進行人數統(tǒng)計和密度估計十分必要。然而現階段人群計數的應用還受到很大的限制,圖像中人頭尺寸不一致的問題尤其受到大多數研究者的關注。由于人和攝像頭之間的距離是變化的,遠處的人頭尺寸小,近處的人頭尺寸大,這種變化稱為尺度變化,導致拍攝的圖像存在透視失真。此外,相機擺放位置和高度的不同使拍攝視角存在差異。透視失真和拍攝視角的差異造成了圖像中不同區(qū)域的目標尺度相差較大,一幅圖像中人頭呈現多尺度變化,給人群計數帶來困難。
3、為了解決密集場景下的人群尺度劇烈變化問題,目前的研究者對人群計數算法和網絡結構進行改進,主要作了以下探索和嘗試:
4、(1)多列網絡結構:
5、最早期基于cnn的人群計數模型采用單分支結構,使用固定的卷積核來提取特征。然而這種固定大小的卷積核由于其感受野固定,無法捕獲多尺度特征,不可避免地導致嚴重的計數誤差。為了解決尺度變化問題,有研究者利用多列cnn模型(如mcnn網絡)或者使用分層結構從主干網的不同層學習多尺度表示。mcnn每列由感受野不同的卷積層組成,多列cnn學習到的特征有利于應對圖像中人頭大小不均勻的問題。多列cnn模型中較大的卷積核可以提取到較大的尺度信息,較小的卷積核提取較小的尺度信息。
6、然而,這種多列網絡存在明顯的缺陷:(i)該類方法其性能取決于網絡分支的數量雖然可以利用更多的列或分支豐富感受野,但每增加一列或分支,網絡的參數量和計算量就會大大增加,且實時計數困難。(ii)每一列卷積核的大小只能依靠經驗人為地設定,且選擇的卷積核的尺寸大小如3×3、5×5等,是離散的數值,沒有考慮到尺度變化的連續(xù)性,也導致了各列分支之間特征冗余,最終生成不清晰的密度圖。
7、(2)單一網絡融合多尺度特征:
8、鑒于多列卷積網絡的局限性,因此后續(xù)的研究者主要嘗試用單一網絡融合多尺度特征,例如使用分層結構從主干網的不同層學習多尺度表示。然而,這些方法對這些提取到的不同尺度特征只是簡單地相加或連接,這種融合方式實際上并不能有效地適應多尺度的情況,因為不同尺度的特征在圖像中的重要程度很可能是不相同的,且包含噪聲和冗余信息,需要在融合的過程中對其進行篩選或賦予不同的權重信息。為此,之后一些方法利用視覺注意力機制來融合多尺度特征。
9、盡管上述這些多尺度方法取得了顯著進展,但大多數現有方法通過利用所有特征層次生成最終預測,這種方式以尺度無關的方式聚合來自多個層次的特征,忽視了特征層次與頭部尺度之間的內在對應關系。這種特征聚合方式可能導致不同尺度的特征相互抑制,因為在所有尺度上精確計算同一個物體極具挑戰(zhàn)性。
10、綜上所述,現有的人群計數方法在應對人群尺度變化時仍顯不足。因此,進一步優(yōu)化解決人群尺度變化問題的方案,對于提升人群計數算法的性能至關重要。
技術實現思路
1、人群尺度的顯著變化是制約人群計數算法性能的最為重要的因素。在不同場景中,無論是由于攝像機位置的不同,還是在同一環(huán)境內攝像機角度的自然變動,都會導致圖像中目標人群與攝像機之間的距離產生差異,進而引發(fā)圖像中的透視效應。具體來說,靠近攝像機的行人會顯得更大,包含更多的人群細節(jié)特征;而遠離攝像機的行人則會顯得更小,其信息豐富度大大降低。這種信息量的不均衡性使得在同一圖像中準確識別不同尺度的人群變得異常困難。
2、針對現有的人群計數方法在應對人群尺度變化時存在的不足,本發(fā)明提供一種基于尺度注意力的人群計數方法,對傳統(tǒng)的多分支卷積神經網絡在結構上進行改進,通過探索不同特征層次與不同行人頭部尺度之間的內在聯(lián)系,以充分利用和整合不同特征級別下的尺度感知能力,從而最終能夠適應密集人群場景下復雜多變的人頭尺度變化,并生成高質量的人群密度圖,實現準確的人群計數。
3、為解決上述技術問題,本發(fā)明采用如下技術方案:
4、一種基于尺度注意力的人群計數方法,所采用的人群計數模型包括特征提取模塊、尺度注意力模塊、特征融合模塊以及密度圖生成模塊;所述人群計數方法包括以下步驟:
5、步驟一:將hrnet網絡作為特征提取模塊,對輸入的圖像進行特征提取,從而獲取多尺度級別的分辨率層下的特征,即多尺度級別特征;
6、步驟二,將多尺度級別特征經過尺度注意力模塊和特征融合模塊:從低尺度級別至高尺度級別的各個分辨率層上,將當前尺度級別的第一融合特征輸入到尺度注意力模塊,將第一融合特征解耦成與當前尺度級別相關性高于設定條件的尺度強相關特征、與當前尺度級別相關性弱于設定條件的尺度弱相關特征;然后將當前尺度級別對應的尺度強相關特征和上一個尺度級別的分辨率層下的特征輸入到特征融合模塊進行特征融合,得到上一個尺度級別的第二融合特征outi-1;將當前尺度級別對應的尺度強相關特征和尺度弱相關特征,以及上一個尺度級別的分辨率層下的特征輸入到特征融合模塊進行特征融合,得到上一個尺度級別的第一融合特征最終,在最高尺度級別分辨率層聚合并繼承來自各低尺度級別分辨率層的信息,以適應圖像中的人頭尺度的變化;
7、步驟三:在各個尺度級別的分辨率上,將第二融合特征輸入至密度圖生成模塊,以獲取不同尺度級別下的預測密度圖
8、步驟四:設計基于多專家思想的損失函數,對人群計數模型進行訓練:采用基于圖像塊的專家選擇策略,在各個分辨率層上自適應地選擇并學習不同的密度區(qū)域;在不同分辨率層的相應區(qū)域上,計算預測密度與真值密度二者之間的損失,最后通過對各分辨率層對應的損失進行加權求和,得到人群計數模型最終的損失函數,對人群計數模型進行訓練,得到完成訓練的人群計數模型;
9、步驟五:在推理階段,待預測的人群圖像經過預處理后,輸入至訓練好的人群計數模型;人群計數模型將在最高尺度級別分辨率層輸出預測密度圖,實現人群數量的預測。
10、進一步地,所述尺度注意力模塊包括強相關特征提取模塊、弱相關特征提取模塊和尺度特征解耦器;
11、多尺度級別特征記為n為分辨率層的尺度級別總數,fi為第i個尺度級別的分辨率層下的特征,從f0到fn-1的通道數依次加倍、空間分辨率依次減半,第i個尺度級別的分辨率層下的特征的空間分辨率表示為(hi,wi)=(h/2i+2,w/2i+2);h和w分別表示輸入的圖像的高度和寬度;
12、尺度特征解耦器包括三個卷積層,前兩個卷積層之后連接一個批歸一化層和relu激活函數層,最后一個卷積層用于縮減通道數縮,并通過softmax函數在通道維度上生成兩個注意力圖,分別記為第一注意力圖as和第二注意力圖aw;
13、強相關特征提取模塊和弱相關特征提取模塊均包括兩個卷積層以及相應的批歸一化層和relu激活函數層,第i個尺度級別的第一融合特征分別經過強相關特征提取模塊和弱相關特征提取模塊處理后,會被解耦成與第i個尺度級別相關性高于設定條件的強相關特征和與所述特定尺度級別相關性弱于設定條件的尺度弱相關特征;兩個注意力圖分別與尺度強相關特征和尺度弱相關特征進行矩陣點乘操作,得到第i個尺度級別最終的尺度強相關特征si和尺度弱相關特征wi:
14、
15、其中,表示強相關特征提取模塊,表示弱相關特征提取模塊,θs和θw分別為強相關特征提取模塊和弱相關特征提取模塊的可學習參數。
16、進一步地,特征融合模塊進行特征融合時,具體包括:
17、將第i個尺度級別的分辨率層下的特征fi解耦得到的尺度強相關特征si,與第i-1個尺度級別的分辨率層下的特征fi-1,輸入到特征融合模塊eff進行特征融合,得到第i-1個尺度級別的第二融合特征outi-1,輸入至密度圖生成模塊:
18、outi-1=eff{fi-1,si}
19、將第i個尺度級別的分辨率層下的特征fi解耦得到的尺度強相關特征si和尺度弱相關特征wi,與第i-1個尺度級別的分辨率層下的特征fi-1輸入到特征融合模塊進行特征融合,第i-1個尺度級別的第一融合特征
20、
21、其中,si+wi表示對si和wi進行逐元素相加。
22、進一步地,步驟三具體包括:
23、密度圖生成模塊包括兩個dysample上采樣器、上下文感知模塊和卷積操作;
24、第二融合特征outi-1依次經過dysample上采樣器、兩次卷積操作、dysample上采樣器、上下文感知模塊和兩次卷積操作,得到預測密度圖;
25、其中,上下文感知模塊通過多尺度觀察與加權融合機制,捕捉特征圖內不同區(qū)域間的關聯(lián),能夠增強特征圖的空間上下文信息;
26、密度圖生成模塊僅在最高尺度級別的分辨率層進行訓練,其他尺度級別的分辨率層均擁有副本,密度圖生成模塊的參數θc將在其他尺度級別的分辨率層保持凍結。
27、進一步地,步驟四具體包括:
28、定義二值掩膜mi,二值掩膜mi的像素值只取0或1,二值掩膜mi指示了當前分辨率層下最適合預測的區(qū)域;引入二值掩膜總和與mii存在以下關系:
29、
30、經過密度圖生成模塊后會輸出不同分辨率分支上的預測密度圖真值密度圖由固定大小的高斯核函數對點注釋進行映射而生成得到;所述點注釋是對圖像上的人頭的中心點的人工標注;即點注釋是點的標注,并不是檢測領域中的方框表征。
31、接下來,將不同尺度級別的分辨率層中的預測密度圖和真值密度圖均劃分成x×y個圖像塊,x、y分別表示在高度和寬度方向上進行劃分的數量:
32、
33、ph,pw均為固定值256,表示第i個尺度級別的分辨率層下的圖像塊的高度和寬度;
34、為了確定給定的圖像塊的最佳分辨率,定義成本計算公式,得到圖像塊最適配的分辨率層:
35、
36、labelmoe=arg?min(costx,y)
37、
38、其中,costx,y(i)記錄了不同尺度級別的分辨率層在x×y個圖像塊上的成本,第一項是某個尺度級別的分辨率層在圖像塊的(x,y)處的真值密度與預測密度之間的平均均方誤差,第二項是實例均方誤差,e是常數;labelmoe表示記錄了x×y個圖像塊各自的最佳分辨率的標簽;scatter(·)表示scatter函數,對labelmoe進行轉換,生成不同尺度級別的分辨率層的二值掩膜mi,并進一步計算出
39、在訓練過程中對不同尺度級別的分辨率層定義損失函數li,
40、
41、其中,led表示計算歐式距離,是密度圖生成模塊的輸出,即預測密度圖通過對不同尺度級別的分辨率層的損失函數進行加權,得到最終的損失函數l:
42、
43、n為分辨率層的尺度級別總數,λi是每個分辨率層的損失函數的權重。
44、與現有技術相比,本發(fā)明的有益技術效果是:
45、(1)考慮到了人頭尺度變化的連續(xù)性。
46、相較于最早的多列cnn模型(如mcnn網絡等),本發(fā)明并不采用多列且固定大小的卷積核來提取多尺度特征,而是采用hrnet-w48作為主干網絡,漸進式地獲得來自多個分辨率層的多尺度特征,充分考慮到了尺度變化的連續(xù)性,有助于后續(xù)對提取到的多尺度特征作進一步的細化處理。
47、(2)提高了生成的人群密度圖的質量,以實現更精準的人群計數。
48、相較于其他使用分層結構學習多尺度表示的網絡,本發(fā)明探索了不同特征層次與不同行人頭部尺度之間的內在聯(lián)系,通過將各分辨率層的特征進行解耦,使特定的特征級別更專注于其適合的尺度范圍內的預測。此外,該方法還充分利用并整合了不同特征層次的尺度感知能力,從而最終能夠適應密集人群場景下的人頭尺度變化,實現準確的人群計數。
49、(3)優(yōu)化了人群計數模型的訓練過程,增強了模型的魯棒性和泛化能力。
50、相較于許多采用單一損失函數的人群計數模型,本方法引入一種基于多專家思想的混合損失函數,對各個層級的密度圖學習過程進行約束,自適應地為各分辨率層選擇合適的預測區(qū)域,并在訓練過程中不斷優(yōu)化,確保模型性能的提升,以適應復雜多變的人頭尺度變化。