本發(fā)明屬于計算機視覺領(lǐng)域中的多人人體姿態(tài)估計任務(wù),是一種通過生成嵌入標(biāo)簽對圖像中的關(guān)鍵點進行分組的方法,尤其是指一種基于空間感知標(biāo)簽的人體姿態(tài)估計方法。
背景技術(shù):
1、多人人體姿態(tài)估計任務(wù)是計算機視覺中的一個重要分支,旨在從圖像中定位人體的關(guān)鍵點(如手部、頭部等),并推測出人體的姿態(tài)。該領(lǐng)域的研究具有廣泛的應(yīng)用前景,包括人體行為分析、人機交互、虛擬現(xiàn)實以及監(jiān)控系統(tǒng)等。尤其是在多人場景下,精確地識別和分組不同人體的關(guān)鍵點是一項極具挑戰(zhàn)的任務(wù)。有效地將每個人的關(guān)鍵點進行準確分組,成為多人姿態(tài)估計中的核心問題。
2、當(dāng)前的多人姿態(tài)估計任務(wù)主要分為兩種方法:自頂向下方法和自底向上方法。自頂向下方法首先通過人體檢測器檢測人物實例,接著對每個檢測到的實例進行關(guān)鍵點檢測。與之相比,自底向上方法首先檢測所有關(guān)鍵點,然后將這些關(guān)鍵點分組到不同的人物身上。當(dāng)前在實際應(yīng)用中,使用自底向上方法往往在實時性和準確性上都能取得更加令人滿意的結(jié)果。
3、如何對得到的關(guān)鍵點進行分組是使用自底向上方法時面臨的主要問題?;诓课粓龅姆椒ㄍㄟ^人物的關(guān)節(jié)信息來判別關(guān)鍵點間的距離進行分組。中心回歸的方法用人物的中心點來表示目標(biāo),并通過該點估計相對于中心的偏移量進行分組。生成嵌入標(biāo)簽associative?embedding(ae)方法為每個關(guān)鍵點預(yù)測一個標(biāo)簽,之后通過分組算法通過得到的標(biāo)簽將關(guān)鍵點分配給不同的人物目標(biāo)。具體而言,ae方法通過訓(xùn)練使得同一人物目標(biāo)的關(guān)鍵點標(biāo)簽值相似,而不同目標(biāo)的標(biāo)簽值存在差異,從而實現(xiàn)關(guān)鍵點的準確分組。近年來,使用嵌入標(biāo)簽的方法在人體姿態(tài)估計任務(wù)中應(yīng)用非常廣泛,在各個數(shù)據(jù)集上都取得了優(yōu)秀的成果。
4、盡管基于嵌入標(biāo)簽的方法在一些數(shù)據(jù)集上取得了卓越的成果,但是該方法在一些復(fù)雜的場景中仍然會遭遇精度下降的問題,這是因為ae方法隨機生成的嵌入標(biāo)簽無法保留圖像的空間信息,難以在復(fù)雜場景下通過空間特征信息輔助關(guān)鍵點分組。為了解決這一問題,本發(fā)明提出了一種基于空間感知標(biāo)簽的人體姿態(tài)估計方法,旨在通過在生成的嵌入標(biāo)簽中加入空間信息并加以保留的方式,使得模型能夠得到圖像的空間特征信息,從而提高姿態(tài)估計結(jié)果的精度。
技術(shù)實現(xiàn)思路
1、本發(fā)明提出了一種基于空間感知標(biāo)簽的人體姿態(tài)估計方法。通過生成初始標(biāo)簽和坐標(biāo)編碼的方法,使得生成的嵌入標(biāo)簽保留了圖像的空間信息,并通過改進損失函數(shù),使得在訓(xùn)練過程中保留空間信息的同時完成關(guān)鍵點的分組任務(wù),而且在higherhrnet網(wǎng)絡(luò)上驗證了其有效性,提高了姿態(tài)估計的準確率。
2、本發(fā)明使用的技術(shù)方案包括了以下的步驟:
3、步驟1,初始嵌入標(biāo)簽的生成。為了在嵌入標(biāo)簽中保留人體關(guān)鍵點的空間結(jié)構(gòu)信息,本發(fā)明在模型訓(xùn)練前為每個關(guān)鍵點分配初始的嵌入標(biāo)簽值。這些標(biāo)簽值按照人體不同部位的空間分布進行分配,以確保在初始化時,同一部位的關(guān)鍵點標(biāo)簽值更為相似。這一初始化步驟為后續(xù)的標(biāo)簽學(xué)習(xí)奠定了基礎(chǔ),使模型能夠在訓(xùn)練過程中更好地保留人體姿態(tài)的空間一致性。本發(fā)明將人物目標(biāo)劃分為頭部、軀干、左臂、右臂、左腿、右腿六個不同的部位,并為每個部位分配一個一定范圍內(nèi)的標(biāo)簽值,這些標(biāo)簽值通過給定的中心值加上一個隨機擾動數(shù)值的方式生成,如式(1)所示:
4、t+∈(1)
5、其中t是本文設(shè)定的關(guān)節(jié)點的取值中心點,∈表示數(shù)值極小的隨機擾動,以免生成完全相同的標(biāo)簽值影響訓(xùn)練的結(jié)果。各個部位的具體取值范圍如表1所示。
6、 部位 頭部 軀干 左臂 右臂 左腿 右腿 取值范圍 [-5-3] [-3,-1] [-1,1] [1,3] [3,5] [5,7]
7、表1
8、步驟2,坐標(biāo)編碼的引入。為了進一步增強模型對空間信息的捕捉,本發(fā)明在每個關(guān)鍵點的嵌入標(biāo)簽中加入坐標(biāo)編碼。具體來說,先將圖像中的關(guān)鍵點坐標(biāo)進行歸一化處理,如式(2)所示:
9、
10、其中x和y是關(guān)鍵點的橫縱坐標(biāo),w和h分別為圖像的寬度和高度。
11、接下來定義相對位置編碼,以反應(yīng)關(guān)鍵點與圖像中心點的相對距離。假設(shè)圖像的中心點歸一化之后的坐標(biāo)是(xc,yc),關(guān)鍵點歸一化之后的坐標(biāo)是(xk,yk),則關(guān)鍵點相對中心點的坐標(biāo)差值如式(3)所示:
12、δx=xk-xc,?δy=y(tǒng)k-yc?(3)
13、將得到的兩個坐標(biāo)差值以及之前步驟1得到的初始化標(biāo)簽值放入一個向量中,就可以得到一個維度為3的嵌入標(biāo)簽,這就是將圖像空間信息與嵌入標(biāo)簽相結(jié)合之后生成的新的多維標(biāo)簽。通過坐標(biāo)編碼使得標(biāo)簽不僅包含空間信息,還能夠直接反映出關(guān)鍵點在圖像中的位置分布,增強了模型對空間關(guān)系的敏感度。
14、步驟3,關(guān)鍵點分組。ae方法通過訓(xùn)練,使同一人體的關(guān)鍵點標(biāo)簽值盡可能相似,而不同人體的關(guān)鍵點標(biāo)簽的距離則相對分離。在這種標(biāo)簽相似性原則下,使用匈牙利算法通過最小化總匹配成本,完成了關(guān)鍵點分組的任務(wù)。本發(fā)明在繼承ae方法思想的基礎(chǔ)上,通過初始嵌入標(biāo)簽的設(shè)置使得標(biāo)簽值更具空間結(jié)構(gòu)信息,并引入坐標(biāo)編碼方法使標(biāo)簽不僅包含標(biāo)簽的相似性,還額外編碼了關(guān)鍵點的位置信息。
15、因此,盡管本發(fā)明對嵌入標(biāo)簽進行了改進,由于標(biāo)簽依然保留了明確的相似性和空間信息,這種結(jié)構(gòu)使得匈牙利算法在關(guān)鍵點分組任務(wù)中仍然適用。匈牙利算法可以繼續(xù)通過最小化匹配成本,根據(jù)改進后的嵌入標(biāo)簽對關(guān)鍵點進行分組,從而正確地識別出每個人物目標(biāo)的姿態(tài)。最終,本發(fā)明通過匈牙利算法成功地將關(guān)鍵點進行分組。
16、步驟4,設(shè)計損失函數(shù)。本發(fā)明設(shè)計的損失函數(shù)由兩部分組成,第一部分是相似性損失,確保同一人物的關(guān)鍵點標(biāo)簽盡可能相似,第二部是空間損失,保留初始嵌入標(biāo)簽中的空間信息,防止訓(xùn)練過程中標(biāo)簽的空間一致性丟失。則損失函數(shù)可以表示為式(4):
17、lg=?λ1?lx+λ2lk?(4)
18、lk表示標(biāo)簽的空間損失,這一部分的損失函數(shù)的目的是維持初始嵌入標(biāo)簽中的空間信息,并使得相鄰關(guān)鍵點的相對位置關(guān)系保持不變,該損失函數(shù)保證了訓(xùn)練后的標(biāo)簽?zāi)軌虮硎緢D像的空間信息。lk的表達式如式(5)所示:
19、
20、其中,i和j代表不同的關(guān)鍵點的編號,ei和ej表示關(guān)鍵點的標(biāo)簽值,pi和pj表示關(guān)鍵點在圖像中的坐標(biāo),n表示檢測關(guān)鍵點的數(shù)量。
21、lx是標(biāo)簽的相似損失,該損失函數(shù)能夠最小化同一人物目標(biāo)的不同關(guān)鍵點之間嵌入標(biāo)簽的差異,確保模型能在訓(xùn)練時將同一人物目標(biāo)的關(guān)鍵點聚合在一起。lx的表達式如式(6)所示:
22、
23、其中,n表示實例的數(shù)量,k表示關(guān)鍵點的類型數(shù)量,{n,k}表示第n個人物目標(biāo)的第k個關(guān)鍵點,cn,k表示對應(yīng)關(guān)鍵點的坐標(biāo),m表示嵌入標(biāo)簽的維度,本發(fā)明中標(biāo)簽的維度固定為3。
24、λ1和λ2是超參數(shù)。在實際訓(xùn)練時,ae方法將λ1設(shè)為1e-3,本發(fā)明為了保證實驗的可對比性,同樣將λ1設(shè)為1e-3。而關(guān)于超參數(shù)λ2,考慮到較小的權(quán)重值能夠確保模型適度關(guān)注空間損失,同時基于實驗的考量,本發(fā)明將λ2設(shè)置為1e-4。
25、本發(fā)明和現(xiàn)有技術(shù)對比,有以下的優(yōu)點和改進之處:
26、1.在傳統(tǒng)的ae方法中,初始嵌入標(biāo)簽是隨機生成的,后續(xù)通過訓(xùn)練來逐步優(yōu)化。而本發(fā)明的方法通過有意識地設(shè)計初始嵌入標(biāo)簽,將人體關(guān)節(jié)點的空間信息直接編碼進標(biāo)簽中,使得同一部位的關(guān)鍵點更容易被識別和分組。這種空間信息的加入使得模型在學(xué)習(xí)過程中更具物理約束,從而提高了分組的準確性。
27、2.本發(fā)明的方法在初始嵌入標(biāo)簽的基礎(chǔ)上進一步引入了坐標(biāo)編碼。通過將關(guān)節(jié)點的坐標(biāo)信息直接編碼到標(biāo)簽中,使得嵌入標(biāo)簽不僅僅依賴于標(biāo)簽的相似性,還包含了位置信息。這種多維標(biāo)簽的設(shè)計增加了模型學(xué)習(xí)的豐富性,減少了過擬合的風(fēng)險,并保留了更為精細的空間結(jié)構(gòu)信息。
28、3.本發(fā)明設(shè)計了專門的空間損失函數(shù),確保在訓(xùn)練過程中初始嵌入標(biāo)簽中編碼的空間信息能夠被保留下來。這一損失函數(shù)通過衡量模型輸出的嵌入標(biāo)簽與初始空間結(jié)構(gòu)之間的偏差,確保同一人體的關(guān)鍵點在空間上保持一致性,進一步增強了模型的空間結(jié)構(gòu)感知能力。