一種輕量化的人體姿態(tài)估計(jì)方法

文檔序號(hào)：40577806發(fā)布日期：2025-01-07 20:17閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及基于深度神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺(jué)領(lǐng)域，具體而言，是一種輕量化的人體姿態(tài)估計(jì)方法。

背景技術(shù)：

1、人體姿態(tài)估計(jì)目的在于從輸入的圖像中同時(shí)檢測(cè)到每個(gè)人體的關(guān)鍵點(diǎn)，是很多計(jì)算機(jī)視覺(jué)任務(wù)的前置技術(shù)，例如人體動(dòng)作/活動(dòng)識(shí)別，虛擬動(dòng)畫(huà)建模，人體姿態(tài)跟蹤及運(yùn)動(dòng)分析等。在實(shí)際應(yīng)用中，這些任務(wù)經(jīng)常需要部署在資源受限的設(shè)備上。因此，高性能的輕量化人體姿態(tài)估計(jì)模型研究已經(jīng)成為該領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。這些模型不僅需要保持高精度的姿態(tài)估計(jì)能力，同時(shí)還要減少計(jì)算資源的消耗，以適應(yīng)資源受限終端環(huán)境的限制。

2、近年來(lái)，隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展，人體姿態(tài)估計(jì)取得了重大進(jìn)展。由于人體關(guān)鍵點(diǎn)較小且對(duì)位置極為敏感，人們提出了一些高分辨率的卷積網(wǎng)絡(luò)來(lái)提高人類(lèi)關(guān)鍵點(diǎn)檢測(cè)的預(yù)測(cè)精度。當(dāng)前，自上而下的多人姿態(tài)估計(jì)輕量化方法大多基于多分支并行網(wǎng)絡(luò)架構(gòu)。以高分辨率并行網(wǎng)絡(luò)(hrnet)為代表的多分支結(jié)構(gòu)，可以聯(lián)合多尺度特征獲取局部和全局信息，在自上而下人體姿態(tài)估計(jì)任務(wù)中取得了顯著的性能。因此，受hrnet的啟發(fā)，目前的許多輕量級(jí)的方法都采用了多分支架構(gòu)，并在此基礎(chǔ)上進(jìn)行輕量化研究。但這些模型采用的多分辨率并行結(jié)構(gòu)帶來(lái)的多分支頻繁上下采樣融合操作和大量的1x1卷積，使其網(wǎng)絡(luò)仍具有較高的延遲。同時(shí)，這些輕量化方法都是基于純cnn構(gòu)建，由于網(wǎng)絡(luò)體量和卷積核固有缺陷的問(wèn)題，限制了模型獲取全局信息的能力，導(dǎo)致場(chǎng)景中語(yǔ)義復(fù)雜的關(guān)鍵點(diǎn)易識(shí)別不出或者定位錯(cuò)誤。

3、近年來(lái)，transformer架構(gòu)由于其優(yōu)秀的全局學(xué)習(xí)表示能力,被應(yīng)用于人體姿態(tài)估計(jì)方法中，具有顯著的關(guān)鍵點(diǎn)檢測(cè)能力。部分模型將transformer與cnn組合起來(lái)，利用cnn的位置敏感性和transformer的全局信息交互能力，實(shí)現(xiàn)姿態(tài)估計(jì)的更強(qiáng)表達(dá)。然而，transformer計(jì)算成本高昂，使得這些方法難以直接應(yīng)用于資源受限的場(chǎng)景。mobilevit采用將特征圖劃分patch和對(duì)不同patch進(jìn)行注意力計(jì)算，從而設(shè)計(jì)了輕量化的注意力模型。但是，mobilevit中用于提取全局信息的transformer部分仍然占據(jù)了相當(dāng)大的計(jì)算成本。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于克服純cnn多分支架構(gòu)中計(jì)算冗余，全局信息獲取不足以及transformer計(jì)算昂貴的問(wèn)題。通過(guò)合理設(shè)計(jì)近似單分支架構(gòu)和卷積融合模塊來(lái)減輕計(jì)算冗余，降低延遲。并通過(guò)設(shè)計(jì)的全局信息交互模塊來(lái)獲取特征長(zhǎng)遠(yuǎn)距離信息，在比使用transformer達(dá)到更好性能的基礎(chǔ)上實(shí)現(xiàn)計(jì)算參數(shù)的大幅下降。從而實(shí)現(xiàn)精度更高，延遲更低的人體姿態(tài)估計(jì)。為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明提供了以下技術(shù)方案：

2、一種輕量化的人體姿態(tài)估計(jì)方法，包括如下步驟：

3、s1:構(gòu)建人體姿態(tài)估計(jì)模型，所述模型包括依次連接的初始特征提取模塊，全局特征提取模塊，高分辨率特征圖生成模塊，生成關(guān)鍵點(diǎn)熱圖模塊；

4、所述初始特征提取模塊用于對(duì)輸入的圖像進(jìn)行初始特征提取，提取淺層語(yǔ)義信息，并降低分辨率以便后續(xù)操作減少計(jì)算量；

5、所述全局特征提取模塊用于對(duì)經(jīng)過(guò)初始特征提取模塊后的圖像進(jìn)行深層語(yǔ)義信息提取，并獲得不同尺度的信息；

6、所述高分辨率特征圖生成模塊用于將低分辨率的特征圖生成高質(zhì)量高分辨率特征圖，以及聯(lián)合多尺度特征，便于進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè)

7、所述生成關(guān)鍵點(diǎn)熱圖模塊用于獲取到語(yǔ)義信息的特征圖生成關(guān)鍵點(diǎn)熱圖，進(jìn)行最終的姿態(tài)估計(jì)任務(wù)；

8、s2:設(shè)置訓(xùn)練集和損失函數(shù)對(duì)所述人體姿態(tài)估計(jì)模型進(jìn)行訓(xùn)練；

9、s3:將包含人體的待估計(jì)圖像輸入訓(xùn)練好的人體姿態(tài)估計(jì)模型，得到人體關(guān)鍵點(diǎn)的熱圖。

10、進(jìn)一步的，所述初始特征提取模塊采用常規(guī)3x3卷積以及對(duì)移動(dòng)設(shè)備端友好mobilenetv2block進(jìn)行下采樣以及初始的特征提取；依次連接一個(gè)3x3卷積和4個(gè)mobilenetv2block。

11、進(jìn)一步的，所述mobilenetv2block對(duì)輸入特征圖先進(jìn)行1x1卷積升維，再對(duì)升維的特征圖進(jìn)行深度可分離卷積，最后在將提取的局部特征的特征圖降維，用于后續(xù)特征提取。

12、進(jìn)一步的，所述全局特征提取模塊先采用一個(gè)標(biāo)準(zhǔn)的3x3卷積對(duì)特征圖局部信息進(jìn)行編碼，后接一個(gè)1x1卷積學(xué)習(xí)輸入通道的線(xiàn)性組合將張量投影到高維空間；然后，將特征圖輸入到全局交互模塊中進(jìn)行全局建模；最后再將輸入特征與進(jìn)行全局建模后并經(jīng)過(guò)1x1卷積降維后的特征進(jìn)行卷積融合。

13、進(jìn)一步的，所述全局交互模塊將特征圖rh?x?w?x?d將展開(kāi)為n個(gè)不重疊的扁平面rpx?n?x?d；

14、其中，p＝wh，n＝hw/p是補(bǔ)丁的數(shù)量，并且h≤n,w≤n分別是patch的高度和寬度；然后將rp?x?n?x?d轉(zhuǎn)換為rp?x?dx?n，輸入到mlpblock中，這時(shí)的輸入維度是n；mlpblock可以對(duì)不同patch同一位置的像素進(jìn)行融合得到張量rp?x?dx?n，從而得到全局交互信息；

15、所述mlpblock是一個(gè)雙層感知機(jī)，公式如下

16、xu→layernorm→linear→gelu→linear→xg

17、第一個(gè)線(xiàn)性層是將輸入映射到高維空間，增強(qiáng)非線(xiàn)性表達(dá)，第二個(gè)線(xiàn)性層是將再將高維信息映射到原始維度。

18、進(jìn)一步的，所述全局交互模塊其中涉及到無(wú)參數(shù)維度變換部分；其中包括第一次變換是將特征圖劃分為patch得到rp?x?n?x?d，將每個(gè)patch展平為(1，n)，豎直排列起來(lái)，這時(shí)的特征圖維度為rp?x?dx?n；在進(jìn)行特征融合時(shí)就以n為輸入進(jìn)行非線(xiàn)性變換，代表將不同patch同一位置的像素作為輸入；第二次維度變換是將rp?x?dx?n向上翻轉(zhuǎn)得到特征圖rn?x?dxp，這時(shí)輸入到mlpblock模塊進(jìn)行信息交互的是同一patch間的不同像素點(diǎn)；第三次是將信息融合后的特征圖折疊回最開(kāi)始的特征圖，進(jìn)行下一階段的特征提取。

19、進(jìn)一步的，所述高分辨率特征圖生成模塊對(duì)低分辨率特征圖使用反卷積上采樣，增大分辨率；并且通過(guò)卷積融合模塊對(duì)同分辨率的特征圖進(jìn)行融合；得到最后的高質(zhì)量特征圖。

20、進(jìn)一步的，所述卷積融合模塊對(duì)于反卷積后的特征圖，將其與特征提取階段的同分辨率特征圖拼接后，進(jìn)行一個(gè)shuffle操作，再接一個(gè)分組卷積，最后接一個(gè)1x1卷積調(diào)整通道。

21、進(jìn)一步的，使用mse損失函數(shù)對(duì)所述人體姿態(tài)估計(jì)模型進(jìn)行訓(xùn)練，損失函數(shù)表達(dá)式如下：

22、

23、其中，yij是真實(shí)關(guān)鍵點(diǎn)的熱圖，xij是模型預(yù)測(cè)的關(guān)鍵點(diǎn)熱圖，n是樣本數(shù)量，k是關(guān)鍵點(diǎn)的數(shù)量，||·||表示歐幾里德范數(shù)。

24、本發(fā)明提供了一種輕量化的人體姿態(tài)估計(jì)算法，與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

25、1、本發(fā)明提出了一個(gè)輕量化的名為lgm-posenet的全局建模網(wǎng)絡(luò)用于多人姿態(tài)估計(jì)。該網(wǎng)絡(luò)能夠以簡(jiǎn)單的結(jié)構(gòu)獲取多尺度和全局信息，獲得精準(zhǔn)的關(guān)鍵點(diǎn)定位并擁有低延遲，在當(dāng)前代表性模型中獲得了最好性能。

26、2、本發(fā)明設(shè)計(jì)的全局交互模塊，它有效地建立了遠(yuǎn)程依賴(lài)關(guān)系并捕獲了全局信息，從而提高了準(zhǔn)確定位復(fù)雜關(guān)鍵點(diǎn)的能力，并使用簡(jiǎn)單輕量化的方法，可以有效應(yīng)對(duì)資源有限的邊緣設(shè)備，進(jìn)行實(shí)時(shí)的人體姿態(tài)估計(jì)任務(wù)。

27、說(shuō)明書(shū)附圖

28、圖1為本發(fā)明的流程圖；

29、圖2為本發(fā)明的模型結(jié)構(gòu)圖；

30、圖3為本發(fā)明的全局特征提取模塊結(jié)構(gòu)圖；

31、圖4為本發(fā)明的卷積融合模塊結(jié)構(gòu)圖；

32、圖5為本發(fā)明的結(jié)論示意圖。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭標(biāo),郭方敏,羅笑南
技術(shù)所有人：桂林電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！