本發(fā)明涉及基于深度神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺(jué)領(lǐng)域,具體而言,是一種輕量化的人體姿態(tài)估計(jì)方法。
背景技術(shù):
1、人體姿態(tài)估計(jì)目的在于從輸入的圖像中同時(shí)檢測(cè)到每個(gè)人體的關(guān)鍵點(diǎn),是很多計(jì)算機(jī)視覺(jué)任務(wù)的前置技術(shù),例如人體動(dòng)作/活動(dòng)識(shí)別,虛擬動(dòng)畫(huà)建模,人體姿態(tài)跟蹤及運(yùn)動(dòng)分析等。在實(shí)際應(yīng)用中,這些任務(wù)經(jīng)常需要部署在資源受限的設(shè)備上。因此,高性能的輕量化人體姿態(tài)估計(jì)模型研究已經(jīng)成為該領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。這些模型不僅需要保持高精度的姿態(tài)估計(jì)能力,同時(shí)還要減少計(jì)算資源的消耗,以適應(yīng)資源受限終端環(huán)境的限制。
2、近年來(lái),隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人體姿態(tài)估計(jì)取得了重大進(jìn)展。由于人體關(guān)鍵點(diǎn)較小且對(duì)位置極為敏感,人們提出了一些高分辨率的卷積網(wǎng)絡(luò)來(lái)提高人類(lèi)關(guān)鍵點(diǎn)檢測(cè)的預(yù)測(cè)精度。當(dāng)前,自上而下的多人姿態(tài)估計(jì)輕量化方法大多基于多分支并行網(wǎng)絡(luò)架構(gòu)。以高分辨率并行網(wǎng)絡(luò)(hrnet)為代表的多分支結(jié)構(gòu),可以聯(lián)合多尺度特征獲取局部和全局信息,在自上而下人體姿態(tài)估計(jì)任務(wù)中取得了顯著的性能。因此,受hrnet的啟發(fā),目前的許多輕量級(jí)的方法都采用了多分支架構(gòu),并在此基礎(chǔ)上進(jìn)行輕量化研究。但這些模型采用的多分辨率并行結(jié)構(gòu)帶來(lái)的多分支頻繁上下采樣融合操作和大量的1x1卷積,使其網(wǎng)絡(luò)仍具有較高的延遲。同時(shí),這些輕量化方法都是基于純cnn構(gòu)建,由于網(wǎng)絡(luò)體量和卷積核固有缺陷的問(wèn)題,限制了模型獲取全局信息的能力,導(dǎo)致場(chǎng)景中語(yǔ)義復(fù)雜的關(guān)鍵點(diǎn)易識(shí)別不出或者定位錯(cuò)誤。
3、近年來(lái),transformer架構(gòu)由于其優(yōu)秀的全局學(xué)習(xí)表示能力,被應(yīng)用于人體姿態(tài)估計(jì)方法中,具有顯著的關(guān)鍵點(diǎn)檢測(cè)能力。部分模型將transformer與cnn組合起來(lái),利用cnn的位置敏感性和transformer的全局信息交互能力,實(shí)現(xiàn)姿態(tài)估計(jì)的更強(qiáng)表達(dá)。然而,transformer計(jì)算成本高昂,使得這些方法難以直接應(yīng)用于資源受限的場(chǎng)景。mobilevit采用將特征圖劃分patch和對(duì)不同patch進(jìn)行注意力計(jì)算,從而設(shè)計(jì)了輕量化的注意力模型。但是,mobilevit中用于提取全局信息的transformer部分仍然占據(jù)了相當(dāng)大的計(jì)算成本。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服純cnn多分支架構(gòu)中計(jì)算冗余,全局信息獲取不足以及transformer計(jì)算昂貴的問(wèn)題。通過(guò)合理設(shè)計(jì)近似單分支架構(gòu)和卷積融合模塊來(lái)減輕計(jì)算冗余,降低延遲。并通過(guò)設(shè)計(jì)的全局信息交互模塊來(lái)獲取特征長(zhǎng)遠(yuǎn)距離信息,在比使用transformer達(dá)到更好性能的基礎(chǔ)上實(shí)現(xiàn)計(jì)算參數(shù)的大幅下降。從而實(shí)現(xiàn)精度更高,延遲更低的人體姿態(tài)估計(jì)。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
2、一種輕量化的人體姿態(tài)估計(jì)方法,包括如下步驟:
3、s1:構(gòu)建人體姿態(tài)估計(jì)模型,所述模型包括依次連接的初始特征提取模塊,全局特征提取模塊,高分辨率特征圖生成模塊,生成關(guān)鍵點(diǎn)熱圖模塊;
4、所述初始特征提取模塊用于對(duì)輸入的圖像進(jìn)行初始特征提取,提取淺層語(yǔ)義信息,并降低分辨率以便后續(xù)操作減少計(jì)算量;
5、所述全局特征提取模塊用于對(duì)經(jīng)過(guò)初始特征提取模塊后的圖像進(jìn)行深層語(yǔ)義信息提取,并獲得不同尺度的信息;
6、所述高分辨率特征圖生成模塊用于將低分辨率的特征圖生成高質(zhì)量高分辨率特征圖,以及聯(lián)合多尺度特征,便于進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè)
7、所述生成關(guān)鍵點(diǎn)熱圖模塊用于獲取到語(yǔ)義信息的特征圖生成關(guān)鍵點(diǎn)熱圖,進(jìn)行最終的姿態(tài)估計(jì)任務(wù);
8、s2:設(shè)置訓(xùn)練集和損失函數(shù)對(duì)所述人體姿態(tài)估計(jì)模型進(jìn)行訓(xùn)練;
9、s3:將包含人體的待估計(jì)圖像輸入訓(xùn)練好的人體姿態(tài)估計(jì)模型,得到人體關(guān)鍵點(diǎn)的熱圖。
10、進(jìn)一步的,所述初始特征提取模塊采用常規(guī)3x3卷積以及對(duì)移動(dòng)設(shè)備端友好mobilenetv2block進(jìn)行下采樣以及初始的特征提取;依次連接一個(gè)3x3卷積和4個(gè)mobilenetv2block。
11、進(jìn)一步的,所述mobilenetv2block對(duì)輸入特征圖先進(jìn)行1x1卷積升維,再對(duì)升維的特征圖進(jìn)行深度可分離卷積,最后在將提取的局部特征的特征圖降維,用于后續(xù)特征提取。
12、進(jìn)一步的,所述全局特征提取模塊先采用一個(gè)標(biāo)準(zhǔn)的3x3卷積對(duì)特征圖局部信息進(jìn)行編碼,后接一個(gè)1x1卷積學(xué)習(xí)輸入通道的線(xiàn)性組合將張量投影到高維空間;然后,將特征圖輸入到全局交互模塊中進(jìn)行全局建模;最后再將輸入特征與進(jìn)行全局建模后并經(jīng)過(guò)1x1卷積降維后的特征進(jìn)行卷積融合。
13、進(jìn)一步的,所述全局交互模塊將特征圖rh?x?w?x?d將展開(kāi)為n個(gè)不重疊的扁平面rpx?n?x?d;
14、其中,p=wh,n=hw/p是補(bǔ)丁的數(shù)量,并且h≤n,w≤n分別是patch的高度和寬度;然后將rp?x?n?x?d轉(zhuǎn)換為rp?x?dx?n,輸入到mlpblock中,這時(shí)的輸入維度是n;mlpblock可以對(duì)不同patch同一位置的像素進(jìn)行融合得到張量rp?x?dx?n,從而得到全局交互信息;
15、所述mlpblock是一個(gè)雙層感知機(jī),公式如下
16、xu→layernorm→linear→gelu→linear→xg
17、第一個(gè)線(xiàn)性層是將輸入映射到高維空間,增強(qiáng)非線(xiàn)性表達(dá),第二個(gè)線(xiàn)性層是將再將高維信息映射到原始維度。
18、進(jìn)一步的,所述全局交互模塊其中涉及到無(wú)參數(shù)維度變換部分;其中包括第一次變換是將特征圖劃分為patch得到rp?x?n?x?d,將每個(gè)patch展平為(1,n),豎直排列起來(lái),這時(shí)的特征圖維度為rp?x?dx?n;在進(jìn)行特征融合時(shí)就以n為輸入進(jìn)行非線(xiàn)性變換,代表將不同patch同一位置的像素作為輸入;第二次維度變換是將rp?x?dx?n向上翻轉(zhuǎn)得到特征圖rn?x?dxp,這時(shí)輸入到mlpblock模塊進(jìn)行信息交互的是同一patch間的不同像素點(diǎn);第三次是將信息融合后的特征圖折疊回最開(kāi)始的特征圖,進(jìn)行下一階段的特征提取。
19、進(jìn)一步的,所述高分辨率特征圖生成模塊對(duì)低分辨率特征圖使用反卷積上采樣,增大分辨率;并且通過(guò)卷積融合模塊對(duì)同分辨率的特征圖進(jìn)行融合;得到最后的高質(zhì)量特征圖。
20、進(jìn)一步的,所述卷積融合模塊對(duì)于反卷積后的特征圖,將其與特征提取階段的同分辨率特征圖拼接后,進(jìn)行一個(gè)shuffle操作,再接一個(gè)分組卷積,最后接一個(gè)1x1卷積調(diào)整通道。
21、進(jìn)一步的,使用mse損失函數(shù)對(duì)所述人體姿態(tài)估計(jì)模型進(jìn)行訓(xùn)練,損失函數(shù)表達(dá)式如下:
22、
23、其中,yij是真實(shí)關(guān)鍵點(diǎn)的熱圖,xij是模型預(yù)測(cè)的關(guān)鍵點(diǎn)熱圖,n是樣本數(shù)量,k是關(guān)鍵點(diǎn)的數(shù)量,||·||表示歐幾里德范數(shù)。
24、本發(fā)明提供了一種輕量化的人體姿態(tài)估計(jì)算法,與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
25、1、本發(fā)明提出了一個(gè)輕量化的名為lgm-posenet的全局建模網(wǎng)絡(luò)用于多人姿態(tài)估計(jì)。該網(wǎng)絡(luò)能夠以簡(jiǎn)單的結(jié)構(gòu)獲取多尺度和全局信息,獲得精準(zhǔn)的關(guān)鍵點(diǎn)定位并擁有低延遲,在當(dāng)前代表性模型中獲得了最好性能。
26、2、本發(fā)明設(shè)計(jì)的全局交互模塊,它有效地建立了遠(yuǎn)程依賴(lài)關(guān)系并捕獲了全局信息,從而提高了準(zhǔn)確定位復(fù)雜關(guān)鍵點(diǎn)的能力,并使用簡(jiǎn)單輕量化的方法,可以有效應(yīng)對(duì)資源有限的邊緣設(shè)備,進(jìn)行實(shí)時(shí)的人體姿態(tài)估計(jì)任務(wù)。
27、說(shuō)明書(shū)附圖
28、圖1為本發(fā)明的流程圖;
29、圖2為本發(fā)明的模型結(jié)構(gòu)圖;
30、圖3為本發(fā)明的全局特征提取模塊結(jié)構(gòu)圖;
31、圖4為本發(fā)明的卷積融合模塊結(jié)構(gòu)圖;
32、圖5為本發(fā)明的結(jié)論示意圖。