本發(fā)明涉及人工智能,具體而言,涉及一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在當(dāng)今數(shù)字化時(shí)代,動(dòng)作識(shí)別在眾多領(lǐng)域具有重要意義,如安防監(jiān)控、智能人機(jī)交互、體育運(yùn)動(dòng)分析等。傳統(tǒng)的動(dòng)作識(shí)別方法往往存在局限性,例如僅依賴單一特征進(jìn)行識(shí)別,導(dǎo)致準(zhǔn)確性不足。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)。
2、第一方面,本發(fā)明實(shí)施例提供一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別方法,包括:
3、獲取待測(cè)圖片,并將所述待測(cè)圖片輸入預(yù)先訓(xùn)練的人體識(shí)別模型,得到人體位置區(qū)域;
4、調(diào)用預(yù)先訓(xùn)練的動(dòng)作自編碼模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作語(yǔ)義特征;
5、調(diào)用預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作結(jié)構(gòu)特征;
6、從預(yù)先設(shè)置的基準(zhǔn)特征庫(kù)中獲取多個(gè)基準(zhǔn)圖片對(duì)應(yīng)的基準(zhǔn)動(dòng)作語(yǔ)義特征和基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,每個(gè)所述基準(zhǔn)圖片均標(biāo)記了對(duì)應(yīng)的基準(zhǔn)動(dòng)作類別;
7、根據(jù)多個(gè)所述基準(zhǔn)動(dòng)作語(yǔ)義特征和多個(gè)所述基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,對(duì)所述待測(cè)動(dòng)作語(yǔ)義特征和所述待測(cè)動(dòng)作結(jié)構(gòu)特征進(jìn)行特征匹配,確定出匹配程度最高的目標(biāo)基準(zhǔn)圖片,并將所述目標(biāo)基準(zhǔn)圖片對(duì)應(yīng)的目標(biāo)基準(zhǔn)動(dòng)作類別作為所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果。
8、在一種可能的實(shí)施方式中,所述動(dòng)作自編碼模型通過(guò)以下方式獲取,包括:
9、構(gòu)建初始動(dòng)作自編碼模型,所述初始動(dòng)作自編碼模型包括級(jí)聯(lián)的五個(gè)下采樣組件和五個(gè)上采樣組件,所述下采樣組件為conv-bn-prelu-conv-bn-prelu結(jié)構(gòu),所述上采樣組件為deconv-bn-prelu-deconv-bn-prelu結(jié)構(gòu),每個(gè)所述下采樣組件和每個(gè)所述上采樣組件均配置有通道注意力組件,所述通道注意組件包括全局池化層、全連接層以及歸一化層;
10、基于無(wú)監(jiān)督機(jī)制對(duì)所述初始動(dòng)作自編碼模型進(jìn)行訓(xùn)練,直至達(dá)到預(yù)設(shè)均方誤差損失函數(shù)訓(xùn)練終止條件,得到所述動(dòng)作自編碼模型。
11、在一種可能的實(shí)施方式中,所述調(diào)用預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作結(jié)構(gòu)特征,包括:
12、調(diào)用預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)模型對(duì)所述人體位置區(qū)域進(jìn)行關(guān)鍵點(diǎn)檢測(cè),得到多個(gè)人體關(guān)鍵點(diǎn)位置信息;
13、根據(jù)所述多個(gè)人體關(guān)鍵點(diǎn)位置信息,確定出對(duì)應(yīng)的鄰接矩陣和角度矩陣;
14、根據(jù)預(yù)設(shè)關(guān)鍵點(diǎn)權(quán)重、所述鄰接矩陣以及所述角度矩陣,計(jì)算得到所述待測(cè)動(dòng)作結(jié)構(gòu)特征。
15、在一種可能的實(shí)施方式中,所述根據(jù)預(yù)設(shè)關(guān)鍵點(diǎn)權(quán)重、所述鄰接矩陣以及所述角度矩陣,計(jì)算得到所述待測(cè)動(dòng)作結(jié)構(gòu)特征,包括:
16、根據(jù)公式:s2=an×ndn×nwn×n計(jì)算得到所述待測(cè)動(dòng)作結(jié)構(gòu)特征;
17、其中,s2為待測(cè)動(dòng)作結(jié)構(gòu)特征,an×n為鄰接矩陣,所述鄰接矩陣用于表征n個(gè)人體關(guān)鍵點(diǎn)之間的關(guān)系,dn×n為角度矩陣用于表征n個(gè)人體關(guān)鍵點(diǎn)兩兩之間連線的水平角度,wn×n為預(yù)設(shè)關(guān)鍵點(diǎn)權(quán)重。
18、在一種可能的實(shí)施方式中,所述根據(jù)多個(gè)所述基準(zhǔn)動(dòng)作語(yǔ)義特征和多個(gè)所述基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,對(duì)所述待測(cè)動(dòng)作語(yǔ)義特征和所述待測(cè)動(dòng)作結(jié)構(gòu)特征進(jìn)行特征匹配,確定出匹配程度最高的目標(biāo)基準(zhǔn)圖片,并將所述目標(biāo)基準(zhǔn)圖片對(duì)應(yīng)的目標(biāo)基準(zhǔn)動(dòng)作類別作為所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果,包括:
19、計(jì)算所述待測(cè)動(dòng)作語(yǔ)義特征與每個(gè)所述基準(zhǔn)動(dòng)作語(yǔ)義特征的語(yǔ)義余弦相似度;
20、計(jì)算所述待測(cè)動(dòng)作語(yǔ)義特征與每個(gè)所述基準(zhǔn)動(dòng)作結(jié)構(gòu)特征的結(jié)構(gòu)余弦相似度;
21、判斷是否存在所述語(yǔ)義余弦相似度和所述結(jié)構(gòu)余弦相似度均大于預(yù)設(shè)余弦相似度閾值的待定基準(zhǔn)圖片;
22、若存在,則將所述待定基準(zhǔn)圖片作為所述目標(biāo)基準(zhǔn)圖片,并將所述目標(biāo)基準(zhǔn)圖片對(duì)應(yīng)的目標(biāo)基準(zhǔn)動(dòng)作類別作為所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果;
23、若不存在,則將所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果確定為未知?jiǎng)幼黝悇e。
24、在一種可能的實(shí)施方式中,所述方法還包括:
25、在存在多個(gè)待定基準(zhǔn)圖片的情況下,計(jì)算每個(gè)待定基準(zhǔn)圖片對(duì)應(yīng)的待定動(dòng)作語(yǔ)義特征和待定動(dòng)作結(jié)構(gòu)特征與所述待測(cè)動(dòng)作語(yǔ)義特征和所述待測(cè)動(dòng)作結(jié)構(gòu)特征的歐氏距離;
26、根據(jù)所述歐氏距離的計(jì)算結(jié)果,確定出匹配程度最高的待定基準(zhǔn)圖片作為所述目標(biāo)基準(zhǔn)圖片。
27、在一種可能的實(shí)施方式中,所述獲取待測(cè)圖片,包括:
28、獲取所述待測(cè)圖片及所述待測(cè)圖片對(duì)應(yīng)的業(yè)務(wù)場(chǎng)景;
29、所述從預(yù)先設(shè)置的基準(zhǔn)特征庫(kù)中獲取多個(gè)基準(zhǔn)圖片對(duì)應(yīng)的基準(zhǔn)動(dòng)作語(yǔ)義特征和基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,包括;
30、根據(jù)所述業(yè)務(wù)場(chǎng)景從預(yù)先設(shè)置的基準(zhǔn)特征庫(kù)中獲取多個(gè)基準(zhǔn)圖片對(duì)應(yīng)的基準(zhǔn)動(dòng)作語(yǔ)義特征和基準(zhǔn)動(dòng)作結(jié)構(gòu)特征。
31、第二方面,本發(fā)明實(shí)施例提供一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別裝置,包括:
32、獲取模塊,用于獲取待測(cè)圖片,并將所述待測(cè)圖片輸入預(yù)先訓(xùn)練的人體識(shí)別模型,得到人體位置區(qū)域;調(diào)用預(yù)先訓(xùn)練的動(dòng)作自編碼模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作語(yǔ)義特征;調(diào)用預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作結(jié)構(gòu)特征;從預(yù)先設(shè)置的基準(zhǔn)特征庫(kù)中獲取多個(gè)基準(zhǔn)圖片對(duì)應(yīng)的基準(zhǔn)動(dòng)作語(yǔ)義特征和基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,每個(gè)所述基準(zhǔn)圖片均標(biāo)記了對(duì)應(yīng)的基準(zhǔn)動(dòng)作類別;
33、識(shí)別模塊,用于根據(jù)多個(gè)所述基準(zhǔn)動(dòng)作語(yǔ)義特征和多個(gè)所述基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,對(duì)所述待測(cè)動(dòng)作語(yǔ)義特征和所述待測(cè)動(dòng)作結(jié)構(gòu)特征進(jìn)行特征匹配,確定出匹配程度最高的目標(biāo)基準(zhǔn)圖片,并將所述目標(biāo)基準(zhǔn)圖片對(duì)應(yīng)的目標(biāo)基準(zhǔn)動(dòng)作類別作為所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果。
34、第三方面,本發(fā)明實(shí)施例提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器及存儲(chǔ)有計(jì)算機(jī)指令的非易失性存儲(chǔ)器,所述計(jì)算機(jī)指令被所述處理器執(zhí)行時(shí),所述計(jì)算機(jī)設(shè)備執(zhí)行第一方面所述的方法。
35、第四方面,本發(fā)明實(shí)施例提供一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述可讀存儲(chǔ)介質(zhì)所在計(jì)算機(jī)設(shè)備執(zhí)行第一方面所述的方法。
36、相比現(xiàn)有技術(shù),本發(fā)明提供的有益效果包括:采用本發(fā)明公開(kāi)的一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì),通過(guò)獲取待測(cè)圖片經(jīng)人體識(shí)別模型得到人體位置區(qū)域,再通過(guò)動(dòng)作自編碼模型和人體姿態(tài)估計(jì)模型分別提取待測(cè)動(dòng)作語(yǔ)義、結(jié)構(gòu)特征,從基準(zhǔn)特征庫(kù)獲取基準(zhǔn)動(dòng)作的語(yǔ)義和結(jié)構(gòu)特征,基于二者進(jìn)行特征匹配確定目標(biāo)基準(zhǔn)圖片,將其對(duì)應(yīng)的動(dòng)作類別作為待測(cè)圖片的識(shí)別結(jié)果,綜合語(yǔ)義與結(jié)構(gòu)特征提高動(dòng)作識(shí)別的準(zhǔn)確性與通用性。
1.一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述動(dòng)作自編碼模型通過(guò)以下方式獲取,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述調(diào)用預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)模型對(duì)所述人體位置區(qū)域進(jìn)行特征提取,得到待測(cè)動(dòng)作結(jié)構(gòu)特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)關(guān)鍵點(diǎn)權(quán)重、所述鄰接矩陣以及所述角度矩陣,計(jì)算得到所述待測(cè)動(dòng)作結(jié)構(gòu)特征,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)多個(gè)所述基準(zhǔn)動(dòng)作語(yǔ)義特征和多個(gè)所述基準(zhǔn)動(dòng)作結(jié)構(gòu)特征,對(duì)所述待測(cè)動(dòng)作語(yǔ)義特征和所述待測(cè)動(dòng)作結(jié)構(gòu)特征進(jìn)行特征匹配,確定出匹配程度最高的目標(biāo)基準(zhǔn)圖片,并將所述目標(biāo)基準(zhǔn)圖片對(duì)應(yīng)的目標(biāo)基準(zhǔn)動(dòng)作類別作為所述待測(cè)圖片的動(dòng)作識(shí)別結(jié)果,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取待測(cè)圖片,包括:
8.一種基于語(yǔ)義特征和結(jié)構(gòu)特征匹配的通用動(dòng)作識(shí)別裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器及存儲(chǔ)有計(jì)算機(jī)指令的非易失性存儲(chǔ)器,所述計(jì)算機(jī)指令被所述處理器執(zhí)行時(shí),所述計(jì)算機(jī)設(shè)備執(zhí)行權(quán)利要求1-7中任意一項(xiàng)所述的方法。
10.一種可讀存儲(chǔ)介質(zhì),其特征在于,所述可讀存儲(chǔ)介質(zhì)包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述可讀存儲(chǔ)介質(zhì)所在計(jì)算機(jī)設(shè)備執(zhí)行權(quán)利要求1-7中任意一項(xiàng)所述的方法。