本發(fā)明涉及一種基于梯度隔離漏電積分注意力的微表情識(shí)別方法,其重點(diǎn)解決人臉運(yùn)動(dòng)模式的提取,屬于深度學(xué)習(xí)和模式識(shí)別。
背景技術(shù):
1、兩項(xiàng)關(guān)于日常說謊的研究中顯示,77名青年受測者被檢測到平均每天說謊2次,70名中年受測者為每天平均1次。研究結(jié)果揭示了一個(gè)普遍而有趣的現(xiàn)象:說謊是人類交流中不可避免的一部分。盡管說謊的頻率可能隨年齡、環(huán)境、文化和個(gè)人差異而變化。并且人們不善于發(fā)現(xiàn)欺騙,準(zhǔn)確度通常等同于猜測。
2、微表情,作為人類面部表情的一種微妙、短暫且自發(fā)的情緒表征,從paul?ekman教授在20世紀(jì)60年代首次發(fā)現(xiàn)以來,就一直是心理學(xué)和人機(jī)交互研究中的一個(gè)重要主題。此類短暫的面部動(dòng)作,雖然持續(xù)時(shí)間不超過半秒,卻能夠揭示人們情感表達(dá)中試圖隱藏的最真實(shí)、最不受控制的部分,因此,在安全審訊、臨床診斷、商業(yè)談判以及日常社交交往中對(duì)微表情的精確識(shí)別具有極其重要的應(yīng)用價(jià)值。
3、然而,微表情的自發(fā)性、短暫性和微妙性使得其識(shí)別極具挑戰(zhàn)(一般持續(xù)時(shí)間僅為1/25秒到1/3秒),即使是經(jīng)過訓(xùn)練的專家也很難準(zhǔn)確識(shí)別微表情。經(jīng)過專業(yè)訓(xùn)練的專家在測試中的最好識(shí)別率仍只有47%,因此人工識(shí)別微表情仍具有較大難度。
4、近年來,隨著計(jì)算機(jī)視覺和多媒體技術(shù)的快速發(fā)展,利用計(jì)算機(jī)自動(dòng)識(shí)別微表情成為可能,也成為近年來研究的熱點(diǎn),多種微表情識(shí)別算法由此產(chǎn)生。早期的微表情識(shí)別算法多依賴于手工設(shè)計(jì)微表情特征的傳統(tǒng)機(jī)器學(xué)習(xí)模型。通過利用人類對(duì)微表情領(lǐng)域已有的先驗(yàn),設(shè)計(jì)可能更具代表性的微表情特征。然而,基于人工特征的識(shí)別方法難以捕捉到微表情的完整全面的變化,它們往往更聚焦于特定類型的數(shù)據(jù)分布(如面部紋理,光線變化等)。不完整的表征使得模型效果難以達(dá)到預(yù)期。之后,隨著基于深度學(xué)習(xí)的方法在特征提取上取得的成功,更多的研究者開始探索微表情識(shí)別任務(wù)在深度學(xué)習(xí)模型上的可能性。而基于深度學(xué)習(xí)的方法雖然在特征提取上取得了進(jìn)步,但如何有效提高識(shí)別準(zhǔn)確率、減少誤判,仍是當(dāng)前研究需要解決的關(guān)鍵問題。
5、早期jianzheng?liu等人首先提出了一種基于運(yùn)動(dòng)模板和4層深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別新方法。使用運(yùn)動(dòng)模板和adaboost識(shí)別動(dòng)作單元作為特征,然后將提取的特征輸入進(jìn)4層深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)以識(shí)別面部表情。此時(shí),使用深度學(xué)習(xí)模型進(jìn)行微表情識(shí)別開始進(jìn)入研究視野。之后,peng等人提出了雙流提出雙流時(shí)間尺度卷積神經(jīng)網(wǎng)絡(luò)(dualtime?scale?convolution?neural?network,dtscnn),采用獨(dú)立淺層的卷積網(wǎng)絡(luò)對(duì)不同流來適應(yīng)不同幀率的微表情視頻樣本,但由于其使用雙流網(wǎng)絡(luò)計(jì)算相鄰幀之間的光流,不可避免的引入的大量的計(jì)算。liong等人在此基礎(chǔ)上進(jìn)一步提出淺層三流三維卷積網(wǎng)絡(luò)(shallow?triple?stream?three-dimensional?cnn,ststnet),結(jié)合起始幀和峰值幀的光流作為模型的輸入。verma等人提出了一種基于動(dòng)態(tài)成像的橫向增生混合網(wǎng)絡(luò)(lateralaccretive?hybrid?network,learnet),將完整視頻序列壓縮為一幀作為輸入,以保存完整的肌肉運(yùn)動(dòng)信息。近年來,使用深度學(xué)習(xí)模型進(jìn)行微表情識(shí)別的方法更傾向于結(jié)合在其他領(lǐng)域內(nèi)已被驗(yàn)證的優(yōu)秀算法。2021年rahil?kadakia等人探討了在samm數(shù)據(jù)集上使用不同深度學(xué)習(xí)模型(如vgg16,resnet50,mobilenet,inceptionv3,和xception)進(jìn)行微表情識(shí)別的效果,發(fā)現(xiàn)mobilenet模型在效率方面超過其他模型,該工作減少了使用傳統(tǒng)手工特征結(jié)合深度學(xué)習(xí)方法的計(jì)算量。同年12月,zhao等人總結(jié)了基于深度學(xué)習(xí)方法的微表情識(shí)別研究,討論了dbn、cnn等主流算法的發(fā)展問題和趨勢(shì),指出深度學(xué)習(xí)在微表情識(shí)別領(lǐng)域的應(yīng)用前景。之后,zhao等人于2022年提出了一個(gè)深度原型學(xué)習(xí)框架me-plan,通過局部注意力機(jī)制解決了微表情識(shí)別中的關(guān)鍵挑戰(zhàn),展示了在復(fù)合數(shù)據(jù)庫上的優(yōu)越性和有效性。lei等人提出了一種基于圖結(jié)構(gòu)特征表示的圖-時(shí)域卷積網(wǎng)絡(luò),利用不同尺度的注意力模塊判別面部不同區(qū)域內(nèi)的運(yùn)動(dòng)強(qiáng)度,以識(shí)別細(xì)微的表情變化。xie等人也在同年采用了深度互學(xué)習(xí)網(wǎng)絡(luò),將au與情緒類別結(jié)合,通過關(guān)鍵幀的差異圖像獲取微表情輸入的相關(guān)特征表示,提高了識(shí)別準(zhǔn)確率和速度。最近,根據(jù)fan等研究者于2023年提出微表情自監(jiān)督運(yùn)動(dòng)模式學(xué)習(xí)(self-supervise?motion?learning?for?micro-expression,selfme)框架,其主要捕獲人類微表情面部動(dòng)作的變化模式,試圖克服模型對(duì)手工特征的依賴限制。nguyen等人提出基于bert模型的微表情識(shí)別框架(bert-based?facial?micro-expression?recognition,micron-bert),憑借bert框架的序列建模能力,對(duì)微表情幀中的興趣塊(patch?ofinterest,poi)進(jìn)行定位,以減少背景等噪音對(duì)模型識(shí)別性能的影響。
6、目前,基于深度學(xué)習(xí)的識(shí)別算法往往依賴于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征建模能力,而忽略了微表情特征本身微弱,瞬時(shí)的特性。這就使模型識(shí)別性能往往由使用深度模型的先進(jìn)程度決定導(dǎo)致其識(shí)別率難以得到進(jìn)一步提升。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于梯度隔離漏電積分注意力的面部運(yùn)動(dòng)模式提取的微表情識(shí)別方法。本發(fā)明注重深度學(xué)習(xí)框架與面部細(xì)微運(yùn)動(dòng)特征的有效結(jié)合,而不是簡單的依賴于神經(jīng)網(wǎng)絡(luò)對(duì)抽象特征的建模能力。
2、發(fā)明概述:
3、一種基于梯度隔離漏電積分注意力的面部運(yùn)動(dòng)模式提取的微表情識(shí)別方法,包括數(shù)據(jù)集預(yù)處理、面部運(yùn)動(dòng)模式特征提取模塊、梯度隔離漏電積分注意力和分類識(shí)別模塊。
4、本發(fā)明解決的技術(shù)問題為:現(xiàn)有方法對(duì)微表情微弱動(dòng)態(tài)特征的建模困難,導(dǎo)致識(shí)別準(zhǔn)確率較低。與現(xiàn)有方法相比,本發(fā)明利用神經(jīng)網(wǎng)絡(luò)對(duì)微表情峰值幀與起始幀之間的差異進(jìn)行建模,以有效捕捉到面部肌肉的微小變化。并且,本發(fā)明提出梯度隔離漏電積分注意力,通過增強(qiáng)微表情在持續(xù)時(shí)間內(nèi)特定面部區(qū)域所表現(xiàn)出的細(xì)微運(yùn)動(dòng)模式,提升模型對(duì)面部細(xì)微變化的建模能力。
5、術(shù)語解釋:
6、1、dlib視覺庫:dlib是一個(gè)包含機(jī)器學(xué)習(xí)算法的c++開源工具包。dlib可以幫助創(chuàng)建很多復(fù)雜的機(jī)器學(xué)習(xí)方面的軟件來幫助解決實(shí)際問題。目前dlib已經(jīng)被廣泛的用在行業(yè)和學(xué)術(shù)領(lǐng)域,包括機(jī)器人,嵌入式設(shè)備,移動(dòng)電話和大型高性能計(jì)算環(huán)境。
7、2、面部68個(gè)關(guān)鍵特征點(diǎn),面部68個(gè)關(guān)鍵特征點(diǎn)主要分布于眉毛,眼睛,鼻子,嘴巴以及面部輪廓,如圖1所示,通過dlib視覺庫來檢測,為現(xiàn)有技術(shù)。
8、3、損失函數(shù):損失函數(shù)是用來評(píng)估模型的預(yù)測值與真實(shí)值的不一致程度,損失函數(shù)越小,代表模型的魯棒性越好,損失函數(shù)能指導(dǎo)模型學(xué)習(xí)。
9、4、卷積殘差網(wǎng)絡(luò)resnet:是一種深度學(xué)習(xí)模型,最初由何愷明等人在2015年提出,其各類變體被廣泛應(yīng)用到視頻分類和行為識(shí)別領(lǐng)域。
10、5、脈沖神經(jīng)元:脈沖神經(jīng)元為一種旨在更加貼近生物神經(jīng)元行為的神經(jīng)元模型,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)中使用的神經(jīng)元模型相比,脈沖神經(jīng)元能夠處理和生成時(shí)間上離散的信號(hào)。
11、6、漏電積分:漏電積分機(jī)制是一種脈沖神經(jīng)元模型,用于模擬神經(jīng)元的電活動(dòng),能夠在建立獨(dú)立時(shí)間域并編碼信息
12、本發(fā)明的技術(shù)方案如下:
13、一種基于梯度隔離漏電積分注意力的面部運(yùn)動(dòng)模式提取的微表情識(shí)別方法,包括:
14、a、對(duì)微表情視頻進(jìn)行預(yù)處理,包括:獲取視頻幀序列、人臉檢測與定位、人臉對(duì)齊;
15、b、從步驟a項(xiàng)預(yù)處理后視頻序列中挑出峰值幀與起始幀,并對(duì)其進(jìn)行像素差運(yùn)算,得到面部關(guān)鍵幀差異;
16、c、構(gòu)建面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò),面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)利用步驟b得到的面部關(guān)鍵幀差異,使用resnet對(duì)面部關(guān)鍵幀差異進(jìn)行微表情信息的進(jìn)一步學(xué)習(xí)及建模;
17、d、構(gòu)建梯度隔離漏電積分注意力模塊,增強(qiáng)對(duì)捕捉面部肌肉活動(dòng)中的微妙變化的能力;
18、e、模型訓(xùn)練,利用交叉熵?fù)p失對(duì)步驟c、d構(gòu)建的面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)及梯度隔離漏電積分注意力模塊進(jìn)行迭代更新;
19、f、對(duì)待識(shí)別的微表情視頻預(yù)處理后輸入訓(xùn)練好的面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)及梯度隔離漏電積分注意力模塊,實(shí)現(xiàn)微表情分類識(shí)別。
20、根據(jù)本發(fā)明優(yōu)選的,在步驟a中,對(duì)微表情視頻進(jìn)行預(yù)處理,該步驟包括:
21、1)獲取視頻幀:對(duì)微表情數(shù)據(jù)集中的視頻樣本進(jìn)行分幀處理,得到連續(xù)的微表情視頻幀,并按時(shí)間順序保存;
22、2)人臉檢測與定位:利用dlib視覺庫對(duì)分離出的微表情視頻幀進(jìn)行人臉的檢測與定位,得到所檢測的微表情視頻幀中人臉與圖像邊界之間的距離;
23、3)人臉對(duì)齊:利用步驟2)中得到的微表情視頻幀中人臉與圖像邊界之間的距離,使用dlib視覺庫確定微表情視頻幀中人臉面部68個(gè)關(guān)鍵特征點(diǎn),再使用矩形框進(jìn)行分割。
24、根據(jù)本發(fā)明優(yōu)選的,在步驟a中,人臉對(duì)齊后進(jìn)行人臉矯正,包括:
25、根據(jù)所選微表情數(shù)據(jù)集的特性,在檢測出的68個(gè)關(guān)鍵特征點(diǎn)中,對(duì)某些關(guān)鍵特征點(diǎn)進(jìn)行調(diào)整。
26、根據(jù)本發(fā)明優(yōu)選的,在步驟b中,面部關(guān)鍵幀差異定義為峰值幀xσ與起始幀x1之間的差像素差,如式(1)所示:
27、
28、根據(jù)本發(fā)明優(yōu)選的,在步驟c中,面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)利用步驟b得到的面部關(guān)鍵幀差異,使用resnet對(duì)面部關(guān)鍵幀差異進(jìn)行微表情信息的進(jìn)一步學(xué)習(xí)及建模;包括:
29、面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)包括卷積層、脈沖殘差塊及特征分類器;脈沖殘差塊包括兩個(gè)獨(dú)立卷積層;
30、卷積層提取初步的空間特征;卷積層的輸出特征繼續(xù)通過脈沖殘差塊進(jìn)行處理;脈沖殘差塊對(duì)特征進(jìn)行進(jìn)一步的增強(qiáng),其輸出表示為式(2)及式(3):
31、
32、
33、其中,wi1、wi2和分別表示第i個(gè)脈沖殘差塊中兩個(gè)卷積層的權(quán)重和偏置;fi為第i個(gè)脈沖殘差塊卷積所輸出的特征;
34、relu(·)代表使用非線性激活函數(shù)激活特征操作;bn(·)代表使用批歸一化將特征進(jìn)行歸一化處理;
35、經(jīng)過l個(gè)脈沖殘差塊后,最終特征fl映射用于特征分類器,特征分類器通過一個(gè)全連接層進(jìn)行情感狀態(tài)的預(yù)測,如式(4):
36、
37、其中,fl為最后一個(gè)脈沖殘差塊的特征輸出,c為待預(yù)測微表情類別,和為全連接層的權(quán)重和偏置,softmax為概率輸出函數(shù),以確保輸出概率分布的和為1,從而在正面(positive)、負(fù)面(negative)和驚訝(surprise)三種狀態(tài)之間進(jìn)行分類。
38、根據(jù)本發(fā)明優(yōu)選的,構(gòu)建梯度隔離漏電積分注意力模塊,增強(qiáng)對(duì)捕捉面部肌肉活動(dòng)中的微妙變化的能力;梯度隔離漏電積分注意力模塊中,包括漏電積分注意力及梯度隔離。
39、根據(jù)本發(fā)明優(yōu)選的,脈沖神經(jīng)元根據(jù)輸入的運(yùn)動(dòng)特征計(jì)算漏電積分注意力,包括:
40、每個(gè)脈沖神經(jīng)元的膜電位狀態(tài)更新為式(5)及式(6):
41、
42、vi(0)=vi-1(t)??(6)
43、其中,vi為第i個(gè)脈沖神經(jīng)元在時(shí)間的膜電位,τ為漏電系數(shù),決定了上一時(shí)刻電位對(duì)當(dāng)前時(shí)刻的影響,wij是輸入xj(t)到脈沖神經(jīng)元i的突觸權(quán)重,δ是一個(gè)二值變量,表示在上一時(shí)刻t-1是否發(fā)生了脈沖;每當(dāng)電位超過閾值時(shí),脈沖神經(jīng)元發(fā)放脈沖,并將超出的電位部分傳遞給下一時(shí)刻的電位作為其初始值;脈沖神經(jīng)元保留前一層注意力最后一個(gè)時(shí)間步所產(chǎn)生的膜電位,并將其作為當(dāng)前層漏電積分注意力的電位初值vi(0)。
44、根據(jù)本發(fā)明優(yōu)選的,計(jì)算漏電積分注意力,具體實(shí)現(xiàn)過程如下:
45、首先,以特征圖x作為輸入,構(gòu)建梯度隔離漏電積分注意力模塊;梯度隔離漏電積分注意力模塊的參數(shù)包括權(quán)重watt,偏置batt以及電位泄露參數(shù)τ;
46、其次,初始化相關(guān)參數(shù),包括膜電位mem[t],初始注意力狀態(tài)atti,權(quán)重watt及偏置batt;
47、之后,開始前向傳播過程,設(shè)立時(shí)間步長t對(duì)漏電積分注意力神經(jīng)元狀態(tài)進(jìn)行更新,其過程被描述為式(7):
48、mem[t]=τmem[t-1]+f(x,watt,batt)??(7)
49、其中,f(i)為神經(jīng)網(wǎng)絡(luò)線性計(jì)算;當(dāng)mem[t]超過閾值δ時(shí),注意力狀態(tài)atti為1,即為激活狀態(tài),否則,將置為0,即不激活狀態(tài);
50、當(dāng)處于激活狀態(tài)后,mem[t]被重置回初始狀態(tài);
51、最后,根據(jù)式(8)進(jìn)行梯度隔離的反向傳播過程:
52、grad=grad/(ctx.k*|mem[t]+1.0|2)??(8)
53、其中,grad為漏電積分注意力神經(jīng)元梯度,ctx.k為前向過程中的注意力狀態(tài)atti(即0或1)。
54、根據(jù)本發(fā)明優(yōu)選的,梯度隔離,具體實(shí)現(xiàn)過程如下:
55、首先,脈沖神經(jīng)元負(fù)責(zé)生成對(duì)應(yīng)特征層(即)的注意力值atti,脈沖神經(jīng)元前向生成過程表示當(dāng)脈沖神經(jīng)元的時(shí)間步循環(huán)結(jié)束后,脈沖信號(hào)將傳遞到相同層的下一個(gè)神經(jīng)元中;同時(shí),面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)將所提取的特征傳遞到下一層;
56、其次,當(dāng)前層剩余的電位mem繼續(xù)傳遞到下一層,對(duì)下一層的脈沖神經(jīng)元進(jìn)行初始化;
57、最后,脈沖神經(jīng)元由第二交叉熵?fù)p失進(jìn)行獨(dú)立的權(quán)重更新優(yōu)化,設(shè)立第一交叉熵?fù)p失對(duì)脈沖神經(jīng)元參數(shù)進(jìn)行更新。
58、進(jìn)一步優(yōu)選的,第一交叉熵?fù)p失及第二交叉熵?fù)p失的優(yōu)化公式如式(9)所示:
59、
60、其中,n為待測樣本的總量,m為需要進(jìn)行分類的類別數(shù)量;yic為符號(hào)函數(shù)(0或1),如果樣本i的真實(shí)類別為m,則yic為1,否則yic為0;pic為觀測樣本i屬于類別m的概率。
61、根據(jù)本發(fā)明優(yōu)選的,隔離梯度的漏電積分注意力及面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)梯度優(yōu)化被描述為式(10)-(12):
62、
63、
64、
65、其中,△watt為脈沖神經(jīng)元權(quán)重的更新值,△w為主網(wǎng)絡(luò)卷積單元權(quán)重的更新值,為第i層脈沖殘差塊的脈沖神經(jīng)元在t時(shí)刻所產(chǎn)生的脈沖值,其由及δ計(jì)算得到,為對(duì)應(yīng)的輸入電位值,δ為激活閾值,η為學(xué)習(xí)率,為損失函數(shù),為面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)提取的微表情特征。
66、根據(jù)本發(fā)明優(yōu)選的,對(duì)待識(shí)別的微表情視頻預(yù)處理后輸入訓(xùn)練好的面部運(yùn)動(dòng)模式特征提取主網(wǎng)絡(luò)及梯度隔離漏電積分注意力模塊,實(shí)現(xiàn)微表情分類識(shí)別;包括:
67、首先,待待識(shí)別的微表情視頻預(yù)處理后被標(biāo)注為峰值幀及起始幀,經(jīng)過像素相差運(yùn)算后得到運(yùn)動(dòng)特征;
68、之后,運(yùn)動(dòng)特征先通過一個(gè)卷積核大小為3x3的卷積核進(jìn)行降維,再將經(jīng)過降維后的運(yùn)動(dòng)特征按順序送入脈沖殘差塊,并使用殘差鏈接;脈沖殘差塊包括兩個(gè)卷積層及每一個(gè)卷積層后的批歸一化操作;輸入的運(yùn)動(dòng)特征經(jīng)過脈沖殘差塊處理后被暫時(shí)保存下來,作為中間特征,同時(shí),每一個(gè)脈沖殘差塊配對(duì)一個(gè)脈沖神經(jīng)元模塊。脈沖神經(jīng)元模塊包括一個(gè)脈沖神經(jīng)元,脈沖神經(jīng)元根據(jù)輸入的運(yùn)動(dòng)特征計(jì)算漏電積分注意力;
69、最后,將得到的漏電積分注意力與得到的中間特征進(jìn)行相乘加權(quán);
70、上述流程將持續(xù)到最后一個(gè)脈沖殘差塊,末尾的脈沖殘差塊的輸出特征被送入特征分類器中,進(jìn)行微表情的識(shí)別與分類。
71、本發(fā)明的有益效果在于:
72、1、為了增強(qiáng)網(wǎng)絡(luò)對(duì)微表情特征的建模能力,本發(fā)明提出專注于面部動(dòng)態(tài)特征提取的深度模型。利用微表情視頻樣本峰值幀與起始幀的差異信息,集中的處理由于面部細(xì)微運(yùn)動(dòng)而產(chǎn)生的代表性特征。
73、2、為了捕捉面部肌肉活動(dòng)中的微妙變化,本發(fā)明提出梯度隔離漏電積分注意力機(jī)制。通過強(qiáng)調(diào)在微表情持續(xù)時(shí)間內(nèi)特定面部區(qū)域所表現(xiàn)出的細(xì)微運(yùn)動(dòng)模式,使模型更為重點(diǎn)地學(xué)習(xí)面部特定區(qū)域內(nèi)的特征。