基于語音和面部表情的雙模態(tài)情感融合的識別方法及系統的制作方法
【專利摘要】本發(fā)明涉及一種基于語音和面部表情的雙模態(tài)情感融合的識別方法,包括以下步驟:獲取待識別對象的音頻數據和視頻數據;從視頻數據中提取人臉表情圖像,并進行眼睛、鼻子、嘴巴區(qū)域的分割;從三個區(qū)域的圖像中提取每個區(qū)域圖像中的面部表情特征;S4、對語音情感特征和面部表情特征進行PCA分析降維;將兩種模態(tài)樣本進行樸素貝葉斯的情感語音分類,并將條件概率進行決策級融合,得到最終情感識別結果。本發(fā)明采用決策級融合方法對語音情感特征和面部表情特征進行融合,能夠為下一步進行相應條件概率的計算提供了更加準確的數據,使得本發(fā)明的方法能夠更準確的得出受測對象的情感狀態(tài),從而提高情感識別的準確性和可靠性。
【專利說明】
基于語音和面部表情的雙模態(tài)情感融合的識別方法及系統
技術領域
[0001] 本發(fā)明屬于情感識別領域,更具體地,涉及一種基于語音和面部表情的雙模態(tài)情 感融合和識別方法及系統。
【背景技術】
[0002] 隨著生活水平的提高和信息技術的高速發(fā)展人類對智能化生活的需求越來越高, 人機交互能力也越來越得到重視,作為人機交互的重要部分的情感計算也就成為了研究熱 點。目前國內外在情感識別方面的研究主要分為兩大類,一類是基于單一模態(tài)的情感識別, 另一類是基于多模態(tài)的情感識別。兩類情感識別的主要區(qū)別是多模態(tài)情感識別是通過對多 通道采集到的信息進行分析,并通過一系列的技術手段最終較為準確的獲得被測者的情感 狀態(tài),而單一模態(tài)情感識別是通過對某一通道采集到的信息進行分析,并通過一系列的技 術手段最終較為準確的獲得被測者的情感狀態(tài)。
[0003] 現有的情感識別主要是基于單一模態(tài)的情感識別,在面部表情識別上多數研究仍 停留在對基本面部表情的情感識別,對更加細微的表情的識別效果不好。對于語音情感識 別方面的研究較為成熟,但是針對語音進行單一模態(tài)的情感識別時,如果語音通道受阻則 對情感識別的結果影響很大。
[0004] 葉亮等提出了一種用于混合語音情感識別的語音特征篩選方法,能夠很好地提取 一系列聲學特征中的最佳特征集合,但是未考慮聲學通道受阻的情況。趙小明等提出了基 于壓縮感知的魯棒性語音情感識別方法,將特征參數的提取從韻律特征和音質特征兩方面 擴充到梅爾頻率倒譜系數MFCC,提高了特征信號的抗干擾性,但是仍未解決聲學通道無法 獲取信號時的情感識別。
[0005] 韓志艷等提出了一種串并結合的多模式情感信息融合與識別方法,通過講語音 信號特征參數和面部表情特征參數順序組合起來等處理方法融合語音和面部表情的特征 信息,采用Adaboost算法訓練獲得分類器,最終采用投票法獲得最終結果。而本專利創(chuàng)新的 采用貝葉斯分類器和決策級融合方法,融合情感語音特征和面部表情特征,獲得更好的效 果。
【發(fā)明內容】
[0006] 本發(fā)明所要解決的技術問題是提供一種基于語音和面部表情的雙模態(tài)情感融合 和識別方法及系統。
[0007] 本發(fā)明解決上述技術問題的技術方案如下:
[0008] 基于語音和面部表情的雙模態(tài)情感融合的識別方法,包括以下步驟:
[0009] S1、獲取待識別對象的音頻數據和視頻數據;
[0010] S2、對所述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉 表情圖像,并進行眼睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域的圖像;
[0011] S3、從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域的圖像中提取每 個區(qū)域圖像中的面部表情特征;
[0012] S4、對所述語音情感特征和所述面部表情特征進行PCA分析降維,獲得最終語音情 感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情 特征作為面部模態(tài)樣本;
[0013] S5、將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在 不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基于樸素貝葉斯的人 臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;
[0014] S6、將所述第一條件概率集合和所述第二條件概率集合進行決策級融合,得到待 識別對象的最終情感識別結果。
[0015] 本發(fā)明的有益效果是:本發(fā)明基于語音和面部表情的雙模態(tài)情感識別方法使用 了標準數據庫對分類器進行訓練使得情感識別結果更加的準確高效。并且采用決策級融合 方法對語音情感特征和面部表情特征進行融合,能夠更好地得到融合后的情感特征為下一 步進行相應條件概率的計算提供了更加準確的數據,使得本專利的方法能夠更準確的得出 受測對象的情感狀態(tài),從而提高情感識別的準確性和可靠性。
[0016] 在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0017] 進一步的,所述步驟S2對音頻數據進行預處理得到情感語音信號的具體步驟為:
[0018] S2A.1、對音頻數據進行固定頻率的采樣,將音頻數據的幅值分為若干個有限區(qū) 間,將屬于同一區(qū)間的音頻數據用區(qū)間所對應的幅值統一表示,最終將信號轉化為時間和 幅值離散的數字信號;
[0019] S2A.2、采用高通濾波器11(2) = 1^1對數字信號的高頻部分的功率進行補償,放 大語音信號高頻部分,得到補償語音信號,其中H(z)為語音信號功率函數,z為頻率,α為預 加重系數且0.9彡α<1;
[0020] S2A. 3、對步驟S2A. 2處理后的補償語音信號進行分幀處理,將補償語音信號劃分 為多幀語音段,并對分幀后的語音段進行加窗處理,得到情感語音信號。
[0021] 采用上述進一步方案的有益效果為:對語音信號進行一定頻率的采樣保證了信號 不失真的同時,包含最少的冗余信息。預加重增強了情感識別中所需要的信息。分幀和加窗 確保了幀與幀之間的平穩(wěn)過渡并且減少幀起始處與幀結束處信號的不連續(xù)問題。
[0022] 進一步的,所述步驟S2從步驟S1抽取的視頻數據中提取人臉表情圖像,并進行眼 睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域圖像的具體步驟為:
[0023] S2B.1、獲取所述人臉表情圖像中眼睛、鼻子、嘴巴的三個區(qū)域的四角坐標,將每個 區(qū)域的坐標值經過坐標變換和取整數,獲取相應裁剪區(qū)域的矩形信息,將眼睛、鼻子、嘴巴 從所述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和嘴巴區(qū)域圖像;
[0024] S2B.2、將待識別對象的所有眼睛區(qū)域圖像調節(jié)為同一尺寸,所有的鼻子區(qū)域圖像 調節(jié)為同一尺寸,所有的嘴巴區(qū)域圖像調節(jié)為同一尺寸;
[0025] S2B. 3、增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像;
[0026] S2B. 4、通過調整高亮度圖像的灰度值將圖像像素均勻地分布在整個圖像范圍內 得到統一標準的三個區(qū)域圖像。
[0027] 采用上述進一步方案的有益效果為:三個區(qū)域分割減少了圖像中非關鍵部分對表 情變化信息的干擾,也減少了數據量,提高了計算速度,由于分割后的灰度圖像較為模糊, 不易識別,灰度變換通過調整圖像的灰度值,將其均勻地分布在整個范圍的灰度區(qū)域,使一 定灰度區(qū)間的像素個數大體相同,從而使圖像的對比度得以增強,直方圖均衡化使圖像的 對比度得以增強。
[0028] 進一步的,所述步驟S3從情感語音信號中提取語音情感特征的具體包括以下步 驟:
[0029] S3A.1、利用短時自相關函數法確定情感語音信號的周期,提取出基頻特征的10個 統計學特征參數,短時自相關函數R ω ( k )的定義為:
,其中,S (η)為情感語音信號的時間序列,Su (η) 為第ω幀情感語音信號,每幀幀長為N,k為時間的延遲量,10個統計學特征參數包括:基頻 的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax-Pmin、平均值Pm、標準差σρ、平均絕對斜度Ms、上 四分位數P〇. 75、下四分位數Ρο. 25、內四分極值Pi = Ρ〇. 75-Ρ(). 25、中位數P〇. 5 ;
[0030] 334.2、根據1^的線性預測運算求出預測系數{&1^=1,2,"_,?},再根據預測系 數通過FFT運算確定聲道的功率譜響應曲線;最后用峰值檢出法精準地計算出功率譜與中 心頻率,并計算出共振峰以及與其相關的統計學參數,具體包括:Fi平均值、Fi標準 差、F 2平均值、F2標準差、F3平均值、F3標準差、Fi中位數、Fi中位數所占帶寬、F 2中位數、F2中 位數所占帶寬、F3中位數、F3中位數所占帶寬,共12個共振峰特征參數;
[0031] S3A. 3、對每一幀情感語音信號進行FFT變換得到語音信號的頻譜;再對每一幀的 數據求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一幀的譜線進行帶通濾波;最后 對Mel濾波器組的輸出求對數,并作逆傅里葉變換便可得到Mel倒譜系數;
[0032] S3A. 4、綜合步驟S3A. 1中得到的10個統計學特征參數、步驟S3A. 3中得到的12個共 振峰特征參數和步驟S3A.4得到的Mel倒譜系數,最終得到語音情感特征。
[0033]采用上述進一步方案的有益效果為:通過采集10個基頻特征參數,12個共振峰特 征參數和14個Mel倒譜系數特征參數能夠較為全面的代表語音的情感特征,從而為情感識 別做好了數據保障。
[0034]進一步的,所述步驟S3從步驟S2處理得到的統一標準的三個區(qū)域圖像中提取每個 區(qū)域圖像中的面部表情特征的具體步驟為:
[0035] S3B.1、通過2D_Gabor小波變換從統一標準的人臉圖像中提取圖像紋理特征,將眼 睛、鼻子、嘴巴的區(qū)域圖像的每個方向與尺度進行2D-Gabor小波變換處理獲得眼睛、鼻子、 嘴巴R〇 I圖像每個方向與尺度的2D-Gabor幅值圖譜;
[0036] S3B.2、將眼睛、鼻子、嘴巴圖像每個方向與尺度的2D-Gabor幅值圖譜進行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級聯為表示 一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表情 特征。
[0037]采用上述進一步方案的有益效果為:融合了 2D-Gabor小波變換和LBP算子地優(yōu)良 特性且使用了特征數據PCA分析。2D-Gabor小波變換可多方向、多尺度地提取原始圖像在每 個通道下的局部特征,具有優(yōu)良的空間位置及方向選擇性。且能夠放大眼睛、鼻子、嘴巴的 灰度變化等局部特征,增強人臉中關鍵部位的局部特性,可更容易區(qū)分出不同的人臉圖 像。此外,2D-Gabor小波變換特征提取方法可接受一定程度的人臉姿態(tài)變化、圖像旋轉和形 變,對光照變化不敏感,且由于其計算的數據量較少具有實時性。使用的LBP算子在有效提 取圖像局部紋理特征的同時,計算過程也較為簡單,減少了計算量,并且具有良好的旋轉不 變性和灰度不變性,不易受圖像的位移、光照不均衡等因素的影響。
[0038]進一步的,所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進行PCA 分析降維的具體步驟為:
[0039] S4.1、使用PCA對步驟S4提取的語音情感特征進行降維處理,獲得用于表情分類的 最終語音情感特征;
[0040] S4.2、將步驟S3B. 2得到的面部表情特征經過PCA降維處理后,獲得用于表情分類 的最終面部表情特征。
[0041] 采用上述進一步方案的有益效果為:PCA分析可以減少樣本在某一屬性的特征變 量個數,并盡量確保新特征之間的相互獨立性;在保證最大化包含數據內在信息的條件下, 可對高維數據進行降維、提高計算速度、去除噪聲。
[0042] 進一步的,所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進行樸素貝 葉斯情感分類的具體步驟為:
[0043] S5.1、設分別有m個語音模態(tài)樣本,設語音模態(tài)樣本為XI,則對XI進行樸素貝葉斯情 感分類后可得到XI在每種情感類別下的第一條件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別;
[0044] S5.2、設分別有m個面部表情模態(tài)樣本,設面部表情模態(tài)樣本為X2,則對X2進行樸素 貝葉斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表高興、生氣、討厭、 害怕、悲傷和驚奇六種基本情感類別。
[0045] 采用上述進一步方案的有益效果為:通過將情感語音和面部表情的樣本數據分別 輸入到對應的分類器進行分類得到該樣本在不同情感類別下的條件概率,能夠更加快速準 確的為下一步情感識別提供良好的數據支持。
[0046] 進一步的,所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進行 決策級融合,得到待識別對象的最終情感識別結果具體步驟為:
[0047] S6.1、按照乘積規(guī)則Γ?/;〃,對第一條件概率集合和第二條件概率集合 i 進行融合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗概率集 合,IVj(x),j = i,2,…,6};
[0048] S6.2、將所述后驗概率集合中最大的后驗概率數值所對應的類別作為最終識別結 果,若有多個數值相同的最大后驗概率,則對數值相同的最大后驗概率對應的樣本重新進 行步驟S5的分類并計算條件概率,直至得到最終識別結果。
[0049] 采用上述進一步方案的有益效果為:
[0050] 將條件概率通過乘積規(guī)則得到相應的后驗概率,并選擇最大的后驗概率所對應的 情感狀態(tài)作為情感識別結果的方法能夠更加準確地得到情感識別結果,有效地提高了情感 識別率。
[0051] 基于語音和面部表情的雙模態(tài)情感融合的識別系統,包括以下模塊:
[0052]數據提取模塊,用于獲取待識別對象的音頻數據和視頻數據;信號提取模塊,用于 對所述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉表情圖像,并 進行眼睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域的圖像;
[0053]特征提取模塊,用于從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域 的圖像中提取每個區(qū)域圖像中的面部表情特征;
[0054] PCA分析降維模塊,用于對語音情感特征和面部表情特征進行PCA分析降維;
[0055] 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得 到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基 于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率 集合;
[0056] 決策級融合模塊,用于將第一條件概率集合和第二條件概率集合進行決策級融 合,得到最終識別結果。
[0057] 進一步的,所述的基于語音和面部表情的雙模態(tài)情感融合的識別系統,其特征在 于,所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元,
[0058]所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進行降維 處理,獲得用于表情分類的最終語音情感特征;
[0059]將所述面部表情特征經過PCA降維處理后,獲得用于表情分類的最終面部表情特 征。
【附圖說明】
[0060]圖1為本發(fā)明方法的總體示意圖;
[0061 ]圖2為本發(fā)明方法步驟S2A的流程示意圖;
[0062] 圖3為本發(fā)明方法步驟S2B的流程示意圖;
[0063] 圖4為本發(fā)明方法步驟S3的流程示意圖;
[0064]圖5為本發(fā)明系統示意圖。
【具體實施方式】
[0065]以下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0066]本實施例以eNTERFACE ' 05音視頻多模態(tài)情感數據庫的數據作為素材,仿真平臺 是MATLAB R2015b。
[0067] 如圖1所示,基于語音和面部表情的雙模態(tài)情感融合的識別方法,包括以下步驟:
[0068] S1、獲取待識別對象的音頻數據和視頻數據;
[0069] S2、對所述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉 表情圖像,并進行眼睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域的圖像;
[0070] S3、從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域的圖像中提取每 個區(qū)域圖像中的面部表情特征;
[0071] S4、對所述語音情感特征和所述面部表情特征進行PCA分析降維,獲得最終語音情 感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情 特征作為面部模態(tài)樣本;
[0072] S5、將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在 不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基于樸素貝葉斯的人 臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;
[0073] S6、將所述第一條件概率集合和所述第二條件概率集合進行決策級融合,得到待 識別對象的最終情感識別結果。
[0074] 如圖2所示,所述步驟S2對音頻數據進行預處理得到情感語音信號的具體步驟為:
[0075] S2A.1、采樣和量化,對音頻數據進行固定頻率的采樣,將音頻數據的幅值分為若 干個有限區(qū)間,將屬于同一區(qū)間的音頻數據用區(qū)間所對應的幅值統一表示,最終將信號轉 化為時間和幅值離散的數字信號;
[0076] S2A.2、預加重,采用高通濾波器11(2) = 1^1對數字信號的高頻部分的功率進行 補償,放大語音信號高頻部分,得到補償語音信號,其中H(z)為語音信號功率函數,z為頻 率,α為預加重系數且0.9<α<1;
[0077] S2A.3、分幀和加窗,對步驟S2A.2處理后的補償語音信號進行分幀處理,將補償語 音信號劃分為多幀語音段,并對分幀后的語音段進行加窗處理,得到情感語音信號。
[0078] 如圖3所示,所述步驟S2從步驟S1抽取的視頻數據中提取人臉表情圖像,并進行眼 睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域圖像的具體步驟為:
[0079] S2B.1、R0I區(qū)域分割,獲取所述人臉表情圖像中眼睛、鼻子、嘴巴的三個區(qū)域的四 角坐標,將每個區(qū)域的坐標值經過坐標變換和取整數,獲取相應裁剪區(qū)域的矩形信息,將眼 睛、鼻子、嘴巴從所述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和 嘴巴區(qū)域圖像;
[0080] S2B. 2、尺寸調整,將待識別對象的所有眼睛區(qū)域圖像調節(jié)為10X30,所有的鼻子 區(qū)域圖像調節(jié)為16X24,所有的嘴巴區(qū)域圖像調節(jié)為12X18;
[0081] S2B. 3、灰度變換,增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像;
[0082] S2B. 4、通過調整高亮度圖像的灰度值將圖像像素均勻地分布在整個圖像范圍內 得到統一標準的三個區(qū)域圖像。
[0083] 如圖4所示,所述步驟S3從情感語音信號中提取語音情感特征的具體包括以下步 驟:
[0084] S3A.1、提取基頻特征,利用短時自相關函數法確定情感語音信號的周期,提取出 基頻特征的1 〇個統計學特征參數,短時自相關函數R ω ( k )的定義為:
其中,S(η)為情感語音信號的時間序列,(η) 為第ω幀情感語音信號,每幀幀長為N,k為時間的延遲量,10個統計學特征參數包括:基頻 的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax-Pmin、平均值Pm、標準差σρ、平均絕對斜度Ms、上 四分位數P〇. 75、下四分位數Ρο. 25、內四分極值Pi = Ρ〇. 75-Ρ(). 25、中位數P〇. 5 ;
[0085] S3A.2、計算共振峰特征,根據LPC的線性預測運算求出預測系數{ak,k=l,2,…, p},再根據預測系數通過FFT運算確定聲道的功率譜響應曲線;最后用峰值檢出法精準地計 算出功率譜與中心頻率,并計算出 Fl、F2、F3共振峰以及與其相關的統計學參數,具體包括: Fi平均值、Fi#準差、F 2平均值、F2標準差、F3平均值、F3標準差、Fi中位數、Fi中位數所占帶寬、 F2中位數、F2中位數所占帶寬、F3中位數、F3中位數所占帶寬,共12個共振峰特征參數;
[0086] S3A. 3、計算Mel倒譜系數,對每一幀情感語音信號進行FFT變換得到語音信號的頻 譜;再對每一幀的數據求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一幀的譜線進 行帶通濾波;最后對Mel濾波器組的輸出求對數,并作逆傅里葉變換便可得到Mel倒譜系數; [0087] S3A. 4、綜合步驟S3A. 1中得到的10個統計學特征參數、步驟S3A. 3中得到的12個共 振峰特征參數和步驟S3A.4得到的Mel倒譜系數,最終得到語音情感特征。
[0088]所述步驟S3從步驟S2處理得到的統一標準的三個區(qū)域圖像中提取每個區(qū)域圖像 中的面部表情特征的具體步驟為:
[0089] S3B.1、通過2D_Gabor小波變換從統一標準的人臉圖像中提取圖像紋理特征,將眼 睛、鼻子、嘴巴的區(qū)域圖像的每個方向與尺度進行2D-Gabor小波變換處理獲得眼睛、鼻子、 嘴巴R〇 I圖像每個方向與尺度的2D-Gabor幅值圖譜;
[0090] S3B.2、將眼睛、鼻子、嘴巴圖像每個方向與尺度的2D-Gab〇r幅值圖譜進行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級聯為表示 一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表情 特征。
[0091] 所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進行PCA分析降維的 具體步驟為:
[0092] S4.1、使用PCA對步驟S4提取的語音情感特征進行降維處理,獲得用于表情分類的 最終語音情感特征;
[0093] S4.2、將步驟S3B. 2得到的面部表情特征經過PCA降維處理后,獲得用于表情分類 的最終面部表情特征。
[0094] 所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進行樸素貝葉斯情感 分類的具體步驟為:
[0095] S5.1、設分別有m個語音模態(tài)樣本,設語音模態(tài)樣本為XI,則對XI進行樸素貝葉斯情 感分類后可得到?在每種情感類別下的第一條件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別;
[0096] S5.2、設分別有m個面部表情模態(tài)樣本,設面部表情模態(tài)樣本為X2,則對X2進行樸素 貝葉斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表高興、生氣、討厭、 害怕、悲傷和驚奇六種基本情感類別。
[0097] 所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進行決策級融 合,得到待識別對象的最終情感識別結果具體步驟為:
[0098] S6.1、按照乘積規(guī)貝
對第一條件概率集合和第二條件概率集合 進行融合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗概率集 合,IVj(x),j = i,2,…,6};
[0099] S6.2、將所述后驗概率集合中最大的后驗概率數值所對應的類別作為最終識別結 果,若有多個數值相同的最大后驗概率,則對數值相同的最大后驗概率對應的樣本重新進 行步驟S5的分類并計算條件概率,直至得到最終識別結果。
[0100]如圖5所示,基于語音和面部表情的雙模態(tài)情感融合的識別系統,包括以下模塊: [0101 ]數據提取模塊,用于獲取待識別對象的音頻數據和視頻數據;信號提取模塊,用于 對所述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉表情圖像,并 進行眼睛、鼻子、嘴巴區(qū)域的分割,預處理后得到統一標準的三個區(qū)域的圖像;
[0102] 特征提取模塊,用于從所述情感語音信號中提取語音情感特征;從所述三個區(qū)域 的圖像中提取每個區(qū)域圖像中的面部表情特征;
[0103] PCA分析降維模塊,用于對語音情感特征和面部表情特征進行PCA分析降維;
[0104] 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得 到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基 于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率 集合;
[0105] 決策級融合模塊,用于將第一條件概率集合和第二條件概率集合進行決策級融 合,得到最終識別結果。
[0106] 所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元,
[0107] 所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進行降維 處理,獲得用于表情分類的最終語音情感特征;
[0108] 將所述面部表情特征經過PCA降維處理后,獲得用于表情分類的最終面部表情特 征。
[0109]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1. 基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征在于,包括W下步驟: 51、 獲取待識別對象的音頻數據和視頻數據; 52、 對所述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉表情 圖像,并進行眼睛、鼻子、嘴己區(qū)域的分割,預處理后得到統一標準的Ξ個區(qū)域的圖像; 53、 從所述情感語音信號中提取語音情感特征;從所述Ξ個區(qū)域的圖像中提取每個區(qū) 域圖像中的面部表情特征; 54、 對所述語音情感特征和所述面部表情特征進行PCA分析降維,獲得最終語音情感特 征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情特征 作為面部模態(tài)樣本; 55、 將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在不同 情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基于樸素貝葉斯的人臉表 情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合; 56、 將所述第一條件概率集合和所述第二條件概率集合進行決策級融合,得到待識別 對象的最終情感識別結果。2. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S2對音頻數據進行預處理得到情感語音信號的具體步驟為: S2A.1、對音頻數據進行固定頻率的采樣,將音頻數據的幅值分為若干個有限區(qū)間,將 屬于同一區(qū)間的音頻數據用區(qū)間所對應的幅值統一表示,最終將信號轉化為時間和幅值離 散的數字信號; S2A.2、采用高通濾波器Η(ζ) = 1-αζ^ι對數字信號的高頻部分的功率進行補償,放大語 音信號高頻部分,得到補償語音信號,其中Η(ζ)為語音信號功率函數,Ζ為頻率,α為預加重 系數且0.9《α<1; S2A. 3、對步驟S2A. 2處理后的補償語音信號進行分帖處理,將補償語音信號劃分為多 帖語音段,并對分帖后的語音段進行加窗處理,得到情感語音信號。3. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S2從步驟S1抽取的視頻數據中提取人臉表情圖像,并進行眼睛、鼻子、嘴己 區(qū)域的分割,預處理后得到統一標準的Ξ個區(qū)域圖像的具體步驟為: S2B.1、獲取所述人臉表情圖像中眼睛、鼻子、嘴己的Ξ個區(qū)域的四角坐標,將每個區(qū)域 的坐標值經過坐標變換和取整數,獲取相應裁剪區(qū)域的矩形信息,將眼睛、鼻子、嘴己從所 述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和嘴己區(qū)域圖像; S2B. 2、將待識別對象的所有眼睛區(qū)域圖像調節(jié)為同一尺寸,所有的鼻子區(qū)域圖像調節(jié) 為同一尺寸,所有的嘴己區(qū)域圖像調節(jié)為同一尺寸; S2B.3、增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像; S2B.4、通過調整高亮度圖像的灰度值將圖像像素均勻地分布在整個圖像范圍內得到 統一標準的Ξ個區(qū)域圖像。4. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S3從情感語音信號中提取語音情感特征的具體包括W下步驟: S3A. 1、利用短時自相關函數法確定情感語音信號的周期,提取出基頻特征的10個統計 學特征參數,短時自相關函數R?;?的定義為:其中,S(n)為情感語音信號的時間序列,Su(n)為第ω帖情感語音信號,每帖帖長為N,k為時 間的延遲量,10個統計學特征參數包括:基頻的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax- Pmin、平均值Pm、標準差Op、平均絕對斜度Ms、上四分位數PO.7日、下四分位數PO.2日、內四分極值Pi =Po. 7日-Po. 2日、中位數Po. 5 ; S3A.2、根據LPC的線性預測運算求出預測系數{ak,k=l,2,…,p},再根據預測系數通過 FFT運算確定聲道的功率譜響應曲線;最后用峰值檢出法精準地計算出功率譜與中屯、頻率, 并計算出Fi、F2、F3共振峰W及與其相關的統計學參數,具體包括:Fi平均值、Fi標準差、F2平 均值、F2標準差、F3平均值、F3標準差、Fi中位數、Fi中位數所占帶寬、F2中位數、F2中位數所占 帶寬、的中位數、的中位數所占帶寬,共12個共振峰特征參數; S3A. 3、對每一帖情感語音信號進行FFT變換得到語音信號的頻譜;再對每一帖的數據 求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一帖的譜線進行帶通濾波;最后對 Mel濾波器組的輸出求對數,并作逆傅里葉變換便可得到Mel倒譜系數; S3A. 4、綜合步驟S3A. 1中得到的10個統計學特征參數、步驟S3A. 3中得到的12個共振峰 特征參數和步驟S3A. 4得到的Mel倒譜系數,最終得到語音情感特征。5. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S3從步驟S2處理得到的統一標準的Ξ個區(qū)域圖像中提取每個區(qū)域圖像中的 面部表情特征的具體步驟為: S3B.1、通過2D-Gabor小波變換從統一標準的人臉圖像中提取圖像紋理特征,將眼睛、 鼻子、嘴己的區(qū)域圖像的每個方向與尺度進行2D-Gabor小波變換處理,獲得眼睛、鼻子、嘴 己R0I圖像每個方向與尺度的2D-Gabor幅值圖譜; S3B.2、將眼睛、鼻子、嘴己區(qū)域圖像每個方向與尺度的2D-Gabor幅值圖譜進行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級聯為表 示一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表 情特征。6. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進行PCA分析降維的具 體步驟為: 54.1、 使用PCA對步驟S4提取的語音情感特征進行降維處理,獲得用于表情分類的最終 語音情感特征; 54.2、 將步驟S3B. 2得到的面部表情特征經過PCA降維處理后,獲得用于表情分類的最 終面部表情特征。7. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進行樸素貝葉斯情感分類 的具體步驟為: S5.1、設分別有m個語音模態(tài)樣本,設語音模態(tài)樣本為XI,則對XI進行樸素貝葉斯情感分 類后可得到XI在每種情感類別下的第一條件概率集合{pu(x),i = l,3,-,,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別; S5.2、設分別有m個面部表情模態(tài)樣本,設面部表情模態(tài)樣本為X2,則對X2進行樸素貝葉 斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i = 2, 4,…,2m代表不同的情感語音模態(tài)樣本數據,j = 1,2,…,6分別代表高興、生氣、討厭、害怕、 悲傷和驚奇六種基本情感類別。8. 根據權利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識別方法,其特征 在于,所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進行決策級融合, 得到待識別對象的最終情感識別結果具體步驟為: 56.1、 按照乘積規(guī)奶計第一條件概率集合和第二條件概率集合進行融 合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗概率集合,{q'j (x),j = l,2,---,6)5 56.2、 將所述后驗概率集合中最大的后驗概率數值所對應的類別作為最終識別結果, 若有多個數值相同的最大后驗概率,則對數值相同的最大后驗概率對應的樣本重新進行步 驟S5的分類并計算條件概率,直至得到最終識別結果。9. 基于語音和面部表情的雙模態(tài)情感融合的識別系統,其特征在于,包括W下模塊: 數據提取模塊,用于獲取待識別對象的音頻數據和視頻數據;信號提取模塊,用于對所 述音頻數據進行預處理得到情感語音信號;從所述視頻數據中提取人臉表情圖像,并進行 眼睛、鼻子、嘴己區(qū)域的分割,預處理后得到統一標準的Ξ個區(qū)域的圖像; 特征提取模塊,用于從所述情感語音信號中提取語音情感特征;從所述Ξ個區(qū)域的圖 像中提取每個區(qū)域圖像中的面部表情特征; PCA分析降維模塊,用于對語音情感特征和面部表情特征進行PCA分析降維; 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進行樸素貝葉斯的情感語音分類,得到語 音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進行基于樸 素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集 合; 決策級融合模塊,用于將第一條件概率集合和第二條件概率集合進行決策級融合,得 到最終識別結果。10. 根據權利要求9所述的基于語音和面部表情的雙模態(tài)情感融合的識別系統,其特征 在于,所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元, 所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進行降維處 理,獲得用于表情分類的最終語音情感特征; 將所述面部表情特征經過PCA降維處理后,獲得用于表情分類的最終面部表情特征。
【文檔編號】G10L15/06GK105976809SQ201610352750
【公開日】2016年9月28日
【申請日】2016年5月25日
【發(fā)明人】劉振燾, 吳敏, 曹衛(wèi)華, 陳鑫, 潘芳芳, 徐建平, 張日, 丁學文
【申請人】中國地質大學(武漢)