專利名稱:基于情感補償?shù)穆暭y識別方法
基于情感補償?shù)穆暭y識別方法墳術(shù)領(lǐng)域本發(fā)明涉及生物特征識別技術(shù),主要是一種基于情感補償?shù)穆暭y識別方法。
技術(shù)背景聲紋識別是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話 人身份的技術(shù)。近十年來,聲紋識別技術(shù)已取得巨大進展,但在應(yīng)用方面仍面臨一個巨大挑 戰(zhàn)如何克服說話人自身狀態(tài)的改變對系統(tǒng)識別性能的影響。隨著數(shù)字娛樂的興起、智能家 電的逐步普及、以及計算的日趨泛在化,人機交互的友好性與自然性尤顯重要,如何提高人 機交互中聲紋技術(shù)對用戶的情緒狀態(tài)變化的適應(yīng)能力日益迫切,即要求處于自然的情感流露 狀態(tài)下的用戶能被正確的識別。傳統(tǒng)的聲紋識別技術(shù)很少考慮由于行為的變化所帶來的語音 變化問題。 發(fā)明內(nèi)容本發(fā)明要解決上述技術(shù)所存在的缺陷,提供一種情感補償?shù)乃悸?,研究對用戶情感變?魯棒的基于情感補償?shù)穆暭y識別方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案這種基于情感補償?shù)穆暭y識別方法,所提出 的情感補償包括情感檢測、特征補償、情感拓展三塊,擬依據(jù)情感檢測技術(shù)計算語音情感因 子,分別從特征與模型兩個層面對情感變化所引起的語音變化進行補償,最終提高聲紋識別 技術(shù)對情感變化的魯棒性。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進一步完善。所述的情感檢測主要用于 檢測語音特征相對于訓(xùn)練模型是否產(chǎn)生形變,并能根據(jù)語音特征產(chǎn)生形變的劇烈程度計算情 感因子,以指導(dǎo)后續(xù)特征與模型補償?shù)姆较蚺c程度。所述的特征補償為特征層對情感進行補 償?shù)南嚓P(guān)技術(shù),主要依據(jù)情感因子對語音特征進行調(diào)理,使其符合原有模型。主要包括情 感弱化技術(shù)、情感規(guī)整技術(shù)、情感屏蔽技術(shù)。所述的情感拓展技術(shù)從模型層次進行補償,在 模型訓(xùn)練時,使聲紋模型盡可能包容不同情感下的特征變化信息。主要涉及基于情感變化 規(guī)律的情感語料合成技術(shù);個體聲紋模型的增量式學(xué)習(xí)方法等。本發(fā)明有益的效果是突破現(xiàn)有的聲紋識別技術(shù)未考慮聲紋情感變化的不足,從特征和模型兩個層面應(yīng)對情感變化引起的語音變化,增強對語音情感漂移的抵抗力。特征層面通過 情感弱化、規(guī)整和屏蔽的手段,將語音特征規(guī)范到訓(xùn)練模型的建模能力范圍內(nèi),以達到抑制 用戶情感對識別性能影響的目的。模型層面采用情感變化規(guī)律進行情感語音合成的逆向途徑 獲取大規(guī)模情感語音,從而大大拓展了聲紋模型的建模信息,解決了情感數(shù)據(jù)獲取的困難。
圖1是本發(fā)明的基于情感補償?shù)穆暭y識別方法框架圖;具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步介紹本發(fā)明的方法首先通過情感測技術(shù)檢測情感語音的形變程度計算情感因子,然后在訓(xùn)練 與識別兩個階段分別在模型層與特征層對情感所引起的語音變化進行補償,包括訓(xùn)練階段 采用情感拓展技術(shù)對聲紋模型做拓廣修整;識別階段可選擇采用情感弱化、規(guī)整、屏蔽技術(shù) 對聲紋特征進行規(guī)范化處理。最終提高聲紋識別技術(shù)對情感變化的魯棒性。本發(fā)明的具體實施分為訓(xùn)練和識別兩個階段。以下分訓(xùn)練與測試兩個階段分別給出具體 實施方式一、訓(xùn)練階段訓(xùn)練階段建立用戶的聲紋模型,分四步實施。第一步、語音信號預(yù)處理采用傳統(tǒng)的語音信號預(yù)處理方法,包括采樣與量化、預(yù)加重處理、加窗環(huán)節(jié) 第二步、特征提取語音幀上的特征提取包括包括美爾倒譜系數(shù)、基頻、時長、強度、聲質(zhì)量和元音共 振峰等語音的聲學(xué)與韻律特征。這些特征的提取過程不是本發(fā)明的部分,故不作贅述。 第三步、情感檢測所采用的語音特征包括美爾倒譜系數(shù)、基頻、時長、強度、聲質(zhì)量和元音共振峰等語音 的聲學(xué)與韻律特征,擬從語音特征統(tǒng)計分析和模型匹配兩條線來實現(xiàn)情感檢測。(1) 語音特征統(tǒng)計分析采用AN0VA (ANalysis 0f VAriance)、 MAN0VA (Multivariate Analysis of Variance)等統(tǒng)計分析方法分析不同情感下的語音特征的變化強弱,根據(jù)變化 的強弱對特征進行歸類并計算情感因子,實現(xiàn)情感檢測;(2) 模型匹配可采用諸如G醒(Gaussian Mixture Models)、 SVM (Support VectorMachine )之類的各種統(tǒng)計模型對歸類情感語音分別訓(xùn)練出不同歸類情感的模型,由語音與 模型的匹配得分來計算情感因子,從而實現(xiàn)情感檢測。 第四步、情感拓展和模型訓(xùn)練該步主要是考慮到對用戶各種情感語音數(shù)據(jù)獲取困難,擬采用情感語音合成和轉(zhuǎn)換技術(shù) 對訓(xùn)練語音進行變換后生成虛擬的多種情感語音,添加到訓(xùn)練語音中成為拓展訓(xùn)練語音,輸 入聲紋模型進行訓(xùn)練。可采用諸如G醒(Gaussian Mixture Models)、 SVM (Support Vector Machine )之類的各種統(tǒng)計模型,并采用增量學(xué)習(xí)的方式實現(xiàn)聲紋模型的拓展訓(xùn)練,訓(xùn)練數(shù) 據(jù)的情感豐富性使得所獲聲紋模型對情感變化具有較強的魯棒性。二、識別階段識別階段將用戶側(cè)語音與用戶的聲紋模型進行匹配計算給出判決,分五步實施。 第一步、語音信號預(yù)處理 同訓(xùn)練階段的第一步。 第二步、特征提取同訓(xùn)練階段的第二步。 第三步、情感檢測 同訓(xùn)練階段的第三步。 第四步、特征補償按照對測試語音特征處理方式的不同,語音特征的補償分為情感弱化、情感規(guī)整和情感 屏蔽技術(shù)。(1) 情感弱化技術(shù)根據(jù)情感檢測技術(shù)獲得情感因子的值,通過設(shè)置適當(dāng)?shù)拈撝祦砗Y選 一些對情感變化相對不敏感的語音特征,以作為后續(xù)訓(xùn)練模型的輸入,從而得到情感弱化的 聲紋模型;(2) 情感規(guī)整技術(shù)根據(jù)情感檢測技術(shù)獲得情感因子的值,對語音特征做高維幾何空間 映射將其變換到訓(xùn)練模型的表達范圍內(nèi);(3) 情感屏蔽技術(shù)根據(jù)情感檢測技術(shù)獲得情感因子的值,通過設(shè)置適當(dāng)?shù)拈撝祦碜詣?剔除受情感變化影響而發(fā)生較大變化部分的語音特征,留下變化相對平穩(wěn)的語音特征。第五步、模式匹配和邏輯決策經(jīng)過以上所述的情感弱化、規(guī)整、屏蔽技術(shù)進行規(guī)范化處理后所得的聲紋特征,其對聲 紋模型的匹配度將有不同程度的提高。聲紋模型可采用諸如GMM (Gaussian Mixture Models)、 SVM (Support Vector Machine )之類的各種統(tǒng)計模型,將特征補償后的特征與采用的聲紋 模型進行相應(yīng)的匹配計算和邏輯決策給出識別結(jié)果。上述實施例用來解釋說明本發(fā)明,而不是對本發(fā)明進行限制,在本發(fā)明的精神和權(quán)利要 求的保護范圍內(nèi),對本發(fā)明作出的任何修改和改變,都落入本發(fā)明的保護范圍。
權(quán)利要求
1、一種基于情感補償?shù)穆暭y識別方法,其特征在于步驟如下首先通過情感檢測方法檢測情感語音的形變程度計算情感因子,然后在訓(xùn)練與識別兩個階段分別在模型層與特征層對情感所引起的語音變化進行補償,包括訓(xùn)練階段采用情感拓展方法對聲紋模型做拓廣修整;識別階段采用特征補償方法對聲紋特征進行規(guī)范化處理。
2、 根據(jù)權(quán)利要求1所述的基于情感補償?shù)穆暭y識別方法,其特征在于所述的情感檢 測方法表示從語音特征統(tǒng)計分析和模型匹配兩條途徑來檢測語音特征相對于訓(xùn)練模型是否 產(chǎn)生形變,并計算語音特征產(chǎn)生形變的劇烈程度,即情感因子。
3、 根據(jù)權(quán)利要求1所述的基于情感補償?shù)穆暭y識別方法,其特征在于所述的情感拓 展方法表示從模型層次進行補償,在模型訓(xùn)練時,使聲紋模型盡可能包容不同情感下的特征 變化信息,包括基于情感變化規(guī)律的情感語料合成方法和個體聲紋模型的增量式學(xué)習(xí)方法。
4、 根據(jù)權(quán)利要求1所述的基于情感補償?shù)穆暭y識別方法,其特征在于所述的特征補 償方法表示在特征層對情感語音特征進行規(guī)分化處理,依據(jù)情感因子對語音特征進行調(diào)理, 使其符合原有模型。
5、 根據(jù)權(quán)利要求2所述的情感檢測技術(shù),其特征在于所述的語音特征統(tǒng)計分析方法 表示采用ANOVA、 MANOVA統(tǒng)計分析方法分析不同情感下的語音特征的變化強弱,根據(jù)變化的 強弱對特征進行歸類并計算情感因子。
6、 根據(jù)權(quán)利要求2所述的情感檢測技術(shù),其特征在于所述的模型匹配方法表示采用 G醒、SVM的各種統(tǒng)計模型對歸類情感語音分別訓(xùn)練出不同歸類情感的模型,由語音與模型的 匹配得分來計算情感因子。
7、 根據(jù)權(quán)利要求3所述的情感檢測技術(shù),其特征在于所述的基于情感變化規(guī)律的情 感語料合成方法采用情感語音合成和轉(zhuǎn)換技術(shù)對訓(xùn)練語音進行變換后生成虛擬的多種情感 語音,添加到訓(xùn)練語音中成為拓展訓(xùn)練語音,輸入聲紋模型進行訓(xùn)練。
8、 根據(jù)權(quán)利要求3所述的情感檢測技術(shù),其特征在于所述的個體聲紋模型的增量式 學(xué)習(xí)方法表示運用用戶的正確識別語料逐步地對聲紋模型進行更新以適應(yīng)用戶的語音特征變化,累積用戶提供的識別正確的測試語音作為聲紋模型的更新語料,對GMM、 SVM之類的統(tǒng)計模型,采用一種不斷遞進加入更新語料,采用自適應(yīng)的學(xué)習(xí)策略對聲紋模型進行拓展訓(xùn) 練。
9、 根據(jù)權(quán)利要求4所述的特征補償技術(shù),其特征在于所述的情感弱化技術(shù)表示自適應(yīng)選擇對情感變化相對不敏感的語音特征參與聲紋建模,根據(jù)情感檢測技術(shù)獲得情感因子的 值,通過設(shè)置適當(dāng)?shù)拈撝祦砗Y選一些對情感變化相對不敏感的語音特征,以作為后續(xù)訓(xùn)練模 型的輸入,從而得到情感弱化的聲紋模型。
10、 根據(jù)權(quán)利要求4所述的特征補償技術(shù),其特征在于所述的情感規(guī)整技術(shù)表示通過對語音特征做變換,規(guī)范到訓(xùn)練模型的表達范圍內(nèi),根據(jù)情感檢測技術(shù)獲得情感因子的值,對語音特征做高維幾何空間映射將其變換到訓(xùn)練模型的表達范圍內(nèi);所述的情感屏蔽技術(shù)表 示自動剔除受情感變化影響變化較大部分的語音特征,留下變化相對平穩(wěn)的語音特征;根據(jù) 情感檢測技術(shù)獲得情感因子的值,通過設(shè)置適當(dāng)?shù)拈撝祦碜詣犹蕹芮楦凶兓绊懚l(fā)生較 大變化部分的語音特征,留下變化相對平穩(wěn)的語音特征。
全文摘要
本發(fā)明涉及一種基于情感補償?shù)穆暭y識別方法,所提出的情感補償包括情感檢測、特征補償、情感拓展三塊,擬依據(jù)情感檢測技術(shù)計算語音情感因子,分別從特征與模型兩個層面對情感變化所引起的語音變化進行補償,最終提高聲紋識別技術(shù)對情感變化的魯棒性。本發(fā)明有益的效果是突破現(xiàn)有的聲紋識別技術(shù)未考慮聲紋情感變化的不足,從特征和模型兩個層面應(yīng)對情感變化引起的語音變化,增強對語音情感漂移的抵抗力。特征層面通過情感弱化、規(guī)整和屏蔽的手段,將語音特征規(guī)范到訓(xùn)練模型的建模能力范圍內(nèi),以達到抑制用戶情感對識別性能影響的目的。模型層面采用情感變化規(guī)律進行情感語音合成的逆向途徑獲取大規(guī)模情感語音,從而大大拓展了聲紋模型的建模信息,解決了情感數(shù)據(jù)獲取的困難。
文檔編號G10L17/00GK101226742SQ20071015713
公開日2008年7月23日 申請日期2007年12月5日 優(yōu)先權(quán)日2007年12月5日
發(fā)明者吳朝暉, 楊瑩春, 綱 潘 申請人:浙江大學(xué)