專利名稱:非特定人語音情感識別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種非特定人語音情感識別方法及系統(tǒng)。
背景技術(shù):
語音情感識別技術(shù)的發(fā)展對推動智能化、人性化的新型人機(jī)交互技術(shù)的發(fā)展和應(yīng)用具有重要的作用,如何使用計(jì)算機(jī)技術(shù)從語音中自動識別說話人的情感狀態(tài)近年來受到各領(lǐng)域研究者的廣泛關(guān)注。現(xiàn)有的語音情感識別研究,還存在較多局限性,尤其 是語音情感特征參數(shù)在情感空間的分布會隨著說話人的變化而變化,情感識別的準(zhǔn)確率受說話人變化的影響較大,從而導(dǎo)致當(dāng)待識別語音的說話人不在訓(xùn)練庫中時(shí),情感識別率會急劇下降,限制了語音情感識別在自然環(huán)境下的實(shí)際應(yīng)用。目前,消除聲學(xué)情感特征中說話人個(gè)性化因素最常用的方法是采用說話人的中性情感語音特征對情感特征參數(shù)進(jìn)行歸一化,如東南大學(xué)的趙力教授和浙江大學(xué)的謝波博士均采用將情感特征與說話人處于平靜時(shí)的相應(yīng)情感特征作差值運(yùn)算的方法對情感特征進(jìn)行歸一化。這種采用中性情感語音特征對情感特征參數(shù)進(jìn)行歸一化的方法雖然能夠在一定程度上消除說話人個(gè)性化說話特征的影響,但是必須要求待識別語音的說話人在識別前至少錄制一句中性情感語句,這種要求在一定程度上限制了語音情感識別的實(shí)際應(yīng)用。Vidhyasaharan Sethu等人提出了將所有的情感特征映射到同一種概率分布(正態(tài)分布)上,以此消除說話人個(gè)人說話特征對情感特征的分布帶來的干擾,但將所有說話人的情感特征映射到正態(tài)分布是否能夠有效地消除說話人個(gè)人說話特點(diǎn)的干擾且不丟失其中的情感信息,還缺乏理論的分析。有鑒于此,有必要提供一種非特定人語音情感識別方法及系統(tǒng)以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有語音情感識別方法的語音情感識別率容易受說話人變化影響的缺點(diǎn),充分利用情感副語言受說話人變化干擾較小的特點(diǎn),提供一種情感副語言輔助的非特定人語音情感識別方法及系統(tǒng)。實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是—種非特定人語音情感識別方法,包括SI.提取待識別語音信號中用于識別情感副語言的語音特征,輸入情感副語言識別模型,得出待識別語音信號所包含的情感副語言,并根據(jù)情感副語言與情感類別之間的對應(yīng)關(guān)系,推測出基于情感副語言的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S2.提取待識別情感語音信號的聲學(xué)語音情感特征,輸入基于聲學(xué)語音情感特征的語音情感識別模型,得出基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;S3.對所述基于情感副語言的情感識別通道和基于聲學(xué)語音情感特征的語言情感識別通道的識別結(jié)果進(jìn)行融合,得出待識別情感語音信號所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟SI之前還包括下列步驟S01.建立基于情感副語言的語音情感識別通道,包括S011.建立情感語料庫,使其中語音信號樣本涉及的情感中的每種情感至少有15個(gè)語料,每個(gè)語料包含所述情感副語言;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; S012.對所述語音信號樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測;S013.在所述語音信號中提取所述識別情感副語言所用的語音特征;S014.訓(xùn)練情感副語言識別模型;S015.建立基于情感副語言的語音情感狀態(tài)識別模型,基于情感副語言的語音情感狀態(tài)識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關(guān)系模型,用于識別情感副語言,以及情感副語言所對應(yīng)的情感類別和該情感類別的置信度,并得到所述基于情感副語言的語音情感識別通道識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,所述情感副語言與情感類別之間的映射關(guān)系具體為“笑聲”對應(yīng)“高興”情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怒”情感類別;S02.建立基于聲學(xué)語音情感特征的語音情感識別通道,包括S021.采用SOll所錄制的情感語料庫;S022.對所述語音信號樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測;S023.在所述語音信號中提取聲學(xué)語音情感特征;S024.訓(xùn)練基于聲學(xué)語音情感特征的情感識別模型;S025.建立基于聲學(xué)語音情感特征的的情感狀態(tài)識別模型,用于根據(jù)聲學(xué)語音情感特征識別語音信號所包含的情感類別和該情感類別的置信度,并得到所述基于聲學(xué)語音情感特征的情感識別通道識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。作為本發(fā)明的進(jìn)一步改進(jìn),所述識別情感副語言所用的語音特征包括語音的短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些特征的最大值、最小值以及變化范圍;所述聲學(xué)語音情感特征包括,包括短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及所述聲學(xué)語音情感特征的最大值、最小值以及變化范圍;作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟SI具體包括Sll.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測;S12.從所述待識別語音信號樣本中提取識別情感副語音所用的語音特征,包括提取短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語音特征的最大值、最小值以及變化范圍;S13.將提取的所述語音特征輸入所述基于情感副語言的情感狀態(tài)模型,通過情感副語言識別模型集識別,得到待識別語音信號樣本中包含的情感副語言及其置信度;通過所述情感副語言與情感類別之間的映射關(guān)系模型,得到所述情感副語言對應(yīng)的情感類別及該情感類別的置信度,并進(jìn)一步得到所述基于情感副語言的語音情感識別通道的識別結(jié)果O作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟S2具體包括S21.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測;
S22.從所述的待識別語音信號樣本中的提取聲學(xué)語音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)語音情感特征的最大值、最小值以及變化范圍;S23.將提取的所述聲學(xué)語音情感特征輸入所述基于聲學(xué)語音情感特征的情感狀態(tài)識別模型,得到所述語音信號所包含的情感類別及該情感類別的置信度,即得到所述基于聲學(xué)語音情感特征的語音情感識別通道的識別結(jié)果。作為本發(fā)明的進(jìn)一步改進(jìn),所述情感副語言識別模型采用支持向量機(jī)、高斯混合模型或隱馬爾科夫模型;所述基于聲學(xué)語音情感特征的情感語言識別模型采用支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。相應(yīng)地,一種非特定人語音情感識別系統(tǒng),包括識別情感副語言所用的語音特征提取單元用于提取待識別語音信號中用于識別情感副語言的語音特征,輸入情感副語言識別模型,得出待識別語音信號所包含的情感副語言,并根據(jù)情感副語言與情感類別之間的對應(yīng)關(guān)系,推測出基于情感副語言的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;所述識別情感副語言所采用的語音特征包括語音的短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語音特征的最大值、最小值以及變化范圍;聲學(xué)語音情感特征提取單元用于提取待識別情感語音信號的聲學(xué)語音情感特征,輸入基于聲學(xué)語音情感特征的情感識別模型,得出待識別語音信號所包含的情感狀態(tài),即得出基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;融合單元用于對所述基于情感副語言的情感識別通道和基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果進(jìn)行融合,得出待識別情感語音信號所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述非特定人語音情感識別系統(tǒng)還包括基于情感副語言的情感識別通道,其中包括情感語料庫,語音信號樣本涉及的情感中的每種情感至少有15個(gè)語料,每個(gè)語料包含至少一種所述情感副語言;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;識別情感副語言所采用的語音特征提取單元,用于在所述語音信號中提取所述識別情感副語言所采用的語音特征;情感副語言識別模型訓(xùn)練單元,用于訓(xùn)練情感副語言識別模型;基于情感副語言的情感狀態(tài)識別模型,包括情感副語言識別模型集和情感副語言與情感類別之間的映射關(guān)系模型,所述情感類別包括高興、悲傷、害怕、厭惡、驚訝和憤怒六類情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怕、驚訝、厭惡、憤怒,所述副語言與情感類別之間的映射關(guān)系具體為“笑聲”對應(yīng)“高興”情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆 息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怒”情感類別;基于聲學(xué)情感特征的情感狀態(tài)識別通道,包括情感語料庫,采用基于情感副語言的語音情感識別通道的情感語料庫;聲學(xué)語音情感特征提取單元,用于在所述語音信號中提取聲學(xué)語音情感特征;基于聲學(xué)語音情感特征的情感識別模型訓(xùn)練單元,用于訓(xùn)練基于聲學(xué)情感特征的情感識別模型;基于聲學(xué)語音情感特征的情感狀態(tài)識別模型,用于根據(jù)聲學(xué)語音情感特征識別語音信號所包含的情感類別和該情感類別的置信度,即得到所述基于聲學(xué)語音情感特征的情感識別通道識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒;融合單元,用于融合所述基于情感副語言的情感識別通道和基于聲學(xué)語音情感特征的情感識別的識別結(jié)果,得出情感語音信號樣本所包含的情感狀態(tài)。作為本發(fā)明的進(jìn)一步改進(jìn),所述基于情感副語言的情感識別通道訓(xùn)練單元中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型;所述基于聲學(xué)語音情感特征的情感識別訓(xùn)練單元中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述識別情感副語言所用的語音特征提取單元和聲學(xué)語音情感特征提取單元之前設(shè)有預(yù)處理單元,預(yù)處理單元用于對情感語音信號進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測;作為本發(fā)明的進(jìn)一步改進(jìn),所述識別情感副語言的語音特征包括提取短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語音特征的最大值、最小值以及變化范圍;所述聲學(xué)語音情感特征包括提取美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)、共振峰,以及所述聲學(xué)語音情感特征的最大值、最小值以及變化范圍。本發(fā)明的有益效果是克服了傳統(tǒng)語音情感特征易受說話人變化干擾的不足,充分利用情感副語言受說話人變化的影響比較小的特點(diǎn),從情感語音信號中提取反應(yīng)情感信息的情感副語言,用情感副語言包含的情感信息來輔助傳統(tǒng)的聲學(xué)語音情感特征進(jìn)行情感識別,從而達(dá)到提高語音情感識別魯棒性和識別率的目的。
圖I為本發(fā)明一實(shí)施例中非特定人語音情感識別方法的流程圖。圖2為圖I中步驟SI的具體流程圖。圖3為圖I中步驟S2的具體流程圖。圖4為本發(fā)明非特定人語音情感識別方法的框架圖。圖5為本發(fā)明非特定人語音情感識別系統(tǒng)的示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。參圖I所示為本發(fā)明非特定人語音情感識別方法的流程圖。該方法包括SI.提取待識別語音信號中用于識別情感副語言的語音特征,輸入情感副語言識別模型,得出待識別語音信號所包含的情感副語言,并根據(jù)情感副語言與情感類別之間的對應(yīng)關(guān)系,推測出基于情感副語言的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S2.提取待識別情感語音信號的聲學(xué)語音情感特征,輸入基于聲學(xué)語音情感特征的情感識別模型,得出基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;S3.對基于情感副語言的情感識別通道和基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果進(jìn)行融合,得出待識別情感語音信號所包含的情感狀態(tài)。優(yōu)選地,在步驟SI之前還包括下列步驟S01.建立基于情感副語言的情感識別通道,包括S011.建立情感語料庫,使其中語音信號樣本涉及的情感中的每種情感至少有15個(gè)語料,每個(gè)語料至少包含一種情感副語言;情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;S012.對語音信號樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測;S013在預(yù)處理后的語音信號中提取識別情感副語言的語音特征;S014.訓(xùn)練情感副語言識別模型;S015.建立基于情感副語言的情感狀態(tài)識別模型,基于情感副語言的情感狀態(tài)識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關(guān)系模型,用于識別情感副語言,以及情感副語言所對應(yīng)的情感類別和該情感類別的置信度,并得到基于情感副語言煩人情感識別通道識別結(jié)果;情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,情感副語言與情感類別之間的映射關(guān)系具體為“笑聲”對應(yīng)“高興”情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怒”情感類別;
S02.建立基于聲學(xué)語音情感特征的情感識別通道,包括S021.采用SOll中所建立的情感語料庫;S022.對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測;S023.在經(jīng)過預(yù)處理后的語音信號中提取聲學(xué)語音情感特征;S024.訓(xùn)練基于聲學(xué)語音情感特征的情感識別模型;S025.建立基于聲學(xué)語音情感特征的情感識別模型,用于根據(jù)聲學(xué)情感特征,識別語音信號中所包含的情感類別和該情感類別的置信度,即得到基于聲學(xué)語音情感特 征的情感識別通道識別結(jié)果;情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。本發(fā)明中的識別情感副語言所采用的語音特征包括語音的短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語音特征的最大值、最小值以及變化范圍;聲學(xué)語音情感特征包括,包括短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及這些聲學(xué)語音情感特征的最大值、最小值以及變化范圍;其中,參圖2所示,步驟SI具體包括Sll.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測;S12.從待識別語音信號樣本中提取識別情感副語音所采用的語音特征,包括提取短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語音特征的最大值、最小值以及變化范圍;S13.將提取的語音特征輸入基于情感副語言的情感狀態(tài)模型,通過情感副語言識別模型集識別,得到待識別語音信號樣本中包含的情感副語言及其置信度;通過情感副語言與情感類別之間的映射關(guān)系模型識別,得到情感副語言對應(yīng)的情感類別及該情感類別的置信度,即得到基于情感副語言的情感識別通道的識別結(jié)果。參圖3所示,步驟S2具體包括S21.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測;S22.從的待識別語音信號樣本中的提取聲學(xué)語音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及聲學(xué)語音情感特征的最大值、最小值以及變化范圍;S23.將提取的聲學(xué)語音情感特征輸入基于聲學(xué)語音情感特征的情感狀態(tài)識別模型,得到待識別語音信號所包含的情感類別及該情感類別的置信度,即得到基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果。本發(fā)明通過提取情感語料中的情感副語言來輔助傳統(tǒng)聲學(xué)語音情感特征進(jìn)行情感語料中情感狀態(tài)的識別,為語音情感識別提供更多的說話人魯棒的語音情感信息,最終提高語音情感識別方法對說話人變化的魯棒性。本發(fā)明中的情感副語言屬于狹義副語言范疇,內(nèi)容包括伴隨語音的某些聲音現(xiàn)象,如哭聲、笑聲、嘆息聲等。情感語料庫中錄制了涵蓋日常生活中常用的情感副語音,如哭聲、笑聲、嘆息聲、喘息聲、質(zhì)疑聲以及叫喊聲等。語料庫包含六類情感,分別為高興、傷心、驚奇、生氣、害怕、厭惡。根據(jù)語境自然的嵌入情感副預(yù)言,如高興常伴有笑聲,傷心常伴有哭聲等。每種情感有15個(gè)語料,每個(gè)語料都易于加入相應(yīng)的情感,使得錄制者較易進(jìn)入情感狀態(tài)。所有腳本內(nèi)容不同,且包含較豐富的情感副語言如哭聲、笑聲、嘆息聲等。優(yōu)選地,情感語料庫由五個(gè)男生六個(gè)女生在專業(yè)的錄音室錄制而成,采樣率為11025Hz,樣本均保存為wav格式。采集好情感語料后,本發(fā)明的具體實(shí)施分為訓(xùn)練、識別和融合三個(gè)階段,結(jié)合圖4所示,分別從訓(xùn)練、識別和融合三個(gè)階段作進(jìn)一步說明。一、訓(xùn)練階段I、對情感語音信號進(jìn)行預(yù)處理這一步是采用傳統(tǒng)的語音信號預(yù)處理方法對情感語音信號進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測。2、識別情感副語言所采用的語音特征的提取和情感副語言識別模型的訓(xùn)練 2. I提取識別情感副語言所用的語音特征,包括短時(shí)能量、過零率、梅爾倒譜系數(shù)(前12個(gè)系數(shù))、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些特征的最大值、最小值以及變化范圍等統(tǒng)計(jì)特征。2. 2對情感副語言識別模型進(jìn)行訓(xùn)練,這里的識別模型可采用諸如SVM(SupportVector Machine 支持向量機(jī))、GMM(Gaussian Mixture Model 高斯混合模型)以及HMM(Hidden Markov Model隱馬爾科夫模型)之類的各種統(tǒng)計(jì)模型。3、傳統(tǒng)的聲學(xué)語音情感特征的提取和基于聲學(xué)語音情感特征的語音情感識別模型的訓(xùn)練3. I提取包括美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)以及共振峰等語音的聲學(xué)語音情感特征,并在情感語段上分別提取這些特征的最大值、最小值以及變化范圍等統(tǒng)計(jì)特征。3. 2對基于聲學(xué)語音情感特征的語音情感識別模型進(jìn)行訓(xùn)練,這里的識別模型可采用諸如SVM、GMM以及HMM之類的各種統(tǒng)計(jì)模型,方法與本階段第2. 2步相同。二、識別階段識別階段是將待識別的情感語音信號輸入第一階段訓(xùn)練好的模型,計(jì)算得出該情感語音信號在每個(gè)通道的情感狀態(tài)識別結(jié)果,分三步實(shí)施。I、對情感語音信號進(jìn)行預(yù)處理,所采用的方法同訓(xùn)練階段的第I步。2、待識別情感語音信號中識別情感副語言所用的語音特征的提取和基于情感副語目的語首情感識別。2. I提取待識別情感語料中識別情感副語言所采用的語音特征,所采用的方法同訓(xùn)練階段的2. I步。2. 2識別待識別情感語料中所包含的情感副語言。將本階段2. I步所提取的待識別語料中識別情感副語言所采用的語音特征輸入第一階段2. 2步已經(jīng)訓(xùn)練好的情感副語言識別模型,計(jì)算得出該待識別情感語音信號所包含的情感副語目。2. 3建立情感副語言的語音情感狀態(tài)之間的映射關(guān)系,并將此時(shí)情感副語言識別的置信度作為相應(yīng)的情感狀態(tài)的置信度。建立情感副語言與情感狀態(tài)之間的映射關(guān)系如下若識別出待識別情感語音信號中的情感副語言為“笑聲”,則推斷該情感語音信號所反映的是“高興”情感狀態(tài);
若識別出待識別情感語音信號中的情感副語言為“傷心的哭聲”,則推斷該情感語音信號所反映的是“悲傷”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“害怕的哭聲”,則推斷該情感語音信號所反映的是“害怕”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“質(zhì)疑聲”,則推斷該情感語音信號所反映的是“驚訝”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“急促的喘息聲”,則推斷該情感語音信號所反映的是“害怕”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“無奈的嘆息聲”,則推斷該情感 語音信號所反映的是“厭惡”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“哀怨的嘆息聲”,則推斷該情感語音信號所反映的是“悲傷”情感狀態(tài);若識別出待識別情感語音信號中的情感副語言為“叫喊聲”,則推斷該情感語音信號所反映的是“憤怒”情感狀態(tài)。3、提取待識別情感語音信號的聲學(xué)語音情感特征并采用所提取的聲學(xué)語音情感特征識別待識別情感語音信號所包含的情感狀態(tài)。3. I待識別情感語音信號的聲學(xué)語音情感特征的提取,所采用的提取方法同訓(xùn)練階段的3. I步。3. 2將本階段3. I步所提取的待識別語料的聲學(xué)語音情感特征輸入第一階段3. 2步已經(jīng)訓(xùn)練好的基于聲學(xué)語音情感特征的語音情感識別模型,得出該待識別情感語音信號所屬的情感狀態(tài)。其中,在步驟2. 2和3. 2中的基于SVM模型概率置信度計(jì)算方法如下優(yōu)選地,本發(fā)明使用‘一對一’ SVM模型進(jìn)行分類識別,SVM決策是采用投票機(jī)制的,對于N個(gè)模型,相當(dāng)于有N* (N-1)個(gè)專家進(jìn)行投票,每個(gè)情感類別均有一個(gè)概率,概率最高者被選為最終識別結(jié)果。算法所用的基于SVM的置信度由兩部分組成I、計(jì)算待測樣本到分類決策面距離,距離大于一定閾值時(shí),即決策函數(shù)值大于一定的閾值時(shí),取這N*(N-I)個(gè)決策距離的平均值。我們接受投票即認(rèn)為專家投票是有效的,否則認(rèn)為無效不計(jì)入總票數(shù)。對于類別i,其得到的有效票數(shù)為V,而其可信投票數(shù)為V,則類別i對應(yīng)的概率置信度為conf (i)=v/V。2、計(jì)算情感概率之間的分辨率,對N個(gè)情感類別,每個(gè)待識別樣本經(jīng)模型識別后得出對應(yīng)的該樣本屬于N個(gè)情感概率,記為P1, P2,. . . Pn,則輸出概率Pi的分辨率為該輸出概率與其余所有輸出概率的平均值之差,其計(jì)算方法如公式(I)所示
權(quán)利要求
1.一種非特定人語音情感識別方法,其特征在于,所述方法包括 51.提取待識別語音信號中用于識別情感副語言的語音特征,輸入情感副語言識別模型,得出待識別語音信號所包含的情感副語言,并根據(jù)情感副語言與情感類別之間的對應(yīng)關(guān)系,推測出副語言情感識別通道的情感識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 52.提取待識別情感語音信號的聲學(xué)情感特征,輸入基于聲學(xué)情感特征的語音情感識別模型,得出基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果待識別語音信號所包含的情感類別以及相應(yīng)的概率; 53.對所述基于副語言的情感識別通道和基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果進(jìn)行融合,得出待識別情感語音信號所包含的情感狀態(tài)。
2.據(jù)根權(quán)利要求I所述的非特定人語音情感識別方法,其特征在于,所述步驟SI之前還包括下列步驟 501.建立基于情感副語言的語音情感識別通道,包括 5011.建立情感語料庫,使其中語音信號樣本涉及的情感中的每種情感至少有15個(gè)語料,每個(gè)語料包含至少一種或多種所述情感副語言;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 5012.對所述語音信號樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測; 5013.在所述語音信號樣本中提取用于識別所述情感副語言的語音特征; 5014.訓(xùn)練情感副語言識別模型; 5015.建立基于情感副語言的情感狀態(tài)識別模型,基于情感副語言的情感狀態(tài)識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關(guān)系模型,用于識別情感副語言,以及情感副語言所對應(yīng)的情感類別和該情感類別的置信度,并得到所述基于副語言的語音情感識別通道的識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒,所述情感副語言與情感類別之間的映射關(guān)系具體為“笑聲”對應(yīng)“高興”情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怒”情感類別; 502.建立基于聲學(xué)情感特征的語音情感識別通道,包括 5021.采用SOll所建立的情感語料庫; 5022.對所述語音信號樣本進(jìn)行預(yù)處理,包括預(yù)加重、加窗處理、分幀、端點(diǎn)檢測; 5023.對預(yù)處理后的語音信號提取聲學(xué)語音情感特征; 5024.訓(xùn)練基于聲學(xué)語音情感特征的語音情感識別模型; 5025.建立基于聲學(xué)語音情感特征的情感狀態(tài)識別模型,當(dāng)待識別語音信號經(jīng)過訓(xùn)練好的基于聲學(xué)語音情感特征的語音情感識別模型,得到所述基于聲學(xué)語音情感特征的情感識別通道識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。
3.根據(jù)權(quán)利要求I或2所述的非特定人語音情感識別方法,其特征在于, 所述識別情感副語言所用的語音特征包括語音的短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語音特征的最大值、最小值以及變化范圍; 所述聲學(xué)語音情感特征包括,包括短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù),以及所述傳統(tǒng)語言語音特征的最大值、最小值以及變化范圍。
4.根據(jù)權(quán)利要求2所述的非特定人語音情感識別方法,其特征在于, 所述步驟SI具體包括 511.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測; 512.從所述待識別語音信號樣本中提取識別情感副語音所用的語音特征,包括提取短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語音特征的最大值、最小值以及變化范圍; 513.將提取的所述語音特征輸入所述基于情感副語言的情感狀態(tài)識別模型,通過副語言識別模型集識別,得到待識別語音信號樣本中包含的情感副語言及其置信度;通過所述情感副語言與情感類別之間的映射關(guān)系模型識別,得到待識別語音信號所包含的情感類別及該情感類別的置信度,即得到待識別語音信號在所述的基于情感副語言的語音情感識別通道的識別結(jié)果。
5.根據(jù)權(quán)利要求2所述的非特定人語音情感識別方法,其特征在于, 所述步驟S2具體包括 521.對待識別語音信號樣本進(jìn)行預(yù)處理,包括分幀、加窗和端點(diǎn)檢測; 522.從所述的待識別語音信號樣本中的提取聲學(xué)語音情感特征,包括美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)情感特征的最大值、最小值以及變化范圍; 523.將提取的所述聲學(xué)語音情感特征輸入所述基于聲學(xué)情感特征的語音情感狀態(tài)識別模型,得到語音信號所包含的情感類別及該情感類別的置信度,即得到所述基于聲學(xué)情感特征的語音情感識別通道的識別結(jié)果。
6.根據(jù)權(quán)利要求2所述的非特定人語音情感識別方法,其特征在于, 所述訓(xùn)練情感副語言識別模型中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型等統(tǒng)計(jì)模型; 所述訓(xùn)練基于聲學(xué)語音情感特征的語音情感識別模型中,采用的統(tǒng)計(jì)模型可以為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型等統(tǒng)計(jì)模型。
7.一種非特定人語音情感識別系統(tǒng),其特征在于,所述系統(tǒng)包括 基于情感副語言的語音情感識別通道,其中包括 情感語料庫,語音信號樣本涉及的情感中的每種情感至少有15個(gè)語料,每個(gè)語料包含至少一種所述情感副語言;所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲; 用于識別情感副語言的語音特征提取單元用于提取待識別語音信號中用于識別情感副語言的語音特征,再輸入情感副語言識別模型,得出待識別語音信號所包含的情感副語言及其概率。所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質(zhì)疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲;所述的用于識別情感副語言的語音特征包括語音的短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及這些語音特征的最大值、最小值以及變化范圍; 情感副語言識別模型訓(xùn)練單元,用于訓(xùn)練情感副語言識別模型; 基于情感副語言的情感狀態(tài)識別模型,包括情感副語言識別模型集和情感副語言與情感類別之間的映射關(guān)系模型,所述情感類別包括高興、悲傷、害怕、驚訝、憤怒、厭惡六類情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怕、驚訝、厭惡、憤怒,所述副語言與情感類別之間的映射關(guān)系具體為“笑聲”對應(yīng)“高興”情感類別,“傷心的哭聲”對應(yīng)“悲傷”情感類別,“害怕的哭聲”對應(yīng)“害怕”情感類別,“質(zhì)疑聲”對應(yīng)“驚訝”情感類別,“急促的喘息聲”,對應(yīng)“害怕”情感類別,“無奈的嘆息聲”對應(yīng)“厭惡”情感類別,“哀怨的嘆息聲”對應(yīng)“悲傷”情感類別,“叫喊聲”對應(yīng)“憤怒”情感類別; 基于聲學(xué)語音情感特征的語音情感識別通道,包括 情感語料庫采用基于情感副語言的語音情感識別通道中所錄制的情感語料庫; 聲學(xué)語音情感特征提取單元用于提取待識別情感語音信號中的聲學(xué)語音情感特征,所述的聲學(xué)語音情感特征包括短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述聲學(xué)語音特征的最大值、最小值以及變化范圍; 傳統(tǒng)語言識別模型訓(xùn)練單元,用于訓(xùn)練傳統(tǒng)語言識別模型; 基于聲學(xué)語音情感特征的語音情感狀態(tài)識別模型,該模型根據(jù)聲學(xué)語音情感特征,識別情感語料中所包含的情感類別,并得到該情感類別的置信度,即得到所述基于聲學(xué)語音情感特征的語音情感識別通道識別結(jié)果;所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒; 融合單元,用于融合所述基于情感副語言的語音情感識別通道和基于聲學(xué)語音情感特征的語音情感識別通道的情感識別結(jié)果,得出情感語音信號樣本所包含的情感狀態(tài)。
8.根據(jù)權(quán)利要求6所述的非特定人語音情感識別系統(tǒng),其特征在于, 所述副語言通道中,采用的統(tǒng)計(jì)模型為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型; 所述聲學(xué)語音情感特征通道中,采用的統(tǒng)計(jì)模型為支持向量機(jī)、高斯混合模型或隱馬爾科夫模型。
9.根據(jù)權(quán)利要求6所述的非特定人語音情感識別系統(tǒng),其特征在于, 所述識別情感副語言的語音特征提取單元和聲學(xué)語音情感特征提取單元之前設(shè)有預(yù)處理單元,包括分巾貞、加窗和端點(diǎn)檢測。
10.根據(jù)權(quán)利要求6所述的非特定人語音情感識別系統(tǒng),其特征在于,所述提取識別情感副語言的語音特征包括提取短時(shí)能量、過零率、梅爾倒譜系數(shù)、基音頻率、音質(zhì)、靜音比率、前三個(gè)共振峰系數(shù)等,以及所述這些語音特征的最大值、最小值以及變化范圍; 所述提取聲學(xué)語音情感特征包括提取美爾倒譜系數(shù)、基頻、時(shí)長、強(qiáng)度、振幅、音質(zhì)、共振峰等,以及所述聲學(xué)語音情感特征的最大值、最小值以及變化范圍。
全文摘要
本發(fā)明提供了一種非特定人語音情感識別方法及系統(tǒng),其中該方法包括提取待識別語音信號中用于識別情感副語言的語音特征;提取待識別情感語音信號的聲學(xué)語音情感特征;對所述基于情感副語言的情感識別通道和基于聲學(xué)語音情感特征的情感識別通道的識別結(jié)果進(jìn)行融合,得出待識別情感語音信號所包含的情感狀態(tài)。本發(fā)明利用情感副語言特征受說話人變化的影響比較小的特點(diǎn),從情感語音信號中提取反應(yīng)情感信息的情感副語言,用情感副語言包含的情感信息來輔助傳統(tǒng)的聲學(xué)語音情感特征進(jìn)行情感識別,從而達(dá)到提高語音情感識別魯棒性和識別率的目的。
文檔編號G10L15/02GK102881284SQ20121032178
公開日2013年1月16日 申請日期2012年9月3日 優(yōu)先權(quán)日2012年9月3日
發(fā)明者毛啟容, 趙小蕾, 詹永照, 白李娟, 王治鋒, 楊華宇 申請人:江蘇大學(xué)