两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于語音模糊聚類的情感識別方法

文檔序號:6551211閱讀:189來源:國知局
一種基于語音模糊聚類的情感識別方法
【專利摘要】本發(fā)明涉及語音情感識別技術(shù),具體的說是涉及一種基于語音模糊聚類的情感識別方法。本發(fā)明的方法包括:對輸入的語音信號進行預(yù)處理;提取處理后的語音信號的特征信息;將多類情感進行分組,并根據(jù)多類情感分組后的類型分別選取相應(yīng)的特征信息;根據(jù)每一組情感類組合選取的特征信息分別進行分類處理;根據(jù)每一組情感類組合分類后的輸出結(jié)果進行語音情感識別;本發(fā)明的有益效果為,通過不同情感選取不同的特征,用改進的自適應(yīng)模糊K均值聚類方法比傳統(tǒng)方式所有情感用同一種特征的FCM方法的識別效果要好很多,并且識別率更高,效果更好。本發(fā)明尤其適用于語音智能情感識別。
【專利說明】一種基于語音模糊聚類的情感識別方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音情感識別技術(shù),具體的說是涉及一種基于語音模糊聚類的情感識別方法。

【背景技術(shù)】
[0002]隨著人工智能的發(fā)展,情感智能跟計算機技術(shù)結(jié)合產(chǎn)生了情感計算這一薪新的研究課題。語言是人類交流的重要的工具,人類說話中不僅包含了文字符號信息,而且還包含了情感信息。對語音情感信息處理,在信號處理和人工智能領(lǐng)域中具有重要的意義。在語音情感識別領(lǐng)域中,許多專家學(xué)者做了大量的研究工作,包括建立一個標準的語音情感庫,語音特征提取,分類識別方法研究。在語音情感特征選擇中,前人也做了很多研究,但沒有指出識別具體情感的具體特征有哪些。由于語音情感本身具有模糊性,所以一部分專家學(xué)者試著用模糊聚類的方法進行語音情感識別,但他們的研究中使用的是同一種特征對多類情感進行識別,識別效果并不理想。許多聚類算法基于歐氏或者馬氏距離度量來決定聚類,基于這樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個情感簇可能是任意形狀的,因此目前采用的聚類算法不能很好的識別語音類別。


【發(fā)明內(nèi)容】

[0003]本發(fā)明所要解決的,就是針對傳統(tǒng)技術(shù)存在的上述問題,提出一種基于語音模糊聚類的情感識別方法。
[0004]本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是:一種基于語音模糊聚類的情感識別方法,其特征在于,包括以下步驟:
[0005]a.對輸入的語音信號進行預(yù)處理;所述預(yù)處理包括預(yù)加重濾波和加窗分幀,將語音信號分為N幀,其中N為大于I的正整數(shù);
[0006]b.提取處理后的語音信號的特征信息;所述特征信息包括梅爾倒譜系數(shù)、基音、共振峰和短時能量;
[0007]c.將語音信號與特征信息進行組合后輸入多個分類器進行分類處理;所述分類器至少包含2種情感類別且每個分類器包含的情感類別不完全相同;所述語音信號與特征信息進行組合的具體方式為,根據(jù)將要輸入的分類器所包含的情感類別,語音信號選取不同的特征信號構(gòu)成特征信息向量X,其中X的行向量為每一幀語音信號選取的特征信息,其列向量為幀數(shù)N;
[0008]d.分別對每一個分類器進行分類處理,得出語音信號與該組分類器中情感類別的隸屬度;具體的分類方法為采用自適應(yīng)模糊K均值算法;
[0009]e.根據(jù)每一個分類器輸出的隸屬度結(jié)果進行語音情感識別;具體的識別方法為將所有輸出結(jié)果組成超矢量,對超矢量進行譯碼后輸出判斷的識別結(jié)果。
[0010]具體的,步驟b中提取的特征信息中,所述基音包括基音方差、基音最小值;所述共振峰包括第一共振峰最大值、第一共振峰最小值、第一共振峰均值;第二共振峰最大值、第二共振峰均值;第三共振峰最大值、第三共振峰均值、第三共振峰方差;所述短時能量為短時能量最小值;
[0011]具體的,步驟c中所述多類情感為4類,分別為高興、生氣、悲傷和平靜,其具體的分組方法為兩兩分組,共分為六組,第一組為高興/生氣、第二組為高興/悲傷、第三組為高興/平靜、第四組為生氣/悲傷、第五組為生氣/平靜、第六組為悲傷/平靜;每一組提取使該組中兩類情感達到最優(yōu)的特征信息數(shù),然后將每一組的特征信息組成特征信息序列集X,其中特征信息X的行向量是從一幀語音信號中得到,列的大小是一段語音的幀數(shù);其中,每一組特征信息具體為,第一組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第二共振峰最大值、第三共振峰最大值、第三共振峰均值;第二組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最小值、第三共振峰均值、基音最小值、基音方差;第三組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰方差、第二共振峰均值、第三共振峰最大值、基音最小值;第四組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第三共振峰最大值、基音均值、短時能量最小值;第五組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第一共振峰方差、第二共振峰最大值、第三共振峰方差;第六組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰方差、第二共振峰最大值、第三共振峰均值、短時能量最小值。
[0012]具體的,步驟d中所述采用自適應(yīng)模糊K均值算法進行分類的具體方法為:
[0013]將自適應(yīng)模糊K均值算法的目標函數(shù)定義為

【權(quán)利要求】
1.一種基于語音模糊聚類的情感識別方法,其特征在于,包括以下步驟: a.對輸入的語音信號進行預(yù)處理;所述預(yù)處理包括預(yù)加重濾波和加窗分幀,將語音信號分為N幀,其中N為大于I的正整數(shù); b.提取處理后的語音信號的特征信息;所述特征信息包括梅爾倒譜系數(shù)、基音、共振峰和短時能量; c.將語音信號與特征信息進行組合后輸入多個分類器進行分類處理;所述分類器至少包含2種情感類別且每個分類器包含的情感類別不完全相同;所述語音信號與特征信息進行組合的具體方式為,根據(jù)將要輸入的分類器所包含的情感類別,語音信號選取不同的特征信號構(gòu)成特征信息向量X,其中X的行向量為每一幀語音信號選取的特征信息,其列向量為幀數(shù)N ; d.分別對每一個分類器進行分類處理,得出語音信號與該組分類器中情感類別的隸屬度;具體的分類方法為采用自適應(yīng)模糊K均值算法; e.根據(jù)每一個分類器輸出的隸屬度結(jié)果進行語音情感識別;具體的識別方法為將所有輸出結(jié)果組成超矢量,對超矢量進行譯碼后輸出判斷的識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于語音模糊聚類的情感識別方法,其特征在于,步驟b中提取的特征信息中,所述基音包括基音方差、基音最小值;所述共振峰包括第一共振峰最大值、第一共振峰最小值、第一共振峰均值;第二共振峰最大值、第二共振峰均值;第三共振峰最大值、第三共振峰均值、第三共振峰方差;所述短時能量為短時能量最小值。
3.根據(jù)權(quán)利要求2所述的一種基于語音模糊聚類的情感識別方法,其特征在于,步驟c中所述分類器為6個,每一個分類器包含2種共4類情感類別,分別為高興、生氣、悲傷和平靜,采用兩兩分組法分組,共分為六組,第一組為高興/生氣、第二組為高興/悲傷、第三組為高興/平靜、第四組為生氣/悲傷、第五組為生氣/平靜、第六組為悲傷/平靜;每一組情感類別對應(yīng)一個分類器;每一組提取使該組中兩類情感達到最優(yōu)的特征信息數(shù),然后將每一組的特征信息組成特征信息序列集X,其中特征信息向量X的行向量是從一幀語音信號中得到,列的大小是一段語音的幀數(shù);其中,每一組特征信息具體為,第一組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第二共振峰最大值、第三共振峰最大值、第三共振峰均值;第二組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最小值、第三共振峰均值、基音最小值、基音方差;第三組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰方差、第二共振峰均值、第三共振峰最大值、基音最小值;第四組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第三共振峰最大值、基音均值、短時能量最小值;第五組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰最大值、第一共振峰方差、第二共振峰最大值、第三共振峰方差;第六組提取的特征信息為梅爾倒譜系數(shù)、第一共振峰方差、第二共振峰最大值、第三共振峰均值、短時能量最小值。
4.根據(jù)權(quán)利要求3所述的一種基于語音模糊聚類的情感識別方法,其特征在于,步驟d中所述采用自適應(yīng)模糊K均值算法進行分類的具體方法為: 將自適應(yīng)模糊K均值算法的目標函數(shù)定義為:./(足i/,F(xiàn),⑷=其中,2i=i k=\M-為 A =|x, -Vfit = {xk-vf A1Ixt -Vi), \<i<c,l<k<N , X 為特征信息序列集,U 為隸屬度矩陣,V為聚類中心矩陣,A為C類的范數(shù)誘導(dǎo)大矩陣,N為特征信息個數(shù),即樣本數(shù),C為聚類種類數(shù),m為模糊加權(quán)指數(shù),Uij表示第j個樣本對于第i情感類的隸屬度函數(shù)值,Vi為某一情感類的中心,即是一個聚類中心矢量,xk為某一種特征信息向量,Ai為某一類的局部范數(shù)誘導(dǎo)矩陣;為達到分類的目的,需要使目標函數(shù)J最小,通過循環(huán)迭代計算,當(dāng)隸屬矩陣穩(wěn)定的時候就是目標函數(shù)最小的時候,設(shè)置隸屬矩陣容錯門限為ε,初始的隸屬矩陣可以隨機選??;所述循環(huán)迭代計算包括以下步驟: 第一步:計算聚類中心
第二步:計算聚類協(xié)方差矩陣
第三步:計算馬氏距離,DiI1.= 1? - Vi Il^ = (xk - ViY Ai (Xk - V1.), l</<rj</c< N,其中,
,I Ai I = P i, P > O, P i 為控制局部聚類參數(shù); 第四步:更新隸屬度矩陣,
I為循環(huán)的迭代次數(shù); 循環(huán)結(jié)束條件為I lum-ud-1)! I≤ε ;分別將每一組的特征信息X按上述循環(huán)迭代計算進行處理得到每一組的穩(wěn)定隸屬矩陣U。
5.根據(jù)權(quán)利要求4所述的一種基于語音模糊聚類的情感識別方法,其特征在于,步驟e中的具體方法為: el.根據(jù)步驟d中求得的隸屬矩陣U求每一組中樣本的置信度
e2.定義每一組中兩分類樣本的判決結(jié)果Cij, Cij = Wij.1, I = +1, -1,其中I = +1表示樣本判斷為兩類分類中的一個類別,I =一 I表示判斷為另一個類別,將6組情感分類分別送入6個分類器進行判決輸出; e3.通過相關(guān)譯碼計算,相關(guān)計算式子為Rt = CT.16x4,其中C為6個分類器的輸出結(jié)果?且成的一個列向
。是四類情感六種?且合的分類碼字矩陣,其中R =Ir1, r2,...rj ; e4.判斷識別結(jié)果,用i*表示樣本被識別出的情感類別的標號,其中i* = argmax {rj。
【文檔編號】G06K9/62GK104077598SQ201410299493
【公開日】2014年10月1日 申請日期:2014年6月27日 優(yōu)先權(quán)日:2014年6月27日
【發(fā)明者】周代英, 譚發(fā)曾, 賈繼超, 田兵兵, 譚敏潔 申請人:電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
门源| 南投市| 金平| 凤台县| 闽侯县| 镇康县| 永福县| 大安市| 永和县| 郑州市| 垫江县| 景泰县| 廊坊市| 张家港市| 诸城市| 婺源县| 内乡县| 凌云县| 海口市| 永川市| 德州市| 长岛县| 句容市| 肇源县| 台州市| 无锡市| 鄂托克旗| 额尔古纳市| 东海县| 霍林郭勒市| 沧州市| 墨竹工卡县| 兴安县| 盘锦市| 格尔木市| 长沙县| 新巴尔虎左旗| 霍州市| 大英县| 灯塔市| 建阳市|