基于AI的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法與流程

文檔序號(hào)：40653431發(fā)布日期：2025-01-10 19:01閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于ai語(yǔ)音識(shí)別，更具體地說(shuō)，尤其涉及基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。

背景技術(shù)：

1、語(yǔ)音情感識(shí)別是一項(xiàng)研究人類(lèi)語(yǔ)音中所蘊(yùn)含情感信息的技術(shù)，用于識(shí)別和分析說(shuō)話者語(yǔ)音中的情感狀態(tài)，包括愉快、悲傷、憤怒、焦慮等?？梢酝ㄟ^(guò)分析語(yǔ)音中的聲調(diào)、語(yǔ)速、語(yǔ)音質(zhì)量等特征來(lái)判斷說(shuō)話者的情感狀態(tài)，從而幫助人們更好地理解和交流。

2、語(yǔ)音情感識(shí)別的發(fā)展情況可以追溯到20世紀(jì)80年代，當(dāng)時(shí)研究人員開(kāi)始嘗試使用語(yǔ)音信號(hào)處理技術(shù)來(lái)識(shí)別說(shuō)話者的情感狀態(tài)。隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展，語(yǔ)音情感識(shí)別技術(shù)也得到了長(zhǎng)足的進(jìn)步?，F(xiàn)在，語(yǔ)音情感識(shí)別已經(jīng)被廣泛應(yīng)用于語(yǔ)音助手、客服機(jī)器人、情感分析等領(lǐng)域。

3、目前，語(yǔ)音情感識(shí)別技術(shù)已經(jīng)可以實(shí)現(xiàn)高準(zhǔn)確度的情感識(shí)別，可以識(shí)別出說(shuō)話者的情感狀態(tài)，并據(jù)此做出相應(yīng)的回應(yīng)或處理。在商業(yè)、醫(yī)療、教育等領(lǐng)域都有著廣泛的應(yīng)用前景，可以幫助人們更好地理解和交流，提高人機(jī)交互的效率和舒適度。

4、隨著人工智能和語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展，語(yǔ)音情感識(shí)別技術(shù)也將會(huì)得到進(jìn)一步的改進(jìn)和應(yīng)用。

5、在進(jìn)行人工智能運(yùn)用到語(yǔ)音識(shí)別中的時(shí)候，需要對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練，使得語(yǔ)音識(shí)別模型能夠?qū)崿F(xiàn)對(duì)語(yǔ)音進(jìn)行快速的識(shí)別，并且提高語(yǔ)音識(shí)別的精準(zhǔn)度。

6、然而現(xiàn)有技術(shù)存在一些問(wèn)題：現(xiàn)有的語(yǔ)音識(shí)別模型在訓(xùn)練的時(shí)候，雖然通過(guò)大量的樣本進(jìn)行訓(xùn)練處理，但是不對(duì)語(yǔ)音信息進(jìn)行處理，造成模型的訓(xùn)練較為緩慢，并且識(shí)別的準(zhǔn)確率較低，因此我們提出基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題，本發(fā)明的目的是提供基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法，使得情緒語(yǔ)音識(shí)別數(shù)據(jù)通過(guò)stft獲得的2d矩陣，并且對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)進(jìn)行特征提取，并且搭建能量信息模板庫(kù)，從而提高識(shí)別模型的訓(xùn)練效率和精準(zhǔn)度。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法，包括如下步驟：

3、s1、收集大量的數(shù)據(jù)信息：采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集，并且將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集；

4、s2、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理：將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行去噪聲、去靜音、音頻格式轉(zhuǎn)換和數(shù)據(jù)歸一化處理；

5、s3、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行轉(zhuǎn)換成聲譜圖：將情緒語(yǔ)音識(shí)別數(shù)據(jù)集通過(guò)stft獲得的2d矩陣，使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布；

6、s4、通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取聲譜圖中的特征：采用卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征，有效捕捉到不同情感狀態(tài)的能量信息，并且采用多輪特征提取，再將所有的不同情感狀態(tài)的能量信息進(jìn)行形成集合，通過(guò)計(jì)算能量信息的平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值；

7、s5、將不同情感狀態(tài)的能量信息進(jìn)行存儲(chǔ)：將卷積神經(jīng)網(wǎng)絡(luò)中提取局部特征的能量信息進(jìn)行存儲(chǔ)，形成情感狀態(tài)的能量信息模板庫(kù)；

8、s6、對(duì)模型進(jìn)行評(píng)估處理：將驗(yàn)證集和測(cè)試集輸入到模型中，通過(guò)模型實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集進(jìn)行情緒預(yù)測(cè)，實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集的預(yù)測(cè)結(jié)果進(jìn)行打上標(biāo)簽，然后驗(yàn)證集和測(cè)試集的實(shí)際標(biāo)簽進(jìn)行比對(duì)，生成混合矩陣，獲取預(yù)測(cè)的概率信息，實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算，更全面地衡量模型性能。

9、具體的，所述s1中情緒語(yǔ)音識(shí)別數(shù)據(jù)集中包括等樣本數(shù)的憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感；

10、所述情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集的占比分別為訓(xùn)練集70%-80%，驗(yàn)證集和測(cè)試集各占10%-15%。

11、具體的，所述s2中的去噪聲使用音頻去噪算法去除背景噪聲；

12、去靜音用于去除情緒語(yǔ)音識(shí)別數(shù)據(jù)集中靜音部分或無(wú)用的前后空白段；

13、音頻格式轉(zhuǎn)換用于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集統(tǒng)一轉(zhuǎn)為wav格式；

14、數(shù)據(jù)歸一化用于對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行歸一化處理。

15、具體的，所述去噪聲采用的是卷積濾波算法，所述卷積濾波算法的計(jì)算公式如下：

16、，

17、其中，是輸入信號(hào)；是濾波器系數(shù)；是輸出信號(hào)；

18、所述數(shù)據(jù)歸一化的計(jì)算公式如下：

19、，

20、其中，為輸入的歷史對(duì)話記錄，是數(shù)據(jù)集中的最小值，是數(shù)據(jù)集中的最大值，將情緒語(yǔ)音識(shí)別數(shù)據(jù)集縮放到[0，1]的范圍內(nèi)。

21、具體的，所述s3中的stft的計(jì)算公式如下：

22、；

23、其中，是在時(shí)間和頻率下的stft結(jié)果；是原始信號(hào)；是一個(gè)窗函數(shù)，限制了傅里葉變換的時(shí)間范圍；是傅里葉變換的核心復(fù)指數(shù)；

24、stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣，其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息；

25、通過(guò)stft得到的2d矩陣包含以下信息：

26、每一行代表一個(gè)頻率成分；

27、每一列代表一個(gè)時(shí)間段內(nèi)的頻譜信息；

28、矩陣的形態(tài)，

29、設(shè)定信號(hào)的總長(zhǎng)度為n，窗口長(zhǎng)度為w，窗口重疊的長(zhǎng)度為o；

30、矩陣的行數(shù)對(duì)應(yīng)頻率軸的分辨率，是窗口長(zhǎng)度w除以2，得到了頻率點(diǎn)數(shù)w/2；

31、矩陣的列數(shù)對(duì)應(yīng)時(shí)間軸的分辨率，由滑動(dòng)窗口的步長(zhǎng)決定，設(shè)步長(zhǎng)為s，則矩陣的列數(shù)是；

32、最終得到的矩陣大小是：。

33、具體的，所述stft計(jì)算的結(jié)果是一個(gè)復(fù)數(shù)矩陣，每個(gè)元素由幅度和相位組成，幅度表示頻率成分的強(qiáng)度，相位表示信號(hào)在頻率下的相對(duì)位置；

34、幅度的表示為；

35、相位的表示為；

36、通過(guò)取復(fù)數(shù)的模來(lái)得到每個(gè)時(shí)頻點(diǎn)的幅度譜，或者通過(guò)相位角來(lái)得到相位譜；

37、幅度譜的計(jì)算公式如下：

38、；

39、其中，和分別是復(fù)數(shù)的實(shí)部和虛部；

40、相位譜的計(jì)算公式如下：

41、。

42、具體的，所述s4中卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征的計(jì)算如下：

43、聲譜圖的一個(gè)局部區(qū)域是時(shí)間和頻率軸上的取值，且如下所示：

44、，

45、其中，橫軸表示不同的時(shí)間點(diǎn)，縱軸表示不同的頻率成分；矩陣中的每個(gè)元素表示在時(shí)間和頻率上的某一組合下的能量、幅度值或者相對(duì)位置；

46、卷積核，3×3的卷積核：

47、；

48、卷積操作：

49、卷積操作就是對(duì)每個(gè)局部區(qū)域的加權(quán)和：

50、；

51、輸出特征圖y在位置的值是：

52、；

53、其中，是輸出特征圖上的第位置的值，表示卷積操作的結(jié)果；是輸入聲譜圖在位置上的值，且是卷積核的索引；是卷積核在位置上的權(quán)重值；是卷積核的尺寸。

54、具體的，所述s4中能量信息進(jìn)行形成集合的計(jì)算如下：

55、即將憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)集合，且集合的形式為：

56、；

57、平均值的計(jì)算如下：

58、；

59、并且，最大值為，最小值為；

60、則不同情感狀態(tài)的能量信息值的范圍值為。

61、具體的，所述s6中的混合矩陣中的橫軸和縱軸分別表示為預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽；根據(jù)大量的模型預(yù)測(cè)結(jié)果將預(yù)測(cè)的數(shù)值填充到混合矩陣中，并且混合矩陣的對(duì)角線設(shè)為預(yù)測(cè)為正類(lèi)，實(shí)際也為正類(lèi)的樣本數(shù)，表示模型正確地識(shí)別了正類(lèi)樣本，且設(shè)有；非對(duì)角線上的預(yù)測(cè)為負(fù)類(lèi)，即預(yù)測(cè)為負(fù)類(lèi)，但實(shí)際為正類(lèi)的樣本數(shù)，表示預(yù)測(cè)錯(cuò)誤的負(fù)類(lèi)樣本，且設(shè)有。

62、具體的，所述s6中的精確率、召回率和f1分?jǐn)?shù)的計(jì)算公式如下：

63、所述精確率的計(jì)算公式如下：

64、；

65、表示正確分類(lèi)的正類(lèi)樣本占所有樣本的比例，精確率高意味著預(yù)測(cè)為正類(lèi)的樣本中，正類(lèi)的預(yù)測(cè)正確率高；

66、所述召回率的計(jì)算公式如下：

67、；

68、表示正確分類(lèi)的正類(lèi)樣本占負(fù)類(lèi)樣本的比例，召回率高意味著實(shí)際為正類(lèi)的樣本都能被正確預(yù)測(cè)為正類(lèi)；

69、所述f1分?jǐn)?shù)的計(jì)算公式如下：

70、；

71、表示精確率和召回率的調(diào)和平均值，f1分?jǐn)?shù)介于0和1之間，值越大表示模型的預(yù)測(cè)結(jié)果準(zhǔn)確率高。

72、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn)：

73、本發(fā)明通過(guò)采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集，并且按照訓(xùn)練集70%-80%，驗(yàn)證集和測(cè)試集各占10%-15%進(jìn)行劃分，便于語(yǔ)音識(shí)別模型的訓(xùn)練和測(cè)試處理，通過(guò)對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理，提高大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的精準(zhǔn)度，能夠消除大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的白噪聲和空白段；以及對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行格式轉(zhuǎn)換，以及通過(guò)歸一化處理，降低大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的語(yǔ)音維度，并且還能夠降低后續(xù)計(jì)算的計(jì)算壓力；

74、通過(guò)stft獲得的2d矩陣，使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布，并且stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣，其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息，獲得情緒語(yǔ)音識(shí)別數(shù)據(jù)集的能量、幅度值或者相對(duì)位置，便于后續(xù)識(shí)別模型對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練，通過(guò)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行能量、幅度值或者相對(duì)位置的計(jì)算，使得識(shí)別模型能夠?qū)崿F(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練分析，并且結(jié)合計(jì)算得到的能量、幅度值或者相對(duì)位置進(jìn)行建立聲譜圖，提高計(jì)算的效率；

75、并且通過(guò)卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征，通過(guò)卷積核和聲譜圖之間的計(jì)算處理，實(shí)現(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行特征提取，并且對(duì)憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)特征集合，以及通過(guò)平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值，便于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集、標(biāo)簽、特征集合和能量信息值的范圍值進(jìn)行建立鍵值對(duì)存儲(chǔ)，形成情感狀態(tài)的能量信息模板庫(kù)，便于后續(xù)進(jìn)行預(yù)測(cè)語(yǔ)音情緒的時(shí)候，進(jìn)行匹配識(shí)別，提高識(shí)別的精準(zhǔn)度和效率；

76、通過(guò)將驗(yàn)證集和測(cè)試集輸入到識(shí)別模型中，對(duì)驗(yàn)證集和測(cè)試集預(yù)測(cè)結(jié)果進(jìn)行記錄，生成混合矩陣，獲取預(yù)測(cè)的概率信息，實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算，更全面地衡量模型性能，實(shí)現(xiàn)對(duì)識(shí)別模型進(jìn)行評(píng)估。

77、通過(guò)以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述，本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姜振華,徐利,韓敏,程學(xué)偉,王冠樸,劉強(qiáng)
技術(shù)所有人：山東信達(dá)物聯(lián)應(yīng)用技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于AI的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法與流程