两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于AI的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法與流程

文檔序號(hào):40653431發(fā)布日期:2025-01-10 19:01閱讀:5來(lái)源:國(guó)知局
基于AI的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法與流程

本發(fā)明屬于ai語(yǔ)音識(shí)別,更具體地說(shuō),尤其涉及基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。


背景技術(shù):

1、語(yǔ)音情感識(shí)別是一項(xiàng)研究人類(lèi)語(yǔ)音中所蘊(yùn)含情感信息的技術(shù),用于識(shí)別和分析說(shuō)話者語(yǔ)音中的情感狀態(tài),包括愉快、悲傷、憤怒、焦慮等??梢酝ㄟ^(guò)分析語(yǔ)音中的聲調(diào)、語(yǔ)速、語(yǔ)音質(zhì)量等特征來(lái)判斷說(shuō)話者的情感狀態(tài),從而幫助人們更好地理解和交流。

2、語(yǔ)音情感識(shí)別的發(fā)展情況可以追溯到20世紀(jì)80年代,當(dāng)時(shí)研究人員開(kāi)始嘗試使用語(yǔ)音信號(hào)處理技術(shù)來(lái)識(shí)別說(shuō)話者的情感狀態(tài)。隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,語(yǔ)音情感識(shí)別技術(shù)也得到了長(zhǎng)足的進(jìn)步?,F(xiàn)在,語(yǔ)音情感識(shí)別已經(jīng)被廣泛應(yīng)用于語(yǔ)音助手、客服機(jī)器人、情感分析等領(lǐng)域。

3、目前,語(yǔ)音情感識(shí)別技術(shù)已經(jīng)可以實(shí)現(xiàn)高準(zhǔn)確度的情感識(shí)別,可以識(shí)別出說(shuō)話者的情感狀態(tài),并據(jù)此做出相應(yīng)的回應(yīng)或處理。在商業(yè)、醫(yī)療、教育等領(lǐng)域都有著廣泛的應(yīng)用前景,可以幫助人們更好地理解和交流,提高人機(jī)交互的效率和舒適度。

4、隨著人工智能和語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,語(yǔ)音情感識(shí)別技術(shù)也將會(huì)得到進(jìn)一步的改進(jìn)和應(yīng)用。

5、在進(jìn)行人工智能運(yùn)用到語(yǔ)音識(shí)別中的時(shí)候,需要對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,使得語(yǔ)音識(shí)別模型能夠?qū)崿F(xiàn)對(duì)語(yǔ)音進(jìn)行快速的識(shí)別,并且提高語(yǔ)音識(shí)別的精準(zhǔn)度。

6、然而現(xiàn)有技術(shù)存在一些問(wèn)題:現(xiàn)有的語(yǔ)音識(shí)別模型在訓(xùn)練的時(shí)候,雖然通過(guò)大量的樣本進(jìn)行訓(xùn)練處理,但是不對(duì)語(yǔ)音信息進(jìn)行處理,造成模型的訓(xùn)練較為緩慢,并且識(shí)別的準(zhǔn)確率較低,因此我們提出基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明的目的是提供基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)通過(guò)stft獲得的2d矩陣,并且對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)進(jìn)行特征提取,并且搭建能量信息模板庫(kù),從而提高識(shí)別模型的訓(xùn)練效率和精準(zhǔn)度。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法,包括如下步驟:

3、s1、收集大量的數(shù)據(jù)信息:采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集,并且將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集;

4、s2、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理:將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行去噪聲、去靜音、音頻格式轉(zhuǎn)換和數(shù)據(jù)歸一化處理;

5、s3、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行轉(zhuǎn)換成聲譜圖:將情緒語(yǔ)音識(shí)別數(shù)據(jù)集通過(guò)stft獲得的2d矩陣,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布;

6、s4、通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取聲譜圖中的特征:采用卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征,有效捕捉到不同情感狀態(tài)的能量信息,并且采用多輪特征提取,再將所有的不同情感狀態(tài)的能量信息進(jìn)行形成集合,通過(guò)計(jì)算能量信息的平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值;

7、s5、將不同情感狀態(tài)的能量信息進(jìn)行存儲(chǔ):將卷積神經(jīng)網(wǎng)絡(luò)中提取局部特征的能量信息進(jìn)行存儲(chǔ),形成情感狀態(tài)的能量信息模板庫(kù);

8、s6、對(duì)模型進(jìn)行評(píng)估處理:將驗(yàn)證集和測(cè)試集輸入到模型中,通過(guò)模型實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集進(jìn)行情緒預(yù)測(cè),實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集的預(yù)測(cè)結(jié)果進(jìn)行打上標(biāo)簽,然后驗(yàn)證集和測(cè)試集的實(shí)際標(biāo)簽進(jìn)行比對(duì),生成混合矩陣,獲取預(yù)測(cè)的概率信息,實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算,更全面地衡量模型性能。

9、具體的,所述s1中情緒語(yǔ)音識(shí)別數(shù)據(jù)集中包括等樣本數(shù)的憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感;

10、所述情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集的占比分別為訓(xùn)練集70%-80%,驗(yàn)證集和測(cè)試集各占10%-15%。

11、具體的,所述s2中的去噪聲使用音頻去噪算法去除背景噪聲;

12、去靜音用于去除情緒語(yǔ)音識(shí)別數(shù)據(jù)集中靜音部分或無(wú)用的前后空白段;

13、音頻格式轉(zhuǎn)換用于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集統(tǒng)一轉(zhuǎn)為wav格式;

14、數(shù)據(jù)歸一化用于對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行歸一化處理。

15、具體的,所述去噪聲采用的是卷積濾波算法,所述卷積濾波算法的計(jì)算公式如下:

16、,

17、其中,是輸入信號(hào);是濾波器系數(shù);是輸出信號(hào);

18、所述數(shù)據(jù)歸一化的計(jì)算公式如下:

19、,

20、其中,為輸入的歷史對(duì)話記錄,是數(shù)據(jù)集中的最小值,是數(shù)據(jù)集中的最大值,將情緒語(yǔ)音識(shí)別數(shù)據(jù)集縮放到[0,1]的范圍內(nèi)。

21、具體的,所述s3中的stft的計(jì)算公式如下:

22、;

23、其中,是在時(shí)間和頻率下的stft結(jié)果;是原始信號(hào);是一個(gè)窗函數(shù),限制了傅里葉變換的時(shí)間范圍;是傅里葉變換的核心復(fù)指數(shù);

24、stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣,其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息;

25、通過(guò)stft得到的2d矩陣包含以下信息:

26、每一行代表一個(gè)頻率成分;

27、每一列代表一個(gè)時(shí)間段內(nèi)的頻譜信息;

28、矩陣的形態(tài),

29、設(shè)定信號(hào)的總長(zhǎng)度為n,窗口長(zhǎng)度為w,窗口重疊的長(zhǎng)度為o;

30、矩陣的行數(shù)對(duì)應(yīng)頻率軸的分辨率,是窗口長(zhǎng)度w除以2,得到了頻率點(diǎn)數(shù)w/2;

31、矩陣的列數(shù)對(duì)應(yīng)時(shí)間軸的分辨率,由滑動(dòng)窗口的步長(zhǎng)決定,設(shè)步長(zhǎng)為s,則矩陣的列數(shù)是;

32、最終得到的矩陣大小是:。

33、具體的,所述stft計(jì)算的結(jié)果是一個(gè)復(fù)數(shù)矩陣,每個(gè)元素由幅度和相位組成,幅度表示頻率成分的強(qiáng)度,相位表示信號(hào)在頻率下的相對(duì)位置;

34、幅度的表示為;

35、相位的表示為;

36、通過(guò)取復(fù)數(shù)的模來(lái)得到每個(gè)時(shí)頻點(diǎn)的幅度譜,或者通過(guò)相位角來(lái)得到相位譜;

37、幅度譜的計(jì)算公式如下:

38、;

39、其中,和分別是復(fù)數(shù)的實(shí)部和虛部;

40、相位譜的計(jì)算公式如下:

41、。

42、具體的,所述s4中卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征的計(jì)算如下:

43、聲譜圖的一個(gè)局部區(qū)域是時(shí)間和頻率軸上的取值,且如下所示:

44、,

45、其中,橫軸表示不同的時(shí)間點(diǎn),縱軸表示不同的頻率成分;矩陣中的每個(gè)元素表示在時(shí)間和頻率上的某一組合下的能量、幅度值或者相對(duì)位置;

46、卷積核,3×3的卷積核:

47、;

48、卷積操作:

49、卷積操作就是對(duì)每個(gè)局部區(qū)域的加權(quán)和:

50、;

51、輸出特征圖y在位置的值是:

52、;

53、其中,是輸出特征圖上的第位置的值,表示卷積操作的結(jié)果;是輸入聲譜圖在位置上的值,且是卷積核的索引;是卷積核在位置上的權(quán)重值;是卷積核的尺寸。

54、具體的,所述s4中能量信息進(jìn)行形成集合的計(jì)算如下:

55、即將憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)集合,且集合的形式為:

56、;

57、平均值的計(jì)算如下:

58、;

59、并且,最大值為,最小值為;

60、則不同情感狀態(tài)的能量信息值的范圍值為。

61、具體的,所述s6中的混合矩陣中的橫軸和縱軸分別表示為預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽;根據(jù)大量的模型預(yù)測(cè)結(jié)果將預(yù)測(cè)的數(shù)值填充到混合矩陣中,并且混合矩陣的對(duì)角線設(shè)為預(yù)測(cè)為正類(lèi),實(shí)際也為正類(lèi)的樣本數(shù),表示模型正確地識(shí)別了正類(lèi)樣本,且設(shè)有;非對(duì)角線上的預(yù)測(cè)為負(fù)類(lèi),即預(yù)測(cè)為負(fù)類(lèi),但實(shí)際為正類(lèi)的樣本數(shù),表示預(yù)測(cè)錯(cuò)誤的負(fù)類(lèi)樣本,且設(shè)有。

62、具體的,所述s6中的精確率、召回率和f1分?jǐn)?shù)的計(jì)算公式如下:

63、所述精確率的計(jì)算公式如下:

64、;

65、表示正確分類(lèi)的正類(lèi)樣本占所有樣本的比例,精確率高意味著預(yù)測(cè)為正類(lèi)的樣本中,正類(lèi)的預(yù)測(cè)正確率高;

66、所述召回率的計(jì)算公式如下:

67、;

68、表示正確分類(lèi)的正類(lèi)樣本占負(fù)類(lèi)樣本的比例,召回率高意味著實(shí)際為正類(lèi)的樣本都能被正確預(yù)測(cè)為正類(lèi);

69、所述f1分?jǐn)?shù)的計(jì)算公式如下:

70、;

71、表示精確率和召回率的調(diào)和平均值,f1分?jǐn)?shù)介于0和1之間,值越大表示模型的預(yù)測(cè)結(jié)果準(zhǔn)確率高。

72、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):

73、本發(fā)明通過(guò)采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集,并且按照訓(xùn)練集70%-80%,驗(yàn)證集和測(cè)試集各占10%-15%進(jìn)行劃分,便于語(yǔ)音識(shí)別模型的訓(xùn)練和測(cè)試處理,通過(guò)對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理,提高大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的精準(zhǔn)度,能夠消除大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的白噪聲和空白段;以及對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行格式轉(zhuǎn)換,以及通過(guò)歸一化處理,降低大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的語(yǔ)音維度,并且還能夠降低后續(xù)計(jì)算的計(jì)算壓力;

74、通過(guò)stft獲得的2d矩陣,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布,并且stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣,其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息,獲得情緒語(yǔ)音識(shí)別數(shù)據(jù)集的能量、幅度值或者相對(duì)位置,便于后續(xù)識(shí)別模型對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練,通過(guò)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行能量、幅度值或者相對(duì)位置的計(jì)算,使得識(shí)別模型能夠?qū)崿F(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練分析,并且結(jié)合計(jì)算得到的能量、幅度值或者相對(duì)位置進(jìn)行建立聲譜圖,提高計(jì)算的效率;

75、并且通過(guò)卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征,通過(guò)卷積核和聲譜圖之間的計(jì)算處理,實(shí)現(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行特征提取,并且對(duì)憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)特征集合,以及通過(guò)平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值,便于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集、標(biāo)簽、特征集合和能量信息值的范圍值進(jìn)行建立鍵值對(duì)存儲(chǔ),形成情感狀態(tài)的能量信息模板庫(kù),便于后續(xù)進(jìn)行預(yù)測(cè)語(yǔ)音情緒的時(shí)候,進(jìn)行匹配識(shí)別,提高識(shí)別的精準(zhǔn)度和效率;

76、通過(guò)將驗(yàn)證集和測(cè)試集輸入到識(shí)別模型中,對(duì)驗(yàn)證集和測(cè)試集預(yù)測(cè)結(jié)果進(jìn)行記錄,生成混合矩陣,獲取預(yù)測(cè)的概率信息,實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算,更全面地衡量模型性能,實(shí)現(xiàn)對(duì)識(shí)別模型進(jìn)行評(píng)估。

77、通過(guò)以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
通化市| 贵德县| 庆元县| 塔河县| 永兴县| 福海县| 四平市| 莱州市| 五台县| 新野县| 莆田市| 濮阳县| 五莲县| 鹿邑县| 普格县| 鲜城| 周口市| 蒙城县| 临漳县| 昌黎县| 庆城县| 庆阳市| 肇源县| 合江县| 闽清县| 安徽省| 那坡县| 宁阳县| 南川市| 仲巴县| 勐海县| 东乌珠穆沁旗| 八宿县| 三台县| 威信县| 上栗县| 蓬莱市| 武陟县| 桃江县| 拜泉县| 天柱县|