两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品

文檔序號:40575178發(fā)布日期:2025-01-03 11:40閱讀:24來源:國知局
嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品

本公開涉及聲音處理,尤其涉及一種嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品。


背景技術(shù):

1、聲音嘶啞是一種常見癥狀,包括急性喉炎、慢性喉炎、各種類型的聲帶異常、聲帶息肉和囊腫等良性聲帶疾病,以及聲門喉癌等惡性聲帶疾病,也可統(tǒng)稱為嗓音障礙,嚴(yán)重影響患者的生活質(zhì)量,語音功能評估在這些疾病的診斷和治療中起著關(guān)鍵作用。

2、傳統(tǒng)的嗓音質(zhì)量評估主要依賴于平均基頻、基頻微擾和振幅微擾等參數(shù),而現(xiàn)代技術(shù)如mfcc在語音識別和音頻分析等領(lǐng)域已被廣泛應(yīng)用。盡管如此,現(xiàn)有研究在構(gòu)建語音疾病預(yù)測模型時,往往忽略了對mfcc特征的深入解釋和量化,導(dǎo)致臨床醫(yī)生難以完全信任這些模型的結(jié)果。此外,現(xiàn)有的嗓音評估方法未能充分利用mfcc的潛力,缺乏可量化的mfcc指標(biāo),限制了其在臨床應(yīng)用中的有效性。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開實施例提供了一種嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品,能夠通過量化mfcc指標(biāo),探索并篩選出新的用于嗓音識別的指標(biāo),并基于新的指標(biāo)實現(xiàn)精準(zhǔn)的嗓音識別,有助于臨床醫(yī)師更好的對嗓音功能進(jìn)行評估。

2、第一方面,本公開實施例提供了一種嗓音識別方法,采用如下技術(shù)方案:

3、采集多名測試人員的語音信號,其中所述多名測試人員包括嗓音正常人員和聲音嘶啞患者;

4、對所述語音信號進(jìn)行特征提取,獲取mfcc特征矩陣;

5、基于所述mfcc特征矩陣和預(yù)設(shè)的新型指標(biāo)庫,獲取每個測試人員的mfcc參數(shù)集,其中所述新型指標(biāo)庫包含多個新型指標(biāo);

6、將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率;

7、將所述顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),對所述可用指標(biāo)進(jìn)行驗證;

8、驗證通過后,基于所述可用指標(biāo)構(gòu)建聲音識別模型;

9、采用所述聲音識別模型識別用戶的嗓音狀態(tài)。

10、可選地,所述將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率,包括:

11、將所有嗓音正常人員的mfcc參數(shù)集構(gòu)建為第一樣本集;

12、將所有聲音嘶啞患者的mfcc參數(shù)集構(gòu)建為第二樣本集;

13、基于所述第一樣本集和所述第二樣本集,獲取每個新型指標(biāo)的分布統(tǒng)計量和自由度;

14、基于所述分布統(tǒng)計量和所述自由度,得到每個新型指標(biāo)的顯著性概率;

15、其中,所述分布統(tǒng)計量的計算公式如下:

16、

17、其中,ti為第i個新型指標(biāo)的分布統(tǒng)計量;為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)均值;為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)均值;為第i個新型指標(biāo)的合并方差,;n1為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)總數(shù)量;n2為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)總數(shù)量;為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)方差;為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)方差;

18、所述自由度的計算公式如下:

19、

20、其中,為第i個新型指標(biāo)的自由度。

21、可選地,所述對所述可用指標(biāo)進(jìn)行驗證,包括:

22、構(gòu)建傳統(tǒng)指標(biāo)庫,所述傳統(tǒng)指標(biāo)庫包含若干個傳統(tǒng)指標(biāo);

23、對所述傳統(tǒng)指標(biāo)庫中的傳統(tǒng)指標(biāo)進(jìn)行篩選,將無效指標(biāo)刪除,保留有效指標(biāo);

24、采用多種機器學(xué)習(xí)算法,基于所述有效指標(biāo)和所述可用指標(biāo)構(gòu)建多個機器學(xué)習(xí)模型;

25、對多個機器學(xué)習(xí)模型進(jìn)行評估,得到每個機器學(xué)習(xí)模型的第一性能參數(shù);

26、基于所述第一性能參數(shù),選擇出性能最佳的機器學(xué)習(xí)模型使用的機器學(xué)習(xí)算法為可用算法;

27、采用所述可用算法,基于所述可用指標(biāo)構(gòu)建驗證模型;

28、對所述驗證模型進(jìn)行評估,得到驗證模型的第二性能參數(shù);

29、基于性能最佳的機器學(xué)習(xí)模型的第一性能參數(shù)與所述第二性能參數(shù),確定所述可用指標(biāo)是否驗證通過。

30、可選地,所述對所述可用指標(biāo)進(jìn)行驗證,包括:

31、構(gòu)建傳統(tǒng)指標(biāo)庫,所述傳統(tǒng)指標(biāo)庫包含若干個傳統(tǒng)指標(biāo);

32、對所述傳統(tǒng)指標(biāo)庫中的傳統(tǒng)指標(biāo)進(jìn)行篩選,將無效指標(biāo)刪除,保留有效指標(biāo);

33、采用多種機器學(xué)習(xí)算法,基于所述有效指標(biāo)和所述可用指標(biāo)構(gòu)建多個機器學(xué)習(xí)模型;

34、對多個機器學(xué)習(xí)模型進(jìn)行評估,得到每個機器學(xué)習(xí)模型的第一性能參數(shù);

35、基于所述第一性能參數(shù),選擇出性能最佳的機器學(xué)習(xí)模型為可用模型;

36、對所述可用模型采用的有效指標(biāo)和可用指標(biāo)進(jìn)行重要性排名;

37、基于排名結(jié)果確定所述可用指標(biāo)是否驗證通過。

38、可選地,所述基于所述可用指標(biāo)構(gòu)建聲音識別模型,包括:

39、基于所述排名結(jié)果將多個可用指標(biāo)劃分為必要指標(biāo)集和待定指標(biāo)集;

40、基于必要指標(biāo)集和待定指標(biāo)集構(gòu)建多個不同的指標(biāo)組合集;

41、基于多種機器學(xué)習(xí)算法和多個不同的指標(biāo)組合集,構(gòu)建多個候選模型;

42、判斷所述候選模型是否過度擬合或者欠擬合;

43、若是,則排除所述候選模型;

44、若否,則獲取所述候選模型的多個性能評估參數(shù);

45、基于所述性能評估參數(shù)、預(yù)設(shè)的目標(biāo)函數(shù)和約束條件,選擇最優(yōu)的候選模型為所述聲音識別模型。

46、可選地,所述目標(biāo)函數(shù)的計算公式如下:

47、

48、其中,s為候選模型采用的機器學(xué)習(xí)算法的順序號;v為選模型采用的指標(biāo)組合集的順序號;usv為采用第s種機器學(xué)習(xí)算法和第v個指標(biāo)組合集構(gòu)建的候選模型的綜合性能評分;wac、wse、wsp、wauc、wbu、wcpu、wcu為預(yù)設(shè)的權(quán)重;acsv為候選模型的準(zhǔn)確率;sesv為候選模型的靈敏度;spsv為候選模型的特異度;aucsv為候選模型的roc曲線下面積;busv為候選模型的寬帶占用;cpusv為候選模型的cpu占用;cusv為候選模型的計算占用;

49、預(yù)設(shè)的約束條件包括寬帶占用約束條件、cpu占用約束條件、計算占用約束條件;

50、所述寬帶占用約束條件的表達(dá)式如下:

51、

52、其中,maxbu為最大寬帶占用;

53、所述cpu占用約束條件的表達(dá)式如下:

54、

55、其中,maxcpu為最大cpu占用;

56、所述計算占用約束條件的表達(dá)式如下:

57、

58、其中,maxcu為最大計算占用。

59、可選地,所述新型指標(biāo)庫包含均值、方差、標(biāo)準(zhǔn)差、第25百分位、第75百分位、最小值、最大值、中位數(shù)、偏度、峰度中的至少一項新型指標(biāo)。

60、第二方面,本公開實施例還提供了一種嗓音識別系統(tǒng),采用如下技術(shù)方案:

61、語音采集模塊,用于采集多名測試人員的語音信號,其中所述多名測試人員包括嗓音正常人員和聲音嘶啞患者;

62、特征提取模塊,用于對所述語音信號進(jìn)行特征提取,獲取mfcc特征矩陣;

63、參數(shù)獲取模塊,用于基于所述mfcc特征矩陣和預(yù)設(shè)的新型指標(biāo)庫,獲取每個測試人員的mfcc參數(shù)集,其中所述新型指標(biāo)庫包含多個新型指標(biāo);

64、特征對比模塊,用于將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率;

65、指標(biāo)驗證模塊,用于將所述顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),對所述可用指標(biāo)進(jìn)行驗證;

66、模型構(gòu)建模塊,用于驗證通過后,基于所述可用指標(biāo)構(gòu)建聲音識別模型;

67、嗓音識別模塊,用于采用所述聲音識別模型識別用戶的嗓音狀態(tài)。

68、第三方面,本公開實施例還提供了一種計算機裝置,采用如下技術(shù)方案:

69、所述計算機裝置包括:

70、至少一個處理器;以及,

71、與所述至少一個處理器通信連接的存儲器;其中,

72、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行以上任一所述的嗓音識別方法。

73、第四方面,本公開實施例還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使計算機執(zhí)行以上任一所述的嗓音識別方法。

74、第五方面,本公開實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)以上任一項所述方法的步驟。

75、本公開實施例提供的嗓音識別方法,通過采集嗓音正常人員和聲音嘶啞患者的語音信號,并提取mfcc特征矩陣,為后續(xù)量化多個新型指標(biāo)提供數(shù)據(jù)支持,這種方法利用了mfcc在語音識別和音頻分析領(lǐng)域的廣泛應(yīng)用,使其能夠高效捕捉語音信號的頻率特征,為后續(xù)的量化和分析提供了堅實的基礎(chǔ)。在獲得mfcc特征矩陣的基礎(chǔ)上,進(jìn)一步將多個新型指標(biāo)與之結(jié)合,生成量化結(jié)果,即mfcc參數(shù)集,這種方法不僅充分利用了mfcc在頻譜分析中的優(yōu)勢,還通過引入新的指標(biāo),增加了特征的多樣性和區(qū)分度。通過將嗓音正常人員和聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率,有助于識別出對嗓音障礙診斷具有重要意義的指標(biāo)。進(jìn)一步將顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),并進(jìn)行嚴(yán)格的驗證,這一步驟不僅確保了所選指標(biāo)的穩(wěn)定性和可靠性,還極大地提高了嗓音評估的可解釋性,通過驗證的可用指標(biāo),使臨床醫(yī)生能夠更容易理解和信任評估結(jié)果。驗證通過后,基于可用指標(biāo)構(gòu)建聲音識別模型,這種模型可以用于識別用戶的嗓音狀態(tài),提供了一種自動化和標(biāo)準(zhǔn)化的嗓音評估工具。

76、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為讓本公開的上述和其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細(xì)說明如下。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
商城县| 乌兰浩特市| 内乡县| 图们市| 凤城市| 周至县| 遂溪县| 攀枝花市| 右玉县| 阿拉善盟| 辛集市| 贵阳市| 宜兴市| 曲靖市| 称多县| 资溪县| 囊谦县| 蓝田县| 河曲县| 同江市| 湘潭县| 丰顺县| 奈曼旗| 桓仁| 襄垣县| 开原市| 闽侯县| 丰顺县| 双柏县| 白玉县| 武宣县| 台州市| 湛江市| 监利县| 福州市| 兖州市| 湄潭县| 宣威市| 江孜县| 交口县| 苍山县|