本公開涉及聲音處理,尤其涉及一種嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品。
背景技術(shù):
1、聲音嘶啞是一種常見癥狀,包括急性喉炎、慢性喉炎、各種類型的聲帶異常、聲帶息肉和囊腫等良性聲帶疾病,以及聲門喉癌等惡性聲帶疾病,也可統(tǒng)稱為嗓音障礙,嚴(yán)重影響患者的生活質(zhì)量,語音功能評估在這些疾病的診斷和治療中起著關(guān)鍵作用。
2、傳統(tǒng)的嗓音質(zhì)量評估主要依賴于平均基頻、基頻微擾和振幅微擾等參數(shù),而現(xiàn)代技術(shù)如mfcc在語音識別和音頻分析等領(lǐng)域已被廣泛應(yīng)用。盡管如此,現(xiàn)有研究在構(gòu)建語音疾病預(yù)測模型時,往往忽略了對mfcc特征的深入解釋和量化,導(dǎo)致臨床醫(yī)生難以完全信任這些模型的結(jié)果。此外,現(xiàn)有的嗓音評估方法未能充分利用mfcc的潛力,缺乏可量化的mfcc指標(biāo),限制了其在臨床應(yīng)用中的有效性。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開實施例提供了一種嗓音識別方法、裝置、存儲介質(zhì)、程序產(chǎn)品,能夠通過量化mfcc指標(biāo),探索并篩選出新的用于嗓音識別的指標(biāo),并基于新的指標(biāo)實現(xiàn)精準(zhǔn)的嗓音識別,有助于臨床醫(yī)師更好的對嗓音功能進(jìn)行評估。
2、第一方面,本公開實施例提供了一種嗓音識別方法,采用如下技術(shù)方案:
3、采集多名測試人員的語音信號,其中所述多名測試人員包括嗓音正常人員和聲音嘶啞患者;
4、對所述語音信號進(jìn)行特征提取,獲取mfcc特征矩陣;
5、基于所述mfcc特征矩陣和預(yù)設(shè)的新型指標(biāo)庫,獲取每個測試人員的mfcc參數(shù)集,其中所述新型指標(biāo)庫包含多個新型指標(biāo);
6、將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率;
7、將所述顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),對所述可用指標(biāo)進(jìn)行驗證;
8、驗證通過后,基于所述可用指標(biāo)構(gòu)建聲音識別模型;
9、采用所述聲音識別模型識別用戶的嗓音狀態(tài)。
10、可選地,所述將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率,包括:
11、將所有嗓音正常人員的mfcc參數(shù)集構(gòu)建為第一樣本集;
12、將所有聲音嘶啞患者的mfcc參數(shù)集構(gòu)建為第二樣本集;
13、基于所述第一樣本集和所述第二樣本集,獲取每個新型指標(biāo)的分布統(tǒng)計量和自由度;
14、基于所述分布統(tǒng)計量和所述自由度,得到每個新型指標(biāo)的顯著性概率;
15、其中,所述分布統(tǒng)計量的計算公式如下:
16、
17、其中,ti為第i個新型指標(biāo)的分布統(tǒng)計量;為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)均值;為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)均值;為第i個新型指標(biāo)的合并方差,;n1為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)總數(shù)量;n2為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)總數(shù)量;為第一樣本集中第i個新型指標(biāo)的mfcc參數(shù)方差;為第二樣本集中第i個新型指標(biāo)的mfcc參數(shù)方差;
18、所述自由度的計算公式如下:
19、
20、其中,為第i個新型指標(biāo)的自由度。
21、可選地,所述對所述可用指標(biāo)進(jìn)行驗證,包括:
22、構(gòu)建傳統(tǒng)指標(biāo)庫,所述傳統(tǒng)指標(biāo)庫包含若干個傳統(tǒng)指標(biāo);
23、對所述傳統(tǒng)指標(biāo)庫中的傳統(tǒng)指標(biāo)進(jìn)行篩選,將無效指標(biāo)刪除,保留有效指標(biāo);
24、采用多種機器學(xué)習(xí)算法,基于所述有效指標(biāo)和所述可用指標(biāo)構(gòu)建多個機器學(xué)習(xí)模型;
25、對多個機器學(xué)習(xí)模型進(jìn)行評估,得到每個機器學(xué)習(xí)模型的第一性能參數(shù);
26、基于所述第一性能參數(shù),選擇出性能最佳的機器學(xué)習(xí)模型使用的機器學(xué)習(xí)算法為可用算法;
27、采用所述可用算法,基于所述可用指標(biāo)構(gòu)建驗證模型;
28、對所述驗證模型進(jìn)行評估,得到驗證模型的第二性能參數(shù);
29、基于性能最佳的機器學(xué)習(xí)模型的第一性能參數(shù)與所述第二性能參數(shù),確定所述可用指標(biāo)是否驗證通過。
30、可選地,所述對所述可用指標(biāo)進(jìn)行驗證,包括:
31、構(gòu)建傳統(tǒng)指標(biāo)庫,所述傳統(tǒng)指標(biāo)庫包含若干個傳統(tǒng)指標(biāo);
32、對所述傳統(tǒng)指標(biāo)庫中的傳統(tǒng)指標(biāo)進(jìn)行篩選,將無效指標(biāo)刪除,保留有效指標(biāo);
33、采用多種機器學(xué)習(xí)算法,基于所述有效指標(biāo)和所述可用指標(biāo)構(gòu)建多個機器學(xué)習(xí)模型;
34、對多個機器學(xué)習(xí)模型進(jìn)行評估,得到每個機器學(xué)習(xí)模型的第一性能參數(shù);
35、基于所述第一性能參數(shù),選擇出性能最佳的機器學(xué)習(xí)模型為可用模型;
36、對所述可用模型采用的有效指標(biāo)和可用指標(biāo)進(jìn)行重要性排名;
37、基于排名結(jié)果確定所述可用指標(biāo)是否驗證通過。
38、可選地,所述基于所述可用指標(biāo)構(gòu)建聲音識別模型,包括:
39、基于所述排名結(jié)果將多個可用指標(biāo)劃分為必要指標(biāo)集和待定指標(biāo)集;
40、基于必要指標(biāo)集和待定指標(biāo)集構(gòu)建多個不同的指標(biāo)組合集;
41、基于多種機器學(xué)習(xí)算法和多個不同的指標(biāo)組合集,構(gòu)建多個候選模型;
42、判斷所述候選模型是否過度擬合或者欠擬合;
43、若是,則排除所述候選模型;
44、若否,則獲取所述候選模型的多個性能評估參數(shù);
45、基于所述性能評估參數(shù)、預(yù)設(shè)的目標(biāo)函數(shù)和約束條件,選擇最優(yōu)的候選模型為所述聲音識別模型。
46、可選地,所述目標(biāo)函數(shù)的計算公式如下:
47、
48、其中,s為候選模型采用的機器學(xué)習(xí)算法的順序號;v為選模型采用的指標(biāo)組合集的順序號;usv為采用第s種機器學(xué)習(xí)算法和第v個指標(biāo)組合集構(gòu)建的候選模型的綜合性能評分;wac、wse、wsp、wauc、wbu、wcpu、wcu為預(yù)設(shè)的權(quán)重;acsv為候選模型的準(zhǔn)確率;sesv為候選模型的靈敏度;spsv為候選模型的特異度;aucsv為候選模型的roc曲線下面積;busv為候選模型的寬帶占用;cpusv為候選模型的cpu占用;cusv為候選模型的計算占用;
49、預(yù)設(shè)的約束條件包括寬帶占用約束條件、cpu占用約束條件、計算占用約束條件;
50、所述寬帶占用約束條件的表達(dá)式如下:
51、
52、其中,maxbu為最大寬帶占用;
53、所述cpu占用約束條件的表達(dá)式如下:
54、
55、其中,maxcpu為最大cpu占用;
56、所述計算占用約束條件的表達(dá)式如下:
57、
58、其中,maxcu為最大計算占用。
59、可選地,所述新型指標(biāo)庫包含均值、方差、標(biāo)準(zhǔn)差、第25百分位、第75百分位、最小值、最大值、中位數(shù)、偏度、峰度中的至少一項新型指標(biāo)。
60、第二方面,本公開實施例還提供了一種嗓音識別系統(tǒng),采用如下技術(shù)方案:
61、語音采集模塊,用于采集多名測試人員的語音信號,其中所述多名測試人員包括嗓音正常人員和聲音嘶啞患者;
62、特征提取模塊,用于對所述語音信號進(jìn)行特征提取,獲取mfcc特征矩陣;
63、參數(shù)獲取模塊,用于基于所述mfcc特征矩陣和預(yù)設(shè)的新型指標(biāo)庫,獲取每個測試人員的mfcc參數(shù)集,其中所述新型指標(biāo)庫包含多個新型指標(biāo);
64、特征對比模塊,用于將所有嗓音正常人員的mfcc參數(shù)集與所有聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率;
65、指標(biāo)驗證模塊,用于將所述顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),對所述可用指標(biāo)進(jìn)行驗證;
66、模型構(gòu)建模塊,用于驗證通過后,基于所述可用指標(biāo)構(gòu)建聲音識別模型;
67、嗓音識別模塊,用于采用所述聲音識別模型識別用戶的嗓音狀態(tài)。
68、第三方面,本公開實施例還提供了一種計算機裝置,采用如下技術(shù)方案:
69、所述計算機裝置包括:
70、至少一個處理器;以及,
71、與所述至少一個處理器通信連接的存儲器;其中,
72、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行以上任一所述的嗓音識別方法。
73、第四方面,本公開實施例還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使計算機執(zhí)行以上任一所述的嗓音識別方法。
74、第五方面,本公開實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)以上任一項所述方法的步驟。
75、本公開實施例提供的嗓音識別方法,通過采集嗓音正常人員和聲音嘶啞患者的語音信號,并提取mfcc特征矩陣,為后續(xù)量化多個新型指標(biāo)提供數(shù)據(jù)支持,這種方法利用了mfcc在語音識別和音頻分析領(lǐng)域的廣泛應(yīng)用,使其能夠高效捕捉語音信號的頻率特征,為后續(xù)的量化和分析提供了堅實的基礎(chǔ)。在獲得mfcc特征矩陣的基礎(chǔ)上,進(jìn)一步將多個新型指標(biāo)與之結(jié)合,生成量化結(jié)果,即mfcc參數(shù)集,這種方法不僅充分利用了mfcc在頻譜分析中的優(yōu)勢,還通過引入新的指標(biāo),增加了特征的多樣性和區(qū)分度。通過將嗓音正常人員和聲音嘶啞患者的mfcc參數(shù)集進(jìn)行特征對比,獲取每個新型指標(biāo)的顯著性概率,有助于識別出對嗓音障礙診斷具有重要意義的指標(biāo)。進(jìn)一步將顯著性概率小于預(yù)設(shè)概率閾值的新型指標(biāo)判定為可用指標(biāo),并進(jìn)行嚴(yán)格的驗證,這一步驟不僅確保了所選指標(biāo)的穩(wěn)定性和可靠性,還極大地提高了嗓音評估的可解釋性,通過驗證的可用指標(biāo),使臨床醫(yī)生能夠更容易理解和信任評估結(jié)果。驗證通過后,基于可用指標(biāo)構(gòu)建聲音識別模型,這種模型可以用于識別用戶的嗓音狀態(tài),提供了一種自動化和標(biāo)準(zhǔn)化的嗓音評估工具。
76、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為讓本公開的上述和其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細(xì)說明如下。