基于聽覺掩蔽效應(yīng)的語音可懂度測量方法
【專利摘要】本發(fā)明公開了一種基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征是:通過對參考信號及其通過通信或語音傳輸系統(tǒng)后的輸出信號進行分幀,并以幀為基本單元,根據(jù)ISO/IEC11172-3標(biāo)準(zhǔn)中的心理聲學(xué)模型,分別估計參考與輸出信號的聽覺掩蔽門限;根據(jù)聽覺掩蔽門限提取參考與輸出信號中的可聽分量;根據(jù)ISO226-2003標(biāo)準(zhǔn)等響度級曲線,分別將參考信號可聽分量、輸出信號可聽分量的幅度轉(zhuǎn)換為響度,計算每幀信號的感知相似度、語音信息保真度和感知信噪比,進而得到輸出信號失真度;根據(jù)失真度與可懂度關(guān)系曲線,對輸出信號進行可懂度預(yù)測。與目前常用語音可懂度客觀測量方法相比,本發(fā)明方法測量精度更高。
【專利說明】基于聽覺掩蔽效應(yīng)的語音可懂度測量方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于輸入/輸出的語音可懂度客觀測量方法,特別是一種基于聽覺掩蔽效應(yīng)的語音可懂度測量方法。
【背景技術(shù)】
[0002]可懂度是語音信號的重要品質(zhì)因數(shù),廣泛應(yīng)用于廳堂設(shè)計、醫(yī)學(xué)研究(如助聽器、人工耳蝸、聽覺障礙等)、語音增強、擴聲系統(tǒng)和通信系統(tǒng)性能測試等領(lǐng)域。
[0003]根據(jù)評價主體不同,可懂度測量有主客觀之分。主觀可懂度測量通過聽音人直接對語音信號進行主觀評價,是可懂度評價最基本、最常用的手段。但是,由于組織嚴(yán)格的聽力測試需要耗費大量的人力和物力,測試結(jié)果易受主觀因素的影響,難以實時應(yīng)用??陀^可懂度測量用機器代替人依據(jù)客觀參數(shù)進行評價,具有應(yīng)用靈活、不受條件限制和主觀因素影響、不同時間和不同場合的測試結(jié)果可比較等特點。
[0004]根據(jù)是否需要系統(tǒng)輸入作為參照,可懂度客觀測量方法也可分為基于輸入/輸出的測量方法和基于輸出的測量法,前者以純凈語音作參考計算失真語音的失真度,并以失真度作為可懂度預(yù)測的依據(jù),與主觀可懂度相關(guān)度高,是條件許可(能提供參考信號)情況下的首選方法。
[0005]語音可懂度指數(shù)法(Speech Intelligibility Index, SII)和語言傳遞指數(shù)法(Speech Transmission Index, STI)是目前最常用的語音可懂度客觀測量方法。SII的實質(zhì)是一種頻帶加權(quán)信噪比方法,沒有考慮人耳的聽覺特性,僅適用于一些簡單的線性失真信號,應(yīng)用范圍有限;STI以人工合成信號為激勵,雖能適應(yīng)非線性失真信號,但其實質(zhì)是系統(tǒng)性能測試,且計算量大。就總體而言,SII和STI的測量精度都不是很高。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,通過充分考慮人耳對聲音大小、頻率的感知特性,使輸出信號失真度參數(shù)能更好地反映人耳感知失真度,從而獲得更高的可懂度測量精度。
[0007]本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
[0008]本發(fā)明基于聽覺掩蔽效應(yīng)的語音可懂度測量方法的特點是按如下步驟進行:
[0009]步驟一:分別對參考信號及所述參考信號通過通信或語音傳輸系統(tǒng)后的輸出信號進行分巾貞,巾貞長取值為25ms?64ms,每巾貞前后各重疊1/8?1/3巾貞長;
[0010]步驟二:以幀為基本分析單元,根據(jù)IS0/IEC11172-3標(biāo)準(zhǔn)中的心理聲學(xué)模型,分別估計參考信號與輸出信號的聽覺掩蔽門限,將能量大于聽覺掩蔽門限的功率譜分量定義為信號可聽分量,檢查輸出信號可聽分量的各頻率成份,如果對應(yīng)參考信號的相應(yīng)頻率成份是參考信號可聽分量,則定義為輸出有效語音信息分量,否則定義為輸出無效語音信息分量;
[0011]步驟三:根據(jù)IS0226-2003標(biāo)準(zhǔn)等響度級曲線,分別將參考信號可聽分量、包括輸出有效語音信息分量和輸出無效語音信息分量的輸出信號可聽分量的幅度轉(zhuǎn)換為響度;
[0012]步驟四:根據(jù)參考信號可聽分量、輸出信號可聽分量和輸出有效語音信息分量的響度,計算每幀輸出信號的感知相似度、語音信息保真度和感知信噪比;根據(jù)輸出每幀信號的感知相似度、語音信息保真度和感知信噪比計算輸出信號失真度;
[0013]步驟五:根據(jù)輸出信號失真度與可懂度的關(guān)系曲線,進行可懂度預(yù)測。
[0014]本發(fā)明基于聽覺掩蔽效應(yīng)的語音可懂度測量方法的特點也在于:
[0015]所述步驟四中,感知相似度定義為參考信號可聽分量與輸出信號可聽分量之間的皮爾遜相關(guān)系數(shù);語音信息保真度定義為參考信號的可聽分量與輸出有效語音信息分量之間的皮爾遜相關(guān)系數(shù);感知信噪比定義為輸出有效語音信息分量響度之和與輸出無效語言信息分量響度之和的比值。
[0016]所述步驟四中輸出信號失真度按如下步驟計算獲得:
[0017]a、分別對感知相似度、語音信息保真度和感知信噪比的參數(shù)取值范圍進行約束,并歸一化到[0,1]區(qū)間;所述參數(shù)取值范圍約束的方法是:分別對感知相似度、語音信息保真度和感知信噪比設(shè)置高門限和低門限,當(dāng)參數(shù)值大于高門限時取值為高門限,當(dāng)參數(shù)值小于低門限時取值為低門限,否則保持參數(shù)值大小不變;
[0018]b、根據(jù)加權(quán)系數(shù)計算輸出信號感知相似度、語音信息保真度和感知信噪比的加權(quán)和,并將常數(shù)1.0與所述加權(quán)和的差值定義為局部失真度;
[0019]C、計算輸出信號所有局部失真度的均值,并將所述均值定義為輸出信號失真度。
[0020]所述步驟a中,高門限的獲取方法為:任意選取不少于20個主觀可懂度介于0.99和I之間的輸出信號作為高門限訓(xùn)練樣本,計算所有高門限訓(xùn)練樣本的感知相似度均值、語音信息保真度均值、感知信噪比均值,分別作為感知相似度的高門限、語音信息保真度的高門限和感知信噪比的高門限;低門限的獲取方法為:任意選取不少于20個主觀可懂度介于O和0.01之間的輸出信號作為低門限訓(xùn)練樣本,計算所有低門限訓(xùn)練樣本的感知相似度均值、語音信息保真度均值、感知信噪比均值,分別作為感知相似度的低門限、語音信息保真度的低門限和感知信噪比的低門限。
[0021]所述步驟b的加權(quán)系數(shù)的獲取方法為:選取不少于40個主觀可懂度在[0,I]區(qū)間均勻分布的輸出信號作為加權(quán)系數(shù)訓(xùn)練樣本,計算每個加權(quán)系數(shù)訓(xùn)練樣本的感知相似度均值、語音信息保真度均值和感知信噪比均值;對每個加權(quán)系數(shù)訓(xùn)練樣本進行主觀可懂度測試,并分別計算感知相似度均值、語音信息保真度均值和感知信噪比均值與主觀可懂度之間的皮爾遜相關(guān)系數(shù),分別記為ra、rb和r。;分別將ra、rb、r。與ra+rb+r。的比值作為感知相似度、語音信息保真度和感知信噪比的加權(quán)系數(shù)。
[0022]本發(fā)明基于聽覺掩蔽效應(yīng)的語音可懂度測量方法的特點還在于:所述步驟五中失真度與可懂度關(guān)系曲線的獲取方法為:選取不少于40個主觀可懂度在[0,I]區(qū)間均勻分布的輸出信號作為關(guān)系曲線訓(xùn)練樣本,在按照權(quán)利要求1中步驟一至步驟四計算輸出信號失真度的同時,對輸出信號進行主觀可懂度測試,得到一一對應(yīng)的失真度與主觀可懂度數(shù)據(jù),采用最小二乘法進行多項式擬合,得出失真度與可懂度的關(guān)系曲線。
[0023]與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:
[0024]本發(fā)明方法基于人耳聽覺掩蔽效應(yīng)進行可懂度測量,在計算輸出信號失真度時,主要分析人耳可感知信號分量的失真情況,通過將信號的物理特性(聲壓級)轉(zhuǎn)換為人耳的主觀感知特性(響度),充分考慮人耳對聲音大小、頻率的感知特性,使輸出信號失真度參數(shù)能更好地反映人耳感知失真度。因此,與語音可懂度指數(shù)法和語言傳遞指數(shù)法相比,本發(fā)明方法與主觀可懂度測量的相關(guān)度更高,即測量精度更高。
【專利附圖】
【附圖說明】
[0025]圖1為本發(fā)明方法原理框圖。
[0026]圖2為為說明本發(fā)明方法的某幀參考信號舉例。
[0027]圖3為圖2所示波形受噪聲污染后的輸出信號波形。
[0028]圖4為圖2所示參考信號的功率譜及聽覺掩蔽門限。
[0029]圖5為圖3所示輸出信號的功率譜及聽覺掩蔽門限。
[0030]圖6為圖2所不參考信號幀的可聽分量。
[0031]圖7為圖3所不輸出有效語首信息分量。
[0032]圖8為圖3所不輸出信號幀的可聽分量。
[0033]圖9為采用本發(fā)明方法獲得的失真度與主觀可懂度關(guān)系曲線的舉例。
【具體實施方式】
[0034]參見圖1,本實施例中基于聽覺掩蔽效應(yīng)的語音可懂度客觀測量方法流程為:
[0035]步驟一:分別對參考 信號x(n)及參考信號通過通信或語音傳輸系統(tǒng)后的輸出信號y(n)進行分幀,幀長取值范圍為25ms~64ms,每幀前后各重疊1/8~1/3幀長,并將第m幀參考信號與輸出信號分別表示為Xm(η)和7111(11)。圖2所示信號波形是為說明本發(fā)明方法而列舉的參考信號實例xm(n),圖3為圖2所示信號通過通信或語音傳輸系統(tǒng)后的輸出信號幀 Yni (η)。
[0036]步驟二:以幀為基本分析單元,分別對每一幀參考信號和輸出信號進行短時功率譜估計(幅度用聲壓級表示),將第m幀參考信號與輸出信號的功率譜分別記為Xm(k)和Ym (k);根據(jù)IS0/IEC11172-3標(biāo)準(zhǔn)中的心理聲學(xué)模型,分別對第m幀參考信號和輸出信號進行聽覺掩蔽門限估計,將聽覺掩蔽門限分別記為TXm(k)和TYm(k);將參考信號中能量大于聽覺掩蔽門限TXmGO的功率譜分量定義為參考信號可聽分量X’m(k),將輸出信號中能量大于聽覺掩蔽門限TYmGO的功率譜分量定義為輸出信號可聽分量Y’m(k);進一步檢查輸出信號可聽分量的各頻率成份,如果對應(yīng)參考信號的相應(yīng)頻率成份是參考信號可聽分量,則定義為輸出有效語音信息分量Y’ ’m(k),否則定義為輸出無效語音信息分量。參考信號可聽分量x’m(k)、輸出信號可聽分量Y’m(k)以及輸出有效語音信息分量Y’’m(k)可由式(1)、(2)和(3)獲得:
? 義(k),義(k) > TX (k)、
[0037]O):;ΛCl)
[U ,else
[0038]丫f)>TUk、(2)
L U 5 else
[0039]W = |⑷(3)
[0 , else[0040]圖4為圖2所示參考信號幀xm (η)的功率譜Xm (k)及聽覺掩蔽門限TXm (k),圖5為圖3所示輸出信號幀^ (η)的功率譜¥?1(10及聽覺掩蔽門限TYm (k),圖6為圖2所示參考信號幀Xm (η)的可聽分量X’m (k),圖7為圖3所示輸出有效語音信息分量Y’’m (k),圖8為圖3所示輸出信號幀的可聽分量Y’ ffl (k)。
[0041]步驟三:根據(jù)IS0226-2003標(biāo)準(zhǔn)等響度級曲線,將參考信號可聽分量X’m(k)、輸出信號可聽分量Y’ m(k)(包括輸出有效語音信息分量和輸出無效語音信息分量)、輸出有效語音信息分量Y’’m (k)的幅度轉(zhuǎn)換為響度,分別記為LX’ m (k)、LY’ m (k)和LY’’m(k)。
[0042]步驟四:根據(jù)參考信號可聽分量、輸出信號可聽分量和輸出有效語音信息分量的響度,計算每幀輸出信號的感知相似度rps(m)、語音信息保真度rpf (m)和感知信噪比SNRp(m);基于rps(m)、rpf(m)和SNRp(m)計算輸出信號的幀失真度dxy(m),并將輸出信號幀失真度的算術(shù)平均值定義為輸出信號的失真度Dxy ;
[0043]步驟五:根據(jù)輸出信號失真度與可懂度的關(guān)系曲線SI (Dxy),進行可懂度預(yù)測。
[0044]本實施例的步驟四中,感知相似度rps(m)定義為參考信號可聽分量與輸出信號可聽分量的皮爾遜相關(guān)系數(shù),用公式(4)表示為:
【權(quán)利要求】
1.一種基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征是按如下步驟進行: 步驟一:分別對參考信號及所述參考信號通過通信或語音傳輸系統(tǒng)后的輸出信號進行分中貞,幀長取值為25ms~64ms,每幀前后各重疊1/8~1/3幀長; 步驟二:以幀為基本分析單元,根據(jù)IS0/IEC11172-3標(biāo)準(zhǔn)中的心理聲學(xué)模型,分別估計參考信號與輸出信號的聽覺掩蔽門限,將能量大于聽覺掩蔽門限的功率譜分量定義為信號可聽分量,檢查輸出信號可聽分量的各頻率成份,如果對應(yīng)參考信號的相應(yīng)頻率成份是參考信號可聽分量,則定義為輸出有效語音信息分量,否則定義為輸出無效語音信息分量; 步驟三:根據(jù)IS0226-2003標(biāo)準(zhǔn)等響度級曲線,分別將參考信號可聽分量、包括輸出有效語音信息分量和輸出無效語音信息分量的輸出信號可聽分量的幅度轉(zhuǎn)換為響度; 步驟四:根據(jù)參考信號可聽分量、輸出信號可聽分量和輸出有效語音信息分量的響度,計算每幀輸出信號的感知相似度、語音信息保真度和感知信噪比;根據(jù)輸出每幀信號的感知相似度、語音信息保真度和感知信噪比計算輸出信號失真度; 步驟五:根據(jù)輸出信號失真度與可懂度的關(guān)系曲線,進行可懂度預(yù)測。
2.根據(jù)權(quán)利要求1所述的基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征是:所述步驟四中,感知相似度定義為參考信號可聽分量與輸出信號可聽分量之間的皮爾遜相關(guān)系數(shù);語音信息保真度定義 為參考信號的可聽分量與輸出有效語音信息分量之間的皮爾遜相關(guān)系數(shù);感知信噪比定義為輸出有效語音信息分量響度之和與輸出無效語言信息分量響度之和的比值。
3.根據(jù)權(quán)利要求1所述的基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征是:所述步驟四中輸出信號失真度按如下步驟計算獲得: a、分別對感知相似度、語音信息保真度和感知信噪比的參數(shù)取值范圍進行約束,并歸一化到[O,I]區(qū)間;所述參數(shù)取值范圍約束的方法是:分別對感知相似度、語音信息保真度和感知信噪比設(shè)置高門限和低門限,當(dāng)參數(shù)值大于高門限時取值為高門限,當(dāng)參數(shù)值小于低門限時取值為低門限,否則保持參數(shù)值大小不變; b、根據(jù)加權(quán)系數(shù)計算輸出信號感知相似度、語音信息保真度和感知信噪比的加權(quán)和,并將常數(shù)1.0與所述加權(quán)和的差值定義為局部失真度; C、計算輸出信號所有局部失真度的均值,并將所述均值定義為輸出信號失真度。
4.根據(jù)權(quán)利要求3所述的基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征是:所述步驟a中,高門限的獲取方法為:任意選取不少于20個主觀可懂度介于0.99和I之間的輸出信號作為高門限訓(xùn)練樣本,計算所有高門限訓(xùn)練樣本的感知相似度均值、語音信息保真度均值、感知信噪比均值,分別作為感知相似度的高門限、語音信息保真度的高門限和感知信噪比的高門限;低門限的獲取方法為:任意選取不少于20個主觀可懂度介于O和0.01之間的輸出信號作為低門限訓(xùn)練樣本,計算所有低門限訓(xùn)練樣本的感知相似度均值、語音信息保真度均值、感知信噪比均值,分別作為感知相似度的低門限、語音信息保真度的低門限和感知信噪比的低門限。
5.根據(jù)權(quán)利要求3所述的基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征在于:所述步驟b的加權(quán)系數(shù)的獲取方法為:選取不少于40個主觀可懂度在[0,I]區(qū)間均勻分布的輸出信號作為加權(quán)系數(shù)訓(xùn)練樣本,計算每個加權(quán)系數(shù)訓(xùn)練樣本的感知相似度均值、語音信息保真度均值和感知信噪比均值;對每個加權(quán)系數(shù)訓(xùn)練樣本進行主觀可懂度測試,并分別計算感知相似度均值、語音信息保真度均值和感知信噪比均值與主觀可懂度之間的皮爾遜相關(guān)系數(shù),分別記為ra、rb和r。;分別將ra、rb> rc與ra+rb+r。的比值作為感知相似度、語音信息保真度和感知信噪比的加權(quán)系數(shù)。
6.根據(jù)權(quán)利要求1所述的基于聽覺掩蔽效應(yīng)的語音可懂度測量方法,其特征在于:所述步驟五中失真度與可懂度關(guān)系曲線的獲取方法為:選取不少于40個主觀可懂度在[0,I]區(qū)間均勻分布的輸出信號作為關(guān)系曲線訓(xùn)練樣本,在按照權(quán)利要求1中步驟一至步驟四計算輸出信號失真度的同時,對輸出信號進行主觀可懂度測試,得到一一對應(yīng)的失真度與主觀可懂度數(shù)據(jù),采用最小二乘法進行多項式擬合,得出失真度與可懂度的關(guān)系曲線。
【文檔編號】G10L25/60GK103578479SQ201310430429
【公開日】2014年2月12日 申請日期:2013年9月18日 優(yōu)先權(quán)日:2013年9月18日
【發(fā)明者】儲飛黃, 孫戰(zhàn)先, 李昂, 路后兵, 吳微露, 瞿洋, 南旭東, 許士敏 申請人:中國人民解放軍電子工程學(xué)院, 儲飛黃