專利名稱:一種基于聽覺感知特性的語音質(zhì)量客觀評價方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于人耳聽覺感知特性的語音質(zhì)量客觀評價技術(shù),更具體地,涉及一種將人耳的聽覺模型引入MFCC特征參數(shù)的提取過程中,通過計算特征參數(shù)的失真程度來實現(xiàn)語音質(zhì)量客觀評價的方法。
背景技術(shù):
語音質(zhì)量評價是衡量語音通信系統(tǒng)性能優(yōu)劣的根本標(biāo)準(zhǔn)之一,從評價主體上講可分為兩大類主觀評價和客觀評價。ITU-T建議P. 830提出的MOS (Mean Opinion Score)方法是一種廣泛使用的主觀評價方法,用測試者的平均意見分來直觀地反映人對語音質(zhì)量的感覺,但此類方法可操作性和可重復(fù)性較差??陀^評價方法通過測量語音信號特征參數(shù)來評價語音質(zhì)量,使客觀評價結(jié)果能夠準(zhǔn)確預(yù)測出語音質(zhì)量的主觀評價結(jié)果,具有更高的實用價值?;谳斎?輸出方式的客觀評價方法是以語音系統(tǒng)的輸入信號和輸出信號之間的誤差大小來判別語音質(zhì)量的好壞,是一種誤差度量。目前,比較成熟的算法基本上都是基 于輸入-輸出方式的,包括PESQ、Mel-⑶等。ITU-T建議P. 862提出的PESQ感知語音質(zhì)量評價是當(dāng)前性能很高的語音質(zhì)量客觀評價方法,能夠較好地識別通信時延、環(huán)境噪聲和錯誤,但其是基于Bark譜的感知模型,運算復(fù)雜度較高,不利于實時評價語音質(zhì)量。Mel-CD失真測度以MFCC作為語音特征參數(shù),運算復(fù)雜度較低,是一種簡便有效的語音質(zhì)量評價方法,但其評價性能與PESQ相差較大。分析表明,雖然MFCC特征參數(shù)提取過程中利用了人耳的聽覺原理和Mel倒譜的解相關(guān)特性,但是其采用了三角形濾波器組來模擬耳蝸基底膜的頻率選擇特性和對數(shù)運算來模擬幅值非線性變換過程,并不能充分地反映人耳的聽覺感知特性。Gammatone濾波器具有尖銳的頻率選擇特性,濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露,這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的,也補償了不同的人發(fā)同一音時共振峰的偏移對語音特征參數(shù)提取的影響;同時該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實驗中的生理數(shù)據(jù),便于進行濾波器性能分析和聽覺模型的實現(xiàn)。非線性壓縮運算基于強度-響度感知變換,能使特征參數(shù)的提取過程更好地符合聽覺生理模型。
發(fā)明內(nèi)容
本發(fā)明的目的是針對MFCC特征參數(shù)提取過程中存在的問題,提供一種簡單有效的基于人耳聽覺感知特性的語音質(zhì)量客觀評價技術(shù),使用Ga_atone濾波器組和非線性壓縮運算來更好地模擬人耳的聽覺生理模型,得到一種新的特征參數(shù)來進行語音質(zhì)量客觀評價。說明書附圖I示出了基于輸入-輸出方式的語音質(zhì)量客觀評價方法的基本處理過程。基于聽覺感知特性的語音質(zhì)量客觀評價方法是這樣實現(xiàn)的
I.采集原始語音和通過被測系統(tǒng)的失真語音,對兩路語音信號進行電平調(diào)整、帶通濾波和時間對齊等預(yù)處理,以便于分別提取兩路信號的特征參數(shù);2.加漢寧窗對預(yù)處理后的語音信號進行分幀,提取每幀信號的特征參數(shù)。附圖2示出了語音信號特征參數(shù)的提取流程。首先,使用在Mel尺度上均勻分布Gammatone濾波器組對語音幀信號的能量譜進行濾波,能很好地仿真基底膜的頻率選擇特性、頻譜分析特性和動態(tài)響應(yīng)過程等特征;接著,對每個濾波器的輸出能量進行立方根非線性壓縮變換來模擬人耳對語音的強度-響度感知特性,這不僅符合了人耳的聽覺感知特性,而且計算過程簡單;然后,立方根能量經(jīng)過RASTA濾波,抑制了信號頻譜中的常量或變化緩慢的非語音部分,同時增強了動態(tài)成分;最后,經(jīng)過DCT變換(離散余弦變換)到倒譜域,即可實現(xiàn)特征參數(shù)的提取;
3.計算原始語音和失真語音特征參數(shù)之間的平均動態(tài)Mel倒譜距離D,用D來表示失真語音相對于原始語音的失真大小。使用二次多項式將倒譜距離D映射為客觀(預(yù)測)MOS值,MOS值的大小說明了被測系統(tǒng)語音質(zhì)量的好壞。與其它的技術(shù)相比,本發(fā)明具有以下的優(yōu)點
1.使用Gammatone濾波器組和立方根非線性壓縮運算來模擬人耳的聽覺生理模型,有 效地提高了客觀評價結(jié)果與主觀評價結(jié)果的相關(guān)度;
2.Gammatone濾波器用較少的參數(shù)就能很好地模擬聽覺實驗中的生理數(shù)據(jù),立方根變換避免了復(fù)雜的計算模型,使得算法復(fù)雜度低且運行時間較短,適合于語音質(zhì)量實時評價和嵌入式系統(tǒng)實現(xiàn);
3.適用 于評 價 CS-ACELP、ADPCM、LD-CELP、GSM、^ -PCM/A-PCM和VSELP等編碼算法下的語音信號,算法通用性強;
4.本發(fā)明保留了Mel-CD方法運行時間較短和算法復(fù)雜度低的優(yōu)點,評價準(zhǔn)確性較Mel-CD方法有很大的提高;與PESQ算法相比,評價準(zhǔn)確性相差較小,但運行時間和算法復(fù)雜度減小明顯,借助于各種語音信號處理方法可將其應(yīng)用于語音編解碼器和通信網(wǎng)絡(luò)的語音質(zhì)量客觀評價。
結(jié)合附圖閱讀本發(fā)明的以下詳細(xì)描述,可以更好地理解本發(fā)明及其優(yōu)點和其他特征,其中
圖I示出了基于輸入-輸出方式的語音質(zhì)量客觀評價方法結(jié)構(gòu) 圖2示出了語音信號特征參數(shù)的提取流程;
圖3示出了一組在Mel尺度上均勻分布的Gammatone濾波器組。
具體實施例方式為了更好地理解本發(fā)明,下面將詳細(xì)描述本發(fā)明的
具體實施例方式 1.原始語音和經(jīng)過被測系統(tǒng)的失真語音首先經(jīng)過電平調(diào)整,將其強度統(tǒng)一到相當(dāng)于19dB SPL的能量水平;然后經(jīng)過理想帶通濾波器,對兩路信號進行輸入濾波;最后通過時間對齊來補償由被測系統(tǒng)產(chǎn)生的時延,完成預(yù)處理過程;
2.對預(yù)處理后的語音信號x( )和>< )分別進行特征參數(shù)的提取;
附圖2示出了語音信號特征參數(shù)的具體提取流程
3.對語音信號進行加漢寧窗的FFT變換,得到信號頻譜(Λ;
4.人耳所聽到的聲音的高低與聲音的頻率并不呈線性正比關(guān)系,采用更符合人耳的聽覺特性的Mel頻率尺度來進行頻率劃分。Mel頻率與實際頻率的具體關(guān)系為
權(quán)利要求
1.一種簡單有效的基于聽覺感知特性的語音質(zhì)量客觀評價技術(shù),根據(jù)心理聲學(xué)原理將人耳聽覺模型和非線性壓縮變換引入特征參數(shù)的提取過程來進行語音質(zhì)量的客觀評價,其特征在于采用以下步驟 A、將原始語音和通過被測系統(tǒng)的失真語音進行預(yù)處理,以便于提取各自的特征參數(shù); B、對經(jīng)過預(yù)處理的語音信號進行加漢寧窗的FFT變換,得到第A幀信號頻譜聊; C、采用Mel頻率尺度來模擬人耳對聲音頻率的感知特性,Mel頻率與實際頻率的具體關(guān)系為
全文摘要
本發(fā)明公開了一種簡單有效的基于聽覺感知特性的語音質(zhì)量客觀評價方法,根據(jù)心理聲學(xué)原理將人耳聽覺模型和非線性壓縮變換引入MFCC(Mel頻率倒譜系數(shù))特征參數(shù)的提取過程。本發(fā)明使用Gammatone濾波器組對耳蝸基底膜進行仿真,在幅值非線性變換過程中用立方根非線性壓縮變換來模擬語音的強度-響度感知特性。使用新的特征參數(shù),提出了一種更加符合人耳聽覺感知特性的語音質(zhì)量評價方法。與其它方法相比,本發(fā)明有效地提高了客觀評價結(jié)果與主觀評價結(jié)果的相關(guān)度,運行時間較短且復(fù)雜度低,具有較強的適應(yīng)性,可靠性和實用性。本發(fā)明通過模擬人耳的聽覺感知特性來進行語音質(zhì)量評價的方法可為改善語音質(zhì)量客觀評價提供新的解決思路。
文檔編號G10L19/00GK102881289SQ201210332288
公開日2013年1月16日 申請日期2012年9月11日 優(yōu)先權(quán)日2012年9月11日
發(fā)明者譚曉衡, 秦基偉, 周帥, 裴婧, 黃振林, 唐永剛, 馬旭東 申請人:重慶大學(xué)