專利名稱:基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)應(yīng)用領(lǐng)域的語(yǔ)音識(shí)別技術(shù),更具體地說(shuō),本發(fā)明涉及一種基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法背景技術(shù)人們發(fā)濁音時(shí)的會(huì)引起聲帶振動(dòng),其振動(dòng)頻率就被稱為基音頻率?;纛l率是語(yǔ)音信號(hào)最重要的參數(shù)之一。根據(jù)加窗的短時(shí)語(yǔ)音幀來(lái)估計(jì)基音周期,在語(yǔ)音編譯碼、語(yǔ)音識(shí)別、說(shuō)話人確認(rèn)和辨識(shí)以及生理缺陷人輔助系統(tǒng)等許多領(lǐng)域都是重要的一環(huán)。為了說(shuō)明基音,在這里,引入純音、復(fù)音和諧音的概念。純音是指單一正弦振蕩的聲波;復(fù)音則是多個(gè)正弦波組成的聲音,其中各個(gè)頻率的最大公約數(shù)稱為基音頻率,它對(duì)應(yīng)的聲波成分就稱為基音。頻率相當(dāng)于基音頻率的整數(shù)倍的正弦聲波稱為諧音(或泛音)。樂(lè)音和語(yǔ)音中的濁音都可近似地看作是含有許多諧波分量的復(fù)音。
現(xiàn)實(shí)中的噪聲多是寬帶噪聲,因此可以用梳狀濾波器對(duì)語(yǔ)音中基音及其諧波成分進(jìn)行增強(qiáng),而保留其他頻率成分不變,這樣達(dá)到語(yǔ)音增強(qiáng)的目的。
國(guó)內(nèi)外對(duì)基音的研究比較早,也有人提出通過(guò)跟蹤基音頻率進(jìn)行語(yǔ)音分離,或者直接進(jìn)行語(yǔ)音中濁音部分的增強(qiáng)的方法(參見(jiàn)文獻(xiàn)[1]姚天任.數(shù)字語(yǔ)音處理.武漢華中理工大學(xué)出版社,1999),大致可分為如下幾個(gè)步驟1)通過(guò)各種基音檢測(cè)算法,得到語(yǔ)音信號(hào)每幀的基音頻率?;魴z測(cè)從70年代就已經(jīng)被Rabiner L.R.用自相關(guān)算法研究了。
2)根據(jù)基音頻率,確定梳狀濾波器延遲參數(shù),使得濾波器波峰對(duì)應(yīng)于語(yǔ)音信號(hào)的基音及其諧波頻率,濾波后得到增強(qiáng)語(yǔ)音。
根據(jù)語(yǔ)音基音頻率,通過(guò)調(diào)整梳狀濾波器的延遲參數(shù),對(duì)語(yǔ)音的基音及其各次諧波進(jìn)行增強(qiáng),同時(shí)保留其它頻率成分不變,這樣就相對(duì)的削弱了噪聲,達(dá)到語(yǔ)音增強(qiáng)的目的。但是由于該方法只增強(qiáng)語(yǔ)音中的濁音部分,這樣就改變了語(yǔ)音中清、濁音能量的對(duì)比關(guān)系。
現(xiàn)有的語(yǔ)音識(shí)別方法,是用訓(xùn)練數(shù)據(jù)進(jìn)行隱含馬爾可夫模型(HMM)訓(xùn)練;然后用訓(xùn)練后的隱含馬爾可夫模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別。但是如果只是直接將語(yǔ)音增強(qiáng)應(yīng)用于測(cè)試數(shù)據(jù),那么這種增強(qiáng)語(yǔ)音中清、濁音能量的對(duì)比關(guān)系的改變,會(huì)引起其與識(shí)別模型之間的失配(mismatch),降低語(yǔ)音識(shí)別正確率。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有的語(yǔ)音識(shí)別方法的缺點(diǎn)和不足,將語(yǔ)音增強(qiáng)技術(shù)應(yīng)用于語(yǔ)音識(shí)別,從而提供一種基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的一種基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法,包括步驟(1)用訓(xùn)練數(shù)據(jù)進(jìn)行隱含馬爾可夫模型訓(xùn)練;(2)用訓(xùn)練后的隱含馬爾可夫模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別;其中,步驟(1)中的訓(xùn)練數(shù)據(jù)和步驟(2)中的測(cè)試數(shù)據(jù)都經(jīng)過(guò)語(yǔ)音增強(qiáng)處理。
所述的語(yǔ)音增強(qiáng)處理為用梳妝濾波器進(jìn)行梳妝濾波。所述梳妝濾波器為FIR梳妝濾波器或IIR梳妝濾波器。所述梳妝濾波器的的增強(qiáng)倍數(shù)在1.3~1.7之間。
由于本發(fā)明的語(yǔ)音識(shí)別方法對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都作了基音及其諧波的增強(qiáng),最大限度地降低了增強(qiáng)后測(cè)試語(yǔ)音和模型間的失配問(wèn)題,提高了語(yǔ)音識(shí)別的正確率。
圖1是FIR梳狀濾波器傳遞函數(shù)的幅頻響應(yīng)和零點(diǎn)圖;圖2是IIR梳狀濾波器傳遞函數(shù)的幅頻響應(yīng)和零點(diǎn)-極點(diǎn)圖;圖3是IIR梳狀濾波器語(yǔ)音增強(qiáng)時(shí)語(yǔ)音數(shù)據(jù)的周期延拓示意圖;圖4是一段語(yǔ)音的語(yǔ)譜圖的對(duì)比示意圖,其中(a)是一段含噪語(yǔ)音的語(yǔ)譜圖,(b)是該段語(yǔ)音做語(yǔ)音增強(qiáng)后的語(yǔ)音的語(yǔ)譜圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)發(fā)明作進(jìn)一步詳細(xì)描述。
在本實(shí)施例中,訓(xùn)練數(shù)據(jù)和將要被識(shí)別的測(cè)試數(shù)據(jù)均使用梳妝濾波器進(jìn)行梳妝濾波,從而實(shí)現(xiàn)語(yǔ)音的增強(qiáng)。在這里,首先介紹兩類梳狀濾波器。
1)FIR梳狀濾波器最簡(jiǎn)單的梳狀濾波器可看作一信號(hào)與其反射回聲的疊加y(i)=x(i)+ax(i-D) (1)
其中,a表示衰減系數(shù),|a|≤1。D表示反射信號(hào)的延遲。FIR梳狀濾波器的傳遞函數(shù)是H(z)=1+az-D(2)其幅頻響應(yīng)函數(shù)是|H(ω)|=|1+acos(ωD)-jasin(ωD)|=1+2acos(ωD)+a2--(3)]]>其中,ω是角頻率。
信號(hào)采樣率為fs,上述濾波器在基頻f1=fs/D的整數(shù)倍上呈現(xiàn)峰值。也就是當(dāng)ω=2kπ/D時(shí),得到|H(ω)|的最大值1+a。當(dāng)ω=(2k+1)π/D時(shí),得到傳遞函數(shù)的零點(diǎn),也就對(duì)應(yīng)|H(ω)|的最小值1-a。圖1是FIR梳狀濾波器傳遞函數(shù)幅頻響應(yīng)和零點(diǎn)圖。
2)IIR梳狀濾波器IIR梳狀濾波器的傳遞函數(shù)H(z)=(1-bz-D)/(1-az-D)(0<b<a<1)(4)該濾波器的幅頻響應(yīng)和零極點(diǎn)圖如圖2所示。該濾波器幅頻響應(yīng)的波谷更加平坦,波峰更加尖銳。ωk=2πk/D時(shí)對(duì)應(yīng)最大值max=(1-b)/(1-a) (5)ωk=(2k+1)π/D時(shí)對(duì)應(yīng)最小值min=(1+b)/(1+a) (6)其中k=0、1、...、D-1。
在使用上述兩類梳妝濾波器進(jìn)行語(yǔ)音增強(qiáng)時(shí), IIR梳狀濾波器具有很好的幅頻響應(yīng)特性,但是考慮到其邊緣效應(yīng),濾波過(guò)程較為復(fù)雜;FIR梳狀濾波器雖然幅頻響應(yīng)曲線不好,但是邊緣效應(yīng)很容易消除。下面首先詳細(xì)介紹用IIR梳狀濾波器進(jìn)行語(yǔ)音增強(qiáng)時(shí)的處理步驟IIR梳狀濾波器幅頻響應(yīng)峰值由式(5)計(jì)算,它決定了基音以及諧波的增強(qiáng)倍數(shù)。從圖2不難看出,幅頻響應(yīng)曲線中,峰值以外的大部分略小于1,接近其最小值(見(jiàn)公式(6)),為保持這部分信號(hào)不變,可給濾波器乘以一個(gè)補(bǔ)償系數(shù)(1+a)/(1+b),得到H(z)=1-bz-D1-az-D×1+a1+b(0<b<a<1)--(7)]]>式中延遲量D由下式得到D=fs/fb(8)
其中fs是信號(hào)采樣率,fb是當(dāng)前幀的基音頻率。
相應(yīng)地,增強(qiáng)倍數(shù)m為m=(1-b)(1+a)(1-a)(1+b)--(9)]]>在實(shí)際濾波時(shí),由于邊緣效應(yīng),輸出必須經(jīng)過(guò)一定延遲后才達(dá)到穩(wěn)定。實(shí)驗(yàn)表明,在采樣率fs=16kHz,基頻fb=160Hz時(shí),經(jīng)過(guò)6000到8000點(diǎn)輸出才趨于穩(wěn)定,而事實(shí)上,實(shí)驗(yàn)中每幀濾波數(shù)據(jù)只有160點(diǎn),因此要對(duì)其先做周期延拓。定義Td為延拓的周期長(zhǎng)度Td=ceil(160/Tb)*Tb(10)其中Tb=fs/fb,是基音周期;ceil(A)是一個(gè)MATLAB函數(shù),返回不小于變量A的最近的整數(shù),這樣保證了Td>=160。然后經(jīng)過(guò)若干次的延拓,得到一個(gè)8000左右的數(shù)據(jù)序列,做濾波運(yùn)算。取輸出序列的最后一個(gè)延拓周期的前160點(diǎn)作為輸出結(jié)果(見(jiàn)圖3)。這樣完成了一次濾波過(guò)程。對(duì)數(shù)據(jù)做逐幀處理,最后得到增強(qiáng)后的語(yǔ)音。
用FIR梳狀濾波器進(jìn)行濾波要比前述的IIR濾波器簡(jiǎn)單的多,它無(wú)須做周期延拓,不過(guò)為了消除濾波器的邊緣效應(yīng),每次都要保留前一幀數(shù)據(jù)中最后與濾波器長(zhǎng)度相當(dāng)?shù)牟糠?。延遲量D仍由公式(8)確定。其增強(qiáng)倍數(shù)m=1+a1-a--(11)]]>圖4是一句語(yǔ)音增強(qiáng)前后的語(yǔ)譜圖的比較,可以明顯看出其中的區(qū)別,增強(qiáng)后的語(yǔ)音中噪聲得到明顯抑制。增強(qiáng)過(guò)程用IIR梳狀濾波器實(shí)現(xiàn)。需要強(qiáng)調(diào)的是,在具體實(shí)施中,為了保留清音的信息,梳狀濾波器的增強(qiáng)倍數(shù)m應(yīng)限制在一定范圍內(nèi),實(shí)驗(yàn)驗(yàn)證一般m取值在1.3到1.7之間為宜(與信噪比有關(guān))。
通過(guò)前述的方法即可實(shí)現(xiàn)語(yǔ)音的增強(qiáng),但是這種增強(qiáng)改變了語(yǔ)音中清、濁音能量的對(duì)比關(guān)系,這會(huì)影響語(yǔ)音識(shí)別的正確率。為了對(duì)此加以補(bǔ)償,本發(fā)明在做HMM(隱含馬爾可夫模型)訓(xùn)練前,把訓(xùn)練數(shù)據(jù)也做梳狀濾波,使得訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的清、濁音能量的對(duì)比關(guān)系相近,以期減少識(shí)別語(yǔ)音和模型之間的失配,降低梳狀濾波的負(fù)面影響。這樣得到的隱含馬爾科夫模型稱為語(yǔ)音增強(qiáng)隱含馬爾科夫模型(SE-HMM,Speech Enhanced Hidden Markov Model)。
為了說(shuō)明本發(fā)明所提供的方法的效果,在下面的實(shí)驗(yàn)中,訓(xùn)練了HMM和SE-HMM兩個(gè)模型,觀測(cè)矢量39維,7個(gè)混合高斯密度,其中HMM訓(xùn)練數(shù)據(jù)取自863數(shù)據(jù)庫(kù),男女聲各79人,每人650句子;SE-HMM由上面訓(xùn)練數(shù)據(jù)經(jīng)梳狀濾波后的結(jié)果訓(xùn)練而成。測(cè)試數(shù)據(jù)是集外,650句/人,共2人。全音節(jié)(404)網(wǎng)絡(luò)識(shí)別。
首先驗(yàn)證在純凈語(yǔ)音下,語(yǔ)音增強(qiáng)本身對(duì)識(shí)別結(jié)果的不利影響。測(cè)試數(shù)據(jù)是2個(gè)人語(yǔ)音,表1是實(shí)驗(yàn)結(jié)果。
表1純凈語(yǔ)音識(shí)別結(jié)果對(duì)比
第一行是原始純凈語(yǔ)音用HMM識(shí)別的結(jié)果(m=1.0表示沒(méi)有經(jīng)過(guò)梳狀濾波器的增強(qiáng)處理),第二行是經(jīng)梳狀濾波后的語(yǔ)音用SE-HMM識(shí)別的結(jié)果(m=1.3)。從實(shí)驗(yàn)看出,雖然該語(yǔ)音增強(qiáng)改變了清、濁音的原有能量對(duì)比關(guān)系,但是通過(guò)對(duì)訓(xùn)練語(yǔ)音的濁音增強(qiáng)等措施,能將它的不利影響降到很低??梢栽O(shè)想,在噪聲環(huán)境下,增強(qiáng)后的識(shí)別效果會(huì)優(yōu)于增強(qiáng)前。
然后是對(duì)帶噪語(yǔ)音的識(shí)別。背景噪聲事先在實(shí)驗(yàn)室錄得,包括計(jì)算機(jī)風(fēng)扇、空調(diào)和來(lái)自窗外的其他噪聲等。把語(yǔ)音和噪聲按不同比例混合得到不同信噪比的語(yǔ)音。表2大體上說(shuō)明了信噪比SNR、增強(qiáng)倍數(shù)m和語(yǔ)音識(shí)別率之間的關(guān)系。表中實(shí)驗(yàn)結(jié)果每一欄包含兩個(gè)數(shù)據(jù),前者是正確率,后者是準(zhǔn)確率(Corr./Acc.)。實(shí)驗(yàn)結(jié)果顯示,增強(qiáng)倍數(shù)m是和信噪比SNR相關(guān)的,信噪比越低,m取值越大。如果SNR=13,m取1.3為宜,而SNR=6.5時(shí),m則取到1.5。識(shí)別結(jié)果正確率和準(zhǔn)確率分別提高5%和7%左右,表中第一行是增強(qiáng)前的識(shí)別結(jié)果(用HMM模型),黑體部分是增強(qiáng)后的較理想結(jié)果(用SE-HMM模型)。詳情見(jiàn)表2。
表2帶噪語(yǔ)音識(shí)別結(jié)果對(duì)比
從以上的實(shí)驗(yàn)可知,基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法是可行有效的。它對(duì)各種噪聲適應(yīng)面比較大,對(duì)噪聲的特性(如平穩(wěn)性)沒(méi)有要求,能在一定程度上提高識(shí)別率。
權(quán)利要求
1.一種基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法,包括步驟(1)用訓(xùn)練數(shù)據(jù)進(jìn)行隱含馬爾可夫模型訓(xùn)練;(2)用訓(xùn)練后的隱含馬爾可夫模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別;其特征在于,步驟(1)中的訓(xùn)練數(shù)據(jù)和步驟(2)中的測(cè)試數(shù)據(jù)都經(jīng)過(guò)語(yǔ)音增強(qiáng)處理。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別方法,其特征在于,所述的語(yǔ)音增強(qiáng)處理為用梳妝濾波器進(jìn)行梳妝濾波。
3.根據(jù)權(quán)利要求2所述的語(yǔ)音識(shí)別方法,其特征在于,所述梳妝濾波器為FIR梳妝濾波器或IIR梳妝濾波器。
4.根據(jù)權(quán)利要求2或3所述的語(yǔ)音識(shí)別方法,其特征在于,所述梳妝濾波器的的增強(qiáng)倍數(shù)在1.3~1.7之間。
全文摘要
本發(fā)明公開(kāi)了一種基于語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別方法,包括步驟(1)用訓(xùn)練數(shù)據(jù)進(jìn)行隱含馬爾可夫模型訓(xùn)練;(2)用訓(xùn)練后的隱含馬爾可夫模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別;其中,步驟(1)中的訓(xùn)練數(shù)據(jù)和步驟(2)中的測(cè)試數(shù)據(jù)都經(jīng)過(guò)語(yǔ)音增強(qiáng)處理。由于本發(fā)明的語(yǔ)音識(shí)別方法對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都作了基音及其諧波的增強(qiáng),最大限度地降低了增強(qiáng)后測(cè)試語(yǔ)音和模型間的失配問(wèn)題,提高了語(yǔ)音識(shí)別的正確率。
文檔編號(hào)G10L15/00GK1490787SQ0315707
公開(kāi)日2004年4月21日 申請(qǐng)日期2003年9月12日 優(yōu)先權(quán)日2003年9月12日
發(fā)明者杜利民, 閻兆立 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所