專利名稱:用于自動(dòng)語音識別的優(yōu)化的局部特征提取的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及語音識別系統(tǒng),具體地說,涉及用于提取識別特征的基于子波的系統(tǒng),該系統(tǒng)對于不同的聲音類別是優(yōu)化的。
當(dāng)分析語音信號時(shí),第一步是提取表征信號的有用的信息的特征。通常,該特征提取過程涉及將語音信號分割成預(yù)定幀大小的重疊窗口,然后在該信號窗口上計(jì)算快速付立葉變換(FFT)。然后通過放棄對數(shù)頻譜的付立葉變換中高階項(xiàng)來提取倒頻譜系數(shù)的有限集合。然后可以使用產(chǎn)生的倒頻譜系數(shù)構(gòu)造語音模型,通常為隱藏式馬爾科夫模型。
通常的FFT分析的最大缺點(diǎn)是它的固定時(shí)間頻率分辯率。在分析語音時(shí),希望使用多個(gè)不同的時(shí)間頻率分辯率,以更好地識別時(shí)間頻率平面上非線性分布的語音信息。換句話說,希望在為諸如元音等慢速變化結(jié)構(gòu)提供較低時(shí)間分辯率時(shí),為快速變化的摩擦音和輔音提供更陡的時(shí)間分辯率。不幸的是,當(dāng)前的技術(shù)難于達(dá)到。盡管有可能并行地構(gòu)造和使用一組識別器(每一識別器設(shè)計(jì)成用于一特定語音特征),這樣的方案仍會(huì)帶來繁重的計(jì)算負(fù)擔(dān)。
本發(fā)明應(yīng)用子波技術(shù)提供一分析辦法,它覆蓋了較寬范圍的不同語音類別。使用本發(fā)明的子波技術(shù),可以構(gòu)造和使用單一的識別器,其中的語音模型已經(jīng)通過唯一特征提取過程對于不同類別的聲音是優(yōu)化的。于是本發(fā)明的識別器在不增加識別分析過程的復(fù)雜性的情況下對于不同的語音類別是優(yōu)化的。
參照以下結(jié)合附圖的說明可以完整地理解本發(fā)明的目的和優(yōu)點(diǎn)。
圖1是用于說明語音聲信號的子波分組變換的當(dāng)前優(yōu)選實(shí)施例的概念性硬件或軟件圖;圖2說明了在子頻帶分析中實(shí)施的當(dāng)前優(yōu)選時(shí)間頻率分解;圖3是根據(jù)本發(fā)明的用于實(shí)施子頻帶特征提取的優(yōu)選實(shí)施例的方框圖4描述了用于處理高通濾波器的混疊效應(yīng)的當(dāng)前優(yōu)選技術(shù);以及圖5是一流程圖說明了為特定類別聲音選擇優(yōu)化的子波樹的過程。
本發(fā)明的局部特征提取系統(tǒng)使用聲波型的子波分解。子波分解可以借助時(shí)間上和頻率上為局部的函數(shù)來表示聲信息。于是,子波分解不同于傳統(tǒng)的付立葉序列分解。在傳統(tǒng)的付立葉分析中,正弦和余弦在頻率上是局部的,但在時(shí)間和空間上是全局的。例如,一短脈沖具有較慢的衰減系數(shù),難于測量和使用FFT表示。為了表示這樣的脈沖,付立葉序列必須完全依靠消除技術(shù)。將函數(shù)屬性與系數(shù)屬性關(guān)聯(lián)起來的整個(gè)付立葉分析是難于通過正弦波函數(shù)提供的非局部支持來進(jìn)行。
給定向量空間S,基是一組向量(e1,…en),ei←S,覆蓋空間S。如果對于i≠j,ei與ej線性無關(guān),則基稱作完全的并且來自線性代數(shù)的每一向量x∈S可以分解在基中(以及重構(gòu)),只要標(biāo)量積<x,y>S→R被定義(R是實(shí)數(shù)集)為x=Σi=1n<ei,x<ei]]>其中<ei,x>ei稱為沿著ei的向量的分量,并且集合<ei,x>ei,i=1,…n稱為向量在基(e1,...en)上的投影。
函數(shù)和信號是一向量空間,只要標(biāo)量積定義為<f,g>=∫f(x)g(x)*dx其中f,g是函數(shù)(或信號,數(shù)學(xué)上這是用于相同對象的兩個(gè)名稱)并且g*是g的共軛。這意味著能夠構(gòu)造函數(shù)空間的基,將函數(shù)投影在這樣的基中并使用等式1和2重新構(gòu)造信號。
具體地說,從稱為母子波的原型函數(shù)W(x)的變換W(x)→W(x+b)和擴(kuò)展W(x)→W(ax)中構(gòu)造子波基。一旦母子波滿足一些基本屬性,通過變換和擴(kuò)展母子波,如前所述,就可以獲得函數(shù)空間的基。
本發(fā)明的目標(biāo)是提供一種表示函數(shù),特別是在時(shí)間和頻率上是局部函數(shù)的新方式。如果我們和付立葉序列比較,可以得出正弦和余弦在頻率上是局部的,但在時(shí)間或空間上是全局的。
本發(fā)明利用子波獲得在時(shí)間和頻率上的局部支持。盡管有一些方式可以進(jìn)行子波分解,當(dāng)前優(yōu)選的技術(shù)是使用基于在低通和高通分量中對信號進(jìn)行分解的遞歸算法。替代地,可以使用迭代過程。
為了說明,圖1示出了如何使用按級聯(lián)樹結(jié)構(gòu)排列的低通和高通濾波器來進(jìn)行子波分解。樹中的每個(gè)節(jié)點(diǎn)包括一個(gè)單元塊,由高通濾波器10和相應(yīng)的低通濾波器12組成。在每個(gè)濾波器之后是下降采樣處理器14,用于提供非冗余表示。原始信號在16輸入并且通過反向操作能夠由子信號優(yōu)選地重組。
系統(tǒng)借助分層的時(shí)間頻率分辯率分析以優(yōu)化的方式提取局部特征。通過以非平衡方式擴(kuò)展子波分解樹18可以實(shí)現(xiàn)該分析過程。就此方面,請注意,在樹的底部(在20處)的節(jié)點(diǎn)表示的頻率分辯率要優(yōu)于在樹的頂部(在22處)的節(jié)點(diǎn)表示的頻率分辯率。
圖2描述了時(shí)間頻率平面的分解。對于圖2底部的最低頻率,在0和1kHz之間,其中需要最高頻率分辯率,可以在通過七級濾波和下降采樣之后得到子信號。對于(以16kHz)采樣的信號相應(yīng)的子波長度為24ms并且頻率分辯率為125Hz,相反,對于6KHz之上的最高頻率(圖2的頂部),其中出現(xiàn)的語音信息較少并且不詳細(xì),在通過三級濾波和下降采樣之后可以得到子信號。相應(yīng)的子波長度為3ms并且頻率分辯率為1kHz。
圖3描述了當(dāng)前優(yōu)選的特征提取系統(tǒng)。首先將語音信號提供給子波分組變換塊32,該塊以如上圖1所述的非平衡方式將信號分解成子波。通過將信號饋送到級聯(lián)的濾波器組中可以在連續(xù)的基礎(chǔ)上進(jìn)行對語音信號30的處理。產(chǎn)生的子波變換提供了局部支持,從而可以直接對原始信號進(jìn)行處理。換句話說,不需要象通常對FFT處理那樣應(yīng)用窗口技術(shù)。
優(yōu)選實(shí)施例應(yīng)用的濾波器是通過理想的低通(或高通)濾波器的頻率響應(yīng)與長度15的Kaiser窗口的頻率響應(yīng)的卷積來設(shè)計(jì)的,以使濾波器的脈動(dòng)最小化。目標(biāo)是在通帶和阻帶之間獲得陡的變換,這樣要求濾波器最小重疊。這又導(dǎo)致在濾波器組的輸出中較低的相關(guān)。在以此方式計(jì)算了低通濾波器之后,使用對離散的Dirac函數(shù)的脈沖響應(yīng)和可以確定高通濾波器。
圖3中,在34處描述了變換塊32的輸出,作為表示時(shí)間頻率分解,其詳細(xì)情況見圖2。
盡管在下降采樣之后可以直接使用低通濾波器的輸出,優(yōu)選實(shí)施例對高通濾波器的輸出進(jìn)行的附加的處理以反向某種混疊效應(yīng)(所謂的“Gray code(灰碼)”效應(yīng))。圖4說明了混疊方案。注意,低通濾波和下降采樣步驟產(chǎn)生了范圍從null頻率至Nyquist頻率的頻率。這一般描述在40。相反,在高通濾波和下降采樣之后,維持在從null頻率至Nyquist頻率范圍內(nèi)的頻譜是濾波的信號的高頻帶頻譜的鏡像。于是,為了提取高頻帶的高頻帶(逐一地應(yīng)用兩個(gè)高通濾波器),有必要采用高通濾波器的輸出的低頻帶。這樣在高通濾波器工作之后產(chǎn)生了不想要的高通和低通濾波器的反相。
為了彌補(bǔ),優(yōu)選實(shí)施例對于高通濾波級之下的每個(gè)濾波級進(jìn)行了反相操作,直至進(jìn)行另一高通濾波級。兩個(gè)相繼的混疊組合效應(yīng)將抵消。在圖4中,在42處示出反相的高頻帶。
一旦校正了混疊,葉節(jié)點(diǎn)濾波器的輸出通過進(jìn)行方框36描述的積分過程被平滑。對于每個(gè)子頻帶1,系統(tǒng)對于相應(yīng)的子信號x1(n)計(jì)算平均幅值(如果∝=1)或平均能量(如果∝=2),稱作e1等式1el=1NΣn=lN|xl(n)|∝,l=1,2,····,L]]>可以在每個(gè)子頻帶的相同數(shù)目N的系數(shù)上計(jì)算上述平均值。由于對于樹結(jié)構(gòu)每向下一級都將采樣速率除2,分層時(shí)間分辯率被如圖2所示地保存。較大的平均窗口(相應(yīng)于最低子頻帶)的大小稱為窗口的大小。然后將平均窗口偏移一幀大小以便以幀速率傳遞子頻帶幅值。對于最高子頻帶可以調(diào)整平均的子信號采樣的數(shù)目N,這樣平均窗口時(shí)間擴(kuò)展不會(huì)小于一幀。然后,如框37所示,進(jìn)行壓縮操作。完成的壓縮操作的類型取決于語音信號的屬性。對于清潔的語音,可以進(jìn)行非線性對數(shù)運(yùn)算。對于噪聲干擾語音,可以使用開方壓縮運(yùn)算。這些運(yùn)算對e1進(jìn)行非線性運(yùn)算。盡管上述的對數(shù)運(yùn)算是優(yōu)選的,可以應(yīng)用其他非線性運(yùn)算。
如框38所示,通過應(yīng)用等式2中的離散余弦變換(DCT)可以提取倒頻譜系數(shù)等式2CK=Σl=1Llog(el)cos(k(l-0.5)Lπ),k=0,1,···,K]]>該結(jié)果是一組子頻帶特征39,可以在構(gòu)造諸如隱藏馬爾科夫模型等語音模型時(shí),表示原語音信號30。
子頻帶分析提供了許多自由度。必要的話,可以選擇濾波器組樹中的任意的節(jié)點(diǎn)來提供對特定聲音類別的時(shí)間頻率分解。換句話說,不必要僅將葉子節(jié)點(diǎn)用在子波分解中。相反地,可以使用葉子節(jié)點(diǎn)和中間節(jié)點(diǎn)的任何組合。選擇哪節(jié)點(diǎn)用于特定的聲音類別(例如摩擦音、爆破音、其他輔音、元音等)是局部特征提取系統(tǒng)如何為這些不同類別的聲音提供優(yōu)化的結(jié)果。
尋找哪節(jié)點(diǎn)組合最適合于給定的聲音類別的過程是按如下工作的一個(gè)迭代過程。
參見圖5,用于對給定的聲音類別選擇優(yōu)化的樹結(jié)構(gòu)的過程運(yùn)行在標(biāo)記為100的語料庫上。第一步(步驟102)從標(biāo)記數(shù)據(jù)中提取感興趣的聲音類別。于是,如果該樹對于摩擦音將是最優(yōu)的,則從標(biāo)記的訓(xùn)練數(shù)據(jù)中提取所有表示摩擦音的音素。然后在104,如前所述地計(jì)算子波樹。在計(jì)算完子波樹,下一步確定如何最佳地裁剪該樹以優(yōu)化地和考慮的聲音類別匹配。描述的過程繼續(xù)地以遞歸或迭代方式檢驗(yàn)每個(gè)節(jié)點(diǎn)。
于是在步驟106,對于樹的每個(gè)節(jié)點(diǎn),計(jì)算規(guī)一的能量。通過適當(dāng)?shù)膿Q算使能量(或能量的變換)規(guī)一化,這樣所有節(jié)點(diǎn)的能量之和等于1。如果當(dāng)前測試的節(jié)點(diǎn)的能量低于一預(yù)定閾值,如在108測試,則樹裁剪算法丟棄該節(jié)點(diǎn)以及其子節(jié)點(diǎn)。否則,通過使用合適的距離計(jì)算其鑒別能量來進(jìn)一步檢驗(yàn)該節(jié)點(diǎn)。這描述在步驟110。于是,如步驟112所示,相近似的鑒別能量計(jì)算構(gòu)成了父節(jié)點(diǎn)的所有子節(jié)點(diǎn)。
對于已計(jì)算的父節(jié)點(diǎn)和子節(jié)點(diǎn)的鑒別能量,步驟114將父節(jié)點(diǎn)的鑒別能量與子節(jié)點(diǎn)的鑒別能量之和進(jìn)行比較。如步驟116所示,如果子節(jié)點(diǎn)的鑒別能量之和大于父節(jié)點(diǎn)的鑒別能量,則該子節(jié)點(diǎn)被包括在樹中。否則,在步驟118,通過丟棄子節(jié)點(diǎn)和這些子節(jié)點(diǎn)的后代來裁剪樹。
圖5描述的過程繼續(xù)直到每個(gè)節(jié)點(diǎn)或者被如上所述地測試或由于是一個(gè)被排除的節(jié)點(diǎn)的子節(jié)點(diǎn)而被排除。結(jié)果產(chǎn)生一子波樹,對于考慮的聲音類別是最優(yōu)化的。在以此方式擴(kuò)展了一樹之后,系統(tǒng)可以繼續(xù)對不同的聲音類別擴(kuò)展其他樹(使用不同的裁剪)。
不同的樹可以是最優(yōu)地鑒別一定的聲音組。從一過生長樹中提取所有的這些樹,這樣對于計(jì)算希望的特征所使用的優(yōu)化子樹的節(jié)點(diǎn)來說,只需一個(gè)分解。
可以在這些專門的特征的每個(gè)上訓(xùn)練專門的隱藏馬爾科夫模型。例如,一組從輔音中鑒別元音的專門模型可以從專門屬性中構(gòu)造,以優(yōu)化地在這樣的聲音中高精度地鑒別。
于是通過先識別范圍廣的(例如輔音對元音),然后再識別該類別中的特定聲音,在多通識別范例中實(shí)現(xiàn)模型的粗-細(xì)分辯率。替代地,在一通系統(tǒng)中可以一起使用所有模型(粗和細(xì)分辯率)來產(chǎn)生提供關(guān)于發(fā)音信息的范圍廣和范圍精細(xì)的聲音的系列。
盡管,以優(yōu)選實(shí)施例的形式說明了本發(fā)明,應(yīng)理解,在不背離由所附權(quán)利要求書限定的本發(fā)明的精神實(shí)質(zhì)和范圍的條件下,可以對本發(fā)明進(jìn)行許多修改和變型。
權(quán)利要求
1.一種為自動(dòng)語音識別提取特征的方法,包括使用一組子波分解語言聲信號;定義和選擇子波基以加強(qiáng)對特定聲音類別的鑒別;和將所述基應(yīng)用于所述子波組以產(chǎn)生多個(gè)表示從所述語言聲信號中提取的特征的分解系數(shù)。
2.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括將所述子波組表示成分解系數(shù),并且后置處理所述系數(shù)以去相關(guān)和壓縮它們。
3.根據(jù)權(quán)利要求1的方法,其中語言聲信號被采樣和以數(shù)字形式表示的。
4.根據(jù)權(quán)利要求1的方法,其中所述子波組被組織成樹結(jié)構(gòu)。
5.根據(jù)權(quán)利要求4的方法,其中所述樹結(jié)構(gòu)是從級聯(lián)的基本處理塊得出的二叉樹結(jié)構(gòu)。
6.根據(jù)權(quán)利要求5的方法,其中所述基本處理塊在下降采樣之后進(jìn)行高通和低通濾波。
7.根據(jù)權(quán)利要求4的方法,其中所述樹結(jié)構(gòu)定義了多個(gè)葉節(jié)點(diǎn),每一個(gè)葉節(jié)點(diǎn)提供分解系數(shù)。
8.根據(jù)權(quán)利要求4的方法,其中所述樹結(jié)構(gòu)定義了根節(jié)點(diǎn),其中所述方法進(jìn)一步包括連續(xù)地將所述語言聲信號饋送到所述根節(jié)點(diǎn)。
9.根據(jù)權(quán)利要求4的方法,其中所述樹結(jié)構(gòu)定義了多個(gè)葉節(jié)點(diǎn),選擇葉節(jié)點(diǎn)以使預(yù)定的聲類別的鑒別最大化。
10.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括在時(shí)間窗口上積分所述分解系數(shù)。
11.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括對所述分解系數(shù)進(jìn)行非線性運(yùn)算。
12.根據(jù)權(quán)利要求11的方法,其中非線性運(yùn)算包括壓縮分解系數(shù)。
13.根據(jù)權(quán)利要求1的方法,其中所述子波組被組織成具有多個(gè)節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)。
14.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括計(jì)算每個(gè)節(jié)點(diǎn)的平均幅值。
15.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括對選定的節(jié)點(diǎn)進(jìn)行離散余弦變換以提取倒頻譜系數(shù)。
16.根據(jù)權(quán)利要求13的方法,進(jìn)一步包括通過計(jì)算表明每個(gè)節(jié)點(diǎn)上的能量的值并且在計(jì)算值低于一預(yù)定閾值時(shí)裁剪節(jié)點(diǎn),來選擇所述節(jié)點(diǎn)的一部分。
17.根據(jù)權(quán)利要求16的方法,其中表明能量的值是一壓縮后的能量。
18.根據(jù)權(quán)利要求4的方法,進(jìn)一步包括通過計(jì)算所述節(jié)點(diǎn)的一個(gè)第一節(jié)點(diǎn)的鑒別能量,并且進(jìn)一步計(jì)算所述節(jié)點(diǎn)的所述第一節(jié)點(diǎn)的子節(jié)點(diǎn)的鑒別能量,并且如果所述子節(jié)點(diǎn)的鑒別能量之和小于所述節(jié)點(diǎn)的所述第一節(jié)點(diǎn)的鑒別能量則裁剪所述子節(jié)點(diǎn),來選擇所述節(jié)點(diǎn)的一部分。
19.根據(jù)權(quán)利要求1的方法,包括產(chǎn)生第一多個(gè)分解系數(shù)以表示第一類別聲音和產(chǎn)生第二多個(gè)分解系數(shù)以表示第二類別聲音,并且使用所述第一和第二分解分量產(chǎn)生在語音識別中使用的第一和第二組專用模型。
20.根據(jù)權(quán)利要求19的方法,其中將所述第一和第二組模型用于多通配置,從而對于識別結(jié)果首先使用第一組模型,之后使用第二組模型進(jìn)行處理。
21.根據(jù)權(quán)利要求19的方法,其中同時(shí)使用所述第一組和第二組模型以提供相應(yīng)于第一和第二聲音類別兩者的識別結(jié)果。
22.根據(jù)權(quán)利要求19的方法,其中所述第一類別聲音對應(yīng)于廣的聲音的類別之間的第一級鑒別,并且其中所述第二類別聲音對應(yīng)于窄的聲音類別之間的第二級鑒別。
全文摘要
將語言聲信號分解成以非對稱樹數(shù)據(jù)結(jié)構(gòu)排列的子波,從樹中可以選擇節(jié)點(diǎn)以便最佳地提取局部特征,這是在模型化特定類別聲音單元時(shí)所需要的。通過積分可以平滑子波分組變換,并且在進(jìn)行離散的余弦變換之前對子波行組壓縮來應(yīng)用非線性運(yùn)算。然后可以使用產(chǎn)生的諸如倒頻譜系數(shù)等子頻帶特征來構(gòu)造語音識別器的語音模型。使用以此方式提取的局部特征信息使單個(gè)識別器相對于幾個(gè)不同類別的聲音單元是最優(yōu)的,這樣就不需要并行識別器。
文檔編號G10L15/02GK1299127SQ0012833
公開日2001年6月13日 申請日期2000年11月24日 優(yōu)先權(quán)日1999年11月24日
發(fā)明者盧卡斯·里加茲奧, 戴維·克萊澤, 特德·艾波保, 讓-克勞德·詹卡 申請人:松下電器產(chǎn)業(yè)株式會(huì)社