專利名稱:語音處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音處理系統(tǒng),更具體而言,涉及一種利用與被稱為共振峰頻率的語音發(fā)音相關(guān)的人的聲音的諧振模式的系統(tǒng)。
共振峰頻率通常作為在語音信號的短時譜中的峰值出現(xiàn)。許多年來,一直公認(rèn)它們與有關(guān)的語音的發(fā)音重要性密切相關(guān)。這種關(guān)系意味著在語音信號的自動處理中有許多應(yīng)用,為此,一種共振峰頻率測量的有效方法是有用的,例如(a)共振峰聲碼器,也就是用于對低位速率語音傳輸編碼的設(shè)備;(b)共振峰頻率隨時間變化的可見顯示,以便幫助聾人解釋語音,或幫助他們語音訓(xùn)練;(c)從每個人的語音自動鑒別身份;和(d)語音信號分析,供輸入到自動語音辨認(rèn)系統(tǒng)。
這些應(yīng)用的要求可以通過在有規(guī)則的時間間隔上從相繼的譜截面確定共振峰頻率得到滿足。另外,確定有關(guān)的共振峰的幅度也是有用的,因?yàn)檎Z音聲音的發(fā)音質(zhì)量取決于兩者。對于某些聲音(特別是元音),相關(guān)的共振峰幅度很大程度上由共振峰頻率的型式所確定??墒?,對于大多數(shù)輔音的相關(guān)幅度將與這些典型的元音不大相同,甚至連元音,它們也將隨聲音的用力程度和說話者的不同而變化。
很遺憾,盡管共振峰信息是有用的,自動共振峰測量是人所共知的困難。這種困難的主要原因是由于語音處理引起的,語音處理包括短持續(xù)時間聲音的分析,以便產(chǎn)生短時譜截面,但規(guī)定共振峰的譜峰值并不一定清楚地出現(xiàn)在這樣一個截面中。語音產(chǎn)生的聲學(xué)理論指明,在理想的條件下人的聲道(Vocal tract)有間隔大約1KHZ的平均頻率上有一系列的諧振模式,實(shí)際的諧振頻率由在任何特定時間上顎,舌,唇和其它發(fā)音器官的精確位置來確定。共振峰固有地與人的發(fā)聲系統(tǒng)(Vocal system)的聲音諧振有關(guān)這樣一個事實(shí)意味著當(dāng)發(fā)聲器官移動以產(chǎn)生不同語音聲音時,它們的頻率通常將隨時間平滑地改變。
在確定語音的發(fā)音性質(zhì)中共振峰頻率的影響幾乎完全僅僅與這些諧振中的最低三個有關(guān)(通常稱為F1,F2和F3),在第三個以上的諧振是不重要的。事實(shí)上F4以上的諧振因?yàn)閹挼南拗仆ǔ2豢赡茉谡Z音信號中檢測到。在電話帶寬信號的情況下,甚至F4常常不出現(xiàn)在可得到的信號中。
為什么關(guān)于語音產(chǎn)生的精確理論在實(shí)際的語音發(fā)音期間常常得不到理論共振峰的清淅的圖形的原因有許多。首先,理論論述聲道的響應(yīng),并不考慮激發(fā)該聲道的聲源的譜性質(zhì)。主要的聲源是在振動著的發(fā)音區(qū)(Vocal folds)之間的空氣流,和由氣流通過聲道中的阻塞物時引起的擾動噪聲。大多數(shù)時間內(nèi),這些源具有一種這樣的譜結(jié)構(gòu),它不可能掩蔽聲道響應(yīng)的諧振型式。這些源的譜趨勢作為一個頻率的函數(shù)或者是相當(dāng)平坦(在擾動噪聲的情況下),或者隨著頻率的增加在強(qiáng)度上通常的下降(在發(fā)音區(qū)之間的氣流的情況下)。然而,在后一種情況下,尤其是對于某些說話者,存在這樣的情況,通常平滑的譜趨勢在某些頻率上被干擾,有時帶有少量的譜峰,但最通常的情況是在譜中帶有發(fā)音下降,如果這樣一種下降與聲道的諧振相符合,共振峰的預(yù)期的譜峰幾乎完全可被掩蔽。
辨認(rèn)共振峰譜峰困難的第二個原因,尤其是在某些輔音聲音中,是在于聲道在某些中間點(diǎn)可能被嚴(yán)重阻塞,以致在聲音上幾乎完全分成兩個基本獨(dú)立的部分。對于這些語音聲音的類型,聲源通常是由在阻塞時產(chǎn)生的擾動引起的。在這些情況下從口中發(fā)出的聲音主要受由阻塞引起的聲道的諧振結(jié)構(gòu)的影響,與后腔有關(guān)的共振峰(標(biāo)記為F1)被如此微弱地激發(fā),以致它們通常根本不出現(xiàn)在發(fā)出的語音譜中。在這些情況下,F(xiàn)1并沒有感覺上的意義,但是出于連續(xù)性的考慮將其它的諧振與適當(dāng)?shù)妮^高共振峰數(shù)目聯(lián)合是有利的。共振峰頻率的特性作為一個時間函數(shù)用共振峰軌線來描述;每根共振峰軌線是一系列各個單獨(dú)的共振峰頻率如F1作為一個時間函數(shù)的相繼的值,因此對于共振峰頻率F1,F2,F3有一組三個共振峰軌線。連續(xù)性考慮意味著穿過元音/輔音邊界的共振峰軌線的連續(xù)性。
擾動激發(fā)的輔音聲音對于共振峰分析來說具有進(jìn)一步的困難,因?yàn)樵谶@些聲音期間喉門(在喉中發(fā)音區(qū)之間的空間)開得寬,所以由于耦合到副喉門系統(tǒng)(支氣管和肺)引起共振峰諧振較大的阻尼。
共振峰分析的第三個困難尤其是針對高音調(diào)的說話者,對于他們來說,發(fā)音區(qū)振動頻率可以是相當(dāng)高。如400Hz或甚至更高。這種高的頻率產(chǎn)生的諧波其間隔可以大于共振峰諧振的譜帶寬。共振峰的譜峰可位于兩個諧波之間,因而并不明顯,由諧波引起的譜峰可能被誤認(rèn)為是共振峰。
共振峰分析的第四個困難是針對鼻音的?;镜恼Z音產(chǎn)生理論并不適用于這些聲音。因?yàn)樗腔跓o分支聲道的諧振。在存在鼻音的情況下(鼻輔音或鼻元音),軟顎往下,鼻腔與聲道耦合。發(fā)聲系統(tǒng)有一個側(cè)支,這就引入了復(fù)雜的附加諧振和反諧振組到系統(tǒng)的響應(yīng)中。在這些情況下,藉助于三個最重要的共振峰的一個語音信號的簡單描述不再嚴(yán)格地適用。然而,某些帶有鼻音耦合的聲道的諧振比其它的突出,當(dāng)鼻音不存在時,通??赡芨欉@些諧振的臨時連續(xù)性進(jìn)入相鄰的周期內(nèi)。因而用F1,F2和F3來描述鼻音仍然還是有用的。雖然三共振峰的概念對于鼻音仍然是有用的,比較復(fù)雜的發(fā)聲系統(tǒng)通常便諧振比在無鼻音的情況不突出。因此,當(dāng)查看一個譜截面時通常極難確定共振峰應(yīng)該是那個。
語音聲音共振峰頻率的確定,特別是作為在自動語音辨認(rèn)中使用的特征,已由M.J.Hunt在下文中作了描述“Delayed decisions inspeech recognition-the case of formants”,Pattern RecognitwnLetters 6,1987,PP.121-137。這里初始語音信號處理是藉助于線性預(yù)測分析(LPA)進(jìn)行的。應(yīng)用于語音信號的線性預(yù)測技術(shù)的描述,在下文中給出J.D.Markel and A.H.Gray,“Linear Prediction ofSpeech”,Berlin,Springer,1976。
線性預(yù)測是一種能夠?qū)⑷说穆暤雷鳛橐粋€在其傳遞函數(shù)中帶有少數(shù)極點(diǎn)而沒有零點(diǎn)的線性濾波器來模擬的技術(shù)。極點(diǎn)可以復(fù)共軛點(diǎn)對出現(xiàn)或者它們可以是實(shí)數(shù)。對于共軛對,每個這樣的對代表一個諧振器。如果某些關(guān)于聲道和它的激發(fā)源的非常理想化的假定是正確的,則可以示出這些諧振極點(diǎn)精確地對應(yīng)于聲道的共振峰。對于語音的共振峰在頻率上被完全確定與分開的情況,LPA給出共振峰頻率合理的描述,至少對于最低的三個共振峰是這樣??墒牵缫郧坝懻撨^的,某些或者全部共振峰常常不能完全在信號的短時譜中被確定。在這些情況下,LPA通常將給出至少一個與譜中每個清晰的峰對應(yīng)的諧振,但某些其它極點(diǎn)(或者有力地阻尼諧振或者單實(shí)極點(diǎn))將被設(shè)置以改善對總的譜的形狀的模擬。頻率上相當(dāng)接近的共振峰對有時用兩個諧振器正確地模擬,但常常是只用一個來模擬,使用具有如此被釋放的額外極點(diǎn)被有效,以便更有效地模擬譜的形狀的某些其它方面。對于某些諧振的強(qiáng)度比其它的低許多的聲音,LPA很少分配極點(diǎn)給較弱的諧振。
當(dāng)語音功率在共振峰頻率(例如在典型的[S]音中的F1)上極低的場合,LPA分析并不分配一個共振峰給真實(shí)的最低的聲道諧振,所以正確的標(biāo)記是不可能的。類似的考慮適用于從由其它措施,例如平滑的富里哀變換,獲得的譜截面得到的共振峰頻率。
獲得有用共振峰數(shù)據(jù)的問題被示于聲碼器的情況中,它是一種使用共振峰頻率的典型應(yīng)用。這是一種對語音信號編碼的系統(tǒng),用于低位速率的傳輸或存貯,它取決于從精細(xì)的譜的細(xì)部中分離出輸入聲音短時譜的總的形狀,在任何給定的時間上這種精細(xì)的譜的細(xì)部是由激發(fā)說話者聲道系統(tǒng)的聲源的類型確定的。大家知道利用先前技術(shù)有許多不同類型的聲碼器,它們用不同方法描述短時譜的形狀,例如,參閱J.L.Flanagan,“Speech Analysis Synthesis and Perception”,Springer-Verlag,1972聲道的諧振大多數(shù)情況下隨時間平滑地改變,它們在確定語音信號的發(fā)音性質(zhì)中起支配作用。因此,傳輸共振峰聲碼器的參數(shù)以比其它的聲碼器,如通道聲碼器與線性預(yù)測聲碼器較低的位速率提供了良好語音可理解性潛力。然而,在沒有可靠地產(chǎn)生共振峰數(shù)據(jù)的情況下開發(fā)一種可接受的共振峰聲碼器已經(jīng)證明是困難的。
本發(fā)明的一個目的是提供一種應(yīng)用共振峰數(shù)據(jù)的語音處理系統(tǒng)。
本發(fā)明提供的一種語音處理系統(tǒng)包括a)譜處理裝置,用于產(chǎn)生輸入語音信號的譜截面;b)存貯裝置,用于存貯譜截面和與此有關(guān)的各個共振峰頻率的比較結(jié)果;和c)比較裝置,用于匹配比較譜截面和輸入語音信號譜截面,并提供從與比較譜截面有關(guān)的頻率中得到的共振峰頻率,對此截面和輸入語音信號譜截面之間的匹配情況作出響應(yīng)。
本發(fā)明提供的優(yōu)點(diǎn)在于共振峰頻率是由處理之前的比較譜截面得到的,因而可以通過實(shí)時情況下不可能實(shí)行的處理而得到,這樣,共振峰頻率的測量就歸結(jié)為一個匹配過程。
與比較譜截面有關(guān)的共振峰頻率可以通過自動分析語音譜截面來指定,另一種方法,它們可由一位專家來指定。
在一個最佳實(shí)施方案中,比較裝置結(jié)合用于選擇各個比較譜截面的子集的裝置,與每個輸入語音信號譜截面匹配,子集是那樣一些比較譜截面,它們與其它已存貯的但未被選出的比較譜截面相比,對于各個輸入語音信號譜來說,按基于誤差測量的估計(jì)表現(xiàn)出更大的相似性。這樣使得用來選擇子集的是一個簡化的匹配程序,減少與匹配過程有關(guān)的計(jì)算。比較裝置最好還結(jié)合用于將截面歪曲的頻率標(biāo)尺歪曲裝置以便在比較譜截面和輸入語音信號譜截面之間產(chǎn)生匹配。這樣的歪曲減少了需要被存貯的比較譜截面的數(shù)目,因?yàn)槊總€被存貯的截面可被歪曲以配合輸入語音信號截面的數(shù)目。
比較裝置最好是安排成,在依據(jù)為比較譜截面與輸入語音信號譜截面的匹配所需要的歪曲所作的變換以后,為一個輸入語音信號譜截面提供從與比較譜截面有關(guān)的頻率中得到的共振峰頻率。
歪曲裝置可安排成實(shí)現(xiàn)(a)在0.2到2范圍內(nèi)傾斜的歪曲函數(shù),(b)最大頻移不超過±375Hz,和(c)在第一共振峰頻率范圍內(nèi)的最大頻移值包括500Hz以下±125Hz和500Hz以上±250Hz;但不超過1000Hz。
本發(fā)明的系統(tǒng)最好包括從輸入語音信號的譜截面和與此匹配的比較譜截面有關(guān)的共振峰頻率確定共振峰幅度的裝置。也可以包括用于確定共振峰頻率的變化率以及從以前的與后繼的輸入語音信號譜截面的共振峰頻率與共振峰幅度確定的輸入語音信號譜截面的共振峰頻率的共振峰幅度的變化率的裝置。以后將這樣的變化率在分別稱為Δ頻率和Δ幅度。
本發(fā)明也可以包括用于在這樣的頻率范圍內(nèi)根據(jù)各個輸入譜截面的形狀精細(xì)地估計(jì)共振峰頻率的裝置;這樣的精細(xì)裝置也可以考慮歸屬于鄰近主振峰的影響。
存貯裝置可安排成,存貯帶有共振峰頻率的兩個或多個選擇組的至少若干個比較譜截面,并與根據(jù)在時間域中共振峰頻率連續(xù)性在這樣一些選擇值之間選擇的裝置一起。
在一個最佳實(shí)施方案中,本發(fā)明的系統(tǒng)包括與對共振峰頻率與共振峰幅度作出響應(yīng)的語音識別裝置,例如隱蔽的馬爾柯夫模型字匹配裝置一起,用于為輸入語音信號譜截面確定共振峰幅度的裝置。
在一種替代的實(shí)施方案中,本發(fā)明的系統(tǒng)包括從輸入語音信號譜截面產(chǎn)生共振峰頻率和共振峰幅度信息的裝置,使其能與參考信息作比較。
本發(fā)明可以包括用于產(chǎn)生共振峰信息替換值以及指明所包含的共振峰信息的可信度的裝置。
在本發(fā)明的系統(tǒng)中,可安排譜處理裝置為確定在小于10ms的時間間隔內(nèi)的短時譜的形狀,可以選擇這樣的時間間隔使其對應(yīng)于對于聲道的各個主要激發(fā)點(diǎn)具有類似定位的波形區(qū)。
在進(jìn)一步的方面,本發(fā)明提供一種處理語音的方法,包括a)產(chǎn)生輸入語音信號的譜截面;b)存貯比較譜截面和與此有關(guān)的各個共振峰頻率;和c)將比較譜截面與輸入語音信號譜截面匹配,并提供從與比較譜截面有關(guān)的頻率得到的共振峰頻率,對在此截面和一個輸入語音信號譜截面之間的匹配作出響應(yīng)。
為了更充分地理解本發(fā)明,現(xiàn)將只通過舉例的方法,參考附圖來描述它的實(shí)施方案,其中
圖1是本發(fā)明的一個語音處理系統(tǒng)的簡要方框圖;圖2是用流程圖的形式示出并入圖1的系統(tǒng)中的共振峰分析器;圖3是示出語音的譜密度作為一個頻率和時間的函數(shù)的譜圖;圖4是帶有指明共振峰頻率的清晰確定的峰值的語音信號的短時譜截面;圖5是帶有作為分開的峰來看太靠近的共振峰的一個語音信號的短時譜截面;圖6是存在測定共振峰的不確定性的一個語音信號的短時譜截面。
圖7示出一個語音信號的迭加的譜截面,和與一個已存貯的參考等效物在一起的后者的歪曲型式,以達(dá)到與前者匹配;和圖8和9是合起來說明本發(fā)明的一個語音處理系統(tǒng)的簡要方框圖,該系統(tǒng)包括共振峰聲碼器,發(fā)射機(jī)和接收機(jī)。
參考圖1,本發(fā)明的一個語音處理系統(tǒng)通常用10來表示。系統(tǒng)10包括一個連接到選頻預(yù)加重放大器14的話筒12。來自放大器14的輸出傳送到模數(shù)變換器(ADC)16并由此送到激發(fā)點(diǎn)搜索器18。激發(fā)點(diǎn)搜索器18提供到快速富里哀變換器(FFT)20的輸入,它本身又被連接到共振峰分析器22。共振峰分析器22提供到隱蔽馬爾柯夫模型(HMM)字匹配器24和計(jì)算機(jī)25的輸入。隱蔽馬爾柯夫模型(HMM)字匹配器24接收來自字模型存貯器26的第二輸入并在輸出28上提供輸出信號。計(jì)算機(jī)25被連接到可見顯示單元(VDU)29。
首先簡要地略述系統(tǒng)10的工作模式,以下將給出更詳盡的討論。系統(tǒng)10在按10ms的均勻間隔上產(chǎn)生一個話音信號的短時譜形或截面。在這樣均勻間隔上產(chǎn)生的語音分析數(shù)據(jù)稱為幀。10ms的幀間隔特別適合于描述在足夠時間細(xì)節(jié)中語音譜的變化,然而較短或較長的間隔也是可以接受的。在系統(tǒng)10中,用于為每個幀產(chǎn)生譜截面的語音波形樣本的選取包括緊接著在由振動的發(fā)音區(qū)引起的,或者當(dāng)發(fā)音區(qū)不振動時由空氣擾動引起的聲道的主要激發(fā)點(diǎn)以后的較高功率的周期。在較長的時間窗上測量平均譜的其它方案一般來說給出比較不精確的人的聲道性質(zhì)的描述。術(shù)語短時譜意味著是一種在比信號的整個持續(xù)時間短的周期內(nèi)確定的譜。許多語音處理應(yīng)用確定在50ms或更長的間隔內(nèi)的短時譜。使用激發(fā)點(diǎn)搜索器18允許產(chǎn)生在8ms或更短時間內(nèi)的有用譜。事實(shí)上,雖然使用64個點(diǎn)(8ms)FFT,這樣長度的輸入信號對于高聲調(diào)話音的共振峰分析是太長了,并且在這種情況下,在輸入窗末端的樣本被設(shè)置為零。在本例中,短時譜是在6.25ms的時間間隔內(nèi)確定的。
將人的話音輸入施加到話筒12,它產(chǎn)生模擬話音信號供輸入到預(yù)加重放大器14。放大器的增益隨頻率變化。給在話音信號中較高頻率較高的增益,使得平均譜功率分布比較均勻。放大器輸出由ADC16變換為數(shù)字信號,ADC16以每秒8000樣本的頻率產(chǎn)生信號樣本;也就是采樣頻率是8KHz,根據(jù)Nyquist考慮給出4KHz的帶寬。
輸入信號每10ms(也就是每80個樣本)產(chǎn)生一個譜截面。代表語音波形的樣本被送到激發(fā)點(diǎn)搜索器18,在每10ms間隔內(nèi)檢測這樣的點(diǎn),在二十個隨后的樣本序列上測量到的平均功率是最大,表明是一個聲道的主激發(fā)點(diǎn)。對于任何幀,其中用這樣方式得到的最大平均功率低于從前幀和后幀得到的最大平均功率超過3dB,則從當(dāng)前幀得到的激發(fā)點(diǎn)被具有較低功率的兩個相鄰幀中任一個的激發(fā)點(diǎn)所替代。這個過程被包括主要是與這樣的情況有關(guān),即,聲道以低于100HZ的頻率振動,以致有可能在10ms間隔內(nèi)無發(fā)音區(qū)產(chǎn)生。如果發(fā)音區(qū)頻率低于50HZ,則以上的方案對于尋找真正的激發(fā)點(diǎn)仍然是失敗的,但這樣的情況并不需要專門對待,因?yàn)樵谡5恼Z音中它們極少出現(xiàn)。激發(fā)點(diǎn)搜索器18將一個激發(fā)點(diǎn)以前每個波形區(qū)開頭的八個樣本送到FFT20,在其中實(shí)現(xiàn)快速富里哀變換算法。FFT20在各自的時間間隔或每個8ms長并包含六十四個信號樣本的窗上計(jì)算后繼的六十四個點(diǎn)的富里哀變換(譜截面)。
在計(jì)算FFT以前,樣本被窗函數(shù)相乘如下對于開始的十六個樣本,在十六個樣本間隔上,函數(shù)從零線性增加到1;對于往后的三十四個樣本,函數(shù)保持恒定為1;對于往后十六個樣本,函數(shù)從1線性地減小到零;對于其余的十四樣本,函數(shù)保持恒定為零。因此,只有輸入波形的五十個樣本影響FFT計(jì)算,代表信號長度為6.25ms。窗函數(shù)在其兩端逐漸的增加和減少具有防止因?yàn)檩斎氩ㄐ蔚男螤畲蟮牟贿B續(xù)性對最終的譜形狀較大的干擾的效果。其它的平滑窗函數(shù)可用于此目的。在得到激發(fā)點(diǎn)以前開始對八個樣本FFT具有將激發(fā)點(diǎn)定位在窗函數(shù)起始傾斜向上的半路上的效果。六十四個點(diǎn)的富里哀變換可在各自的頻率125nHZ(n=0,1…32)上產(chǎn)生三十三個輸出,但在OHZ和4KHZ上的輸出并不很有用。因而每個變換被用來提供在非零頻率上的三十一個頻率組分,在4KHZ帶寬上以125HZ的間隔均勻隔開。
激發(fā)點(diǎn)搜索器18克服在輸入數(shù)字化語音信號中8ms窗對于完全處于人的聲道的兩個激發(fā)點(diǎn)之間是足夠短的問題。如果情況是這樣,F(xiàn)FT20的輸出取決于窗相對激發(fā)點(diǎn)的精確位置。這是一種在相繼的短時譜形狀或截面之間不希望的變化源。而且,語音樣本包括一個緊跟著一個激發(fā)點(diǎn)的區(qū)域,在其中功率與其它區(qū)域相比較是高的;這提供信號噪聲比方面的好處。
從富里哀變換數(shù)據(jù)中,共振峰分析器22確定稱為F1,F2和F3的語音信號三個最低頻率共振峰的頻率和幅度的值以及與這些值有關(guān)的可信權(quán)。它也確定表明共振峰測量的變化率的Δ頻率和Δ幅度的值,正如以后將較詳細(xì)描述的那樣,可信權(quán)是從譜的形狀和所測到的共振峰頻率算得的。對于幅度低或位于譜的曲率低處的共振峰頻率,它們具有低的值。
字模型存貯器26包含一套字-水平的隱蔽馬爾柯夫模型(HMM),對于系統(tǒng)10的應(yīng)用中需要的詞匯表中每個字一個。使用全字的與本發(fā)明匹配的HMM字并不是必不可少的,在某些用于語音識別的實(shí)施方案中,可以優(yōu)先使用子-字單位的HMM或者甚至使用其它匹配方法的語音識別技術(shù),例如人工神經(jīng)網(wǎng)絡(luò)來代替HMM。然而HMM是眾所周知的,并且組成絕大多數(shù)當(dāng)前的語音識別系統(tǒng)的基礎(chǔ)。HMM是一種統(tǒng)計(jì)模型,完全由一套參數(shù)來規(guī)定。利用良好建立的HMM訓(xùn)練步驟(如Baum-Welch算法)以及一套對于詞匯表中的每個字自動訓(xùn)練參數(shù)的訓(xùn)練話語。為了獲得與共振峰分析器22的輸出一致的HMM,必須通過系統(tǒng)10的部件12到22處理一套訓(xùn)練話語,以提供用于訓(xùn)練HMM字匹配器24的已處理數(shù)據(jù)。這樣使系統(tǒng)10能夠識別這樣的話語。
HMM字匹配器24在語音處理的先前技術(shù)中是充分了解的。在由U表示的一個未知話語通過系統(tǒng)10的部件12到22處理以后,它由特征向量的一個序列y=y1,…yt…yT來代表,每個相應(yīng)于各個輸入幀;T是周幀數(shù)表示的話語的長度。每個特征向量的組分相應(yīng)于從共振分析器22輸出的,關(guān)于在t時刻上一個譜截面輸入的共振峰的頻率和幅度,Δ頻率和幅度以及可信權(quán)。與具有替代物的共振峰描述的幀有關(guān)的特征向量包括這樣一些替代物。
HMM字匹配器24的功能是在字模型存貯器26中找到具有產(chǎn)生序列y最高統(tǒng)計(jì)概率的HMM序列M(1),M(2)…,M(N)這種概率是在Viterbi意義上的概率,在語音識別的先前技術(shù)中是眾所周知的,此概率取決于HMM字模型的參數(shù),也將取決于任何統(tǒng)計(jì)語言的參數(shù),例如N-gram語言模型,它被裝入HMM字匹配器。這在先前技術(shù)中也是眾所周知的,然后未知的話語U被識別為字序列W(1),W(2),…W(N),其中n=1到N,W(n)是相應(yīng)于HMM M(n)的字。
使用在系統(tǒng)10中的HMM字匹配器24與先前技術(shù)等效物的不同僅僅在于使用可信權(quán)和另一種共振峰描述,這種情況并不出現(xiàn)在不包含作為輸入特征的共振峰的其它類型HMM語音識別器的特征向量中。而且,差別僅僅涉及到HMM計(jì)算的部分,通常稱為發(fā)射概率計(jì)算,也就是,一個字模型M(n)的任何特定狀態(tài)產(chǎn)生觀察到的輸入特征向量的概率計(jì)算。通常將發(fā)射概率表達(dá)為實(shí)際概率的逆算法,在此以后稱為NLP。因此NLP較小的值相應(yīng)于比較可能的事件,較大的值相應(yīng)于不大可能的事件。大多數(shù)HMM語音識別器通過用一個連續(xù)概率密度函數(shù)(例如正態(tài)分布,或幾個帶有適當(dāng)?shù)幕旌舷禂?shù)的正態(tài)分布的混合)的參數(shù)來模擬特征向量各個特征的統(tǒng)計(jì)性質(zhì)而實(shí)現(xiàn)發(fā)射概率計(jì)算的。為了簡化計(jì)算,它們也考慮特征向量的分開的特征的變化是統(tǒng)計(jì)獨(dú)立的(也就是假定特征協(xié)方差矩陣是斜列)。在這些情況下,對于每個完整的特征向量的NLP計(jì)算是對于各個特征獨(dú)立地得到的組分的和。
HMM字匹配器24使用可信權(quán)如下。在將各組分相加產(chǎn)生總的NLP以前,將每個NLP共振峰頻率組分與用于相應(yīng)的共振峰的可信權(quán)值(在0到1的范圍內(nèi))相乘。如果任何所測到的共振峰頻率是非常不可靠,這種用可信權(quán)相乘的方法對于防止任何狀態(tài)字模型懲罰性的匹配是有效的,這種懲罰是因?yàn)樗鶞y到的共振峰頻率與相應(yīng)的由字模型規(guī)定的共振峰頻率非常不同造成的。利用另一組共振峰頻率包括為每個這樣的頻率組計(jì)算NLP(如上所述,包括使用它們的可信權(quán)),然后將最后的NLP值設(shè)置所計(jì)算的各個NLP值中最低的。對于每個字模型M(n)的每種狀態(tài),這樣做對選擇與在此狀態(tài)下在模型中規(guī)定的共振峰頻率最匹配的共振峰頻率組是有效的。使用可信權(quán)和另一共振峰組在字識別精度方面與不使用這些性質(zhì)的情況相比是有利的。因?yàn)檫@種使用可信權(quán)和另一共振峰組的方法與Baum-Welch算法不兼容,它們不可能用在HMM字匹配器24的訓(xùn)練階段。
計(jì)算機(jī)25和VDU29的功能是提供語音處理系統(tǒng)10具有幫助說話有困難的人的能力。這對聾人特別適用,因?yàn)樗峁┲该魉f的聲音的質(zhì)量與可接受性的可見反饋。當(dāng)一個聾人試圖說預(yù)先安排的聲音時,VDU29給出這和嘗試的可見表示,此人可用以與相應(yīng)的目標(biāo)表示作比較。
起初,VDU29顯示一個圖形,表示對于所需的話語的軌線F1,F2和F3(如在圖3的例子中所示,要在以后作詳細(xì)地描述),這張圖形是人工事先產(chǎn)生的,另外也可以是通過系統(tǒng)10的部件12到22對所需的話語的良好發(fā)音處理的結(jié)果并人工檢查結(jié)果。然后促進(jìn)一個人去說所需的話語,所得到的語音被通過部件12到22進(jìn)行處理。然后輸出被顯示,作為一個時間的函數(shù),或者在目標(biāo)(即預(yù)期的)共振峰軌線以下,或者迭加到它們的頂部,使它們能被人用眼作比較。共振峰分析器22產(chǎn)生多重假設(shè)和有關(guān)的可信權(quán),所有這些假設(shè)被顯示并依居它們各自的可信權(quán)被彩色編碼。如果人產(chǎn)生可接受的話語,但是共振峰分析器出錯,可選的假設(shè)中一項(xiàng)將指明正確的共振峰軌線并且人們將能基于此知識作出判斷是可能的。
共振峰分析器22被較詳細(xì)地示于圖2中。它由被編程實(shí)現(xiàn)一系列功能的計(jì)算機(jī)組成,用流程圖作說明。分析器22具有輸入30,用以接收來自FFT20的相繼的富里哀變換(譜截面)。在任何時刻t上的富里哀變換以31點(diǎn)功率譜的形式提供譜截面,也就是代表頻率從125HZ到3875HZ的實(shí)數(shù)Wt={Wt,1,Wt,2,Wt,31}的31維向量。此向量各組分的動態(tài)范圍通過采用算法被壓縮,使得FFT20在時間t上的輸出是向量Xt={Wt,1,Wt,2,…Wt,31},其中Wt,i=Log(Wt,i)和i=1到31。共振峰分析器22用保存在型式存貯器34中的參考型比較每個在32上的功率譜。在這種比較實(shí)施以前,相關(guān)的截面的各個平均值被從每個對數(shù)輸入譜截面和每個比較對數(shù)譜截面(參考型式)中減法。通過實(shí)施在對數(shù)編碼的譜截面上的這種減法,使比較只受截面的形狀而不是它們的平均值的影響。這樣就抵消了在任何時刻說話大聲和根據(jù)比較過程的結(jié)果輸入系統(tǒng)的增益的影響。存貯器34包含150個譜截面和型式,每個與頭三個共振峰頻率的一個或多個各自的組有關(guān)并存貯。型式的數(shù)目可以是從100到300的任意數(shù)。但已經(jīng)找到,150是合適的。每組共振峰頻率以前已由專家通過觀察在每種情況下的相對參考形式得以確定。另一種辦法是每組可通過對語音譜截面的自動分析來測定,例如利用大量所選的語音數(shù)據(jù)組的群集分析來盡可能地覆蓋所有可能的語音聲音組。
所存貯的型式被選取以覆蓋在語音中發(fā)生的共振峰頻率組的范圍。共振峰頻率被存貯在全部組中,可信權(quán)并不存貯。在譜的形狀不可能肯定,那一個譜的峰值應(yīng)該與共振峰中每一個有關(guān)的情況下,少量的另一組共振峰頻率被存貯在型式存貯器34中。
在一理想的系統(tǒng)中,每個輸入譜截面被詳細(xì)地與在型式存貯器34中的每個參考型式或截面相比較,以便選擇最接近的匹配物,但這在計(jì)算上是非常繁重的。因而在兩部分中作比較。在第一部分用它們的形狀的一般方面比較譜截面,從型式存貯器34中產(chǎn)生與輸入截面相當(dāng)類似的截面的短目錄。這樣,只有在短目錄中的截面被經(jīng)受計(jì)算上需要的詳細(xì)匹配過程。
動態(tài)編程(DP)(以后將作較詳細(xì)的描述)被應(yīng)用以便利用頻率標(biāo)尺畸變評價型式的類似性,雖然它本來是一種有效率的方法。但由于以下的原因仍然需要相當(dāng)大量的計(jì)算。如果每種型式用32個點(diǎn)來表示,允許有±3點(diǎn)的范圍(例如對于125HZ頻率步距為±375HZ),那末對于型式的每個點(diǎn)有七種調(diào)整的可能性被評價。通過采用以后要描述的DP路徑傾斜約束,當(dāng)對每個新的候選路徑點(diǎn)作決定時,將有兩個可能的以前的路徑點(diǎn)被考慮,這樣將是32×7×2=448次運(yùn)算的量級,用于實(shí)現(xiàn)用一個已存貯的型式調(diào)整一個輸入譜截面。這就是為什么非常希望在實(shí)施本發(fā)明中包括型式短目錄選擇。
型式短目錄選擇被實(shí)施如下對于每個在型式存貯器中的參考截面或型式X,以及對于每個輸入譜截面X,通過對X施加余弦變換C,即y=CX,得到一個新向量y。因此通過設(shè)置f(y)i=yi(i=1,…5)得到一個新的五維向量f(y)。這在物理術(shù)語上相應(yīng)于執(zhí)行功率譜的頻率分析(也就是富里哀變換)。只被定義在正頻率軸的譜為了富里哀分析的目的,假定是對原點(diǎn)對稱的。因此“正弦”項(xiàng)漏失,富里哀變換歸結(jié)為余弦變換。這種運(yùn)算的結(jié)果是將譜作為余弦波的加權(quán)和來描述。較低頻率的余弦波提供功率譜整個形狀的描述,因此對于執(zhí)行對功率譜的粗比較是合適的。在本例中,使用與五個最低階的余弦波對應(yīng)的系數(shù)。
通過計(jì)算這些五維表象的歐幾里德距離的平方在32實(shí)現(xiàn)初步分類。這些給出相對于輸入譜截面最低平方歐幾里德距離的參考型式被選擇供進(jìn)一步處理。在本例中,用這種方法選擇六個候選的參考型式。通過實(shí)驗(yàn)已經(jīng)發(fā)現(xiàn),如果沒有六個以上這樣的型式被選擇,從150個型式中進(jìn)行初步選擇花的時間要比減少數(shù)量的詳細(xì)匹配要少,并通常產(chǎn)生一種型式,對于這種型式詳細(xì)匹配給出良好的共振峰定位。
下個階段是在輸入譜截面和候選參考型式之間進(jìn)行詳細(xì)的比較。這一步應(yīng)用稱為動態(tài)編程(DP)的方法從事參考型式的歪曲,并示于36。動態(tài)編程是一種已建立的最優(yōu)化技術(shù),是由Richard Bellman在1960年得到的。它闡述了對于符合“最優(yōu)化原理”的問題(例如尋找兩點(diǎn)間最短路徑的問題),通過點(diǎn)C1…CM中的一個點(diǎn)從點(diǎn)A到B的最容易的路徑的代價是在m上(m=1到M)從A到Cm的最容易的路徑的代價加上從Cm到B的代價的最小值。在其中含蓄地表明,路徑的相對代價可被計(jì)算出,利用稱為DP價值函數(shù)實(shí)現(xiàn)。
型式歪曲實(shí)現(xiàn)如下。設(shè)在型式存貯器34中的一個參考型由a=a1,…aL表示,b=b1,…bL是輸入譜截面。設(shè)P:(1,…L)→{1,…L)是來自已排序的組{1,…L)的一個映象,服從以下條件,第一P(1)=1,第二P(L)=L,第三P(i);P(i-1)+K,其中K=0,1或2。在物理術(shù)語上這意味著,為了建立在一個參考型式a和一個輸入譜截面b之間的相似性,在a中的每個點(diǎn)將與b中的一個點(diǎn)有關(guān);這服從以下條件,a和b具有一致的起始與終止點(diǎn),并且如果ai和bj有關(guān)或一致,那末ai-1將與bj,bj-1或bj-2成一直線。映象P被稱為“頻率登記路徑”,它所服從的條件稱為對P的“連續(xù)性條件”。它將歪曲引入?yún)⒖夹褪降念l率標(biāo)尺。
在本例中引入以下的約束第一,歪曲函數(shù)的斜率必須在0.5和2之間,(包含0.5和2),第二,在歪曲期間實(shí)現(xiàn)的最大頻移必須在任何點(diǎn)不超過±375HZ;第三,最大頻移的較低值被強(qiáng)制在相應(yīng)于第一共振峰F1的頻率范圍內(nèi),它們是500HZ以下±125HZ和從500HZ到1000HZ(包含500HZ,1000HZ)±250HZ。
對于歪曲函數(shù)的斜率在0.5和2之間,一個進(jìn)一步的條件是由以上指出的路徑約束P(i)=P(i-1)+K,(K=0,1,2)滿足。K-2的情況允許路徑的局部斜率大到2,但K=0的情況允許較小的斜率值。為了保證斜率不落在0.5以下,一個附加的條件被包括,其形式為如果P(i)=P(i-1),那末P(i-1)=P(i-2)+K,(K=1或2)。
下一步計(jì)算稱為“在a和b之間沿著P的積累距離”,由下式給出D(a,b/p)=Σi=1L|ai-bp(i)|,]]>其中|X|是X的絕對值。
D(a,b/p)代表在a和b中每對有關(guān)的或映象點(diǎn)之間的間隔加在一起得到的和,也就是所有點(diǎn)si和bp(i)的對之間的間隔,其中ai代表根據(jù)映象操作在a中與bp(i)有關(guān)的點(diǎn)。直觀上看,如果D(a,b/p)是小的,由映象P規(guī)定的頻率歪曲導(dǎo)致在a和b之間有良好的匹配。各種映旬或頻率登記路徑可能在上面提到的連續(xù)性條件的范圍內(nèi)?!白顑?yōu)路徑”是使D(a,b/p)最小的路徑P’,在a和b之間的DP路徑由下式定義DPDist(a,b)=D(a,b/p’)此最優(yōu)路徑和D(a,b/p)可用動態(tài)編程算出,如下。設(shè)D(i,j)表示沿著長為i的最佳部分路徑和P(i)=j的積累距離,那末,服從于以下的初始條件D(1,1)=|a1-b1|和D(i,j)=∞(j>1),應(yīng)用最優(yōu)化原理D(i,j)=min{D(i-1,j-k)+|ai-bj|,K=0,1,2}。動態(tài)編程是循環(huán)地應(yīng)用這個規(guī)則的過程,在點(diǎn)(1,1)開始并終止在點(diǎn)(L,L),這相應(yīng)于參考型式和輸入譜截面的起始和終止點(diǎn)。那末DPDist(a,b)=d(L,L)。
如果在每個點(diǎn)(i,j),局部的最優(yōu)決策被記錄,則最優(yōu)路徑P’可被“逆向地”恢復(fù),在(L,L)開始,在(1,1)終止。
替代在型a和b中各點(diǎn)之間差的簡單絕對值|ai-bj|,DP價值函數(shù)可考慮譜截面形狀的其它方面。例如,譜的斜率可包括在內(nèi),經(jīng)驗(yàn)確定的加權(quán)因數(shù)可被使用,使斜率差比強(qiáng)度差更重要,給譜的高強(qiáng)度區(qū)比低強(qiáng)度區(qū)更多的權(quán)。也可以為斜率不等于1(即在D(i,j)公式中K=0或K=2)的路徑部分加上附加的代價,使頻率標(biāo)尺的畸變被阻止。
如上所述,在歪曲期間的最大頻移在任何點(diǎn)上是±375HZ,是±3個125HZ的譜頻步距;對于第一共振峰F1的頻率范圍,在500HZ以下是±125HZ,從500到1000HZ為±250HZ,或者分別是一或兩個頻率步距。這在數(shù)學(xué)上意味著,搜索范圍取決于i值。在參考型式中的每個索引值i必須映象到輸入譜截面中的i-J,…i,…i+J,其中對于1000HZ以上的頻率,J=3,對于500HZ以下的頻率,J=1,對于500HZ到1000HZ(包含500HZ,1000HZ)的頻率,J=2。因此,對于每個i,只對于i-J≤J≤i+J計(jì)算量D(i,j),其中J如上所述由i確定。如果在此計(jì)算過程中因數(shù)D(i-1,j-k)出現(xiàn)最小值,由于這種規(guī)則以前并沒有算出,那末因數(shù)被從此最小值打折扣。另一種方法,通過用以下的修改等式替代以上的等式可以實(shí)現(xiàn)D(i,j)=min{D(i-1,j-k)+|ai-bj|;K=0,1,2
和i-J-1≤j-k≤i+J-1其中J=1,若i≤4J=2,若4<i≤8和J=3,若i>8}更一般地說,如果不導(dǎo)致在不合理的不相似的型式之間產(chǎn)生視在的匹配或應(yīng)用太多的比較型式,則可以實(shí)現(xiàn)對頻率歪曲的路徑限制計(jì)算范圍的任何約束。
匹配過程的結(jié)果是從在t時刻上最接近與輸入截面xt匹配的型式存貯器34和相應(yīng)于最佳頻率登記路徑P’的描述一起辨別參考截面或型式y(tǒng),(最接近匹配是在這樣的意義上說的,即DPDist(y,xt)在全部參考型式上是最小)。已經(jīng)被專家以前就與被識別的參考型式相聯(lián)系的共振峰頻率F1,F2和F3被用來指明輸入譜截面xt的等效物,這是通過將它們經(jīng)過映象處理P,給出最優(yōu)頻率登記路徑P來實(shí)現(xiàn)的;這就是說,例如,如果在參考型式y(tǒng)中的值F1在yi產(chǎn)生,并且yi被映象到或與在頻率fj的xtj有聯(lián)系,則fj是分配到xt中的第一共振峰頻率F1,第二和第三共振峰頻率F2和F3用類似的方式得到。通常,如果f是在最接近匹配的參考型式y(tǒng)中的共振峰F的頻率,那末在型式xt中的共振峰F的頻率被規(guī)定為P(f)。三個共振峰頻率在36進(jìn)行DP型式歪曲后被輸出。
DP型式歪曲也可用來提供不僅是與來自型式存貯器34的最接近匹配的參考型式有聯(lián)系的共振峰頻率組,而且也提供對于第二和后續(xù)的最接近匹配的型式的共振峰頻率。用這種方法,可獲得許多對于共振峰位置的其它假定。
將共振峰頻率與短時語音譜截面相聯(lián)系的程序用圖形的方式示于圖3到7中。一位在實(shí)驗(yàn)發(fā)音學(xué)方面的專家解釋一組預(yù)先規(guī)定的語音話語的短時譜圖并測定共振峰頻率。這就提供一組比較譜圖,每個帶有相關(guān)的共振峰頻率供保存在型式存貯器34中。如圖3中所示,譜圖是頻率對時間的圖形顯示,并按照在顯示上適當(dāng)點(diǎn)上記號的強(qiáng)度示出在任何給定的頻率和時間上的短時譜密度,圖3事實(shí)上是在接近一秒的時間間隔上所取的一個完整的譜圖。然而,在將共振峰分配到存貯在型式存貯器34中的參考型式中時,只有短時譜截面被使用,并且即使產(chǎn)生此型式的特定語音信號的共振峰是不含糊地了解的,一個特定的參考型式的任何似乎有道理的替代標(biāo)記被包括在內(nèi)。
圖3所示的譜圖中的線60是實(shí)驗(yàn)發(fā)音學(xué)方面的專家對共振峰頻率的一種解釋。畫出這些線考慮的不僅是在時間上任何點(diǎn)上的短時譜,而且也有對于共振峰頻率隨時間最平滑地改變的要求。給出的只是一個單一的短時譜截面,解釋共振峰頻率通常要比對于整個譜圖的情況困難些。
在圖4中,示出一個語音信號的譜截面70,其上有許多被清楚地規(guī)定的峰,三個最低頻率峰中每一個落在三個最低頻率共振峰中各自的典型的頻率范圍內(nèi)。因此只有一個合乎情理的譜形狀的共振峰解釋是可能的,并標(biāo)記上共振峰F1,F2,F3和F4的位置。
然而,對于某些譜截面來說,兩個共振峰可能與譜中的單一峰有關(guān)。圖5示出這樣一種譜截面80的一個例子,對于一個專家來說,仍然可能估計(jì)共振峰F1,F2,F3和F4的清楚的位置。也可能有更復(fù)雜的情況要解決。例如,三個譜峰可能分別在低,中和高的頻率上可見到。低頻率峰是F1有可信度,但是中頻率峰可能是單獨(dú)的F2或者是F2和F3組合在一起。高頻率峰可能是F3或F4。圖6示出譜截面90的一個例子,其中在共振峰F2,F3和F4的位置上有懷疑。兩種可能性被標(biāo)記為“或”和“或”。
在圖7中,一個典型的輸入譜截面用100表示,曲線101指明一個最佳匹配,也就是帶有它的有標(biāo)記的共振峰頻率的已存貯型式。第三條曲線102是用頻率標(biāo)尺歪曲作修改后的已存貯型式。由動態(tài)編程產(chǎn)生的頻率標(biāo)尺修改在使已存貯型式與輸入截面良好適應(yīng)方面是有效的。在曲線101和102之間所畫的線103表明用頻率標(biāo)尺歪曲對預(yù)存的共振峰頻率所作的改變。
在時間t從在36上的DP型式歪曲得到的共振峰頻率通過在38上的精細(xì)頻率調(diào)節(jié)被調(diào)準(zhǔn),以獲得更精確的共振峰頻率估值,以125HZ的間距插入FFT頻率點(diǎn)之間。這個過程實(shí)施如下,有兩種情況。第一種情況,在輸入譜截面xt中有一個小峰,它被型式歪曲過程確定為共振峰,沒有其它已確定的共振峰頻率靠近此峰值。然后拋物線內(nèi)插被用來找出兩個譜點(diǎn)之間的頻率或者已確定的共振峰頻率中任一側(cè),這樣找到的頻率是在拋物線的最高點(diǎn)上,它在已確定的共振峰頻率和它的兩個相鄰頻率上通過譜截面,已確定的共振峰頻率的任一側(cè)125HZ,已確定的共振峰頻率被移到如此找到的頻率,它將始終在所確定的共振峰頻率的62.5HZ以內(nèi)。
第二種情況涉及兩個靠近達(dá)500HZ的已確定的共振峰頻率,因此在輸入譜截面xt中有一個峰值,但靠近一個已確定的共振峰頻率,也靠近另一個已確定的共振峰頻率。這種情況使用由FFT20產(chǎn)生的一種典型的共振峰譜包絡(luò)形狀的類型。這種典型的形狀用一個拋物線來近似,采用這樣一種標(biāo)尺,離開拋物線最大值(模擬一個共振峰)的頻率250HZ上的點(diǎn)具有的幅度比拋物線最大值低4dB。由兩個靠近的共振峰產(chǎn)生的譜通過兩個最大值在各個所希望的共振峰頻率上的拋物線迭加來近似,它們的最大值的幅度是在最靠近這些頻率的點(diǎn)上的各個譜強(qiáng)度。將兩個拋物線迭加的過程包含從具有較高縱坐標(biāo)的拋物線取每個頻率上的縱坐標(biāo)(幅度)。在圍繞由兩個以前確定的共振峰頻率所占據(jù)的范圍內(nèi),以25HZ為增量測試很寬范圍的頻率組合以后確定兩個經(jīng)過細(xì)調(diào)的共振峰頻率。被精調(diào)的共振峰頻率是與給出譜匹配誤差最低絕對值的拋物線對有關(guān)的,這些譜匹配誤差是以以前確定的具有較高譜幅度的共振峰頻率為中心的輸入譜截面的九個點(diǎn)上積累的。
因此,在38上相對于時間t的譜截面xt輸入是用于共振峰頻率F1,F2和F3的一組或多組頻率,現(xiàn)在它們不再量化到125HZ的倍數(shù)。
在40表示一種可選的,但是優(yōu)選的關(guān)于DP時間平滑的設(shè)備。雖然共振峰分析器10可通過取得從最佳-匹配的比較譜截面在38得到的精細(xì)調(diào)整過的共振峰頻率用于所有的應(yīng)用場合,可能有這樣的場合,正確的共振峰頻率相應(yīng)于在匹配過程中所用的短目錄中其它截面中的一個。也可能有這樣的場合,對于一個特定幀的最佳匹配截面可以給出可替換的幾組共振峰頻率,但一個相鄰的幀可給出唯一的一組頻率。因此希望利用這樣的事實(shí),已知共振峰頻率隨時間平滑地改變,通過從短目錄的所有項(xiàng)中得到的可替換的幾組頻率之間選擇,產(chǎn)生共振峰軌線,示出在時間上的最小不連續(xù)性。這種選擇過程在40通過動態(tài)編程的另一個變型來實(shí)現(xiàn),說明如下。
DP時間平滑應(yīng)用動態(tài)編程,通過考慮時間t以前和以后的共振峰軌線,選擇在每個時間t上的唯一的一組共振峰頻率。它利用所有可得到的可替換的假設(shè)的共振峰頻率,例如,不恰好選擇與單一的最佳匹配有關(guān)的共振峰頻率,而是選擇與來自DP型式歪曲級的N個最佳匹配有關(guān)的共振峰頻率,是對于某些較小的N值而言的。
設(shè)一組共振峰頻率由一個三維向量f標(biāo)記。如果在任何時刻t對于共振峰頻率組有N(t)個可替換的假設(shè),f(t,1),…,f(t,N(t)),那未,設(shè)D(t,n)標(biāo)記為到時刻t的共振峰的軌線組的最佳解釋的“代價”,頻率組在時刻t是f(t,n)。那末D(t,n)可用下式遞推式地定義D(t,n)=min{D(t-1,m)+C(f(t-1,m),f(t,n))):m=1,…,N(t-1)}在遞推中,c(f,g)是允許共振峰頻率從在時間t-1的組f改變?yōu)樵跁r間t的組g的代價,例如,可以是相應(yīng)的共振峰對的頻率差的絕對值之和。另一種辦法,可以利用比較復(fù)雜的價值函數(shù),例如通過將這些絕對值與共振峰頻率的可信權(quán)相乘來實(shí)現(xiàn),這些可信權(quán)是用以下將描述的一種類似的步驟算得的。迭推過程通過設(shè)置D(0,n)=0,n=1,…,N(t),在時間t=0開始。對于每組f(t,n),使對于D(t,n)的等式為最小的一組f(t-1,m)的記錄被保留。共振峰頻率F1,F2和F3每個與各自的軌線有關(guān)。因此,對于共振峰分析器22可能提供的最大的可能替換數(shù)中每一個有一組三個共振峰軌線。當(dāng)在任何時間比這個最大數(shù)少的替換物被識別,則兩組或多組軌線已收斂。為了選擇利用組f(t,n)在時間t結(jié)束的最佳共振峰軌線組,所有可能的軌線可追溯到整個時間。不幸的是,在任何時間t上特定的組將成為最佳是不明顯的。這是因?yàn)閷淼氖录赡芤馕吨钡綍r間t的最佳軌線組最終不可能是最佳的全部的組。理想情況下,在某個最終時間T以前可以等待,然后追溯以尋找整個的最佳軌線,但像這樣的一個連續(xù)過程沒有最終時間T。
解決辦法是利用一種稱為部分追溯的技術(shù),這在先前技術(shù)中是眾所周知的。在有規(guī)則的時間t上,所有在時間t上結(jié)束的軌線組被追溯看看是否它們在某個過去的時間S上收斂。如果是這樣,在S以后發(fā)生的事情不可能影響到S為止的軌線。使D(s,n)為最小的頻率組f(s,n)處于最佳的軌線組,軌線可從此點(diǎn)追溯并輸出直到時間S為止。如不可能找到收斂的時刻,則最終所有可用的存貯器將被使用完。因此,如果在時間t上,從最后的軌線組被輸出起預(yù)置的時間已經(jīng)流逝,還不可能找到收斂點(diǎn),那末選取在時間t上的最佳頻率組并從此點(diǎn)追溯對時間t的最佳軌線組。
為了實(shí)施方便,即使收斂點(diǎn)較早就找到。通常最好在固定數(shù)目的幀延時(如10幀,也就是100ms)以后輸出軌線信息。剛剛描述的DP過程本質(zhì)上給出一個單一的最佳軌線組。然而,有時在談話過程中,從信號的信息中,共振峰頻率應(yīng)該在時間中那個特定的點(diǎn)是不確定的,甚至在若干延時以后允許考慮進(jìn)一步的輸入也如此;因而甚至DP平滑過的軌線有時也是錯的。由于這個原因,可以包括進(jìn)一步等級的DP處理,以便得出在模糊情況下的第二個最佳軌線組。這第二等級的DP需要額外的十個幀延時,通過十個幀將它的輸入數(shù)據(jù)延時來實(shí)現(xiàn)。D(T,n)的計(jì)算除了有一個額外的價值函數(shù)以外完全與以上所給的一樣,此額外的價值函數(shù)處罰在共振峰組f(t,n)與在最佳路徑上由DP的第一等級規(guī)定的時間t上的共振峰組之間的相似性。相似處罰的尺度由經(jīng)驗(yàn)來選定,使得如果有另外一組,它的代價不高過在第一級中所選的最佳路徑的代價,與最佳組相同或非常接近的軌線不再選取。
在40上的DP時間平滑在節(jié)點(diǎn)42上產(chǎn)生或者一組或者兩組共振峰頻率。這些組是在44上分析器22的輸出的共振峰頻率組分。在46上這些組也用于測量在時間t上每個共振峰頻率有關(guān)的幅度。這是通過確定在對每個這樣的頻率最接近的譜截面點(diǎn)上的譜截面幅度來完成的。共振峰幅度在48上輸出。
在50上利用輸入譜截面和來自節(jié)點(diǎn)42的所有輸出共振峰頻率計(jì)算可信權(quán)。計(jì)算實(shí)施如下,對于一個特定的共振峰F(即F1,F2或F3)被計(jì)算為0和1之間的一個數(shù)目。每個譜截面被規(guī)定為31維向量S=S[1],…,S[31],其中在標(biāo)尺上的一個單位,被測量的各個向量單元的幅度相應(yīng)于0.25dB,對于任何共振峰F,選取指示數(shù)f,它指示與共振峰的頻率最接近的譜截面中的點(diǎn)(125HZ的倍數(shù)),(因而共振峰幅度被標(biāo)記為S[f])。在計(jì)算可信權(quán)中的第一步(STEP1)是得到兩個權(quán)W1和W2,它是藉助于用C語言寫成的計(jì)算機(jī)程序完成的,如下所示W(wǎng)1=(s[f]-M_amp+WSHIFT)/WSCALE;W2=(s[f]-REFLEV+REF_WSHIFT)/REF_WSCALE;權(quán)W1和W2基于共振峰幅度和在當(dāng)前的譜截面(W1)和長時間最大幅度(W2)的相對值。在這些表達(dá)式中,M_amp=max(S[i]),其中i=1,…,31,是最大譜通道幅度,REFLEV=200是當(dāng)語音輸入時所指向的最大譜通道幅度。WTSHIFT=100(25dB),WTSCALE=4,REF WTSHIFT=140(35dB)和REF_WTSCALE=5是預(yù)置的常數(shù)。
在計(jì)算的STEP2中,一個單一的權(quán)W被設(shè)置為W1和W2的最小值,W=min(W1,W2)如果W大于16,則它被設(shè)置為等于16。在STEP3中,譜截面的曲率C在給定的共振峰頻率上被算出,曲率被計(jì)算如下C=2*s[f]-s[lo]-s[hi];其中l(wèi)o=f-2和hi=f+2(除非lo<1,在此情況下lo=1和hi=5,或者h(yuǎn)i>31,在此情況下hi=31和lo=27)。如果c>32。則c被設(shè)置為等于32。如果c<8,則c被設(shè)置為等于8。在STEP4中,被稱為“conf”的最終的可信權(quán)計(jì)算如下conf=w*c/512;如果conf<0,則conf被設(shè)置為等于0。
可信權(quán)在52上輸出,對于以上的步驟,有許多可能的選擇方案,可用來計(jì)算可信權(quán)。
DP平滑過的共振峰頻率和它們有關(guān)的幅度在54和56上被使用,分別用以計(jì)算相對于在時間t上輸入的譜截面xt的Δ頻率和Δ幅度。當(dāng)DP的平滑輸出給出可選的共振峰頻率組時,分別為每組計(jì)算Δ量。與截面xt有關(guān)的Δ頻率在54上從與xt-1有關(guān)的共振峰頻率F1t-1,F2t-1和F3t-1和與Xt+1有關(guān)的F1t+1,F2t+1和F3t+1算出。Δ頻率5F1t,δF2t,δF3t被定義如下5FKt=FKt+J-FKt-J,其中K=1,2或3 J=1(即一幀的間隔)這規(guī)定了相對于在時間t上輸入的譜截面,在58上輸出的分析器的三個組成Δ頻率組分的值。為xt提供的每個Δ頻率是對于各個緊接著后繼和先行的截面xt+1和xt-1有關(guān)的共振峰頻率之間的差,因而,對于任何輸入譜截面xt的每組Δ頻率的計(jì)算和所有其它的分析器輸出被延時,以等待為后繼的截面xt+1確定共振峰頻率。每個Δ頻率等效于有關(guān)的共振峰頻率對時間的導(dǎo)數(shù),用時間除來獲得導(dǎo)致是不需要的,因?yàn)闀r間間隔是常數(shù)。
與截面xt有關(guān)的Δ幅度在56上從與xt-1有關(guān)的共振峰幅度A1t-1A2t-1和A3t-1和與Xt+1有關(guān)的A1t+1,A2t+1和A3t+1算出。Δ幅度δA1t,δA2t和δA3t被定義如下δAKt=AKt+J-AKt-J,其中K=1,2或3和J=1(即一個采樣時間間隔)。
這規(guī)定了對于在時間t上輸入的譜截面xt,在60上輸出的組成分析器的三個Δ幅度組分的值。為xt提供的每個Δ幅度是在與各個緊跟著的后繼和先行的截面Xt+1和Xt-1有關(guān)的共振峰幅度值之間的差。每個Δ幅度等于有關(guān)的共振峰幅度相對于時間的導(dǎo)致。
在確定Δ頻率和幅度中可以使J=1以外的值。而且這些時間導(dǎo)數(shù)可以用更精巧的方法算出,例如在時間間隔上求最佳線性擬合。
所有五個來自共振峰分析器的輸出,就是說共振峰頻率,共振峰幅度,Δ頻率,Δ幅度和可信權(quán),利用計(jì)算機(jī)25和VDU29與用于聾人的語音處理一起被使用,并用于輸入到HMM字匹配器24。
對于一個輸入語音信號的每個短時譜截面,本發(fā)明指望產(chǎn)生很大程度和一個專家所提供的似乎合理的共振峰標(biāo)記。應(yīng)該只是很少給出由這樣一位專家不能認(rèn)為合理的解釋。
可以設(shè)想,通過存貯可能產(chǎn)生的所有重要的各種譜截面并將這些截面中每一個與一個或多個共振峰標(biāo)記相連系,可能提供與專家的結(jié)果等效的共振峰標(biāo)記。對于每個輸入譜型式,所存貯的最類似的型式是與有關(guān)的共振峰標(biāo)記一起被識別的。雖然這種途徑是理想的,計(jì)算上非常昂貴,并且因?yàn)樾枰浅4罅康男褪?,在?shí)用上是不可能可行的。為了對于所有可能的語音譜截面獲得足夠精確的共振峰頻率可能需要成千上萬個已存貯的截面。將每個輸入截面與這些已存貯的截面作比較以求得最佳匹配是要非常長的計(jì)算,存貯比較的截面需要很大量的存貯器。而且,為如此多的型式識別共振峰的標(biāo)記所需要的時間是非常多的。
參考圖1和2描述的例子提供與以上提到的理想的情況接近的性能,而且利用相當(dāng)小數(shù)量的已存貯的型式。它選擇可能是可得到的已存貯比較型式中最合適的,并調(diào)節(jié)所選的型式的共振峰頻率,以便允許在輸入譜截面與比較型式之間的譜形狀的差別??梢岳闷渌姆椒ǐ@得短時語音譜,例如利用帶通濾波器組。
64個點(diǎn)FFT的頻率分辨率對于以上所描述的例子的譜分析是特別合適的。與此相反,正如已經(jīng)說過的,它具有不利方面,特別是對于低音調(diào)的語音,每組64個按8KHZ采樣的語音波形的順序樣本可能位于聲道的兩個激發(fā)點(diǎn)之間。為了避免這種困難,系統(tǒng)10利用從一個激發(fā)點(diǎn)開始的時間區(qū)取得的變換,遵循對于沒有激發(fā)點(diǎn)的幀重復(fù)一個激發(fā)的專門規(guī)定,因?yàn)檎Z音是非常低的音調(diào),另一種辦法,可以采取幾個時間上稍微移開的相繼的64點(diǎn)變換,并把它們的結(jié)果組合起來得到一個單一譜截面。一種進(jìn)一步的替代方案是使用較長的富里哀變換,或許是20或30ms的持續(xù)時間,并將來自相鄰頻率的輸出組合以獲得比較粗的量化譜描述。在較長變換和高音調(diào)說話者的情況下,在頻率域中的某個組合無論如何需要避免在共振峰與基頻的諧波之間的混淆。
如在以上所描述的例子中那樣,甚至當(dāng)共振峰頻率按125HZ間隔被量化時,三個共振峰頻率的可能組合數(shù)將接近1000。對于每個頻率型式。與不同的共振峰幅度有關(guān)的進(jìn)一步的變型將產(chǎn)生成千上萬個型式,對已存貯型式的頻率歪曲使它的峰值位置相應(yīng)于如圖2描述的輸入型式的位置,使它能夠?qū)⒁粋€單個已存貯的型式與有關(guān)的輸入譜截面的基本數(shù)目相當(dāng)好地匹配。實(shí)驗(yàn)已經(jīng)示出,在一個已存貯的型式中任何單個共振峰可以覆蓋在一個輸入截面的共振峰頻率中直到750HZ的范圍。如果這個范圍在F1的情況下保守地減少到500HZ,那末對于125HZ頻率量化系統(tǒng)所需要的型式數(shù)目方面總的減少是7×7×5。這就是說,已存貯型式的數(shù)目的減少因數(shù)達(dá)到245。這樣大量的減少使系統(tǒng)10成為一個實(shí)用的建議。
現(xiàn)在參考圖8,一種用于基于共振峰的聲碼器通信系統(tǒng)的發(fā)射機(jī)110扼要地示出。此系統(tǒng)類似于先前技術(shù)的基于共振峰聲碼器的通信系統(tǒng),區(qū)別在于它并入了依據(jù)如以前所描述的本發(fā)明的共振峰分析。因而將只作扼要地描述。與以前描述過等效的部件用前綴100同樣作參考。來自話筒112的輸出被送到預(yù)加重放大器114,并由此送到模數(shù)變換器(ADC)116。ADC的輸出沿著兩條不同的路徑117a和117b分別送到激發(fā)點(diǎn)搜索器118和基頻分析器119?;l分析器119確定每個輸入數(shù)據(jù)幀的譜精細(xì)結(jié)構(gòu)的性質(zhì)?;l分析器119確定當(dāng)前的語音信號是濁音(即發(fā)音區(qū)正在振動)還是非濁音(即發(fā)音區(qū)不振動)并相應(yīng)地設(shè)置一個開關(guān),對于濁音,分析器也輸出聲門波形的基頻,這是與話音可聽見的音調(diào)緊密相關(guān)的。
來自ADC116的其它路徑117b與確定一個有規(guī)則的幀序列的輸入語音數(shù)據(jù)短時譜的性質(zhì)有關(guān)。在發(fā)射機(jī)110中,通過與聲道主要激發(fā)點(diǎn)的同步確定短時譜的形狀,因?yàn)檫@樣給出的聲道性質(zhì)的表象要比在較長的時間窗上測量平均譜更精確。激發(fā)點(diǎn)搜索器118檢測出功率具有局部最大值的語音波形的區(qū)域,并對于每個幀將波形的這些部分送到快速富里哀變換器(FFT)120,在其中執(zhí)行快速富里哀變換算法。共振峰分析器122如以前參考圖1和2描述過的那樣,測量語音信號的三個最低頻率共振峰的頻率和幅度?;l分析器119和共振峰分析器122兩者提供輸入到可變幀速率編碼器125,它在輸出127上提供一個信號,用于通過傳輸通道(未示出)傳送到一個遠(yuǎn)方的接收機(jī)。
可變幀速率編碼在先前技術(shù)中是眾所周知的。它的目的是提供進(jìn)一步的壓縮,或位速率的降低,是通過檢測共振峰分析器122和基頻分析器119的輸出隨時間近似線性變化的語音信號區(qū)(即,在此區(qū)中這些參數(shù)值和在此區(qū)上最佳直線近似之間的歐幾里德距離小于預(yù)置的閾值)來實(shí)現(xiàn)的。在這種情況下,共振峰分析器和基頻分析器119的輸出的實(shí)際序列由在此區(qū)及區(qū)的長度上(用幀數(shù)表示)它們的直線近似參數(shù)來代替。例如,如果在每個時刻上的參數(shù)數(shù)目是15(對于三個共振峰頻率和幅度的平均值和線斜率,對于濁音基頻的平均值和線斜率,和一個激發(fā)源標(biāo)志)和區(qū)長度L是10,則必須被編碼的參數(shù)的數(shù)目從80減少到16。
圖9示出一種共振峰聲碼器接收器140,也稱為共振峰合成器。這在先前技術(shù)中是眾所周知的,傳輸通道信號由可變幀速率解碼器142變換為一種固定的幀速率,將以上描述的參數(shù)(共振峰頻率和幅度,基頻,這七種量的變化率,一個激發(fā)源標(biāo)志,一個區(qū)長度L)用L組八個參數(shù)的序列來替代,每組具有由它們相應(yīng)的直線參數(shù)規(guī)定的接線性變化產(chǎn)生的共振峰頻率和幅度及基頻,激發(fā)源標(biāo)志等于被發(fā)送的激發(fā)源標(biāo)志。所得的輸出供給激發(fā)產(chǎn)生器144及共振峰產(chǎn)生器146。激發(fā)產(chǎn)生器144產(chǎn)生兩種可能的激發(fā)波形中的一種。如果用于當(dāng)前時間的激發(fā)源碼指明聲音是基頻為fHZ的濁音,那末就產(chǎn)生頻率f的聲門波形表象。否則,產(chǎn)生噪聲信號,代表當(dāng)空氣通過聲道中的阻塞物時產(chǎn)生的噪聲類型。共振峰發(fā)生器146提供諧振頻率和增益,對由可變幀速率解碼器142和激發(fā)產(chǎn)生器144的輸出提供的共振峰頻率和幅度信息作出響應(yīng)。這是一種在先前技術(shù)中眾所周知的類型的設(shè)備,應(yīng)用若干濾波器并行連接產(chǎn)生所需要的譜的形狀。濾波器的特性由共振峰頻率和幅度確定。來自共振峰產(chǎn)生器146的信號被送到數(shù)模變換器148,并由此送到輸出放大器150,這是安排來作為對在發(fā)射機(jī)110中在114上加上的輸入預(yù)加重的反作用。這樣最終的信號被送到聲頻輸出傳感器152以產(chǎn)生語音輸出。
權(quán)利要求
1.一種語音信號處理系統(tǒng)包括譜處理裝置(14,16,18,20),用于產(chǎn)生輸入語音信號的譜截面,其特征在于它也包括a)存貯裝置(34),用于存貯比較譜截面和有關(guān)的各個共振峰頻率;和b)比較裝置(32,36),用于將比較譜截面與輸入語音信號譜截面匹配,并提供從與比較譜截面有關(guān)的信號譜截面得到的共振峰頻率,對此截面與一個輸入語音信號譜截面之間的匹配作出響應(yīng)。
2.依據(jù)權(quán)利要求1的系統(tǒng),其特征在于,與比較譜截面有關(guān)的共振峰頻率由一位專家來分配。
3.一種依據(jù)權(quán)利要求1或2的系統(tǒng),其特征在于譜處理裝置(14,16,18,20)被安排來從語音波形樣本產(chǎn)生譜截面,語音波形樣本包括在一個說話者的聲道(vocal tract)的主要激發(fā)點(diǎn)以后緊接著的周期,聲道的激發(fā)是由振動的發(fā)音區(qū)(vocal folds),或當(dāng)發(fā)音區(qū)不振動時由空氣擾動產(chǎn)生的。
4.一種依據(jù)權(quán)利要求1,2或3的系統(tǒng),其特征在于,比較裝置(32,36)并入用于選擇比較譜截面子集的裝置(32),用于與每個輸入語音信號譜截面匹配,子集是這樣一些比較譜截面,它們對于各個輸入語音信號譜截面比起已存貯但未選上的比較譜截面表現(xiàn)出較大的相似性,這是在誤差測量的基礎(chǔ)上估計(jì)的。
5.一種依據(jù)權(quán)利要求1,2,3或4的系統(tǒng),其特征在于比較裝置(32,36)并入歪曲裝置(36),用于歪曲截面以便在比較譜截面和輸入語音信號譜截面之間產(chǎn)生匹配。
6.一種依據(jù)權(quán)利要求5的系統(tǒng),其特征在于比較裝置(32,36)被安排來提供一個輸入語音信號譜截面的共振峰頻率,它們是在依據(jù)為使比較譜截面與輸入語音信號譜截面匹配所需要的歪曲進(jìn)行變換后,從與比較譜截面有關(guān)的譜截面得到的。
7.一種依據(jù)權(quán)利要求5或6的系統(tǒng),其特征在于歪曲裝置(36)被安排來實(shí)現(xiàn)。a)斜率在0.5到2的范圍內(nèi)的一個歪曲函數(shù)(Warpingfunction),b)最大頻移不超過±375HZ,和c)關(guān)于第一共振峰頻率范圍的最大頻移值包括500HZ以下±125HZ和500HZ以下但不超過1000HZ±250HZ。
8.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,它包括用于從輸入語音信號的譜截面確定共振峰幅度和與其匹配的比較譜截面有關(guān)的共振峰頻率。
9.一種依據(jù)權(quán)利要求8的系統(tǒng),其特征在于,它包括確定輸入語音信號譜截面的Δ頻率和Δ幅度的裝置(54,56),是從與先行的和后繼的輸入語音信號譜截面有關(guān)的共振峰頻率和共振峰幅度確定的。
10.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,它包括根據(jù)在這樣的頻率范圍內(nèi)各個輸入譜截面的形狀,用于精細(xì)估計(jì)共振峰頻率的裝置(38)。
11.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,它包括根據(jù)可歸因于鄰近的共振峰的影響,用于精細(xì)估計(jì)共振峰頻率的裝置(38)。
12.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,在存貯裝置(34)中的某些比較譜截面與至少兩個可替換的共振峰頻率有關(guān)。
13.一種依據(jù)權(quán)利要求12的系統(tǒng),其特征在于,它被安排成根據(jù)在時間域中共振峰頻率的連續(xù)性在可替換的共振峰頻率組之間選擇。
14.一種依據(jù)權(quán)利要求13的系統(tǒng),其特征在于它被安排成依據(jù)在時間域中共振峰頻率連續(xù)性的程度,通過選擇許多可替換的共振峰頻率組,對模糊性質(zhì)的一個輸入語音信號作出響應(yīng)。
15.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,它包括確定輸入語音信號譜截面的共振峰幅度的裝置(22),與語音識別裝置(24)一起對共振峰頻率和共振峰幅度作出響應(yīng)。
16.一種依據(jù)權(quán)利要求15的系統(tǒng),其特征在于,語音識別裝置(24)包括隱蔽的馬爾科夫模型字匹配裝置,對共振峰頻率和共振峰幅度作出響應(yīng)。
17.一種依據(jù)權(quán)利要求1到14中任何一項(xiàng)的系統(tǒng),其特征在于,它包括用于確定輸入語音信號譜截面的共振峰幅度的裝置(22),與用于顯示來自這樣一些截面的共振峰信息的裝置(25,29)一起,使其能夠與參考信息作比較。
18.一種依據(jù)任何以前的權(quán)利要求的系統(tǒng),其特征在于,它包括用于產(chǎn)生可信權(quán)的裝置(50),指出與由系統(tǒng)產(chǎn)生的共振峰信息有關(guān)的可信程度。
19.一種依據(jù)權(quán)利要求1的系統(tǒng),其特征在于,譜處理裝置(14,16,18,20)被安排來確定輸入語音信號的譜截面,是從與有關(guān)的聲道的主要激發(fā)點(diǎn)同步的短時譜的形狀著手的。
20.一種依據(jù)權(quán)利要求19的系統(tǒng),其特征在于譜處理裝置(14,16,18,20)被安排來確定在時間間隔小于10ms時的短時譜形狀。
21.一種處理語音的方法,包括產(chǎn)生輸入語音信號的譜截面,其特征在于,它包括以下的步驟a)提供比較譜截面和各個與其有關(guān)的共振峰頻率;和b)將比較譜截面和輸入語音信號譜截面匹配,并提供從與比較譜截面有關(guān)的信號譜截面得到的共振峰頻率,對該截面和一個輸入語音信號譜截面之間的匹配作出響應(yīng)。
22.一種依據(jù)權(quán)利要求21的方法,其特征在于與比較譜截面有關(guān)的共振峰頻率是由一位專家分配的。
23.一種依據(jù)權(quán)利要求21或22的方法,其特征在于,譜截面是從語音波形樣本產(chǎn)生的,包括在一個說話者的聲道主要激發(fā)點(diǎn)以后緊接著的周期,主要激發(fā)點(diǎn)是由振動的發(fā)音區(qū),或者當(dāng)發(fā)音區(qū)不振動時由空氣擾動產(chǎn)生的。
24.一種依據(jù)權(quán)利要求21,22或23的方法,其特征在于在步驟(b)中的匹配包括選擇比較譜截面的一個子集,用于與每個輸入語音信號譜截面匹配,子集是這樣一些比較譜截面,它對于各個輸入語音信號譜截面表現(xiàn)出的相似性要比未被選中的比較譜截面要強(qiáng),這是在誤差測量的基礎(chǔ)上估計(jì)的。
25.一種依據(jù)權(quán)利要求21,22,23或24的方法,其特征在于,在步驟(b)中的匹配包括歪曲截面以便產(chǎn)生在比較譜截面和輸入語音信號譜截面之間的匹配。
26.一種依據(jù)權(quán)利要求25的方法,其特征在于,在步驟(b)中的匹配包括為一個輸入語音信號譜截面提供共振峰頻率,該譜截面是按照使比較譜截面與輸入語音信號譜截面匹配所需的歪曲經(jīng)過變換以后,從與比較譜截面有關(guān)的截面得到的。
27.一種依據(jù)權(quán)利要求25或26的方法,其特征在于,歪曲過程包括a)斜率在0.5到2范圍內(nèi)的一個歪曲函數(shù),b)最大頻移不超過±375HZ,和c)關(guān)于第一共振峰頻率范圍的最大頻移值包括500HZ以下的±125HZ,500HZ以上但不超過1000HZ的±250HZ。
28.一種依據(jù)權(quán)利要求21到27的方法,其特征在于,它包括從輸入語音信號的譜截面確定共振峰幅度和與相匹配的比較譜截面有關(guān)的共振峰頻率。
29.一種依據(jù)權(quán)利要求28的方法,其特征在于,它包括從與先行的和后繼的輸入語音信號譜截面有關(guān)的共振峰頻率和共振峰幅度為輸入語音信號譜截面確定Δ頻率和Δ幅度。
30.一種依據(jù)權(quán)利要求21到29中任一項(xiàng)的方法,其特征在于,它包括根據(jù)在這樣一些頻率范圍內(nèi)各個輸入譜截面的形狀,精細(xì)地估計(jì)共振峰頻率。
31.一種依據(jù)權(quán)利要求21到30中任一項(xiàng)的方法,其特征在于,它包括根據(jù)歸因于鄰近的共振峰的影響,精細(xì)地估計(jì)共振峰頻率。
32.一種依據(jù)權(quán)利要求21到31中任一項(xiàng)的方法,其特征在于,某些比較譜截面與至少兩個可替換的共振峰頻率組有關(guān)。
33.一種依據(jù)權(quán)利要求32的方法,其特征在于,它包括根據(jù)在時間域中的共振峰頻率的連續(xù)性在各個可替換的共振峰頻率組之間選擇。
34.一種依據(jù)權(quán)利要求33的方法,其特征在于,它包括通過根據(jù)在時間域中共振峰頻率連續(xù)性的程度,選擇許多可替換的共振峰頻率組,對一個含糊性質(zhì)的輸入語音信號作出響應(yīng)。
35.一種依據(jù)權(quán)利要求21到34中任一項(xiàng)的方法,其特征在于,它包括用于為輸入語音信號譜截面確定共振峰幅度的裝置(22),與語音識別裝置(24)一道對共振峰頻率和共振峰幅度作出響應(yīng)。
36.一種依據(jù)權(quán)利要求35的方法,其特征在于,它包括根據(jù)共振峰頻率和共振峰幅度的隱蔽馬爾科夫模型字的匹配。
37.一種依權(quán)利要求21到34中任一項(xiàng)的方法,其特征在于,它包括為輸入語音信號譜截面確定共振峰幅度,并與顯示來自這樣的截面的共振峰信息一道,使得能夠用參考信息作比較。
38.一種依據(jù)權(quán)利要求21到37中任一項(xiàng)的方法,其特征在于,它包括產(chǎn)生可信權(quán),以便指明與由系統(tǒng)產(chǎn)生的共振峰信息有關(guān)的可信程度。
39.一種依據(jù)權(quán)利要求21的方法,其特征在于,它包括通過與有關(guān)的聲道的主要激發(fā)點(diǎn)同步,從短時譜的形狀確定輸入語音信號的譜截面。
40.一種依據(jù)權(quán)利要求39的方法,其特征在于,每個短時譜的形狀是在小于10ms的時間間隔內(nèi)確定的。
全文摘要
一種語音處理系統(tǒng)(10)并入一個模數(shù)轉(zhuǎn)換器(16),以便將輸入語音信號數(shù)字化供富里哀變換產(chǎn)生短時譜截面。這些截面與存貯器(34)中的150個參考型式作比較,這些型式具有各自的已存貯的由專家分配的共振峰頻率組。六個已存貯的與每個輸入截面最接近匹配的型式被選取,供通過動態(tài)編程作進(jìn)一步處理,指明此型式是對輸入截面最佳的匹配,這是通過利用頻率標(biāo)尺歪曲將其調(diào)成一致。已存貯的最佳匹配型式的共振峰頻率通過頻率歪曲方法加以修改,此結(jié)果被用作輸入截面的共振峰頻率估值。根據(jù)接近所選的共振峰的輸入截面的形狀進(jìn)一步精細(xì)調(diào)節(jié)此頻率。共振峰幅度是由在估計(jì)的共振峰頻率上的輸入截面幅度產(chǎn)生的。利用計(jì)算機(jī)(25)將共振峰頻率和幅度用來提供語音指示或者利用掩蔽馬爾科夫模型字匹配器(24)提供字識別。
文檔編號G10L25/15GK1238058SQ97199829
公開日1999年12月8日 申請日期1997年10月13日 優(yōu)先權(quán)日1996年11月18日
發(fā)明者J·N·霍姆斯 申請人:英國國防部