專利名稱:分布式話音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及話音信號(hào)處理。本發(fā)明尤其涉及一種新的用于實(shí)現(xiàn)標(biāo)準(zhǔn)話音識(shí)別系統(tǒng)分布化的方法和設(shè)備。
背景技術(shù):
話音識(shí)別是賦予機(jī)器模擬智能以識(shí)別用戶或用戶話音指令并便于人機(jī)交互的最重要技術(shù)之一。它還是一種理解人類語言的關(guān)鍵技術(shù)。利用各種技術(shù)從聲信號(hào)中還原語言信息的系統(tǒng)稱為話音識(shí)別器(VR)。話音識(shí)別器由聲處理器和字譯碼器組成,其中聲處理器從來話原始話音中抽取VR所需的信息傳播特征(information-bearingfeature)(矢量)序列,而字譯碼器對該特征(矢量)序列譯碼,產(chǎn)生所需的且有意義的輸出格式,比如與輸入發(fā)音相應(yīng)的語音字序列。為改善某給定系統(tǒng)的性能,需要進(jìn)行訓(xùn)練,以給系統(tǒng)配備有效的參數(shù)。換句話說,系統(tǒng)在優(yōu)化工作前需要學(xué)習(xí)。
聲處理器是話音識(shí)別器中的一個(gè)前端話音分析子系統(tǒng)。它對輸入話音信號(hào)作出響應(yīng),為表征隨時(shí)間變化的話音信號(hào)提供一種適當(dāng)表示。它應(yīng)該除去諸如背景噪聲、信道失真、說話者特征和說話方式等無關(guān)的信息。有效的聲特征將為話音識(shí)別器提供較高的聲鑒辨力。最有用的特征是短時(shí)間頻譜包絡(luò)。為表征短時(shí)間頻譜包絡(luò),兩種最常用的頻譜分析技術(shù)是線性預(yù)測編碼(LPC)和基于濾波器組的頻譜分析模式。但是容易證明,如L.R.Rabiner和R.W.Schafer在1978年P(guān)rentice Hall公司出版的“話音信號(hào)數(shù)字處理”一書中所討論的,LPC不僅為聲帶頻譜包絡(luò)提供良好的近似,而且在計(jì)算方面的花費(fèi)比所有數(shù)字化的濾波器組模式要小得多。經(jīng)驗(yàn)還表明,基于LPC的話音識(shí)別器的性能可以與基于濾波器組的識(shí)別器相媲美,或者會(huì)更好。具體可以參見Prentice Hall公司于1993年出版的“話音識(shí)別基礎(chǔ)”一書,作者是L.R.Rabiner和B.H.Juang。
參照
圖1,在基于LPC的聲處理器中,將輸入話音提供給傳聲器(未示出),并且將其轉(zhuǎn)換成模擬電信號(hào)。然后A/D轉(zhuǎn)換器(未示出)將該電信號(hào)數(shù)字化。為把數(shù)字化的話音信號(hào)頻譜展平并使其在接下來的信號(hào)處理過程中少受有限精度的影響,讓該信號(hào)通過預(yù)加重濾波器2。然后將經(jīng)過預(yù)加重濾波的話音提供給分段單元4,在分段單元4處,話音被分段,或者被分成許多暫時(shí)重疊或不重疊的組。然后將話音數(shù)據(jù)幀提供給開窗單元6,在開窗單元6中除去分成幀的DC分量,并在每一幀上進(jìn)行數(shù)字開窗操作,以減少因幀邊界處的不連續(xù)性而引起的分組效應(yīng)。LPC分析中最常用的開窗函數(shù)是Ham-ming窗口w(n),其定義是w(n)=0.54-0.46·cos(2πnN-1),0≤n≤N-1---(1)]]>經(jīng)開窗的話音被提供給LPC分析單元8。在LPC分析單元8中,根據(jù)被開窗的采樣計(jì)算自相關(guān)函數(shù),并且從自相關(guān)函數(shù)中直接獲得相應(yīng)的LPC參數(shù)。
一般地說,字譯碼器將聲處理器產(chǎn)生的聲特性序列翻譯成說話者原始字串的估計(jì)。它分兩步完成即聲模式匹配(acoustic patternmatching)和語言建模(language modeling)。在孤立的字識(shí)別應(yīng)用中可以避免語言建模步驟。將來自LPC分析單元8的LPC參數(shù)提供給聲模型匹配單元10,以對音素、音節(jié)和字等可能的聲模型進(jìn)行檢測和分類。將候選的模型提供給建立語法約束規(guī)則模型的語言建模單元12,這些語法約束規(guī)則可以確定哪些字序列是按語法構(gòu)成并有意義的。當(dāng)單獨(dú)的聲信息含義不清時(shí),語法信息能為話音識(shí)別提供有價(jià)值的指導(dǎo)?;谡Z言建模,VR按順序解釋聲特性匹配結(jié)果并提供估計(jì)字串。
字譯碼器中的聲模型匹配和語言建模都需要數(shù)學(xué)模型,或?yàn)榇_定的或?yàn)殡S機(jī)的,以描述說話者的音韻和聲音語音的變化。話音識(shí)別系統(tǒng)的性能直接與這兩種建模的質(zhì)量有關(guān)。在聲模型匹配的各種模型類別中,基于模板的動(dòng)態(tài)時(shí)間翹曲(dynamic time warping)(DTW)和隨機(jī)隱含馬爾可夫模型(hidden Markov modeling)(HMM)是兩種最常用的。但是,已經(jīng)知道,基于DTW的方法可視為基于HMM方法的一種特例,后者是一種參數(shù)化雙隨機(jī)模型。目前HMM系統(tǒng)是最成功的話音識(shí)別算法。HMM中的雙隨機(jī)特性在吸收聲音和與話音信號(hào)有關(guān)的暫時(shí)變化方面提供了較好的適應(yīng)性。這常常導(dǎo)致識(shí)別精度的改善。關(guān)于語言模型,已在實(shí)際的大詞匯量話音識(shí)別系統(tǒng)中成功地應(yīng)用了一種稱為k語法語言模型的隨機(jī)模型,詳見1985年《電氣與電子工程師協(xié)會(huì)會(huì)刊》,第73卷,第1616-1624頁,由F.Jelink撰寫的“實(shí)驗(yàn)分散口語識(shí)別器的開發(fā)”一文。在詞匯量小的情況下,已在飛機(jī)訂票和信息系統(tǒng)的應(yīng)用中將確定性的語法制成一有限狀態(tài)網(wǎng)絡(luò)(FSN)(詳見1985年六月《電氣與電子工程師協(xié)會(huì)IASSP會(huì)刊》第33卷第3冊,由L.R.Rabiner和S.Z.Levin-son撰寫的“A Speaker-Independent,Syntax-Directed,Con-nected Word Recognition System Based on Hidden Markov Modeland Level Building”一文)。
從統(tǒng)計(jì)角度講,為了盡量減少識(shí)別錯(cuò)誤的可能性,可以按下述方法使話音識(shí)別問題形式化利用聲證據(jù)觀測O,話音識(shí)別操作將是尋找最相似的字串W*,以使
W*=arg max P(W|O) (1)其中取最大運(yùn)算是針對所有可能的字串W。根據(jù)Bayes規(guī)則,可將上述方程中的后驗(yàn)概率重寫成P(W|O)=P(W)P(O|W)P(O)---(2)]]>由于P(O)與識(shí)別無關(guān),所以可以用另一種方法獲得字串估計(jì),即W*=arg max P(W)P(O|W)(3)這里P(W)表示將發(fā)出字串W的先驗(yàn)概率,而P(O|W)是對給定說話者發(fā)出字序列W,觀察到聲證據(jù)O的概率。P(O|W)由聲模型匹配確定,而先驗(yàn)概率P(W)由所用的語言模型定義。
在連貫的字識(shí)別中,如果詞匯量較少(少于100),則可用確定性語法硬性規(guī)定那些字可以邏輯地接在其他字的后面,以形成語言中的合法句子。確定性語法可隱含地結(jié)合在聲匹配算法中,以限制潛在字的搜索空間并大大減少計(jì)算量。但是,當(dāng)詞匯量中等(大于100但小于1000)或者較大(大于1000)時(shí),可用隨機(jī)語言建模獲得可能的字序列W=(w1,w2,…,wn)。根據(jù)簡單的概率論,可以如下分解先驗(yàn)概率P(W)P(W)=P(w1,w2,...,wn)=Πi=1nP(wi|w1,w2,...,wi-1)---(4)]]>其中P(wi|w1,w2,…,wi-1)是在給定序列(w1,w2,…,wi-1)后將說出wi的概率。wi的選擇依賴于以前整個(gè)輸入字的歷史。對于詞匯量為V的情況,需要Vi個(gè)值才能使P(wi|w1,w2,…,wi-1)完全確定。即使對于詞匯量中等的情況,也需要驚人數(shù)量的樣例來訓(xùn)練語言模型。因訓(xùn)練數(shù)據(jù)不充分而引起的對P(wi|w1,w2,…,wi-1)估計(jì)不精確,將降低原本聲匹配結(jié)果的價(jià)值。
上述問題的實(shí)際解決方法是假設(shè)wi僅依賴于(k-1)個(gè)先行字wi-1,wi-2,…,wi-k+1。隨機(jī)語言模型可以用導(dǎo)出k語法語言模型的P(wi|w1,w2,…,wi-k+1)來完整地描述。由于如果k>3,大多數(shù)字串將永遠(yuǎn)不會(huì)出現(xiàn)在語言中,所以單語法(k=1)、雙語法(k=2)和三語法(k=3)是統(tǒng)計(jì)地考慮語法的最有效的隨機(jī)語言模型。語言模型包含對識(shí)別有用的語法和語義信息,但這些概率必須從大量話音數(shù)據(jù)中訓(xùn)練得到。當(dāng)有效的訓(xùn)練數(shù)據(jù)相當(dāng)有限,K語法永遠(yuǎn)不會(huì)出現(xiàn)在數(shù)據(jù)中時(shí),P(wi|wi-2,wi-1)可以直接從雙語法概率P(wi|wi-1)估計(jì)得到。該過程詳見1985年《電氣與電子工程師協(xié)會(huì)會(huì)刊》,第73卷,第1616-1624頁,由F.Jelink撰寫的“實(shí)驗(yàn)分散口語識(shí)別器的開發(fā)”一文。在連貫的字識(shí)別中,整個(gè)字模型用作基本話音單位,而在連續(xù)話音識(shí)別中,可將諸如音素、音節(jié)或半音節(jié)等分波段單位用作基本話音單位。字譯碼器將作相應(yīng)改進(jìn)。
常規(guī)的話音識(shí)別系統(tǒng)把聲處理器和字處理器合在一起,不考慮其可分離性,應(yīng)用系統(tǒng)的限制(諸如功率損耗、可用存儲(chǔ)等)和通信信道的特性。這激發(fā)了人們對設(shè)計(jì)上述兩部分被適當(dāng)分離的分布式話音識(shí)別系統(tǒng)的興趣。
發(fā)明內(nèi)容
本發(fā)明是一種新的改進(jìn)型分布式話音識(shí)別系統(tǒng),在該系統(tǒng)中,(i)前端聲處理器可以基于LPC或者基于濾波器組;(ii)字譯碼器中的聲模型匹配可以基于隱含馬爾可夫模型(HMM)、動(dòng)態(tài)時(shí)間翹曲(DTW)或者甚至基于神經(jīng)網(wǎng)絡(luò)(NN);并且(iii)對于連貫或連續(xù)的字識(shí)別,語言模型可以基于確定性或隨機(jī)性的語法。本發(fā)明不同于通過適當(dāng)分離特征抽取和字譯碼部分來提高系統(tǒng)性能的常規(guī)話音識(shí)別器。正如以下實(shí)施例所描述的,如果諸如倒頻譜系數(shù)等基于LPC的特征通過通信信道發(fā)送,則可用LPC和LSP之間的轉(zhuǎn)換來減少噪聲對特征序列的影響。
附圖概述結(jié)合附圖閱讀以下敘述的詳細(xì)說明將更加了解本發(fā)明的特征、目的和優(yōu)點(diǎn)。附圖中相同的標(biāo)號(hào)自始至終表示相同的部分,其中圖1是常規(guī)話音識(shí)別系統(tǒng)的方框圖;圖2是在無線電通信環(huán)境下本發(fā)明一實(shí)施例的方框圖;圖3是本發(fā)明的總方框圖;圖4是本發(fā)明轉(zhuǎn)換單元和逆轉(zhuǎn)換單元實(shí)施例的方框圖;圖5是包括本地字檢測器和遠(yuǎn)程字檢測器的本發(fā)明優(yōu)選實(shí)施例的方框圖。
本發(fā)明的最佳實(shí)施方式在標(biāo)準(zhǔn)話音識(shí)別器中,無論在識(shí)別過程中或者在訓(xùn)練過程中,復(fù)雜的計(jì)算大多集中在話音識(shí)別器的字譯碼子系統(tǒng)中。在實(shí)現(xiàn)具有分布式系統(tǒng)結(jié)構(gòu)的話音識(shí)別器時(shí),通常希望把字譯碼任務(wù)放在能適當(dāng)吸收計(jì)算負(fù)載的子系統(tǒng)中。但聲處理器應(yīng)盡量靠近語音源,以減少信號(hào)處理引起的量化誤差和/或信道引入誤差的影響。
圖2示出了本發(fā)明的一個(gè)實(shí)施例。在該實(shí)施例中,環(huán)境是無線電通信系統(tǒng),系統(tǒng)包括一便攜式蜂窩電話機(jī)或個(gè)人通信設(shè)備40,以及被稱為蜂窩基站的中央通信中心42。在該實(shí)施例中,給出了分布式VR系統(tǒng)。在該分布式VR中,聲處理器或特性抽取單元22在個(gè)人通信設(shè)備40中,而字譯碼器48在中央通信中心中。如果不用分布式VR,只在便攜式蜂窩電話中實(shí)現(xiàn)VR,那么由于計(jì)算花費(fèi)很大,所以即使對于詞匯量中等的連貫字識(shí)別,也是極不可行的。另一方面,如果VR只在基站中,那么與話音編碼譯碼器相關(guān)的話音信號(hào)的衰減和信道效應(yīng)會(huì)大大降低精度。顯然,該推薦的分布式系統(tǒng)設(shè)計(jì)有三個(gè)好處。第一個(gè)好處是由于字譯碼器硬件不再位于電話機(jī)40中,所以降低了蜂窩電話機(jī)的成本。第二個(gè)好處是,減緩了便攜式電話40中電池(未示出)的耗電,本地進(jìn)行計(jì)算強(qiáng)度很大的字譯碼器操作時(shí)會(huì)引起上述電池耗電。第三個(gè)好處是,除了分布式系統(tǒng)的靈活性和擴(kuò)展能力,識(shí)別精度也有改善。
將話音提供給傳聲器20,傳聲器將該話音信號(hào)轉(zhuǎn)換成電信號(hào),提供給特性抽取單元22。傳聲器20輸出的信號(hào)可以是模擬或是數(shù)字的。如果信號(hào)是模擬的,那么需要在傳聲器20和特性抽取單元22間安置一個(gè)模擬—數(shù)字轉(zhuǎn)換器(未示出)。話音信號(hào)被提供給特性抽取單元22。特性抽取單元22抽取將用來對輸入話音之語言解釋進(jìn)行譯碼的輸入話音的相關(guān)特征??捎脕砉烙?jì)話音的特征一個(gè)例子是輸入話音幀的頻率特性。該特性常常用作話音輸入幀的線性預(yù)測編碼參數(shù)。然后將抽取的話音特征提供給發(fā)射器24,發(fā)射器24對抽取的特征信號(hào)進(jìn)行編碼、調(diào)制和放大,并通過雙工器將調(diào)制特征提供至天線28,天線將話音調(diào)制特征發(fā)送給蜂窩基站或中央通信中心42。本領(lǐng)域中已知的各種數(shù)字編碼、調(diào)制和發(fā)射方式皆可使用。
在中央通信中心42處,天線44接收發(fā)送來的特征,并將其提供給接收器46。接收器46實(shí)行解調(diào)功能并對接收到的被發(fā)送來的特征譯碼,然后提供給字譯碼器48。字譯碼器48根據(jù)話音特征確定給話音的語言估計(jì),并將一動(dòng)作信號(hào)提供給發(fā)射器50。發(fā)射器50對該動(dòng)作信號(hào)進(jìn)行放大、調(diào)制和編碼,并將放大后的信號(hào)提供給天線52,天線52將估計(jì)字或命令信號(hào)發(fā)送給便攜式電話40。發(fā)射器50也可以使用已知的數(shù)字編碼、調(diào)制或發(fā)送技術(shù)。
在便攜式電話40處,天線28接收估計(jì)字或命令信號(hào),并通過雙工器26將接收到的信號(hào)提供給接收器30,接收器30對該信號(hào)解調(diào)、譯碼,然后將該命令信號(hào)或估計(jì)字提供個(gè)給控制單元38??刂茊卧?8對接收到的命令信號(hào)或估計(jì)字作出響應(yīng),提供預(yù)定的反應(yīng)(例如,撥電話號(hào)碼、將信息提供給便攜式電話上的顯示屏等等)。
圖2所示的系統(tǒng)還可以按略微不同的方式使用,即從中央通信中心42發(fā)回的信息不一定是被發(fā)送話音的解釋,從中央通信中心42發(fā)回的信息也可以是對便攜式電話所發(fā)譯碼消息的響應(yīng)。例如,可以在通過通信網(wǎng)與中央通信中心42耦合的遠(yuǎn)程應(yīng)答機(jī)(未示出)上詢問消息,在該情況下,從中央通信中心42發(fā)送至便攜式電話機(jī)40的信號(hào)可以是來自應(yīng)答機(jī)的消息。第二控制單元49可以同在中央通信中心中。
以下是將特征抽取單元22放在便攜式電話40中而不放在中央通信中心42處的重要性。如果與分布式VR相反,將聲處理器放在中央通信中心42處,那么低帶寬數(shù)字無線電信道由于量化失真而需要一個(gè)限制特征矢量分解(resolution)的聲碼器(在第一子系統(tǒng)處)。但是,通過將聲處理器放在便攜式或蜂窩式電話中,就可以把整個(gè)信道頻帶用于特征發(fā)送。通常,傳輸被抽取的聲特征矢量比傳輸話音信號(hào)需要較小的帶寬。由于識(shí)別精度高度依賴輸入話音信號(hào)的衰減,所以應(yīng)該盡可能地使特征抽取單元22接近用戶,從而特征抽取單元22根據(jù)傳聲器話音抽取特征矢量,而不是根據(jù)可能會(huì)在傳輸中又出錯(cuò)的聲碼式電話話音抽取特征矢量。
在實(shí)際應(yīng)用中,話音識(shí)別器被設(shè)計(jì)在諸如背景噪聲等環(huán)境條件下工作。因此,考慮噪聲存在情況下的話音識(shí)別問題是很重要的。已經(jīng)證明,如果在與測試條件完全(或近似)相同的環(huán)境下進(jìn)行詞匯量(參考模型)的訓(xùn)練,那么話音識(shí)別器不僅能在噪聲很大的環(huán)境下提供良好的性能,而且能大大降低因噪聲引起的識(shí)別精度的降低。訓(xùn)練和測試條件之間的不匹配構(gòu)成了識(shí)別性能降低的主要因素之一。如前所述由于傳輸聲特征所需帶寬比話音信號(hào)要小,所以可假設(shè)聲特征比話音信號(hào)能更可靠地通過通信信道,由此所推薦的分布式話音識(shí)別系統(tǒng)在提供匹配狀態(tài)方面具有優(yōu)勢。如果在遠(yuǎn)地實(shí)現(xiàn)話音識(shí)別器,那么諸如無線電通信中遇到的衰落等信道變化會(huì)大大破壞匹配狀態(tài)。如果能在本地吸收大量的訓(xùn)練計(jì)算,那么在本地實(shí)現(xiàn)VR便能避免上述影響。不幸的是,在許多應(yīng)用中,這是不可能的。顯然,分布式話音識(shí)別裝置可以避免由信道的復(fù)雜性引起的不匹配情況,并彌補(bǔ)集中化裝置的缺點(diǎn)。
參照圖3,將數(shù)字話音采樣提供給特征抽取單元51,特征抽取單元51通過通信信道5 6將特征提供給字估計(jì)單元62,確定估計(jì)字串。話音信號(hào)被提供給聲處理器52,確定每個(gè)話音幀的潛在特征。由于字譯碼器在執(zhí)行識(shí)別和訓(xùn)練任務(wù)時(shí)都要求輸入聲特征序列,所以須將這些聲特征通過通信信道56發(fā)送過來。但是,并非標(biāo)準(zhǔn)話音識(shí)別系統(tǒng)中使用的所有潛在特征都適于通過噪聲信道傳輸。在某些情況下,需要轉(zhuǎn)換單元22以便于進(jìn)行源編碼,并降低信道噪聲的影響。話音識(shí)別器中廣泛使用的一例基于LPC的聲特征是倒頻譜系數(shù){ci}。它們可以如下從LPC系數(shù){ai}直接獲得cm=am+Σk=1m-1(km)ckam-k,-------m=1,...,P---(5)]]>cm=Σk=1m-1(km)ckam-k,------m=P+1,...,Q-----(6)]]>其中P是所用LPC濾波器的級(jí),而Q是倒頻譜特征矢量的大小。由于倒頻譜特征矢量快速變化,所以不容易壓縮倒頻譜系數(shù)幀序列。但是,在LPC和線譜對(line spectrum pair)(LPC)頻率之間存在一種轉(zhuǎn)換,后者變化較慢,并能用δ脈沖編碼的調(diào)制(DPCM)方案有效編碼。由于倒頻譜系數(shù)可以從LPC系數(shù)中直接導(dǎo)出,所以轉(zhuǎn)換單元54將LPC轉(zhuǎn)換成LPS,然后將其編碼,通過通信信道56。在遠(yuǎn)程字估計(jì)單元62處,逆轉(zhuǎn)換單元60對經(jīng)轉(zhuǎn)換的潛在特征進(jìn)行逆轉(zhuǎn)換,以將聲特征提供給字譯碼器64,隨后字譯碼器64提供估計(jì)字串。
轉(zhuǎn)換單元54的一個(gè)實(shí)施例以圖4中的轉(zhuǎn)換子系統(tǒng)70示出。在圖4中,來自聲處理器52的LPC系數(shù)被提供給LPC至LPS轉(zhuǎn)換單元72。在LPC至LPS單元72內(nèi),可如下確定LPS系數(shù)。對于第P級(jí)LPC系數(shù),其相應(yīng)的LPS頻率可作為下列方程的在0和π間的P個(gè)根獲得P(w)=cos5w+p1cos4w+…+p5/2 (7)Q(w)=cos5w+q1cos4w+…+q5/2 (8)其中pi和qi可如下遞歸地計(jì)算p0=q0=1(9)pi=-ai-ap-i-Pi-1,1≤i≤P/2(10)qi=-ai+ap-i-qi-1,1≤i≤i≤P/2(11)LPS頻率被提供給DPCM單元74,并在此編碼以通過通信信道76發(fā)送出去。
在逆轉(zhuǎn)換單元78處,從信道接收到的信號(hào)通過逆DPCM單元80和LPC至LPS單元82,恢復(fù)話音信號(hào)的LPS頻率。LPS至LPC單元82進(jìn)行LPC至LPS單元72的逆過程,將LPS頻率轉(zhuǎn)換回推導(dǎo)倒頻譜系數(shù)用的LPC系數(shù)。LPS至LPC單元82進(jìn)行下列轉(zhuǎn)換P(z)=(1+z-1)Πi=1P/2(1-2cos(w2i-1)z-1+z-2)---(12)]]>Q(z)=(1-z-1)Πi=1P/2(1-2cos(w2i)z-1+z-2)---(13)]]>A(z)=1-Σi=1Paiz-i=P(z)+Q(z)2---(14)]]>然后LPC系數(shù)被提供給LPC至倒頻譜單元84,單元84再根據(jù)方程5和方程6將倒頻譜系數(shù)提供給字譯碼器64。
由于字譯碼器僅依賴于聲特征序列(如果序列直接通過通信信道發(fā)送,則易產(chǎn)生噪聲),所以如圖3所示,在子系統(tǒng)51中將潛在的聲特征序列推算或轉(zhuǎn)換成另一種便于傳輸?shù)谋硎?。?jīng)過逆轉(zhuǎn)換后可以獲得字譯碼器中使用的聲特征序列。因此,在VR分布式裝置中,通過大氣(信道)發(fā)送的特征序列可以與字譯碼器中真正使用的不同。預(yù)期,可用本領(lǐng)域中已知的任何錯(cuò)誤保護(hù)方案對轉(zhuǎn)換單元70的輸出再編碼。
在圖5中,示出了本發(fā)明的改進(jìn)實(shí)施例。在無線電通信應(yīng)用中,部分由于昂貴的信道訪問,用戶可能不希望少數(shù)簡單但又常用的話音命令占用通信信道。以在本地手機(jī)100處進(jìn)行詞匯量相當(dāng)小的話音識(shí)別而詞匯量較大的第二話音識(shí)別系統(tǒng)位于遠(yuǎn)程基站110中的方式,進(jìn)一步在手機(jī)和基站間分配字譯碼功能,便可達(dá)到上述愿望。它們公用手機(jī)中的同一聲處理器。本地字譯碼器中的詞匯表包含最常用的字或字串。另一方面,遠(yuǎn)程字譯碼器中的詞匯表包含通用字或字串。如圖5所示,基于這種內(nèi)在結(jié)構(gòu),可以縮短占用信道的平均時(shí)間,并且提高平均識(shí)別精度。
另外,有兩組話音命令可以使用,一組稱為特殊話音命令(spe-cial voiced command),與本地VR識(shí)別的命令對應(yīng),另一組稱為通用話音命令(regular voiced command),它與本地VR不能識(shí)別的命令對應(yīng)。無論何時(shí)發(fā)出特殊話音命令,皆從本地字譯碼器中抽取真正的聲特征,并在本地實(shí)行話音識(shí)別功能,不訪問通信信道。當(dāng)發(fā)出通用話音命令時(shí),通過信道發(fā)送經(jīng)轉(zhuǎn)換的聲特征矢量,并在遠(yuǎn)程基站處進(jìn)行字譯碼操作。
由于對于任何特殊話音命令不需要轉(zhuǎn)換聲特征,也不進(jìn)行編碼,并且本地VR的詞匯量小,所以所需的計(jì)算將比遠(yuǎn)程所需的少得多(與在可能的詞匯中尋找正確字串有關(guān)的計(jì)算正比于詞匯量)。另外,由于聲特征將在沒有信道潛在錯(cuò)誤的情況下直接送至本地VR,所以與遠(yuǎn)程VR相比,可以用簡化的HMM(例如用較少狀態(tài)數(shù)、較少狀態(tài)輸出概率混合部件數(shù)等)對本地話音識(shí)別器建模。盡管詞匯量有所限制,但這將有可能在計(jì)算負(fù)載受到限制的手機(jī)中(子系統(tǒng)1)實(shí)施本地VR??梢灶A(yù)期,分布式VR還可以用在其他不同于無線電通信系統(tǒng)的應(yīng)用目的中。
參照圖5,將話音信號(hào)提供給聲處理器102,然后從話音信號(hào)中抽取例如基于LPC的特征參數(shù)等特征。然后將這些特征提供給本地字譯碼器106,字譯碼器106在其較小的詞匯表中搜尋,識(shí)別輸入話音信號(hào)。如果對輸入字串的譯碼失敗并且斷定遠(yuǎn)程VR應(yīng)該對其譯碼,那么它就將信號(hào)傳送給轉(zhuǎn)換單元104,由轉(zhuǎn)換單元104準(zhǔn)備需發(fā)送的特征。然后通過通信信道108將轉(zhuǎn)換后的特征發(fā)送至遠(yuǎn)程字譯碼器110。逆轉(zhuǎn)換單元112接收被轉(zhuǎn)換的特征,進(jìn)行轉(zhuǎn)換單元104的逆操作并將聲特征提供給遠(yuǎn)程字譯碼器單元114,遠(yuǎn)程字譯碼器單元114作出響應(yīng),輸出估計(jì)遠(yuǎn)程字串。
上述對優(yōu)選實(shí)施例的描述能使本領(lǐng)域的技術(shù)人員實(shí)施或使用本發(fā)明。顯然對這些實(shí)施例的各種修改對于本領(lǐng)域的技術(shù)人員而言是很容易的,并且無需創(chuàng)造性的智慧便能將此處定義的一般原理應(yīng)用到其他實(shí)施例中。因此,不應(yīng)將本發(fā)明局限于這里描述的實(shí)施例,本發(fā)明應(yīng)被給予與此處揭示的原理和新特征相一致的最寬的范圍。
權(quán)利要求
1.一種話音識(shí)別系統(tǒng),其特征在于,包括特征抽取裝置,位于遠(yuǎn)程站中,用于接收話音采樣幀,并根據(jù)預(yù)定特征抽取格式從所述話音采樣幀中抽取一組話音特征,并且提供所述話音特征組;和字譯碼器,位于中央處理站中,用于接收所述話音特征組,并根據(jù)預(yù)定的譯碼格式確定語法。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述特征組是線性預(yù)測編碼參數(shù)。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括本地字檢測器,它同在所述遠(yuǎn)程站中,根據(jù)一預(yù)定的小詞匯表譯碼格式確定語法。
全文摘要
一種具有特征抽取裝置(22)的話音識(shí)別系統(tǒng),該系統(tǒng)位于遠(yuǎn)程站(40)中。特征抽取裝置(22)從輸入話音幀中抽取特征,然后將抽取的特征提供給中央處理站(42)。在中央處理站(42)中,將特征提供給確定輸入話音幀之語法的字譯碼器(48)。
文檔編號(hào)H04Q7/32GK1138386SQ94194566
公開日1996年12月18日 申請日期1994年12月20日 優(yōu)先權(quán)日1993年12月22日
發(fā)明者保羅·E·雅克布斯, 張成生 申請人:夸爾柯姆股份有限公司