專利名稱:客戶服務(wù)器語(yǔ)音信息傳送系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及語(yǔ)音識(shí)別信息傳送,尤其涉及遠(yuǎn)程移動(dòng)電子設(shè)備與計(jì)算機(jī)之間的通過(guò)因特網(wǎng)的語(yǔ)音識(shí)別通信。
傳統(tǒng)上已經(jīng)通過(guò)人工操作的鍵盤(pán)實(shí)現(xiàn)了從人類向機(jī)器的信息傳送,其預(yù)先假設(shè)了具有至少與人類的兩只手的手指所能舒適自如地跨過(guò)的寬度一樣大的尺寸的機(jī)器。隨著需求信息輸入的但比傳統(tǒng)的個(gè)人計(jì)算機(jī)更小的電子設(shè)備的發(fā)展,信息輸入開(kāi)始采用其它形式,如筆指示(pen pointing)、觸摸板(touchpads)和聲音命令。能夠被筆指示和觸摸板傳送的信息受到設(shè)備(如個(gè)人數(shù)字助理(PDAs)和蜂窩電話)的顯示性能的限制。因此重點(diǎn)的研究努力都致力于用于電子設(shè)備的語(yǔ)音識(shí)別系統(tǒng)。對(duì)于機(jī)器而言,機(jī)器語(yǔ)音識(shí)別方法是基于信號(hào)的觀察到的聲學(xué)特征和聲學(xué)特征與話音之間的已知的關(guān)系而試圖來(lái)解碼語(yǔ)音信號(hào)波形的。這種聲學(xué)一語(yǔ)音方法是幾乎50年來(lái)的研究主題,但是還沒(méi)有在實(shí)踐上取得大的成功(參考Fundamentalsof Speeh Recognition(語(yǔ)音識(shí)別基礎(chǔ)),L.Rabiner&B.Hjuang,Prentice-Hall)。存在的大量問(wèn)題是,例如,在語(yǔ)音識(shí)別技術(shù)中公知甚至在語(yǔ)音波形圖中“通常難以區(qū)分微弱的清音(象“f”或“th”)與默聲,或者微弱的濁音(象“v”或“m”)與清音或者甚至是默聲”,并且依據(jù)非常鄰近的語(yǔ)音單元的同一性,所謂的聲音的共同清晰度(同前所述)有大量的聲音的變體存在。在解碼后,試圖通過(guò)應(yīng)用代表可能與口頭輸入匹配的一系列組的音素的所謂的音素網(wǎng)格來(lái)確定聲學(xué)一語(yǔ)音方法中的字。網(wǎng)格中的音素的垂直位置是聲學(xué)與語(yǔ)音單元的匹配品質(zhì)的量度(“詞典的訪問(wèn)”)。但是“對(duì)于語(yǔ)音識(shí)別的聲學(xué)一語(yǔ)音方法的真正問(wèn)題是對(duì)于詞典的訪問(wèn)階段難以得到可靠的音素網(wǎng)格”(同前所述);即,由于任何語(yǔ)音中固有的大量的變體幾乎不可能準(zhǔn)確地標(biāo)示出發(fā)音。
在模式識(shí)別方法中,給出的語(yǔ)音模式的版本的知識(shí)庫(kù)被集中起來(lái)(“訓(xùn)練”),并且通過(guò)輸入語(yǔ)音模式與知識(shí)庫(kù)中的語(yǔ)音模式相比來(lái)確定最佳的匹配而實(shí)現(xiàn)識(shí)別。該模式有4個(gè)步驟(1)應(yīng)用頻譜分析的特征抽取,(2)模式訓(xùn)練以產(chǎn)生對(duì)于發(fā)音類別的參考模式,(3)模式分類來(lái)通過(guò)測(cè)量?jī)蓚€(gè)充分限定的頻譜矢量之間的頻譜“差距”并校準(zhǔn)時(shí)間以補(bǔ)償說(shuō)出兩種模式(動(dòng)態(tài)時(shí)間偏差DTW)的速率不同來(lái)比較未知的測(cè)試模式與類別參考模式,及(4)確定邏輯從而使用相似性得分來(lái)選擇最佳的匹配。尤其對(duì)于步驟(2)和(3)模式識(shí)別需要大量的計(jì)算,并且用于大量聲音類別的模式識(shí)別通常是禁止的。因此,由于語(yǔ)音的固有的難以預(yù)測(cè)的變化(包括同音字、字相似性、口音、音級(jí)、重音節(jié)、語(yǔ)音模式、背底噪音等),依靠人類話音的信息輸入的系統(tǒng)要求相當(dāng)可觀的信號(hào)處理能力和查找表數(shù)據(jù)庫(kù),以達(dá)到最低限度的語(yǔ)音識(shí)別。主計(jì)算機(jī)和高級(jí)工作站開(kāi)始接近聲音識(shí)別的可接受的水平,但是即便帶有在當(dāng)前的個(gè)人計(jì)算機(jī)(PC)中可利用的存儲(chǔ)器和計(jì)算能力,對(duì)于這些機(jī)器而言語(yǔ)音識(shí)別目前被相當(dāng)?shù)叵拗朴诮o出的特定語(yǔ)音命令組。對(duì)于帶有比PC小得多的存儲(chǔ)器和處理能力的設(shè)備,如PDA、移動(dòng)電話、玩具、娛樂(lè)設(shè)備,準(zhǔn)確地通常的語(yǔ)音識(shí)別目前為止是不可能的。例如,一般的聲音起動(dòng)蜂窩電話通過(guò)讀出一個(gè)名字然后輸入相關(guān)的號(hào)碼而允許預(yù)先設(shè)計(jì)程序。當(dāng)用戶隨后讀出這個(gè)名字時(shí),蜂窩電話中的微處理器將試圖匹配讀出的名字的聲音模式和存儲(chǔ)的號(hào)碼。如已經(jīng)使用當(dāng)今的聲音起動(dòng)的蜂窩電話的人所知道的那樣,有時(shí)匹配不準(zhǔn)確(由于不一致的發(fā)音、背底噪音和缺少處理能力而引發(fā)的固有的限制),并且可能僅存儲(chǔ)大約25個(gè)號(hào)碼。在PDA設(shè)備中,對(duì)于設(shè)備制造者而言,需要進(jìn)行廣泛的再次設(shè)計(jì)以實(shí)現(xiàn)更限定的聲音識(shí)別(例如,當(dāng)前的PDA不能響應(yīng)于聲音輸入來(lái)搜索數(shù)據(jù)庫(kù))。
對(duì)于聲音輸入拼寫(xiě)單詞,存在易混淆地設(shè)置的問(wèn)題{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}和{F,S,X}。通常僅基于發(fā)音的微小的關(guān)鍵部分而把這些區(qū)分出來(lái)。由于傳統(tǒng)的識(shí)別依賴于在整個(gè)發(fā)音期間的簡(jiǎn)單積累的失真得分(二進(jìn)制的“是”或“否”),它沒(méi)有把重點(diǎn)放在導(dǎo)致差的識(shí)別準(zhǔn)確度的關(guān)鍵部分。顯然,應(yīng)有一種對(duì)該關(guān)鍵部分進(jìn)行加權(quán)的方法,但是這種方法沒(méi)有得到高的識(shí)別準(zhǔn)確度,并且還承擔(dān)有大量的計(jì)算負(fù)擔(dān)。
總之,準(zhǔn)確快速的聲音識(shí)別必須的存儲(chǔ)器和計(jì)算還要求增加的耗電量和復(fù)雜的操作系統(tǒng);所有這些都會(huì)增加成本。從而,當(dāng)前的聲音識(shí)別技術(shù)由于其重量、耗電量要求、復(fù)雜性和成本而對(duì)于手持信息裝置并不是切實(shí)可行的。
當(dāng)今尤其感興趣的是移動(dòng)因特網(wǎng)訪問(wèn),即經(jīng)移動(dòng)電話、PDA和其它手持電子設(shè)備對(duì)因特網(wǎng)的通信。無(wú)線應(yīng)用協(xié)議(WAP)規(guī)范意在對(duì)無(wú)線因特網(wǎng)訪問(wèn)限定一個(gè)開(kāi)放的標(biāo)準(zhǔn)結(jié)構(gòu)和一套無(wú)線因特網(wǎng)接入的協(xié)議。無(wú)線標(biāo)記語(yǔ)言(WML)被WAP限定為用于移動(dòng)因特網(wǎng)應(yīng)用的表示標(biāo)準(zhǔn)。WML是Web(萬(wàn)維網(wǎng))標(biāo)記語(yǔ)言超文本標(biāo)記語(yǔ)言(HTML)的修正的子集,適當(dāng)?shù)囟?biāo)來(lái)滿足當(dāng)今的移動(dòng)裝置的物理限制和數(shù)據(jù)性能,例如全球移動(dòng)系統(tǒng)(GSM)電話。通常萬(wàn)維網(wǎng)站點(diǎn)服務(wù)的HTML通過(guò)WML網(wǎng)關(guān)而相對(duì)于手持裝置被定標(biāo)和格式化。第一階段的WAP服務(wù)把現(xiàn)有的Web內(nèi)容傳遞到移動(dòng)裝置,但是將來(lái)將對(duì)于移動(dòng)用戶特殊生成Web內(nèi)容,傳送諸如天氣預(yù)報(bào)、股票報(bào)價(jià)、銀行服務(wù)、電子貿(mào)易/商務(wù)、導(dǎo)航援助等的信息。已經(jīng)有一些在商業(yè)上可用的產(chǎn)品,如諾基亞(Nokia)7110,愛(ài)立信(Ericsson)MC218和摩托羅拉(Motorola)Timeport。移動(dòng)無(wú)線因特網(wǎng)訪問(wèn)的需求可望更大增長(zhǎng)。愛(ài)立信(Ericsson)移動(dòng)通信公司預(yù)測(cè)到2004年,將有十億移動(dòng)因特網(wǎng)用戶。但是有效的移動(dòng)因特網(wǎng)訪問(wèn)要求新的技術(shù)。有提高地面數(shù)據(jù)速率,諸如通用分組無(wú)線服務(wù)(GPRS)、用于GSM進(jìn)展的增強(qiáng)數(shù)據(jù)速率(EDGE)和第三代通用移動(dòng)電信系統(tǒng)(3G-UMTS)。尤其UMTS許諾(在2002年)帶寬數(shù)據(jù)速率將達(dá)到2MGb/秒(超過(guò)當(dāng)前的GSM電話的9.6Kb速率的200倍)。但是無(wú)論傳送速率和帶寬如何提高,內(nèi)容被減少和壓縮,為有效顯示信息而改進(jìn)顯示特征,在移動(dòng)裝置末端的信息輸入和傳送中的令人苦惱的問(wèn)題還沒(méi)有解決。傳統(tǒng)的因特網(wǎng)語(yǔ)音通信要求至少是目前的個(gè)人計(jì)算機(jī)(PC)的計(jì)算能力和存儲(chǔ)器規(guī)格,從而利用所謂的互聯(lián)網(wǎng)語(yǔ)音協(xié)議(VoIP)執(zhí)行將語(yǔ)音數(shù)據(jù)包傳送到因特網(wǎng)服務(wù)提供商的服務(wù)器。即使在具備這種計(jì)算能力和存儲(chǔ)器的時(shí)候,VoIP也僅允許有限的識(shí)別和準(zhǔn)確度。而且,傳統(tǒng)的基于服務(wù)器的語(yǔ)音識(shí)別系統(tǒng)(例如Nuance和SpeechWorks公司制造的)僅提供少于每個(gè)服務(wù)器10個(gè)用戶的服務(wù)。從而對(duì)于100000個(gè)假定的用戶(考慮目前的移動(dòng)電話用戶不是一個(gè)特別大的數(shù)目),需要10000個(gè)服務(wù)器,使這種語(yǔ)音識(shí)別經(jīng)濟(jì)上不切實(shí)際。因此問(wèn)題是需要進(jìn)行量測(cè)。對(duì)于PC向服務(wù)器因特網(wǎng)的語(yǔ)音通信,通常數(shù)據(jù)庫(kù)從服務(wù)器下載到PC客戶(例如由Conversa公司),但是數(shù)據(jù)庫(kù)的大小使這種方法對(duì)于移動(dòng)裝置是不可用的。
本發(fā)明是在諸如因特網(wǎng)的通信網(wǎng)絡(luò)系統(tǒng)上應(yīng)用的語(yǔ)音識(shí)別系統(tǒng)和方法,包括內(nèi)置在移動(dòng)電子通信裝置中的用于識(shí)別語(yǔ)音信息并產(chǎn)生第一組相關(guān)的語(yǔ)言信息的大量聲音識(shí)別器,和內(nèi)置在諸如服務(wù)器的數(shù)據(jù)處理裝置中的用于識(shí)別所述第一組相關(guān)的語(yǔ)言信息的并產(chǎn)生第二組相關(guān)的語(yǔ)言信息從而更準(zhǔn)確地以分布式語(yǔ)音識(shí)別處理方式識(shí)別語(yǔ)音信息的大量語(yǔ)言識(shí)別器。
圖1是根據(jù)本發(fā)明的個(gè)人化的數(shù)據(jù)庫(kù)的框圖;圖2是根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)的框圖;圖3是根據(jù)本發(fā)明的LPC前端處理器的框圖;圖4是根據(jù)本發(fā)明的字母語(yǔ)音識(shí)別系統(tǒng)的框圖5是根據(jù)本發(fā)明的由麥克風(fēng)產(chǎn)生的字母波形示例;圖6是根據(jù)本發(fā)明的用于計(jì)算總的失真倒頻譜的動(dòng)態(tài)時(shí)間偏差初始化流程過(guò)程;圖7是根據(jù)本發(fā)明的用于計(jì)算總的失真倒頻譜的動(dòng)態(tài)時(shí)間偏差迭代過(guò)程流程;圖8是根據(jù)本發(fā)明的用于計(jì)算總的失真倒頻譜的相關(guān)值的動(dòng)態(tài)時(shí)間偏差流程;圖9是具有把本發(fā)明的一個(gè)實(shí)施例內(nèi)置其中的蜂窩電話的系統(tǒng)結(jié)構(gòu)框圖;圖10圖示與已有技術(shù)系統(tǒng)ART和Sensory相比的本發(fā)明的一個(gè)實(shí)施例的字識(shí)別性能結(jié)果。
圖11是在移動(dòng)裝置末端處利用聲音識(shí)別器并在服務(wù)器末端處應(yīng)用語(yǔ)言識(shí)別器的本發(fā)明的優(yōu)選實(shí)施例的圖;圖12是在移動(dòng)裝置末端處利用語(yǔ)音識(shí)別器并在服務(wù)器末端處應(yīng)用字?jǐn)?shù)據(jù)庫(kù)的本發(fā)明的優(yōu)選實(shí)施例的圖。
圖1是本發(fā)明的個(gè)人化的數(shù)據(jù)庫(kù)100的框圖。麥克風(fēng)101接收音頻聲音串(在一個(gè)實(shí)施例中,是一系列的字母或字符)并把聲音串轉(zhuǎn)換為電子波形信號(hào)。前端信號(hào)處理器102處理波形來(lái)產(chǎn)生適合于識(shí)別和比較的波形的參數(shù)表示。在優(yōu)選的實(shí)施例中,聲音串被線性預(yù)測(cè)編碼(LPC)處理,產(chǎn)生對(duì)于各個(gè)字母或字符的參數(shù)表示(所謂的“特征抽取”),其把冗余信息從波形數(shù)據(jù)中抽取出來(lái)以更清晰地描述各個(gè)音頻信號(hào)。結(jié)果,例如對(duì)于英文字母表中的字母是26X26矩陣,其中列中容納各個(gè)字母的參數(shù)表示,行容納輸入的語(yǔ)音字母。在本發(fā)明中,矩陣是由存儲(chǔ)在發(fā)音數(shù)據(jù)庫(kù)103中各個(gè)用戶對(duì)字母的發(fā)音構(gòu)成的“校準(zhǔn)模板”。由于聲音輸入由校準(zhǔn)模板來(lái)校準(zhǔn),在聚集起來(lái)的發(fā)音(例如,字)比較中可避免一般的語(yǔ)音識(shí)別不準(zhǔn)確。附有一個(gè)樣本校準(zhǔn)表來(lái)作為參考。
圖2是本發(fā)明的優(yōu)選實(shí)施例的框圖。麥克風(fēng)101接收被傳送到前端信號(hào)處理器102以形成參數(shù)化的聲音串波形組的一系列的輸入的發(fā)音,接著將應(yīng)用發(fā)音比較器201使聲音串波形組與發(fā)音數(shù)據(jù)庫(kù)103相比來(lái)選擇對(duì)各個(gè)發(fā)音(例如字母或字符)的最佳匹配。作為一個(gè)示例,假設(shè)名字“Michael”沒(méi)有被正確地發(fā)音而成為“n-y-d-h-a-b-1”(假設(shè)是由于可混淆的字母發(fā)音而引起的一些錯(cuò)誤)。在一個(gè)實(shí)施例中,字母比較器201接受聲音串并通過(guò)相對(duì)于發(fā)音數(shù)據(jù)庫(kù)103中的所有字母測(cè)試示例中的6個(gè)字母來(lái)確定聲音串發(fā)音與發(fā)音數(shù)據(jù)庫(kù)103中的校準(zhǔn)模板之間的“差距”。在另一個(gè)實(shí)施例中,類似發(fā)音的字母(或一些聲音)基于相似性來(lái)分組,從而比較更有效。聚集的發(fā)音相似性比較器202比較校準(zhǔn)的字母系列波形與預(yù)先記錄的詞匯數(shù)據(jù)庫(kù)203中的項(xiàng)。在該示例中,即使字沒(méi)能被正確地用聲音拼寫(xiě)出來(lái),由于這里僅有有限數(shù)目的可感知(sensical)的字,如“Michael”,準(zhǔn)確的字匹配的機(jī)會(huì)被相當(dāng)程度地提高。在本發(fā)明的優(yōu)選實(shí)施例中,詞匯數(shù)據(jù)庫(kù)203是來(lái)自本發(fā)明的受讓人VerbalTek,Inc.的可利用的字典數(shù)據(jù)庫(kù)。本發(fā)明的另一個(gè)實(shí)施例有利地利用從摩拖羅拉(Motorola)進(jìn)入詞匯數(shù)據(jù)庫(kù)201的字典數(shù)據(jù)庫(kù)。本發(fā)明還有一個(gè)實(shí)施例利用用戶的地址簿項(xiàng)。本發(fā)明期望有由用戶對(duì)詞匯數(shù)據(jù)庫(kù)203所要求的任何項(xiàng)所構(gòu)成的字典。例如,用于希望的專用領(lǐng)域(金融、商業(yè)、服務(wù)業(yè)、工藝、學(xué)院或諸如法律、醫(yī)藥、會(huì)計(jì)等的所有專業(yè))的專用字可被有利地引入詞匯數(shù)據(jù)庫(kù)203。而且,本發(fā)明期望能有利地用于諸如中文的單音節(jié)字語(yǔ)言,其中當(dāng)聚集一起成為字符串時(shí)各自的發(fā)音(漢字字符)變得更清楚。通過(guò)把在詞匯數(shù)據(jù)庫(kù)203中預(yù)先記錄的波形與輸入的波形相比,可產(chǎn)生一系列的音素組,這些音素可能與口頭輸入的相匹配,并且產(chǎn)生音素網(wǎng)格。通過(guò)基于各個(gè)輸入的組合體與詞匯數(shù)據(jù)庫(kù)203中的字之間的接近性對(duì)各個(gè)輸入的波形指定“得分”來(lái)構(gòu)造網(wǎng)格。“接近性”指數(shù)是基于輸入波形與存儲(chǔ)的詞匯波形之間的計(jì)算的失真的,從而產(chǎn)生“失真得分”。由于得分是基于字母或字符的相對(duì)準(zhǔn)確的(與傳統(tǒng)的語(yǔ)音識(shí)別聲學(xué)-語(yǔ)音方法相比)匹配的,音素網(wǎng)格產(chǎn)生95%或更高的字匹配準(zhǔn)確度。然后在顯示器204上顯示字的最佳匹配。
在本發(fā)明的優(yōu)選實(shí)施例中,把語(yǔ)音波形(其示例在圖5中表示)轉(zhuǎn)換為參數(shù)表示的前端信號(hào)處理利用線性預(yù)測(cè)編碼(LPC)。LPC尤其適合于本發(fā)明,因?yàn)?1)LPC對(duì)于語(yǔ)音頻譜包絡(luò)線的濁音區(qū)比對(duì)清音區(qū)更有效,并且本發(fā)明有利地利用了強(qiáng)調(diào)字母有區(qū)別的字符或字母或字符發(fā)音的并具有自然的中頓的各個(gè)字母或字符發(fā)音(從而清音區(qū)是較為不重要的),和(2)LPC提供簡(jiǎn)化的計(jì)算和經(jīng)濟(jì)的表示,其考慮了聲道特性(從而允許個(gè)人化的發(fā)音用小的處理和存儲(chǔ)量來(lái)實(shí)現(xiàn))。本發(fā)明中LPC的特殊功用例如在LPC自相關(guān)方法中圖示出來(lái),其中假設(shè)語(yǔ)音分段在給出的間隔之外全部是0(等于用有限的長(zhǎng)度的窗口乘以語(yǔ)音信號(hào)),從而清音區(qū)沒(méi)有很好地表示。在LPC傳送函數(shù)中,H(z)=S(z)/GU(z),其中源的增益G從語(yǔ)音信號(hào)估測(cè)出來(lái),并且定標(biāo)的源被用作對(duì)數(shù)字濾波器H(z)的輸入,該濾波器被正被產(chǎn)生的語(yǔ)音的聲道參數(shù)特性控制。
圖3是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的LPC前端處理器102的框圖。優(yōu)選是固定的低級(jí)數(shù)字系統(tǒng)(通常是一級(jí)FIR濾波器)的預(yù)加重器301在頻譜上把信號(hào)s(n)展平,并且由下面來(lái)描述H(z)=1-az-1(等式1)這里0.9≤a≤1.0。
在本發(fā)明的另一實(shí)施例中,預(yù)加重器301是具有下面的傳送函數(shù)的一級(jí)自適應(yīng)系統(tǒng)H(z)=1-anz-1(等式2)這里an根據(jù)預(yù)定的自適應(yīng)準(zhǔn)則隨時(shí)間(n)而改變,例如an=rn(1)/rn(0),
幀分塊器302用把語(yǔ)音信號(hào)幀分塊成為帶有被M個(gè)采樣分隔開(kāi)的相鄰的幀的N個(gè)采樣的幀。在本發(fā)明的此實(shí)施例中,當(dāng)語(yǔ)音的采樣速率是8kHz時(shí)N=M=160,相當(dāng)于它們之間沒(méi)有分開(kāi)的20毫秒的幀。每幀有一個(gè)特征,從而對(duì)于一個(gè)第二種發(fā)音(50幀長(zhǎng)),12個(gè)參數(shù)代表幀數(shù)據(jù),并且產(chǎn)生50X12的矩陣(模板特征組)。
開(kāi)窗器303對(duì)每一獨(dú)立的幀開(kāi)一個(gè)窗口以在各幀的開(kāi)始和末尾處最小化信號(hào)的不連續(xù)。自相關(guān)器304執(zhí)行下面給出的自相關(guān) 這里m=0,1,…,p,并且p是最高的自相關(guān)值(LPC分析的級(jí))。本發(fā)明的優(yōu)選實(shí)施例使用p=10但是可有利地使用從8到16的p值。零自相關(guān)是給出的幀的幀能量。倒頻系數(shù)產(chǎn)生器305應(yīng)用已有技術(shù)中已知的Durbin方法把各幀轉(zhuǎn)換為倒頻系數(shù)(對(duì)數(shù)幅度頻譜的傅立葉變換表示的系數(shù),參考下面)。錐形的開(kāi)窗器306加權(quán)倒頻系數(shù)以最小化噪音的效果。選擇錐形的開(kāi)窗器306來(lái)降低低級(jí)倒頻系數(shù)對(duì)整個(gè)頻譜傾斜的敏感度以及高級(jí)倒頻系數(shù)對(duì)噪音的敏感度(或其它不希望的易變性)。時(shí)間差分器307優(yōu)選使用近似地正交多項(xiàng)式擬合(在本實(shí)施例中,對(duì)有限長(zhǎng)度的窗口的導(dǎo)數(shù)的最小平方估測(cè))產(chǎn)生倒頻系數(shù)的一次導(dǎo)數(shù),從而產(chǎn)生處理的信號(hào)S’(n)。在另一實(shí)施例中,可通過(guò)時(shí)間差分器307應(yīng)用在已有技術(shù)中已知的近似方法來(lái)產(chǎn)生二次導(dǎo)數(shù),以提供進(jìn)一步的語(yǔ)音信號(hào)信息,從而改善語(yǔ)音信號(hào)的頻譜性能的表示。還有一個(gè)實(shí)施例跳過(guò)時(shí)間差分器來(lái)產(chǎn)生S”(n)。應(yīng)理解使用LPC和上述技術(shù)的前端信號(hào)處理器102的上述描述是為了揭示最佳實(shí)施例,前端信號(hào)處理的其它的技術(shù)和方法可被有利地使用在本發(fā)明中。若是單獨(dú)的字符或字,用于匹配發(fā)音串的比較技術(shù)和方法基本上是類似的,所以下面的描述包括比較器201和202。
在本發(fā)明的優(yōu)選實(shí)施例中,參數(shù)表示利用倒頻系數(shù),輸入的語(yǔ)音與預(yù)先記錄的數(shù)據(jù)庫(kù)中的字母和字串項(xiàng)通過(guò)比較倒頻差距進(jìn)行對(duì)比。輸入的字母(或字組合中的字母)產(chǎn)生根據(jù)相似性分等級(jí)的若干候選字符(或字母)匹配。在把預(yù)先記錄的波形與輸入的波形比較時(shí),產(chǎn)生可能與口頭輸入相匹配的一系列的音素組,其在矩陣中排序時(shí)產(chǎn)生音素的網(wǎng)格。該網(wǎng)格通過(guò)基于各個(gè)輸入的組合與詞匯數(shù)據(jù)庫(kù)中的字的接近性來(lái)對(duì)各個(gè)輸入的波形指定“得分”值而排序?!敖咏浴敝笖?shù)是基于輸入波形與存儲(chǔ)的詞匯波形之間的倒頻差距的,從而產(chǎn)生“失真得分”。由于得分是基于字符的相對(duì)準(zhǔn)確的(與傳統(tǒng)的語(yǔ)音識(shí)別聲學(xué)-語(yǔ)音方法相比)匹配的,本發(fā)明的音素網(wǎng)格產(chǎn)生95%或更準(zhǔn)確的字匹配。
圖4表示輸入到字母校準(zhǔn)器401的波形參數(shù)表示,其中與發(fā)音數(shù)據(jù)庫(kù)103相聯(lián)系,產(chǎn)生校準(zhǔn)矩陣(后附示例)。在優(yōu)選實(shí)施例中失真計(jì)算器402基于計(jì)算的倒頻差距(下面描述)計(jì)算輸入的語(yǔ)音與發(fā)音數(shù)據(jù)庫(kù)103中的項(xiàng)之間的失真。然后得分計(jì)算器403基于預(yù)定的準(zhǔn)則(如倒頻差距)分配得分并且選擇器404選擇候選字母(字)。
在對(duì)數(shù)幅度與頻率刻度關(guān)系的兩個(gè)語(yǔ)音頻譜之間的差距是V(ω)=logS(ω)-logS’(ω)(等式4)為表示兩個(gè)語(yǔ)音特征矢量的不相似性,優(yōu)選的實(shí)施例使用幅度的對(duì)數(shù)(對(duì)于頻率)的平均絕對(duì)值,即利用該組平均值,使用頻譜失真(或差距)的對(duì)數(shù)的均方根值(rms)測(cè)量 其中當(dāng)p=1時(shí),這是頻譜失真的對(duì)數(shù)的平均絕對(duì)值,當(dāng)p=2時(shí),是頻譜失真對(duì)數(shù)的rms。
在優(yōu)選實(shí)施例中,失真或失真測(cè)量以信號(hào)的復(fù)數(shù)倒頻譜表示,其被定義為信號(hào)頻譜的對(duì)數(shù)的傅立葉變換。對(duì)于相對(duì)于ω=0對(duì)稱的并且對(duì)于采樣的數(shù)據(jù)序列是周期性的能譜,logS(ω)的傅立葉級(jí)數(shù)表示為 這里cn=c-n是倒頻系數(shù)。
其中cn和cn’分別是S(ω)和S’(ω)的倒頻系數(shù)。通過(guò)有限的加和,例如在優(yōu)選的實(shí)施例中是10-30項(xiàng)的加和,本發(fā)明利用截取的倒頻差距。這有效地(意思是相對(duì)小的計(jì)算負(fù)擔(dān))估算了頻譜差距的對(duì)數(shù)的rms值。由于語(yǔ)音信號(hào)的可感覺(jué)到的響度大約是對(duì)數(shù)計(jì)算的,對(duì)頻譜差距取對(duì)數(shù)的選擇很適合于鑒別主體的聲音的不同。而且,低的倒頻系數(shù)的易變性主要是由于語(yǔ)音和傳送失真的難以預(yù)測(cè)的變化引起的,從而倒頻譜(倒頻差距組)被有利地選擇來(lái)用于失真測(cè)量。
相同發(fā)音的不同的聲學(xué)再現(xiàn)通常是以不同時(shí)間速率說(shuō)出的,從而說(shuō)出速率變化和持續(xù)時(shí)間變化不應(yīng)促進(jìn)語(yǔ)言的不相似性得分。動(dòng)態(tài)時(shí)間偏差(DTV)408執(zhí)行頻譜的動(dòng)態(tài)行為分析以更準(zhǔn)確的確定輸入的發(fā)音與匹配的數(shù)據(jù)庫(kù)值之間的不相似性。DTW 408通過(guò)經(jīng)把兩個(gè)要進(jìn)行比較的模式的聲學(xué)特征作柵格映射找到“最佳”路徑而對(duì)說(shuō)出速率波動(dòng)進(jìn)行時(shí)間校準(zhǔn)和規(guī)范化。在優(yōu)選的實(shí)施例中,DTW 408通過(guò)動(dòng)態(tài)設(shè)計(jì)最小化不相似性而找到最佳路徑。兩個(gè)偏差函數(shù)φx,φy分別把語(yǔ)音模式的兩個(gè)時(shí)間波動(dòng)指數(shù)ix,iy與公共時(shí)間軸k關(guān)聯(lián)起來(lái),從而ix=φx(k)k=1,2,…Tiy=φy(k)k=1,2,…T(等式9)基于偏差函數(shù)對(duì)將全球模式不相似性定義為經(jīng)整個(gè)發(fā)音的累加的失真 這里d(φx(k),φy(k))是對(duì)于xφx(k)yφy(k)定義的短時(shí)頻譜失真,m(k)是非負(fù)的加權(quán)函數(shù),Mφ是規(guī)反化因子,T是正常時(shí)序表上兩種語(yǔ)音模式的“正?!背掷m(xù)時(shí)間。路徑φ=(φx,φy)被選擇來(lái)用一致性測(cè)量整個(gè)路徑的不相似性。在本發(fā)明的優(yōu)選的實(shí)施例中,不相似性d(X,Y)被定義為在整個(gè)路徑上的dφ(X,Y)的最小值,即 在X和Y是同一字的發(fā)音時(shí)上述定義是準(zhǔn)確的,因?yàn)檠匦?zhǔn)路徑最小化累加的失真意味著不相似性是基于最好的可能的校準(zhǔn)來(lái)補(bǔ)償說(shuō)出速率不同而被測(cè)量的。已有技術(shù)中公知?jiǎng)討B(tài)設(shè)計(jì)可通過(guò)找到最佳路徑來(lái)解決如在緊靠上面描述的時(shí)序確定問(wèn)題,意思是這樣使從一個(gè)點(diǎn)向另一個(gè)點(diǎn)移動(dòng)的“成本”最低。在本發(fā)明的一個(gè)實(shí)施例中,由于包括在移動(dòng)中的步驟數(shù)目被“if-then”語(yǔ)句確定,時(shí)序確定是非同步的。該確定利用遞歸關(guān)系,該遞歸關(guān)系允許最佳路徑搜索被遞增地實(shí)施并被下面所述的本發(fā)明的優(yōu)選實(shí)施例中的算法所執(zhí)行。用于確定最佳路徑中的下一個(gè)點(diǎn)和目的地點(diǎn)的確定規(guī)則(“策略”)完全限定了尋求被最小化的成本。引起成本ζ(j,i)的從開(kāi)始點(diǎn)1向中間點(diǎn)j移動(dòng)的最佳策略由下式給出 因此得到從點(diǎn)i到點(diǎn)j的最佳順序的移動(dòng)和相關(guān)的最小成本, 在另一實(shí)施例中,順序確定是同步的(對(duì)于固定移動(dòng)數(shù)目M確定過(guò)程是規(guī)律性的),相關(guān)的最小成本φm(i,1)為 其是用在本發(fā)明的一個(gè)實(shí)施例中的遞歸關(guān)系。
在上述的兩個(gè)實(shí)施例中,方法有步驟(1)初始化,(2)遞歸,(3)結(jié)束,和(4)后跟蹤,并且分別如下初始化φ1(i,n)=ζ(i,n)ζ1(n)=i,n=1,2,…N遞歸φm+1(i,n)=min1≤1≤N[φm(i,1)+ζ(1,n)]]]>ζm+1(n)=argmin1≤1≤N[φm(i,1)+ζ(1,n)]n=1,2,...N,]]>m=1,2,…M-2結(jié)束φM(i,j)=min1≤1≤N[φM-1(i,1)+ζ(1,j)]]]>ζM(j)=argmin1≤1≤N[φM-1(i,1)+ζ(1,j)]]]>路徑后跟蹤最佳路徑=(i,i1,i2,…,iM-1,j),這里im=ζm+1(im+1)iM=j,m=M-1,M-2,…,1上述算法計(jì)算節(jié)省,從而適合在本發(fā)明期望的手持裝置中實(shí)施。
圖6,7和8構(gòu)成用于計(jì)算要被比較的模板之間的總的失真的DTW408的優(yōu)選實(shí)施例的流程圖?!安罹唷眃(i,j)(上面等式11)是模板X的第i個(gè)特征與模板Y的第j個(gè)特征之間的失真。圖6描述初始化過(guò)程601,其中前面的差距在602處是d(0,0)。指數(shù)j在603處被增加并且現(xiàn)在前面的差距是在j處的差距pre dist[j],其等于prevdist[j-1]+d(0,j)。在605處,如果j小于模板Y中的特征數(shù)目(j<numY),那么在606處j被增加并被反饋給604,用于prev dist[j]的新的計(jì)算。如果j不大于numY,那么初始化完成,對(duì)于總的差距的迭代步驟611如圖7所示開(kāi)始進(jìn)行。在612處,指數(shù)i被設(shè)置為1并且當(dāng)前的差距(curr dist
)被計(jì)算為prev dist
+d(i,0)。在614處,j被設(shè)置為1并且導(dǎo)致相關(guān)差距d1,d2或d3的可能的路徑被計(jì)算為curr dist[j-1]+d(i,j)=d1prev dist[j]+d(i,j)=d2
prev dist[j-1]+d(i,j)=d3相關(guān)的差距的相對(duì)值然后在圖8的621和622處被測(cè)試。如果d3不大于d1且不大于d2,那么d3是最小值并且curr dist[j]在623處是d3。在對(duì)第j個(gè)特征測(cè)試為小于Y模板中的特征數(shù)目后,在617處j被增加并被反饋給可能路徑的差距計(jì)算,再發(fā)生最小化處理。如果d2大于d1并且d3大于d1,那么d1是最小值并且被設(shè)置為currdist[j]。然后相對(duì)于Y模板中的特征數(shù)目再次在626處測(cè)試j,在617處j被增加并被反饋來(lái)用于遞歸。如果d3大于d2并且d1大于d2,那么d2是最小值并且被設(shè)置為curr dist[j],并重復(fù)同樣的處理使j被增加并被反饋。以這種方式,找到最小差距。如果在626處j大于或等于模板Y中的特征數(shù)目,那么測(cè)試i來(lái)看它是否等于模板X中的特征數(shù)目減1。如果i不等于模板X中的特征數(shù)目減1,在618處先前的差距被設(shè)置為用于j指數(shù)(直到numY-1)的當(dāng)前差距,在616處i被增加并被反饋給613,用于把當(dāng)前差距設(shè)置為先前差距加上新的第i個(gè)差距,對(duì)每個(gè)i重復(fù)這種處理直到次數(shù)j等于模板X中的特征數(shù)目減1。如果i等于模板X中的特征數(shù)目減1,總的失真在628處計(jì)算為 從而完成找到總的失真的算法。
為實(shí)現(xiàn)最佳的識(shí)別準(zhǔn)確度,限制偏差函數(shù)。已有技術(shù)中公知甚至小的語(yǔ)音端點(diǎn)錯(cuò)誤將導(dǎo)致語(yǔ)音檢測(cè)準(zhǔn)確度上的明顯惡化。在被控制的環(huán)境中清晰發(fā)出的語(yǔ)音中,可達(dá)到高的檢測(cè)準(zhǔn)確度,但是對(duì)于一般的應(yīng)用(如在蜂窩電話中),說(shuō)話者聲音的難以預(yù)測(cè)的變化(包括咂嘴、呼吸、清嗓子等)、背底噪音和傳送失真(串?dāng)_、中間調(diào)制失真和音調(diào)接口)使得難以產(chǎn)生準(zhǔn)確的端點(diǎn)檢測(cè)。如果發(fā)音有完好限定的端點(diǎn)(標(biāo)記模式的開(kāi)始和結(jié)束的幀),相似性比較將導(dǎo)致更準(zhǔn)確的識(shí)別。利用用于輸入發(fā)音的各個(gè)字符(例如字母),本發(fā)明作為各個(gè)字符(字母)的通常更準(zhǔn)確的發(fā)音和在說(shuō)出字符串或拼寫(xiě)字時(shí)各個(gè)字符(字母)之間的通常的中頓而實(shí)現(xiàn)了準(zhǔn)確度。從而暫時(shí)的變化一般被限定于端點(diǎn)區(qū)。從而對(duì)于偏差函數(shù)的限制僅把開(kāi)始和結(jié)束點(diǎn)處的值設(shè)置為第一個(gè)和最后一個(gè)時(shí)間函數(shù)指數(shù)ix=1和iy=T。這些端點(diǎn)限制通過(guò)等式(11)根據(jù)項(xiàng)Tx和Ty結(jié)合到本發(fā)明中 這里X和Y分別結(jié)束于Tx和Ty。
本發(fā)明的優(yōu)選實(shí)施例提供一種最適合本發(fā)明的各個(gè)字符(例如拼寫(xiě))輸入發(fā)音語(yǔ)音識(shí)別系統(tǒng)的動(dòng)態(tài)時(shí)間偏差方式。DTW 408利用等式15沿連接(1,1)和(ix,iy)的路徑產(chǎn)生最小的部分積累的失真 這里φx(T’)=ix,φy(T’)=iy,帶限制條件動(dòng)態(tài)設(shè)計(jì)遞歸變成 這里ζ是點(diǎn)(ix’,iy’)與(ix,iy)之間加權(quán)積累失真(局部差距), Ls是根據(jù)φx到φy的從(ix’,iy’)與(ix,iy)的路徑中的移動(dòng)數(shù)目。遞增的失真ζ僅沿由各種限制條件限定的路徑被評(píng)估,從而最小化過(guò)程可有效地在限制條件內(nèi)解決。但是,不相似的直接推斷的特性也可有利地包括在該方法中。例如,在本發(fā)明中,把一幀切分成多個(gè)分段來(lái)區(qū)分易混淆的字母發(fā)音,如字母“a”和“f”??梢岳斫庠S多不同的限制條件和限制條件的組合在本發(fā)明的范圍內(nèi)。在不同字母的發(fā)音中,例如,用于最準(zhǔn)確的比較的時(shí)間校準(zhǔn)不是定義清晰的語(yǔ)言概念,從而在本發(fā)明中應(yīng)用直觀的限制條件。
由于它的小的形成因素,本發(fā)明的一個(gè)實(shí)施例允許它集中到用戶的電子設(shè)備的現(xiàn)有的操作系統(tǒng)中(例如用于PDA的微軟WindowCE和用于蜂窩電話的ARM7TDMI),從而不需要大范圍的再設(shè)計(jì)和再改編。本發(fā)明的語(yǔ)音識(shí)別程序的一個(gè)實(shí)施例還可以被裝載到諸如移動(dòng)電話或PDA的裝置的閃存中,從而允許把本發(fā)明與現(xiàn)有電子設(shè)備進(jìn)行的簡(jiǎn)單快速低廉組合,使主機(jī)裝置的DSP的再設(shè)計(jì)和再改編不必要。而且語(yǔ)音識(shí)別程序可被終端用戶經(jīng)耦合于閃存的數(shù)據(jù)端口裝載到存儲(chǔ)器中。這也可通過(guò)從因特網(wǎng)下載完成。因此本發(fā)明可容易地被安裝在移動(dòng)裝置中用于與因特網(wǎng)經(jīng)因特網(wǎng)自身進(jìn)行通信。
圖9表示帶有帶有內(nèi)置其中的本發(fā)明的實(shí)施例的蜂窩電話的系統(tǒng)結(jié)構(gòu)。閃存901被耦合于還耦合于DSP處理器903的微處理器902,其聯(lián)系閃存901和微處理器902執(zhí)行上述語(yǔ)音識(shí)別。只讀存儲(chǔ)器(ROM)裝置904和隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)裝置905通過(guò)提供對(duì)于發(fā)音數(shù)據(jù)庫(kù)104和詞匯數(shù)據(jù)庫(kù)203的存儲(chǔ)器存儲(chǔ)和訪問(wèn)而服務(wù)于DSP處理器903。經(jīng)麥克風(fēng)907的語(yǔ)音輸入被編碼器/解碼器(CODEC)906編碼。在DSP處理器903進(jìn)行語(yǔ)音識(shí)別后,語(yǔ)音信號(hào)被CODEC 906解碼并被傳送到揚(yáng)聲器908用于音頻確認(rèn)(在本發(fā)明的一個(gè)實(shí)施例中)。另一種情況是,揚(yáng)聲器908可以是可視的顯示器。作為本發(fā)明的應(yīng)用協(xié)議接口(API)的一個(gè)實(shí)施例的示例,應(yīng)用ARM77TDMI作為基礎(chǔ)的說(shuō)明如下存儲(chǔ)器應(yīng)用要求10KB的編碼容量,4KB的緩沖存儲(chǔ)器大小,存儲(chǔ)量(每一模板)是0.5KB。計(jì)算的要求是1.9MIPS的語(yǔ)音特征抽取和每模板0.5MPIS的語(yǔ)音識(shí)別。本發(fā)明的一個(gè)實(shí)施例的語(yǔ)音識(shí)別錯(cuò)誤性能結(jié)果和計(jì)算能力估測(cè)(VerbalTekTM)在圖10中表示,其中來(lái)自ART、Sensory和Parrot公司的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行了比較,本發(fā)明得到的錯(cuò)誤百分比,明顯低于那些僅需于“小量”計(jì)算能力(MIPS)的公司(ART和Sensory)的產(chǎn)品,其精確度可與需要“大量”計(jì)算能力的Parrot的產(chǎn)品相媲美。
從而本發(fā)明可有利地被用于進(jìn)行因特網(wǎng)通信、電子郵件消息和對(duì)大量數(shù)目的電話簿項(xiàng)進(jìn)行聲音訪問(wèn)的WAP語(yǔ)音命令。
分布式數(shù)據(jù)處理根據(jù)客戶服務(wù)器系統(tǒng)來(lái)描述,其中每個(gè)系統(tǒng)執(zhí)行一些處理,帶有大塊處理和存儲(chǔ)的存儲(chǔ)器存儲(chǔ)在服務(wù)器上進(jìn)行。本發(fā)明是用于聲音信息通信的客戶服務(wù)器系統(tǒng),其具有分離的在客戶端處的與語(yǔ)言相關(guān)的處理器和數(shù)據(jù)庫(kù),在服務(wù)器端的與語(yǔ)言無(wú)關(guān)的處理器和數(shù)據(jù)庫(kù)。其中一個(gè)例子是作為客戶的PDA、移動(dòng)電話或其它的電子設(shè)備和作為服務(wù)器的因特網(wǎng)服務(wù)提供商(ISP)服務(wù)器。由于降低了計(jì)算能力要求,本發(fā)明克服了已有技術(shù)的需要進(jìn)行量測(cè)性問(wèn)題。
圖11表示根據(jù)本發(fā)明的分布式處理方案中的基于客戶語(yǔ)言決定的語(yǔ)音識(shí)別部分與服務(wù)器語(yǔ)言無(wú)關(guān)的語(yǔ)音識(shí)別部分的優(yōu)選的實(shí)施例。合在一起,這兩部分形成用于與例如ISP服務(wù)器這樣的服務(wù)器進(jìn)行通信的移動(dòng)電子設(shè)備的準(zhǔn)確的語(yǔ)音識(shí)別。移動(dòng)裝置1101,1102,1103,….,每一個(gè)分別包括聲音識(shí)別器1110,1111,1112,…,其可被定制為用戶的語(yǔ)音模式并進(jìn)行各種變化(例如通過(guò)利用發(fā)音數(shù)據(jù)庫(kù)103和發(fā)音比較器201,如上所述)。服務(wù)器1104,1105,1106,….每一個(gè)分別包括語(yǔ)言識(shí)別器1107,1108,1109,…,其執(zhí)行大快的語(yǔ)音識(shí)別(例如通過(guò)利用詞匯數(shù)據(jù)庫(kù)203和聚集在一起的發(fā)音相似性比較器202,如上所述)。服務(wù)器1104可以一個(gè)互聯(lián)網(wǎng)站點(diǎn)為基礎(chǔ),服務(wù)器1105可以另一個(gè)互聯(lián)網(wǎng)站點(diǎn)為基礎(chǔ)等。由于降低了計(jì)算能力要求,一個(gè)服務(wù)器可服務(wù)多個(gè)客戶。在每個(gè)網(wǎng)站服務(wù)器1104,1105,1106,…上的語(yǔ)言識(shí)別器1107,1108,1109,…以它們的性能被逐一來(lái)根據(jù)網(wǎng)站的特性來(lái)識(shí)別語(yǔ)音;例如特殊化的金融、技術(shù)、醫(yī)藥術(shù)語(yǔ)等可被準(zhǔn)確地被詞匯數(shù)據(jù)庫(kù)203中的特殊化(或更全面的發(fā)音變化)的項(xiàng)識(shí)別出來(lái)。
圖12表示在移動(dòng)電子設(shè)備與因特網(wǎng)服務(wù)提供者服務(wù)器系統(tǒng)中的本發(fā)明的另一實(shí)施例。移動(dòng)裝置1201,1202,1203,….,每一個(gè)分別包括語(yǔ)音識(shí)別系統(tǒng)1210,1211,1212,…。服務(wù)器1220,1221,1222,…分別包括字串?dāng)?shù)據(jù)庫(kù)1231,1232,1233,….,其識(shí)別來(lái)自移動(dòng)裝置1201,…的字輸入。在本實(shí)施例中,大塊的語(yǔ)音識(shí)別在移動(dòng)裝置上執(zhí)行并且是一個(gè)完整的系統(tǒng)(例如,包括發(fā)音數(shù)據(jù)庫(kù)103,發(fā)音比較器201和聚集一起的發(fā)音相似性比較器202,如上所述)。在語(yǔ)音識(shí)別器1201,1211,1212,…的優(yōu)選實(shí)施例中,經(jīng)麥克風(fēng)輸入語(yǔ)音,其把聲音信號(hào)轉(zhuǎn)換為電信號(hào),電信號(hào)被參數(shù)化并與發(fā)音數(shù)據(jù)庫(kù)103進(jìn)行對(duì)比。基于預(yù)定準(zhǔn)則的(如倒頻差距)最好匹配被選擇,把選擇集中起來(lái),并且經(jīng)因特網(wǎng)傳送。Web服務(wù)器1220,1221,1222,…接收傳送來(lái)的集中的發(fā)音并把它們與數(shù)據(jù)庫(kù)1231,1232,1233,…中的項(xiàng)比較。利用預(yù)定準(zhǔn)則(如倒頻差距)選擇最好匹配并且從而識(shí)別語(yǔ)音輸入。上述的一般語(yǔ)音識(shí)別中的上述所有性能和特征可被組合到圖11和12所示的分布式語(yǔ)音識(shí)別系統(tǒng)中。但是任何語(yǔ)音識(shí)別系統(tǒng)和/或方法可有利地被用于本發(fā)明中。
在操作中,用戶可使用與說(shuō)話者無(wú)關(guān)的輸入設(shè)定模式,從而使用用于語(yǔ)音識(shí)別的預(yù)先分組的字符(字母)數(shù)據(jù)庫(kù)。為生成(“訓(xùn)練”)個(gè)人化的數(shù)據(jù)庫(kù)100,用戶通過(guò)向系統(tǒng)以在各個(gè)聲音之間帶有至少0.2秒的中頓的自然的聲音口述從“a”到“z”(對(duì)于英文示例)以及從“0”到“9”的記錄字母和數(shù)字聲音,從而產(chǎn)生“聲音串”。在本發(fā)明的一個(gè)實(shí)施例中,如果字母繼續(xù)向前進(jìn),上述的端點(diǎn)檢測(cè)方案將檢測(cè)不能區(qū)分的發(fā)音,用戶經(jīng)顯示器被指令來(lái)停止復(fù)述并且從開(kāi)始重復(fù)口述。應(yīng)用對(duì)各個(gè)字母產(chǎn)生波形的前端信號(hào)處理器102來(lái)轉(zhuǎn)換聲音串的各個(gè)字母(如圖5所示)。然后波形被分段、分配存儲(chǔ)器中的地址,接著被存儲(chǔ)在存儲(chǔ)器中,從而各個(gè)發(fā)音被映射到發(fā)音數(shù)據(jù)庫(kù)104(把這一處理稱為“貼標(biāo)簽”)。與發(fā)音相似性比較器201聯(lián)系的發(fā)音數(shù)據(jù)庫(kù)103對(duì)于英文字母表中的字母形成26X26矩陣,其中列裝有對(duì)發(fā)音數(shù)據(jù)庫(kù)104中的各個(gè)字母的存儲(chǔ)的波形,行裝有用于識(shí)別分析的輸入的語(yǔ)音字母(附加有樣本矩陣)。發(fā)音相似性比較器201比較輸入的發(fā)音與列(發(fā)音數(shù)據(jù)庫(kù)103)中的所有字母以找到最好的匹配。例如,輸入的字“seat”由用戶拼寫(xiě)為“s-e-a-t”。由于發(fā)音的難以預(yù)測(cè)的變化、背底噪音和其他因素,字母可被識(shí)別為“x-e-k-d”(這些字母的每一個(gè)的發(fā)音類似于需要的字母,因此被錯(cuò)誤地“識(shí)別”)。在本發(fā)明的優(yōu)選實(shí)施例中,在與數(shù)據(jù)庫(kù)中的字母作比較之前,相似的發(fā)音的字母被分組在一起,從而搜索更有效(搜索矩陣尺寸小于對(duì)于英文字母表的26X26矩陣)。例如,在本發(fā)明的優(yōu)選實(shí)施例中的分組重點(diǎn)放在音節(jié)的元音聲音上并且被發(fā)現(xiàn)明顯降低相似性計(jì)算,從而產(chǎn)生對(duì)手持裝置理想化的分組。分組把“a”、“j”和“k”分為同一組,“x”、“s”和“f”分為另一組,“b”、“c”、“d”、“e”和“g”分為又一組。作為失真得分技術(shù)的圖示,在“s-e-a-t”示例中,第一字母“s”初始被識(shí)別為“x”,從而這里有一個(gè)基于倒頻差距被指定的非零失真得分(例如2.0);下一個(gè)字母“e”被正確地識(shí)別,從而得分為0;下一個(gè)字母“a”被識(shí)別為“k”,其被指定得分1.5;最后一個(gè)字母“t”被被識(shí)別為“d”,其被指定得分1.0。對(duì)于這個(gè)字的總的失真得分是4.5。然后失真得分組合起來(lái)與詞匯數(shù)據(jù)庫(kù)203中的字相比。但是選擇的候選字母組合起來(lái)更清晰(并且“xekd”不作為一個(gè)字存在)。字相似性比較器202應(yīng)用上述方法計(jì)算失真得分,從而輸入的“x-e-k-d”將如下所示用該字產(chǎn)生失真得分輸入字候選字字母得分失真得分相似性%xekd seat S1+S2+S3+S4=S120089%feat T1+T2+T3+T4=T238075%heat U1+U2+U3+U4=U453068%beat V1+V2+V3+V4=V882042%字比較器202對(duì)各次比較的失真得分進(jìn)行排序以確定最低的失真得分,其是與詞匯數(shù)據(jù)庫(kù)203中的字的最接近的匹配(最大的相似性)。顯示器204顯示由用戶確認(rèn)的選擇的字(或各個(gè)字母)??捎欣厥褂萌魏巫帜笖?shù)字顯示裝置,例如液晶顯示器(LCD)。對(duì)于在移動(dòng)電話或PDA中的應(yīng)用,那么字母的組合構(gòu)成字,然后字可與電話號(hào)碼匹配或與用于傳送的其他傳送指數(shù)匹配。
盡管描述的許多示例是基于英語(yǔ)字母表的,應(yīng)理解它們只是例示,本發(fā)明的范圍還包括其它語(yǔ)言,唯一的限制是這種語(yǔ)言是基于可區(qū)分的發(fā)音的。實(shí)際上,由于任何語(yǔ)言的語(yǔ)音識(shí)別因其基本上依賴于發(fā)音和詞匯數(shù)據(jù)庫(kù)的內(nèi)容而可通過(guò)本發(fā)明實(shí)現(xiàn),本發(fā)明的一個(gè)實(shí)施例提供多種語(yǔ)言性能,該發(fā)明可對(duì)于任何語(yǔ)言來(lái)改變。與說(shuō)出的聲音和詞匯數(shù)據(jù)庫(kù)的相似性比較可通過(guò)上述的本發(fā)明完成,經(jīng)用戶口述的聲音來(lái)構(gòu)造發(fā)音數(shù)據(jù)庫(kù)104而實(shí)現(xiàn)了準(zhǔn)確度。
在通常應(yīng)用中,本發(fā)明允許聲音識(shí)別在1-2秒中實(shí)現(xiàn),從而提供與用戶的平滑接口。準(zhǔn)確度測(cè)試結(jié)果一致地為95%水平。
尤其這里應(yīng)注意本發(fā)明對(duì)于輸入漢語(yǔ)的單音節(jié)以字符為基礎(chǔ)的字母(或字)是理想的。例如,對(duì)于“行動(dòng)電話”一詞,被作為字符串“xing-dong-dian-hua”直譯出來(lái)。各個(gè)字是單音節(jié)的并且具有它自己的意思(或幾個(gè)意思),但是組合起來(lái)包含“行動(dòng)電話”這個(gè)唯一的術(shù)語(yǔ)。本發(fā)明提供各個(gè)單音節(jié)字母的高準(zhǔn)確度的識(shí)別(部分由于直接推斷校準(zhǔn)),其在組合一起形成一個(gè)字詞時(shí)由于有限數(shù)目的可檢測(cè)的選擇而產(chǎn)生更準(zhǔn)確的識(shí)別。
盡管上面是特定實(shí)施例的完全的描述,可使用各種變形、可替換的結(jié)構(gòu)和等同替代體。例如,本發(fā)明適合于被分開(kāi)發(fā)音的任何口語(yǔ)語(yǔ)言、把字母表的字母組合起來(lái)發(fā)音的字母語(yǔ)言(象英語(yǔ)和俄語(yǔ))以及發(fā)音與字符相關(guān)的符號(hào)語(yǔ)言(如漢語(yǔ)和日語(yǔ))。而且,可有利地利用任何語(yǔ)音識(shí)別系統(tǒng)或方法。因此,上面的描述和圖示不應(yīng)被看作對(duì)本發(fā)明的范圍的限制,而發(fā)明范圍在后附的權(quán)利要求中限定。
權(quán)利要求
1.在具有與大量數(shù)據(jù)處理裝置進(jìn)行相互通信的大量移動(dòng)電子通信裝置的通信網(wǎng)絡(luò)系統(tǒng)中,一種聲音信息識(shí)別系統(tǒng),包括一個(gè)以電學(xué)方式設(shè)置在各個(gè)移動(dòng)通信裝置上的用于識(shí)別語(yǔ)音信息并產(chǎn)生第一組相關(guān)的語(yǔ)言信息的聲音識(shí)別器;和一個(gè)以電學(xué)方式設(shè)置在各個(gè)數(shù)據(jù)處理裝置中的用于識(shí)別所述第一組相關(guān)的語(yǔ)言信息的并產(chǎn)生第二組相關(guān)的語(yǔ)言信息的語(yǔ)言識(shí)別器。
2.根據(jù)權(quán)利要求1的聲音信息傳送系統(tǒng),其特征在于所述聲音識(shí)別器包括一個(gè)用于參數(shù)化聲音信息的前端信號(hào)處理器;用于存儲(chǔ)發(fā)出語(yǔ)音的大量參數(shù)表示的發(fā)出語(yǔ)音數(shù)據(jù)庫(kù)存儲(chǔ)裝置;和耦合于所述前端信號(hào)處理器和所述發(fā)出語(yǔ)音數(shù)據(jù)庫(kù)存儲(chǔ)裝置的用于響應(yīng)于預(yù)定準(zhǔn)則比較聲音信息的參數(shù)表示與發(fā)出語(yǔ)音的所述大量參數(shù)表示的并選擇聲音信息的所述參數(shù)表示與發(fā)出語(yǔ)音的所述大量參數(shù)表示中的至少一個(gè)的發(fā)音相似性比較器裝置。
3.根據(jù)權(quán)利要求2的聲音信息傳送系統(tǒng),其特征在于所述所述語(yǔ)言識(shí)別器包括一個(gè)用于存儲(chǔ)字串發(fā)音的大量參數(shù)表示的詞匯數(shù)據(jù)庫(kù)存儲(chǔ)裝置;一個(gè)耦合于所述聲音識(shí)別器和所述詞匯數(shù)據(jù)庫(kù)存儲(chǔ)裝置的用于比較所述第一序列的關(guān)聯(lián)與存儲(chǔ)在所述詞匯數(shù)據(jù)庫(kù)存儲(chǔ)裝置中的聚集的發(fā)出語(yǔ)音的所述大量參數(shù)表示的并響應(yīng)于預(yù)定準(zhǔn)則在聚集的發(fā)出語(yǔ)音的所述選擇的參數(shù)表示與字串發(fā)音的所述大量參數(shù)表示中至少一個(gè)之間選擇第二序列的關(guān)聯(lián)的聚集的發(fā)音相似性比較器。
4.一種與因特網(wǎng)通信的分布式語(yǔ)音信息通信系統(tǒng),包括與因特網(wǎng)通信的大量移動(dòng)電子通信裝置,每一個(gè)包括用于把聲音信號(hào)轉(zhuǎn)換為電信號(hào)的麥克風(fēng);一對(duì)一耦合于所述麥克風(fēng)的大量聲音識(shí)別器,所述大量聲音識(shí)別器每一個(gè)具有由發(fā)出語(yǔ)音構(gòu)成的存儲(chǔ)的數(shù)據(jù)庫(kù),用于把電信號(hào)轉(zhuǎn)換為發(fā)音信息并比較所述發(fā)音信息與所述發(fā)出語(yǔ)音,選擇所述發(fā)出語(yǔ)音中的至少一個(gè),聚集所述選擇的發(fā)出語(yǔ)音,并經(jīng)因特網(wǎng)傳送所述選擇的聚集的發(fā)出語(yǔ)音;與因特網(wǎng)進(jìn)行通信的大量數(shù)據(jù)處理裝置,用于經(jīng)因特網(wǎng)接收所述選擇的聚集的發(fā)出語(yǔ)音;一對(duì)一耦合于所述大量數(shù)據(jù)處理裝置的大量語(yǔ)言識(shí)別器,所述大量語(yǔ)言識(shí)別器每一個(gè)具有由字串發(fā)音構(gòu)成的存儲(chǔ)的數(shù)據(jù)庫(kù),用于比較所述聚集的發(fā)出語(yǔ)音與所述的字串發(fā)音,并選擇所述字串發(fā)音中的至少一個(gè),從而識(shí)別語(yǔ)言信息。
5.在具有大量移動(dòng)電子通信裝置的通信網(wǎng)絡(luò)系統(tǒng)中,每個(gè)通信裝置具有設(shè)置在其中的發(fā)出語(yǔ)音數(shù)據(jù)庫(kù),移動(dòng)電子通信裝置與各自具有設(shè)置其中的字串發(fā)音數(shù)據(jù)庫(kù)的大量數(shù)據(jù)處理裝置進(jìn)行相互通信,用于識(shí)別聲音信息的方法包括步驟(a)參數(shù)化聲音信息;(b)比較參數(shù)化的聲音信息與發(fā)出語(yǔ)音數(shù)據(jù)庫(kù)中的發(fā)出語(yǔ)音;(c)響應(yīng)于預(yù)定準(zhǔn)則選擇發(fā)出語(yǔ)音的至少一個(gè);(d)聚集選擇的至少一個(gè)發(fā)出語(yǔ)音;(e)比較選擇的至少一個(gè)發(fā)出語(yǔ)音與字串發(fā)音數(shù)據(jù)庫(kù)中的字串發(fā)音;(f)響應(yīng)于預(yù)定準(zhǔn)則選擇至少一個(gè)字串發(fā)音,從而識(shí)別聲音信息。
6.根據(jù)權(quán)利要求5的方法,其特征在于聲音信息、發(fā)出語(yǔ)音和字串發(fā)音是漢語(yǔ)語(yǔ)言。
7.根據(jù)權(quán)利要求5的方法,其特征在于聲音信息、發(fā)出語(yǔ)音和字串發(fā)音是日語(yǔ)語(yǔ)言。
8.根據(jù)權(quán)利要求5的方法,其特征在于步驟(a)包括利用倒頻系數(shù)參數(shù)化聲音信息。
9.根據(jù)權(quán)利要求5的方法,其特征在于步驟(c)的預(yù)定準(zhǔn)則是倒頻差距計(jì)算。
10.根據(jù)權(quán)利要求5的方法,其特征在于步驟(f)的預(yù)定準(zhǔn)則是倒頻差距計(jì)算。
11.在具有大量移動(dòng)電子通信裝置的通信網(wǎng)絡(luò)系統(tǒng)中,移動(dòng)電子通信裝置與大量數(shù)據(jù)處理裝置進(jìn)行相互通信,用于識(shí)別聲音信息的方法包括步驟(a)在各個(gè)移動(dòng)電子通信裝置中參數(shù)化和存儲(chǔ)發(fā)音以包括發(fā)出語(yǔ)音數(shù)據(jù)庫(kù);(b)在各個(gè)數(shù)據(jù)處理裝置中參數(shù)化和存儲(chǔ)字串發(fā)音數(shù)據(jù)庫(kù)以包括字串發(fā)音數(shù)據(jù)庫(kù);(c)在至少一個(gè)移動(dòng)電子通信裝置中參數(shù)化和存儲(chǔ)聲音信息;(d)比較參數(shù)化聲音信息與移動(dòng)通信裝置的發(fā)出語(yǔ)音數(shù)據(jù)庫(kù)中的發(fā)出語(yǔ)音;(g)響應(yīng)于預(yù)定準(zhǔn)則選擇至少一個(gè)發(fā)出語(yǔ)音;(h)聚集選擇的至少一個(gè)發(fā)出語(yǔ)音;(i)比較選擇的至少一個(gè)發(fā)出語(yǔ)音與數(shù)據(jù)處理裝置的字串發(fā)音數(shù)據(jù)庫(kù)中的字串發(fā)音;(j)響應(yīng)于預(yù)定準(zhǔn)則選擇至少一個(gè)字串發(fā)音,從而識(shí)別聲音信息。
12.根據(jù)權(quán)利要求11的方法,其特征在于聲音信息、發(fā)出語(yǔ)音和字串發(fā)音是漢語(yǔ)語(yǔ)言。
13.根據(jù)權(quán)利要求11的方法,其特征在于聲音信息、發(fā)出語(yǔ)音和字串發(fā)音是日語(yǔ)語(yǔ)言。
14.根據(jù)權(quán)利要求11的方法,其特征在于步驟(a),(b)和(c)的參數(shù)化包括利用倒頻系數(shù)。
15.根據(jù)權(quán)利要求11的方法,其特征在于步驟(g)和(j)的預(yù)定準(zhǔn)則是倒頻差距計(jì)算。
全文摘要
一種用在諸如因特網(wǎng)的通信網(wǎng)絡(luò)系統(tǒng)上的語(yǔ)音通信系統(tǒng)和方法,包括內(nèi)置在移動(dòng)電子通信裝置中的用于識(shí)別語(yǔ)音信息和產(chǎn)生第一組相關(guān)的語(yǔ)言信息的大量聲音識(shí)別器;和內(nèi)置在諸如服務(wù)器的數(shù)據(jù)處理裝置中的用于識(shí)別所述第一組相關(guān)的語(yǔ)言信息并產(chǎn)生第二組相關(guān)的語(yǔ)言信息的大量語(yǔ)言識(shí)別器,從而更準(zhǔn)確地識(shí)別以分布式語(yǔ)音識(shí)別處理方式的語(yǔ)音信息。
文檔編號(hào)G06F3/16GK1315721SQ0010984
公開(kāi)日2001年10月3日 申請(qǐng)日期2000年7月7日 優(yōu)先權(quán)日2000年3月23日
發(fā)明者詹姆斯·帕恩 申請(qǐng)人:韋爾博泰克有限公司