專利名稱:語(yǔ)音識(shí)別系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別。
依賴于揚(yáng)聲器的語(yǔ)音識(shí)別系統(tǒng)利用特征抽取算法在輸入語(yǔ)音的幀上以及代表每幀的輸出特征矢量上執(zhí)行信號(hào)處理。這種處理在幀頻進(jìn)行。該幀頻一般在10至30ms之間,在此將以20ms的持續(xù)時(shí)間為例。已經(jīng)知道有許多不同的特征在語(yǔ)音識(shí)別系統(tǒng)中使用。
一般來(lái)說(shuō),訓(xùn)練算法利用從字或短語(yǔ)的一個(gè)或多個(gè)表達(dá)的抽樣語(yǔ)音中抽取的特征來(lái)生成該詞或短語(yǔ)的模式參數(shù)。然后將該模式存儲(chǔ)在模式存儲(chǔ)器中。這些模式后來(lái)在語(yǔ)音識(shí)別期間使用。識(shí)別系統(tǒng)將未知表達(dá)的特征與存儲(chǔ)的模式參數(shù)相比較,以確定最佳匹配。然后將最佳匹配模式作為該識(shí)別系統(tǒng)的結(jié)果輸出。
已經(jīng)知道利用基于識(shí)別系統(tǒng)的隱含馬爾柯夫模式(HMM)進(jìn)行這種處理。HMM識(shí)別系統(tǒng)將表達(dá)的各個(gè)幀分配給HMM的各個(gè)狀態(tài)。選擇產(chǎn)生最大概率或比數(shù)的狀態(tài)至幀的分配作為最佳匹配。
許多語(yǔ)音識(shí)別系統(tǒng)并不能區(qū)分有效表達(dá)與無(wú)效表達(dá)。相反地,這些系統(tǒng)選擇其中一個(gè)最接近匹配的存儲(chǔ)模式。有些系統(tǒng)利用力圖探測(cè)及拒絕無(wú)效表達(dá)的詞表范圍外的(Out-of-Vocabulary)拒絕算法。由于詞表的動(dòng)態(tài)大小及未知的構(gòu)成,在小的詞表中,依賴于揚(yáng)聲器的語(yǔ)音識(shí)別系統(tǒng)是一個(gè)難題。這些算法在噪聲條件下退化,以至于噪聲條件下的錯(cuò)誤拒絕的數(shù)目增加。
在實(shí)際中,詞表范圍外的拒絕算法必須平衡由正確拒絕無(wú)效表達(dá)及錯(cuò)誤拒絕有效表達(dá)所測(cè)量出來(lái)的性能。錯(cuò)誤拒絕率可以在用戶滿意中起到至關(guān)重要的作用,因?yàn)轭l繁的錯(cuò)誤拒絕,與不正確的匹配一樣,將引起失敗。因而,詞表范圍外的拒絕起到了滿足用戶識(shí)別期望的平衡作用。
相應(yīng)地,已經(jīng)知道基于噪聲電平計(jì)算拒絕門限。例如,已經(jīng)知道在探測(cè)第一個(gè)語(yǔ)音幀之前測(cè)量噪聲電平。該門限是從測(cè)量中計(jì)算出來(lái)。如果這個(gè)字的參考模式與輸入語(yǔ)音模式之間的差值大于拒絕門限,則該輸入被拒絕。因而這種系統(tǒng)依賴于隨機(jī)噪聲輸入電平。不能依賴這種測(cè)量來(lái)產(chǎn)生有意義的拒絕判決。
因此,在語(yǔ)音識(shí)別系統(tǒng)中需要一種改進(jìn)的方法為拒絕表達(dá)提供一種依據(jù)。
圖1為以方框圖形式說(shuō)明無(wú)線通信裝置的電路示意圖;圖2為以方框圖形式說(shuō)明圖1裝置中語(yǔ)音識(shí)別系統(tǒng)的電路示意圖;圖3為帶有兩個(gè)節(jié)點(diǎn)的基礎(chǔ)網(wǎng)絡(luò)的示意圖;圖4為用于說(shuō)明訓(xùn)練的流程圖;圖5給出了窗口及其中的相應(yīng)幀;圖6為說(shuō)明識(shí)別的高階流程圖;圖7為說(shuō)明識(shí)別期間訓(xùn)練的流程圖;圖8為說(shuō)明補(bǔ)償函數(shù)的示意圖。
本發(fā)明具有在訓(xùn)練及識(shí)別期間依賴于背景噪聲電平的可變拒絕精度。在訓(xùn)練期間,噪聲特征生成于訓(xùn)練表達(dá)中。根據(jù)噪聲特征更新增量噪聲參考平均值。這些統(tǒng)計(jì)量存儲(chǔ)在存儲(chǔ)器中,以使它們可為識(shí)別算法所利用。當(dāng)在免提模式中訓(xùn)練時(shí),因?yàn)楸尘霸肼暤妮^高電平,噪聲統(tǒng)計(jì)量并不被更新。如果沒有可以利用的噪聲統(tǒng)計(jì)量,則識(shí)別算法缺省為最小精度。
在識(shí)別期間,輸入噪聲能量特征與參考噪聲統(tǒng)計(jì)量相比較,并且計(jì)算出噪聲比。然后根據(jù)該噪聲比選擇詞表范圍外的拒絕算法的精度。本發(fā)明在出現(xiàn)噪聲時(shí)有助于防止有效表達(dá)的錯(cuò)誤拒絕。
在兩級(jí)定位算法識(shí)別搜索中,精度參數(shù)為字入口補(bǔ)償(penalty)。隨著零平均值的單個(gè)狀態(tài)無(wú)用信息模式與語(yǔ)音標(biāo)記模式互相平行,實(shí)現(xiàn)了最佳路徑的置信測(cè)量。
圖1中公開了一種可以有效利用本發(fā)明的裝置100。在這里為了說(shuō)明起見,裝置100被描述為手提無(wú)線電話,但是也可以為計(jì)算機(jī),個(gè)人數(shù)據(jù)助理,或者是任何可以有利地采用語(yǔ)音識(shí)別的裝置,尤其是可以利用對(duì)語(yǔ)音識(shí)別系統(tǒng)有效的存儲(chǔ)器的裝置。所述的無(wú)線電話包括耦合至天線106的發(fā)射機(jī)102及接收機(jī)104。發(fā)射成功機(jī)102及接收機(jī)104耦合至呼叫處理器108,該處理器執(zhí)行呼叫處理功能。呼叫處理器108可以利用數(shù)字信號(hào)處理器(DSP)、微處理器、微控制器、可編程邏輯部件、兩個(gè)或多個(gè)上述裝置的結(jié)合或者任何其他合適的數(shù)字電路來(lái)實(shí)現(xiàn)。
呼叫處理器耦合至存儲(chǔ)器110。存儲(chǔ)器110包括RAM,電可擦可編程只讀存儲(chǔ)器(EEPROM),只讀存儲(chǔ)器(ROM),快閃ROM,或類似裝置,或兩個(gè)或多個(gè)這些存儲(chǔ)器種類的組合。存儲(chǔ)器110支持呼叫處理器108的操作,所述操作包括語(yǔ)音識(shí)別操作,并且必須包括電可變存儲(chǔ)器以支持狀態(tài)轉(zhuǎn)移路徑存儲(chǔ)器。ROM可以被用來(lái)存儲(chǔ)裝置運(yùn)行程序。
聲頻電路112提供從話筒114向呼叫處理器108的數(shù)字化信號(hào)。響應(yīng)于來(lái)自呼叫處理器的數(shù)字信號(hào)聲頻電路112驅(qū)動(dòng)揚(yáng)聲器116。
呼叫處理器108耦合至顯示處理器120。如果需要其他的處理器支持裝置100,則顯示裝置為可選擇的。尤其是,顯示裝置120向顯示器126提供顯示控制信號(hào),并且接收來(lái)自鍵124的輸入。因此,顯示處理器120可以利用微處理器,微控制器,數(shù)字信號(hào)處理器,可編程邏輯部件,它們的結(jié)合或類似裝置來(lái)實(shí)現(xiàn)。存儲(chǔ)器122耦合到顯示處理器以支持其中的數(shù)字邏輯。存儲(chǔ)器122可以利用RAM,EEPROM,快閃ROM,或類似裝置,或兩個(gè)或多個(gè)這些存儲(chǔ)器種類的組合來(lái)實(shí)現(xiàn)。
參照?qǐng)D2,話筒114所接收的聲頻信號(hào)在聲頻電路112的數(shù)模轉(zhuǎn)換器202中被轉(zhuǎn)換為數(shù)字信號(hào)。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,聲頻電路112提供諸如過(guò)濾的其他信號(hào)處理,為了簡(jiǎn)潔起見在此沒有描述這些處理。呼叫處理器108在被處理的數(shù)字信號(hào)上執(zhí)行特征抽取204,并且產(chǎn)生一組表示用戶表達(dá)的特征矢量,前述被處理數(shù)字信號(hào)表示由話筒114輸出的模擬信號(hào)。產(chǎn)生的特征矢量用于每個(gè)短時(shí)分析窗口。該短時(shí)分析窗口為一幀,在本申請(qǐng)的示范例中為20ms。因而每幀有一個(gè)特征矢量。處理器108將該特征用于語(yǔ)音識(shí)別206及訓(xùn)練207。
在訓(xùn)練中,表達(dá)的特征矢量被用于創(chuàng)建HMMs形式的模板,該模板存儲(chǔ)于存儲(chǔ)器208中。在語(yǔ)音識(shí)別中,表示輸入表達(dá)的特征矢量與存儲(chǔ)器208中存儲(chǔ)的詞表中字的模板相比,以確定用戶所說(shuō)的內(nèi)容。該系統(tǒng)可能輸出最佳的匹配,一組最佳的匹配,或也可能是,沒有匹配。存儲(chǔ)器208最好是存儲(chǔ)器110(圖1)的非易失性存儲(chǔ)器部分,例如可以為EEPROM或快閃ROM。如本申請(qǐng)所使用的,“字”可以是多于一個(gè)字的字,諸如“John Doe”,或者諸如“call”的單個(gè)字。
特征抽取器204一般在輸入語(yǔ)音的幀上執(zhí)行信號(hào)的處理,并且以幀頻輸出代表每幀的特征矢量。幀頻一般在10ms與30ms之間,例如可以為20ms的持續(xù)時(shí)間。訓(xùn)練器207利用從字或短語(yǔ)的一個(gè)或多個(gè)表達(dá)的抽樣語(yǔ)音中抽取該特征,以產(chǎn)生用于該字或短語(yǔ)的模式參數(shù)。然后將該模式存儲(chǔ)在非易失性存儲(chǔ)器208的模式存儲(chǔ)器中。該模式的大小直接依賴于特征矢量的長(zhǎng)度,較長(zhǎng)特征矢量的長(zhǎng)度需要較大的存儲(chǔ)器。
接著,存儲(chǔ)于存儲(chǔ)器208中的模式在識(shí)別206中被利用。該識(shí)別系統(tǒng)執(zhí)行一個(gè)在未知表達(dá)的特征與存儲(chǔ)的模式參數(shù)之間的比較,以確定最佳匹配。從識(shí)別系統(tǒng)輸出的最佳匹配模式作為結(jié)果。
參照?qǐng)D3,圖3示出了表示語(yǔ)音識(shí)別的基礎(chǔ)網(wǎng)絡(luò)。節(jié)點(diǎn)N1及N2由HMMs模式所連接,該HMMs模式由弧A1-AN加上無(wú)用信息模式弧AGM表示?;1-AN表示所有的HMM模式,前述HMM模式在語(yǔ)音識(shí)別系統(tǒng)中已經(jīng)被訓(xùn)練,并且存儲(chǔ)在存儲(chǔ)器208中。無(wú)用信息模式弧表示單一狀態(tài)無(wú)用信息的模式基準(zhǔn)。
節(jié)點(diǎn)N1包括一個(gè)單一狀態(tài)噪聲模式A1noise。節(jié)點(diǎn)N2類似地包括一個(gè)單一狀態(tài)噪聲模式A2noise。該識(shí)別系統(tǒng)采用識(shí)別算法從弧A1-AN以及AGM中選擇其中的一個(gè)作為最佳匹配,或者可選擇地識(shí)別出沒有匹配(即如果沒有探測(cè)到語(yǔ)音)。如果AGM為最佳弧,該輸入作為無(wú)效信號(hào)被拒絕。
現(xiàn)在參照?qǐng)D4,圖4描述了訓(xùn)練的過(guò)程。首先,如步驟402所示,執(zhí)行主訓(xùn)練207以得到每個(gè)表達(dá),或存儲(chǔ)在存儲(chǔ)器208中的狀態(tài)模式A1-AN。已經(jīng)知道有許多不同的方法用于創(chuàng)建HMM模式。在圖4的說(shuō)明中,每個(gè)弧為從左至右,HMM模式不帶有狀態(tài)跳躍,因此只允許自環(huán)路及單步驟轉(zhuǎn)移。這種模式推導(dǎo)的簡(jiǎn)要說(shuō)明將在下文中描述。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,這些弧可以是其他已知模式的弧,并且被其他已知方法所知。
首先,在特征抽取器204中抽取特征。預(yù)見到特征抽取器將產(chǎn)生用于表達(dá)的每個(gè)幀的對(duì)數(shù)倒頻譜(cepstral)及δ對(duì)數(shù)倒頻譜系數(shù)。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,有許多計(jì)算對(duì)數(shù)倒頻譜的方法,并且用于估計(jì)它們的導(dǎo)數(shù),可以使用任何合適的技術(shù)來(lái)得到這些系數(shù)。圖5中幀F(xiàn)1至FN在該窗口期間被產(chǎn)生,每個(gè)幀構(gòu)成特征。有些幀表示噪聲,特征抽取器從這些幀中產(chǎn)生噪聲能量特征。其他幀表示語(yǔ)音信號(hào)部分。
回到圖4,在步驟604中,處理器108在訓(xùn)練207期間計(jì)算每個(gè)弧形模式的噪聲特征,如步驟604所示。該噪聲測(cè)量從多個(gè)特征矢量中得到,該特征矢量在捕獲窗口的開端及末端期間產(chǎn)生。尤其是,希望利用在表達(dá)的開始階段及末尾階段期間測(cè)量的特征矢量的平均值。例如,可以利用捕獲窗口的第一個(gè)160ms的“開始平均值”(Savge),以及最后160ms的“末端平均值”(Eavge)。圖5所示的捕獲窗口包括開始階段及末尾階段,噪聲特征矢量在在此期間被存儲(chǔ)。例如,捕獲窗口可能為2秒鐘長(zhǎng),其表示字的最長(zhǎng)持續(xù)時(shí)間。該捕獲窗口可以是固定或可變的長(zhǎng)度,這取決于輸入表達(dá)的期望長(zhǎng)度以及實(shí)現(xiàn)方式的存儲(chǔ)器約束。
在步驟404中得到噪聲特征的處理器108在步驟404中確定該該裝置是否處于免提模式。該裝置可以包括一個(gè)指示該裝置處于免提模式的狀態(tài)標(biāo)記,該免提模式由用戶通過(guò)鍵盤菜單啟動(dòng),或者該裝置可以包括一個(gè)機(jī)械連接器,當(dāng)該裝置被連接到一個(gè)免提套件時(shí),該機(jī)械連接器啟動(dòng)一個(gè)轉(zhuǎn)換開關(guān)。
如果該裝置不處于免提模式,該處理器在訓(xùn)練(對(duì)于每個(gè)表達(dá),訓(xùn)練被獨(dú)立地實(shí)現(xiàn))期間計(jì)算噪聲特征Xnz,該噪聲特征是Savge和Eavge的最小值(即min(Savge,Eavge),如步驟410所示。對(duì)于輸入語(yǔ)音的每個(gè)幀來(lái)說(shuō),能量值可以從其抽樣中計(jì)算出來(lái)。Savge和Eavge是來(lái)自所示幀的這些能量值的平均數(shù)。最小值用于每個(gè)訓(xùn)練表達(dá)中,以更新正在運(yùn)行的噪聲平均值。該噪聲平均值利用下面的方程式被反復(fù)地更新Xref(k)=((k-2)*Xref(k-2)+(Xnz1+Xnz2))/k其中Xref(k)為第k個(gè)噪聲特征的參考值,Xnz1表示從第一個(gè)訓(xùn)練表達(dá)的Savge和Eavge最小值中發(fā)現(xiàn)的噪聲特征,Xnz2表示從第二個(gè)訓(xùn)練表達(dá)的Savge和Eavge最小值中發(fā)現(xiàn)的噪聲特征。
被更新的噪聲平均值和用作噪聲平均值更新的訓(xùn)練表達(dá)的數(shù)量被記錄在存儲(chǔ)器110中,如步驟412所示。
如果在步驟406中確定該裝置處于免提模式,如步驟408所示,一個(gè)免提標(biāo)記HF在步驟408中被設(shè)置。如果該訓(xùn)練處于免提模式,被設(shè)置的標(biāo)記HF表示當(dāng)前處于免提模式,而不是更新噪聲模式。
假定訓(xùn)練環(huán)境相對(duì)地安靜。這可以通過(guò)信號(hào)質(zhì)量檢驗(yàn)來(lái)實(shí)現(xiàn),該信號(hào)質(zhì)量檢驗(yàn)要求所有的訓(xùn)練表達(dá)至少具有18dB的信噪比。可以采用檢驗(yàn)來(lái)保證用戶在Savge和Eavge測(cè)量時(shí)間期間沒有說(shuō)話。
由處理器108所執(zhí)行的識(shí)別206的普通操作將參照?qǐng)D6作一般地描述。首先,計(jì)算用于測(cè)試表達(dá)的噪聲特征,該測(cè)試表達(dá)是系統(tǒng)正試圖識(shí)別的輸入表達(dá),如步驟602中所示。在識(shí)別模式中,背景噪聲測(cè)量是從相同表達(dá)窗口的開始160ms Savge和最后160ms Eavge中作出。在識(shí)別期間的噪聲測(cè)量為Xrecog,等于Savge和Eavge的平均值。將該值與訓(xùn)練模式中計(jì)算出來(lái)的參考噪聲值相比。該比較用于發(fā)現(xiàn)識(shí)別背景噪聲估計(jì)與訓(xùn)練背景噪聲估計(jì)的比率。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,也可以利用這些值的其他相對(duì)比較。
處理器108接著在步驟606中計(jì)算字補(bǔ)償。該比率用于計(jì)算字入口補(bǔ)償。該字入口補(bǔ)償控制詞表范圍外的拒絕的精度。一般來(lái)說(shuō),較高的噪聲環(huán)境具有較低的精度值。使用一個(gè)查找表來(lái)計(jì)算字入口補(bǔ)償,這個(gè)字入口補(bǔ)償帶有作為存儲(chǔ)器表地址的噪聲索引比以及作為輸出的補(bǔ)償值??梢岳萌鐖D8所示的有利的十個(gè)補(bǔ)償分布,有意義的是在識(shí)別模式中(比率6-9)中,較多噪聲的環(huán)境在本質(zhì)上具有比代表識(shí)別模式的比率更小的補(bǔ)償,所述的代表識(shí)別模式的比率更接近于訓(xùn)練模式的噪聲參考值(比率0-4)。例如,這條曲線可以從如下公式得到x=Xref(k)/Xrecogf(x)=1/(1+21.5(x-5))超出范圍的索引標(biāo)志比將缺省為零的最小字入口補(bǔ)償。例如,所應(yīng)用的實(shí)際補(bǔ)償可以為-220*f(x),盡管實(shí)際的標(biāo)量可以是任意值,這個(gè)值導(dǎo)致一個(gè)補(bǔ)償值,和與其結(jié)合的比數(shù)有一個(gè)所希望的比例。
非線性關(guān)系的使用通過(guò)在噪聲環(huán)境好時(shí)提供一個(gè)大的補(bǔ)償,在噪聲環(huán)境壞時(shí)提供一個(gè)小的補(bǔ)償,對(duì)詞表范圍內(nèi)的和詞表范圍外的識(shí)別提供一個(gè)重要的改進(jìn)。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,字入口補(bǔ)償?shù)挠?jì)算可以直接得到,而不是通過(guò)利用查閱表得到如步驟608所示,該識(shí)別繼續(xù)其主搜索及并行的無(wú)用信息模式。該識(shí)別系統(tǒng)的目標(biāo)是發(fā)現(xiàn)圖3中從節(jié)點(diǎn)N1至節(jié)點(diǎn)N2的最可能的路徑。節(jié)點(diǎn)N1和節(jié)點(diǎn)N2通過(guò)路徑A1-AN耦合,路徑A1-AN表示對(duì)于N個(gè)字的詞表的隱含馬爾柯夫模式,可選擇地包括一個(gè)無(wú)用信息模式AGM。附加的A1noise及A2noise表示噪聲模式,并且與節(jié)點(diǎn)N1和節(jié)點(diǎn)N2有關(guān)。在輸入表達(dá)中,無(wú)用信息模式試圖捕獲任何非詞表范圍內(nèi)的聲音或字。它是一個(gè)值為零的狀態(tài)模式,只用于詞表范圍外的拒絕算法所利用的狀態(tài)零值模式。為了防止它構(gòu)造比噪聲模式更好的噪聲,對(duì)于歸為噪聲類的各個(gè)幀,一個(gè)補(bǔ)償被施加在無(wú)用信息模式概率上。
如圖3所示,通過(guò)基礎(chǔ)網(wǎng)絡(luò)的搜索利用諸如維特比算法的兩級(jí)定位算法來(lái)實(shí)現(xiàn)。這種搜索的最低級(jí)發(fā)現(xiàn)輸入表達(dá)的各個(gè)幀與給定弧的狀態(tài)之間的最佳定位及路徑比數(shù)。這種技術(shù)的一個(gè)例子是用于將表達(dá)的各個(gè)幀施加在單一模式的各個(gè)狀態(tài)上,該技術(shù)在卷號(hào)為CS10103的同時(shí)待審的專利申請(qǐng)中公開,該申請(qǐng)的題目是“METHOD OFTRACEBACK MATRIX STORAGE IN SPEECH RECOGNITIONSYSTEM”,與本發(fā)明同一天以Jeffrey Arthur Menuier等的名義申請(qǐng),并且在卷號(hào)為CS10104同時(shí)待審的專利申請(qǐng)中公開,該申請(qǐng)的題目是“METHOD SELECTIVELY ASSIGNING A PENALTY TO APROBABILITY ASSOCIATED WITH A VOICE RECOGNITIONSYSTEM”,與本發(fā)明同一天以Daniel Poppert的名義申請(qǐng)。這些公開在此作為參考。較低級(jí)定位算法產(chǎn)生一個(gè)比數(shù)用作通過(guò)給定HMM弧的輸入表達(dá)的最佳路徑。
除較低級(jí)定位算法之外,其中每個(gè)弧的比數(shù),或HMM,通過(guò)累積概率(Cin(m))被跟蹤,該累積概率為在幀m中弧An的狀態(tài)i的累積概率,節(jié)點(diǎn)N1及N2也必須跟蹤它們自己的累積概率。節(jié)點(diǎn)累積概率Cj(m)為在幀m中節(jié)點(diǎn)Nj的累積概率。該概率的計(jì)算非常象每個(gè)HMM的累積概率,在累積概率中保持節(jié)點(diǎn)的最高比數(shù)。累積概率可以用以下公式計(jì)算Cj(m+1)=Maxn∈Aj{CnIn(m)+PoIn(dIn)}其中Aj為終止在節(jié)點(diǎn)J的弧的集合{A1,A2,...,AN}。In為弧n中的狀態(tài)數(shù),DIn為弧n的最后狀態(tài)的持續(xù)時(shí)間,Poin(dIn)為對(duì)弧n的最后狀態(tài)的超出狀態(tài)之外的轉(zhuǎn)移補(bǔ)償。該累積概率為終止在節(jié)點(diǎn)Nj的所有弧中最后狀態(tài)的累積概率CnIn(m)與其超出狀態(tài)之外的概率之和的最大值。
當(dāng)跟蹤節(jié)點(diǎn)的累積概率時(shí),必須修改每個(gè)弧初始狀態(tài)的累積概率的計(jì)算c1n(m),以便于從節(jié)點(diǎn)Nj轉(zhuǎn)入其初始狀態(tài)。有一個(gè)一次轉(zhuǎn)移補(bǔ)償分配給從節(jié)點(diǎn)Nj向弧An的初始狀態(tài)轉(zhuǎn)移,被稱為字入口補(bǔ)償。它并不適用于噪聲模式或無(wú)用信息模式,因此當(dāng)被啟動(dòng)時(shí)它作為詞表范圍外拒絕的精度控制。累積概率可以被看成Cin(m+1)=oin(fm)+max(Cj(m)+W(n),C1n(m)+Ps1(d1))
其中W(n)={g(x),如果n∈{A1,A2,A3}}{0,如果n∈{A1noise,A2noise,A3noise}}其中W(n)為字入口補(bǔ)償,Agm為無(wú)用信息弧,A1noise為節(jié)點(diǎn)1的噪聲弧,oin(fm)為弧n在狀態(tài)i中特征矢量的觀測(cè)概率,Ps1(d1)為弧n狀態(tài)1的相同狀態(tài)轉(zhuǎn)移補(bǔ)償。這個(gè)方程式保持著相同節(jié)點(diǎn)到從起始節(jié)點(diǎn)的轉(zhuǎn)移的最大值與觀測(cè)概率之和。在識(shí)別處理末端保留下來(lái)的信息是橫穿到達(dá)節(jié)點(diǎn)2的弧。這是通過(guò)與累積概率Cin(m)及Cjn(m)一起的傳播路徑信息實(shí)現(xiàn)的。
對(duì)于有效表達(dá),通過(guò)定位算法的字模式的最佳路徑必須利用一個(gè)比字入口補(bǔ)償更大的值來(lái)產(chǎn)生一個(gè)比無(wú)用信息模式更好的比數(shù),否則有效表達(dá)將被錯(cuò)誤地拒絕。對(duì)于無(wú)效表達(dá),無(wú)用信息模式必須比通過(guò)每個(gè)合格字模式的路徑更大,以便該表達(dá)被正確地拒絕。
識(shí)別算法利用所收集的特征矢量的整個(gè)窗口,例如該窗口一般可以為2秒的數(shù)據(jù)。此外,它利用每個(gè)幀的一個(gè)語(yǔ)音/噪聲分類位,更新圖3中的A1noise及A2noise使用的單個(gè)狀態(tài)噪聲模式。
在識(shí)別模式中,處理器108通過(guò)設(shè)置噪聲更新標(biāo)記為1及幀計(jì)數(shù)器為0來(lái)對(duì)識(shí)別進(jìn)行初始化,如步驟702中所示。在步驟704中幀計(jì)數(shù)器被加1。接著在步驟706中處理器確定噪聲標(biāo)記是否被設(shè)置。如果沒有,處理器繼續(xù)進(jìn)行判決716。如果該標(biāo)記被設(shè)置,在步驟708中處理器108確定噪聲模式是否仍然被啟動(dòng),如果沒有,在步驟714中噪聲更新標(biāo)記被設(shè)置為0。在一定數(shù)目的更新實(shí)現(xiàn)以后,噪聲建模被關(guān)閉。
如果仍然應(yīng)執(zhí)行噪聲更新,在步驟710中處理器確定是否更新噪聲模式。如果處理器將更新該幀的噪聲模式,在步驟712中該模式被更新。噪聲模式A1noise及A2noise由該系統(tǒng)通過(guò)利用語(yǔ)音/噪聲分類位動(dòng)態(tài)地計(jì)算出來(lái),該語(yǔ)音/噪聲分類位由特征抽取算法所送出。是否更新當(dāng)前幀的噪聲模式的判決的細(xì)節(jié)通過(guò)查閱語(yǔ)音分類來(lái)作出,該語(yǔ)音分類由特征抽取算法得出。一旦預(yù)先確定數(shù)目的連續(xù)語(yǔ)音幀被看作表達(dá),就不再進(jìn)行更新。例如,該限制可以為3幀。如果該幀的語(yǔ)音對(duì)噪聲的分類來(lái)說(shuō),指示該幀為噪聲幀,噪聲模式僅對(duì)特定幀更新。
接著,在步驟716中處理器確定幀計(jì)數(shù)器是否小于幀門限數(shù)目。直到特定數(shù)目的幀已經(jīng)被處理時(shí),概率估計(jì)才會(huì)開始。這使得在基于噪聲模式的概率被計(jì)算出來(lái)之前,該噪聲模式變得一定程度精確。如果沒有收到幀門限數(shù)目,則處理器返回步驟704,其中幀計(jì)數(shù)器加1。
如果幀計(jì)數(shù)器超過(guò)該門限,處理器108在步驟718中計(jì)算該幀的節(jié)點(diǎn)及弧的累積概率。概率比數(shù)在步驟710中被歸一化。歸一化可以通過(guò)從所有其他的累積概率中減去最大的累積概率而得到。累積歸一化因數(shù)也被跟蹤,以便非歸一化比數(shù)可以在識(shí)別過(guò)程結(jié)束時(shí)返回。
接著,在步驟722中處理器確定最后一幀是否被處理。如果沒有,處理器返回步驟704,并且遞增幀計(jì)數(shù)器。否則,該識(shí)別結(jié)果與歸一化比數(shù)一起被輸出,如步驟724所示。
這個(gè)噪聲模式為單個(gè)狀態(tài)模式。該狀態(tài)的矢量平均是一個(gè)m的函數(shù)μ1noise(m),因?yàn)樗粍?dòng)態(tài)地計(jì)算,并且在第m+1幀用新的特征矢量fm+1更新,如下所示μ1noise(m)=((Mnoise(m)*μ1)+fm+1)/(Mnoise(m)+1)其中,Mnoise(m)為已經(jīng)被用于計(jì)算μ1noise的噪聲幀的數(shù)目,其可以取不同于m的值,因?yàn)椴皇撬械膸急挥糜谠肼暩?。此外,該更新方程式僅被用作噪聲模式的對(duì)數(shù)倒頻譜元素。δ對(duì)數(shù)倒頻譜及δ能量噪聲元素固定為0。
因此,可以看出本發(fā)明公開了一種改進(jìn)的系統(tǒng),該系統(tǒng)在訓(xùn)練及識(shí)別期間提供了依賴于背景噪聲電平的各種拒絕精度。該系統(tǒng)有助于防止無(wú)效表達(dá)與存儲(chǔ)的語(yǔ)音模式的有關(guān)性,并且有助于提高有效表達(dá)準(zhǔn)確探測(cè)。
盡管本發(fā)明已經(jīng)以上述說(shuō)明書及附圖公開如上,但應(yīng)理本說(shuō)明書僅作為例子,本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的精神及范圍的前提下,可以作出各種的變化和修改。盡管本發(fā)明在諸如在蜂窩無(wú)線電話的手提式無(wú)線設(shè)備中發(fā)現(xiàn)特定的應(yīng)用,但是本發(fā)明可以適用于任何采用語(yǔ)音識(shí)別的裝置中,這些裝置包括尋呼機(jī)、電子管理器、計(jì)算機(jī)以及電話裝置。本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求所界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種操作語(yǔ)音識(shí)別系統(tǒng)的方法,包括以下的步驟;產(chǎn)生一個(gè)可變的拒絕精度,該精度作為在訓(xùn)練期間測(cè)量的至少一個(gè)背景噪聲電平以及在輸入表達(dá)期間作出的噪聲信號(hào)測(cè)量的函數(shù),前述輸入表達(dá)在識(shí)別模式的運(yùn)行期間作出;得到一個(gè)字入口補(bǔ)償,該字入口補(bǔ)償作為該可變拒絕精度的函數(shù)。
2.根據(jù)權(quán)利要求1所定義的方法,其中產(chǎn)生一個(gè)可變的拒絕精度的步驟包括對(duì)于一個(gè)模式在至少部分訓(xùn)練表達(dá)期間測(cè)量噪聲的步驟。
3.根據(jù)權(quán)利要求1所定義的方法,還包括有選擇地更新來(lái)自于訓(xùn)練表達(dá)的噪聲特征的步驟。
4.根據(jù)權(quán)利要求1所定義的方法,還包括用一種模式在訓(xùn)練期間存儲(chǔ)噪聲統(tǒng)計(jì)量的步驟,以便它們可以為識(shí)別算法所利用。
5.根據(jù)權(quán)利要求3所定義的方法,其中當(dāng)在免提模式中訓(xùn)練時(shí),噪聲統(tǒng)計(jì)量不被更新。
6.根據(jù)權(quán)利要求3所定義的方法,還包括產(chǎn)生信噪比的步驟,其中如果信噪比低于預(yù)定的大小,則訓(xùn)練被禁止。
7.根據(jù)權(quán)利要求1所定義的方法,其中在識(shí)別期間,如果對(duì)于一個(gè)表達(dá)沒有噪聲統(tǒng)計(jì)量可以利用,則當(dāng)將定位算法應(yīng)用于該表達(dá)時(shí),識(shí)別算法缺省為最小的精度要求。
8.根據(jù)權(quán)利要求1所定義的方法,其中在識(shí)別期間,輸入噪聲能量特征與參考噪聲統(tǒng)計(jì)量相比較,并且計(jì)算出噪聲比。
9.根據(jù)權(quán)利要求8所定義的方法,其中詞表范圍外的拒絕算法的精度基于該噪聲比而被選擇。
10.根據(jù)權(quán)利要求1所定義的方法,其中最佳路徑的置信度量利用零平均值的單個(gè)狀態(tài)無(wú)用信息模式與語(yǔ)音標(biāo)記模式并行來(lái)實(shí)現(xiàn)。
全文摘要
一個(gè)語(yǔ)音識(shí)別系統(tǒng)(204,206,207,208)產(chǎn)生一個(gè)可變的拒絕精度,該精度作為在訓(xùn)練期間測(cè)量的至少一個(gè)背景噪聲電平以及在輸入表達(dá)期間作出的噪聲信號(hào)測(cè)量的函數(shù),前述輸入表達(dá)在識(shí)別模式的運(yùn)行期間作出。一個(gè)字入口補(bǔ)償被分配作為該可變拒絕精度的函數(shù)。
文檔編號(hào)G10L15/10GK1264892SQ00102409
公開日2000年8月30日 申請(qǐng)日期2000年2月23日 優(yōu)先權(quán)日1999年2月23日
發(fā)明者戴維·E·徹瓦利爾, 亨利·L·卡澤基 申請(qǐng)人:摩托羅拉公司