两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)及方法,語(yǔ)音識(shí)別的噪聲適應(yīng)程序的制作方法

文檔序號(hào):2821728閱讀:219來(lái)源:國(guó)知局
專利名稱:語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)及方法,語(yǔ)音識(shí)別的噪聲適應(yīng)程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)、噪聲適應(yīng)方法以及噪聲適應(yīng)程序。本發(fā)明尤其涉及一種語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)、一種噪聲適應(yīng)方法以及一種噪聲適應(yīng)程序,它們利用要識(shí)別的有噪聲語(yǔ)音來(lái)適應(yīng)利用隱式馬爾可夫模型(HMM)對(duì)語(yǔ)音特征建模所生成的純語(yǔ)模型,從而改進(jìn)對(duì)噪聲環(huán)境的識(shí)別率。
背景技術(shù)
Zhipeng Zhang等在標(biāo)題為“Effects of tree-structure clustering innoise adaptation using piecewise linear transformation”(Proceedingsof 2002 Autumn Meeting of Acoustical society of Japan,pp.29-30)一文中說(shuō)明樹(shù)形結(jié)構(gòu)分段線性變換方法。根據(jù)該文中說(shuō)明的該方法,噪聲被群集,根據(jù)群集(clustering)的結(jié)果生成樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間,提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù),從該樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型,并且對(duì)該選定的模型施加線性變換以提高該選定模型的似然性,從而改進(jìn)輸入語(yǔ)音的準(zhǔn)確性。
在Zhipeng Zhang等的標(biāo)題為“Study on tree-structure clusteringin noise adaptation using piecewise linear transformation”(2003Spring Meeting of Acoustical Society of Japan,pp.37-38)的一文中說(shuō)明另一種方法,其中順序地并且分層地劃分噪聲特征以產(chǎn)生添加噪聲的語(yǔ)音模型的樹(shù)形結(jié)構(gòu)。在該方法中,首先通過(guò)信器噪比(以下簡(jiǎn)寫(xiě)為SNR)群集添加噪聲的語(yǔ)音并且接著對(duì)每個(gè)SNR條件提供樹(shù)形結(jié)構(gòu)模型以產(chǎn)生樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間。
圖6示出樹(shù)形結(jié)構(gòu)噪聲語(yǔ)音模型的一個(gè)例子。在圖6中,為三種SNR條件中的每一個(gè)提供樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型。在圖6中,用K1表示SNR=5分貝的樹(shù)形結(jié)構(gòu)模型,用K2表示SNR=10分貝的樹(shù)形結(jié)構(gòu)模型,以及用K3表示SNR=15分貝的樹(shù)形結(jié)構(gòu)模型。每個(gè)樹(shù)形結(jié)構(gòu)模型K1-K3的頂節(jié)點(diǎn)(根)代表干凈語(yǔ)音(clean speech)模型。每個(gè)樹(shù)形結(jié)構(gòu)的較高層代表噪聲特征的全局特征而較低層代表局部特征。
日本專利公開(kāi)2002-14692號(hào)(尤其圖2和3以及摘要)說(shuō)明一種技術(shù),其中事先群集大量的噪聲樣本,根據(jù)這些樣本生成聲學(xué)模型并且對(duì)學(xué)習(xí)數(shù)據(jù)添加通過(guò)群集選擇的噪聲,從而能利用少量噪聲樣本有效學(xué)習(xí)以達(dá)到高識(shí)別性能。
日本專利公開(kāi)2002-91484(尤其摘要)說(shuō)明一種技術(shù),其中為每個(gè)樹(shù)形結(jié)構(gòu)群集生成一個(gè)語(yǔ)言模型,以用于語(yǔ)音識(shí)別。
日本專利公開(kāi)2000-298495(具體地,摘要和權(quán)利要求2)說(shuō)明組合一些樹(shù)形結(jié)構(gòu)以形成新的樹(shù)形結(jié)構(gòu)。
在上面提到的“Study on tree-structure clustering in noiseadaptation using piecewise linear transformation”一文的方法中,分析要識(shí)別的輸入有噪聲語(yǔ)音以提取特征參數(shù)串,并且從樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇最優(yōu)模型。對(duì)選定的最優(yōu)模型施加線性變換以使似然性最大化。因此,該方法存在識(shí)別涉及兩步搜索的缺點(diǎn)即首先在每個(gè)SNR條件下選擇最優(yōu)模型,接著在所有SNR模型中選擇最佳模型。從而問(wèn)題是處理SNR變化的有噪聲語(yǔ)音的困難以及計(jì)算這些條件的高成本。
上面提到的這些文獻(xiàn)中說(shuō)明的技術(shù)都不能解決這些問(wèn)題。
本發(fā)明的目的是提供一種用于語(yǔ)音識(shí)別的噪聲適應(yīng)系統(tǒng)、噪聲適應(yīng)方法和噪聲適應(yīng)程序,其通過(guò)利用集成噪聲和SNR的單個(gè)樹(shù)形結(jié)構(gòu)生成語(yǔ)音模型可以方便地處理帶有變化SNR的有噪聲語(yǔ)音并且可使計(jì)算成本最小化。

發(fā)明內(nèi)容
依據(jù)本發(fā)明的第一方面,提供一種語(yǔ)音模型的噪聲適應(yīng)系統(tǒng),用于在噪聲環(huán)境下使得用于任何噪聲的語(yǔ)音模型適應(yīng)要識(shí)別的語(yǔ)音,該語(yǔ)音模型是通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的噪聲數(shù)據(jù)以及干凈語(yǔ)音數(shù)據(jù)學(xué)習(xí)的,該系統(tǒng)包括用于群集該噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有噪聲數(shù)據(jù)的群集裝置;用于根據(jù)該群集裝置執(zhí)行的群集的結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生裝置;用于提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取裝置;用于從由該語(yǔ)音模型空間產(chǎn)生裝置產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇裝置;以及用于對(duì)該選擇裝置選擇的模型施加線性變換以使該模型提供進(jìn)一步增加的似然性的線性變換裝置。如上面說(shuō)明那樣產(chǎn)生的單個(gè)樹(shù)性結(jié)構(gòu)有噪聲語(yǔ)音模型空間允許方便地處理SNR變化的有噪聲語(yǔ)音并節(jié)省計(jì)算成本。
依據(jù)本發(fā)明的第二方面,提供依據(jù)該第一方面的語(yǔ)音模型噪聲適應(yīng)系統(tǒng),其中該群集裝置通過(guò)根據(jù)信噪比條件向語(yǔ)音添加噪聲產(chǎn)生添加噪聲的語(yǔ)音,減掉所生成的添加噪聲語(yǔ)音的語(yǔ)音倒頻譜的平均值,產(chǎn)生每段生成的添加噪聲的語(yǔ)音的高斯分布模型,以及計(jì)算各個(gè)添加噪聲的語(yǔ)音段之間的似然性以產(chǎn)生似然性矩陣,從而提供群集結(jié)果。這使得能群集添加噪聲的語(yǔ)音。
依據(jù)本發(fā)明的第三方面,提供依據(jù)第一或第二方面的噪聲適應(yīng)系統(tǒng),其中該選擇裝置選擇一個(gè)對(duì)由該參數(shù)提取裝置提取的語(yǔ)音特征參數(shù)提供最高似然性的模型。通過(guò)選擇提供最高似然性的模型,可以提高語(yǔ)音識(shí)別的準(zhǔn)確性。
依據(jù)本發(fā)明的第四方面,提供依據(jù)該第三方面的噪聲適應(yīng)系統(tǒng),其中該選擇裝置通過(guò)從最高層到最低層向下地搜索樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間來(lái)選擇模型。通過(guò)從最高層向最低層搜索該樹(shù)形結(jié)構(gòu),可以選出最優(yōu)模型。
依據(jù)本發(fā)明的第五方面,提供依據(jù)第一到第四方面之一的噪聲適應(yīng)系統(tǒng),其中該線性變換裝置根據(jù)由該選擇裝置選擇的模型進(jìn)行線性變換以提高似然性。通過(guò)進(jìn)行線性變換,可使似然性最大化。
依據(jù)本發(fā)明的第六方面,提供一種噪聲適應(yīng)方法,用于在噪聲環(huán)境下使得用于任何噪聲的語(yǔ)音模型適應(yīng)要識(shí)別的語(yǔ)音,該語(yǔ)音模型是通過(guò)利用噪聲數(shù)據(jù)庫(kù)存中存儲(chǔ)的噪聲數(shù)據(jù)以及干凈語(yǔ)音數(shù)據(jù)學(xué)習(xí)的,該方法包括群集該噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有添加噪聲的語(yǔ)音數(shù)據(jù)的群集步驟;根據(jù)該群集步驟執(zhí)行的群集的結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生步驟;提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取步驟;從該語(yǔ)音模型空間產(chǎn)生步驟中產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇步驟;以及對(duì)由該選擇步驟中選擇的模型施加線性變換以使該模型提供進(jìn)一步增加的似然性的線性變換步驟。該單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間允許方便地處理SNR變化的有噪聲語(yǔ)音和節(jié)省計(jì)算成本。
依據(jù)本發(fā)明的第七方面,提供一種噪聲適應(yīng)程序,用于在噪聲環(huán)境下使得用于任何噪聲的語(yǔ)音模型適應(yīng)要識(shí)別的語(yǔ)音,該語(yǔ)音模型是通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的噪聲數(shù)據(jù)和干凈語(yǔ)音數(shù)據(jù)學(xué)習(xí)的,該程序包括群集該噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有添加噪聲的語(yǔ)音數(shù)據(jù)的群集步驟;根據(jù)該群集步驟執(zhí)行的群集的結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生步驟;提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取步驟;從該語(yǔ)音模型空間產(chǎn)生步驟中產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇步驟;以及對(duì)該選擇步驟中選擇的模型施加線性變換以使該模型提供進(jìn)一步增加的似然性的線性變換步驟。該單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間允許方便地處理SNR變化的有噪聲語(yǔ)音和節(jié)省處理成本。
實(shí)際上,依據(jù)本發(fā)明,利用噪聲數(shù)據(jù)庫(kù)(以下簡(jiǎn)寫(xiě)成DB)中的所有噪聲數(shù)據(jù)段,根據(jù)每個(gè)SNR條件把添加噪聲的語(yǔ)音群集到單個(gè)樹(shù)形結(jié)構(gòu)中。根據(jù)SNR以及噪聲特征在樹(shù)形結(jié)構(gòu)中分割添加噪聲的語(yǔ)音空間,并且提取要識(shí)別的輸入有噪聲語(yǔ)音的聲音特征參數(shù)串。接著,根據(jù)特征參數(shù)串從該樹(shù)形結(jié)構(gòu)模型空間選擇一個(gè)最優(yōu)模型并對(duì)該模型施加線性變換。
生成集成有噪聲和SNR的單個(gè)樹(shù)形結(jié)構(gòu)以便學(xué)習(xí)最有可能的添加噪聲的語(yǔ)音模型。這樣,可以實(shí)現(xiàn)高識(shí)別準(zhǔn)確性。另外,本發(fā)明的方法不需要在每個(gè)SNR條件下選擇最優(yōu)模型。替代地,本發(fā)明的方法涉及在所有SNR模型中選擇最佳模型的僅為單步的搜索。從而,可以方便地處理帶有變化的SNR的有噪聲語(yǔ)音并且可以節(jié)省計(jì)算成本。
依據(jù)本發(fā)明的第一、第六和第七方面,通過(guò)使用單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間,本發(fā)明具有容易處理帶有變化的SNR的有噪聲語(yǔ)音和可以節(jié)省計(jì)算成本的優(yōu)點(diǎn)。
依據(jù)本發(fā)明的第二方面,通過(guò)根據(jù)信噪比條件向語(yǔ)音添加噪聲、減掉每一段所生成的添加噪聲的語(yǔ)音的語(yǔ)音倒頻譜的平均值、產(chǎn)生每一段添加噪聲的語(yǔ)音的高斯分布模型以及計(jì)算添加噪聲的語(yǔ)音各段之間的似然性來(lái)產(chǎn)生似然性矩陣,本發(fā)明具有可以群集添加噪聲的語(yǔ)音的優(yōu)點(diǎn)。
依據(jù)本發(fā)明的第三方面,通過(guò)選擇對(duì)提取的語(yǔ)音特征參數(shù)提供最高似然性的模型,本發(fā)明具有改進(jìn)語(yǔ)音識(shí)別準(zhǔn)確性的優(yōu)點(diǎn)。
依據(jù)本發(fā)明的第四方面,本發(fā)明具有可以通過(guò)從最高層向最低層搜索樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間得到最優(yōu)模型來(lái)選擇最優(yōu)模型的優(yōu)點(diǎn)。
依據(jù)本發(fā)明的第五方面,本發(fā)明具有通過(guò)基于選定的模型進(jìn)行線性變換以提高似然性,從而可使似然性最大化的優(yōu)點(diǎn)。


圖1是由依據(jù)本發(fā)明的語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)執(zhí)行的處理的流程圖;圖2是方塊圖,示出根據(jù)本發(fā)明的一實(shí)施例的語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)的配置;圖3是功能方塊圖,其中根據(jù)該系統(tǒng)中的操作流重新排列圖2中示出的部件;圖4是概念圖,示出該系統(tǒng)中選擇樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間中的最優(yōu)模型的過(guò)程;
圖5示出通過(guò)采用本系統(tǒng)適應(yīng)的語(yǔ)音HMM達(dá)到的字準(zhǔn)確度;以及圖6是概念圖,示出常規(guī)語(yǔ)音模型的噪聲適應(yīng)系統(tǒng)中采用的選擇樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間中的最優(yōu)模型的過(guò)程。
具體實(shí)施例方式
現(xiàn)參照各

本發(fā)明的各實(shí)施例。下面說(shuō)明所引用的各圖中用相同的參考數(shù)字標(biāo)記相同的部分。
依據(jù)本發(fā)明,通過(guò)利用SNR和音質(zhì)按樹(shù)形結(jié)構(gòu)產(chǎn)生有噪聲語(yǔ)音模型空間。為了產(chǎn)生有噪聲語(yǔ)音模型空間,利用一個(gè)噪聲數(shù)據(jù)庫(kù)根據(jù)每個(gè)SNR條件向干凈語(yǔ)音添加噪聲以產(chǎn)生添加噪聲的語(yǔ)音。接著,將噪聲特征表示為單個(gè)樹(shù)形結(jié)構(gòu)以提供模型,其中該樹(shù)形結(jié)構(gòu)的較高層代表噪聲特征的全局特征而較低層應(yīng)代表局部特征。通過(guò)以自上向下的方式從根向下沿著該樹(shù)形結(jié)構(gòu)選擇最優(yōu)模型,可以選出噪聲的最優(yōu)分段空間。
由于在群集過(guò)程中和模型學(xué)習(xí)過(guò)程中相容地使用添加噪聲的語(yǔ)音,所以可以學(xué)習(xí)提供最高似然性的添加噪聲的語(yǔ)音模型并且可以實(shí)現(xiàn)識(shí)別準(zhǔn)確度的改進(jìn)。
(本系統(tǒng)的配置)參照?qǐng)D2說(shuō)明用來(lái)實(shí)現(xiàn)上述過(guò)程的配置,圖2是示出依據(jù)本發(fā)明的噪聲適應(yīng)系統(tǒng)的一實(shí)施例的方塊圖。如圖2中所示,依據(jù)本發(fā)明的噪聲適應(yīng)系統(tǒng)包括樹(shù)形結(jié)構(gòu)模型存儲(chǔ)器1,特征提取單元2,語(yǔ)音識(shí)別單元3,模型選擇及確定單元4,模型線性變換適應(yīng)單元5以及識(shí)別結(jié)果存儲(chǔ)器6。本系統(tǒng)是作為終端設(shè)備、移動(dòng)終端、服務(wù)器計(jì)算機(jī)、個(gè)人計(jì)算機(jī),以及其他包括上述單元和存儲(chǔ)器的設(shè)備來(lái)實(shí)現(xiàn)的。
樹(shù)形結(jié)構(gòu)模型存儲(chǔ)器1存儲(chǔ)已經(jīng)根據(jù)添加噪聲的語(yǔ)音的群集結(jié)果按單個(gè)樹(shù)形結(jié)構(gòu)建立的添加噪聲的語(yǔ)音HMM。
特征提取單元2分析對(duì)它輸入的語(yǔ)音數(shù)據(jù)并且把該數(shù)據(jù)變換成各特征向量。
語(yǔ)音識(shí)別單元3對(duì)于從輸入語(yǔ)音數(shù)據(jù)經(jīng)時(shí)間變換得到的時(shí)間序列特征向量應(yīng)用Viterbi算法以得到提供最高似然性函數(shù)的模型序列。
模型選擇及確定單元4從樹(shù)形結(jié)構(gòu)模型存儲(chǔ)器1中存儲(chǔ)的模型中選擇一個(gè)提供最高似然性的最優(yōu)模型。
模型線性變換適應(yīng)單元5對(duì)由模型選擇及確定單元4選擇的模型施加線性變換從而使它的似然性最大化。
識(shí)別結(jié)果存儲(chǔ)器6存儲(chǔ)語(yǔ)音識(shí)別結(jié)果。
(系統(tǒng)的操作)參照?qǐng)D1和3說(shuō)明該具有上面說(shuō)明的結(jié)構(gòu)的系統(tǒng)的操作。圖3是一個(gè)功能方塊圖,其中根據(jù)該系統(tǒng)中的操作流程重新排列圖2中示出的部件1-6。圖1是該系統(tǒng)完成的處理的流程圖。
該系統(tǒng)中進(jìn)行語(yǔ)音識(shí)別的過(guò)程遵循下面說(shuō)明的步驟S1至S9。
步驟S1(產(chǎn)生添加噪聲的語(yǔ)音的步驟)根據(jù)每個(gè)SNR條件利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的每一段噪聲數(shù)據(jù)對(duì)干凈語(yǔ)音添加噪聲,從而產(chǎn)生添加噪聲的語(yǔ)音。
步驟S2(減掉添加噪聲的語(yǔ)音的均值的步驟)對(duì)步驟S1產(chǎn)生的添加噪聲的語(yǔ)音施加CMS(倒頻譜均值相減)。CMS是一項(xiàng)減掉語(yǔ)音倒頻譜的平均值的技術(shù)。即,計(jì)算某時(shí)段內(nèi)的所有語(yǔ)音數(shù)據(jù)幀的值的平均倒頻譜,并且從每幀的向量中減掉該平均值。倒頻譜是通過(guò)傅里葉變換得到的功率譜的對(duì)數(shù)的傅里葉變換。在標(biāo)題為“FuruiCepstral Analysis Technique For Automatic Speaker Verification,IEEE Transaction on Accustical Speech and Signal Processing,Vol.ASSP-29,pp.254-272,1981”的文獻(xiàn)中說(shuō)明了CMS。
步驟S3(產(chǎn)生添加噪聲的語(yǔ)音模型的步驟)通過(guò)Baum-Welch算法產(chǎn)生每個(gè)添加噪聲的語(yǔ)音的高斯混合模型(GMM)。Baum-Welch算法是一種從一個(gè)適當(dāng)?shù)某跏贾甸_(kāi)始逐步接近最佳值的重復(fù)方法。在Seiichi Nakagawa的題目為“Speech recognition with probabilisticmodel”(Institute of Electronics,Information and CommunicationEngineers,1988)的文獻(xiàn)中說(shuō)明Baum-Welch算法。
步驟S4(群集添加噪聲的語(yǔ)音的步驟)利用GMM計(jì)算添加噪聲的語(yǔ)音段之間的似然性以產(chǎn)生似然性矩陣。使用基于該似然性矩陣的SPLIT法來(lái)連續(xù)地群集該添加噪聲的語(yǔ)音。在SPLIP(分割)法中,順序地分割提供最大失真的各群集。由此,可以產(chǎn)生任何數(shù)量的群集。簡(jiǎn)單地通過(guò)給出群集數(shù)量可以全自動(dòng)得到群集結(jié)果。Sugamura等在語(yǔ)音委員會(huì)(Speech Committee)文檔(S82-64,1982)中說(shuō)明SPLIT法。
步驟S5(施加分段線性變換適應(yīng))通過(guò)步驟S4提供添加噪聲的語(yǔ)音的樹(shù)形結(jié)構(gòu)群集結(jié)果。在樹(shù)形結(jié)構(gòu)模型存儲(chǔ)器1中存儲(chǔ)該群集結(jié)果。該群集結(jié)果是一個(gè)集成噪聲和SNR的單個(gè)樹(shù)形結(jié)構(gòu)模型。此外,該群集結(jié)果表示樹(shù)形結(jié)構(gòu)形式下的特征添加噪聲的語(yǔ)音的全局特征在該樹(shù)形結(jié)構(gòu)的較高層表示,語(yǔ)音的局部特征在較低層表示。
對(duì)樹(shù)形結(jié)構(gòu)模型存儲(chǔ)器1中存儲(chǔ)的群集結(jié)果施加分段線性變換。在上面提到的Zhipeng Zhang等的“Effects of tree-structure clusteringin noise adaptation using piecewise linear transformation”一文中說(shuō)明了分段線性變換。具體地,進(jìn)行下面說(shuō)明的步驟S6至S9。
步驟S6(提取特征量的步驟)特征提取單元2從要識(shí)別的添加噪聲的語(yǔ)音數(shù)據(jù)提取特征量。在特征量提取中,對(duì)輸入的語(yǔ)音數(shù)據(jù)的每一幀施加LPC(線性預(yù)測(cè)編碼)分析以得到作為特征參數(shù)序列的時(shí)間序列特征參數(shù)向量,例如倒頻譜或Δ倒頻譜。
步驟S7(選擇最優(yōu)模型)參照?qǐng)D4說(shuō)明該選擇最優(yōu)模型的步驟。圖4的頂節(jié)點(diǎn)(根)代表干凈語(yǔ)音模型。在根下面,存在N個(gè)模型即SNR-1到SNR-N。這N個(gè)模型SNR-1到SNR-N代表從在所有SNR條件下通過(guò)添加所有類型的噪聲產(chǎn)生的語(yǔ)音而學(xué)習(xí)到的各模型。
它們下面的子節(jié)點(diǎn)代表從根據(jù)群集結(jié)果添加某些選定類型的噪聲產(chǎn)生的語(yǔ)音數(shù)據(jù)而學(xué)習(xí)到的各模型。位于該樹(shù)形結(jié)構(gòu)底部是從通過(guò)只添加某單種類型的噪聲產(chǎn)生的語(yǔ)音而學(xué)習(xí)到的各模型。從而,全局噪聲特征在該樹(shù)形結(jié)構(gòu)的較高層表示而局部噪聲特征在較低層表示。
和上面提到的Zhipeng Zhang等的“Study on tree-structureclustering in noise adapt ation using piecewise linear transformation”一文中的方法不同,本發(fā)明的方法不需要在各個(gè)SNR條件下選擇最優(yōu)模型。替代地,它只需要在所有的SNR模型中選擇了最佳模型的情況下的單步搜索。
回到圖1,為了進(jìn)行識(shí)別,首先利用步驟S4得到的特征參數(shù)序列計(jì)算一個(gè)給定干凈模型的似然性。這是通過(guò)圖1中示出的語(yǔ)音識(shí)別單元3執(zhí)行的。
接著,語(yǔ)音識(shí)別單元3利用根以下的各模型計(jì)算各似然性。模型選擇及確定單元4利用這樣算出的似然性值來(lái)選擇一個(gè)最優(yōu)模型。具體地,這是通過(guò)遵循以下進(jìn)程實(shí)現(xiàn)的。保留提供比根處的干凈模型的似然性更高似然性的各模型。接著利用它們下面的子節(jié)點(diǎn)處的各模型計(jì)算這些SNR條件下的似然性。二個(gè)子節(jié)模型的似然性和父節(jié)點(diǎn)的似然性比較。如果一個(gè)子節(jié)點(diǎn)模型提供最高似然性,計(jì)算該節(jié)點(diǎn)下面的各子節(jié)點(diǎn)模型的似然性。另一方面,如果父節(jié)點(diǎn)的似然性要比子節(jié)點(diǎn)模型的似然性高,則不進(jìn)行進(jìn)一步的計(jì)算并且把該父節(jié)點(diǎn)確定為最優(yōu)節(jié)點(diǎn)。
在圖4中,用實(shí)線表示搜索路徑??梢灾貜?fù)該計(jì)算以找到最優(yōu)空間。此外,不同SNR條件下的最高似然性模型的似然性彼此進(jìn)行比較以確定它們之中的提供最高似然性的模型被選為整個(gè)有噪聲空間中的最優(yōu)模型。在圖4中示出的例子里,在條件SNR-1下第四節(jié)點(diǎn)提供最高似然性。在圖4中的SNR-N條件下,第五節(jié)點(diǎn)提供最高似然性。不同SNR條件下的最高似然性模型的似然性彼此進(jìn)行比較以選擇這些最高似然性節(jié)點(diǎn)之中提供最高似然性的模型。
步驟S8(線性回歸)模型線性變換適應(yīng)單元5對(duì)選出的模型施加最大似然性線性回歸(以下縮寫(xiě)為MLLR)以提供進(jìn)一步改進(jìn)的似然性。在標(biāo)題為“Mean and variance adaptation within the MLLR framework”(M.J.F Gales等,Computer Speech and Language,pp.249-264,1996)的文獻(xiàn)中說(shuō)明了MLLR。具體地,根據(jù)最大似然性準(zhǔn)則,利用識(shí)別產(chǎn)生的音素序列估計(jì)線性變換矩陣,并且通過(guò)線性變換修改HMM高斯分布的均值和方差(線性回歸)。
步驟S9(再識(shí)別)當(dāng)輸出語(yǔ)音識(shí)別的結(jié)果時(shí),語(yǔ)音識(shí)別單元3利用步驟S8得到的模型進(jìn)行再識(shí)別并在識(shí)別結(jié)果存儲(chǔ)器6中存儲(chǔ)該再識(shí)別結(jié)果。
在本發(fā)明的噪聲適應(yīng)系統(tǒng)中,如已說(shuō)明那樣,利用噪聲數(shù)據(jù)庫(kù)中的所有噪聲數(shù)據(jù)段,在每一種SNR條件下對(duì)語(yǔ)音添加噪聲并且學(xué)習(xí)添加噪聲的語(yǔ)音模型。計(jì)算這些SNR條件下所有噪聲模型之間的距離并且群集添加噪聲的語(yǔ)音。根據(jù)添加噪聲的語(yǔ)音群集的結(jié)果,產(chǎn)生一個(gè)具有樹(shù)形結(jié)構(gòu)的語(yǔ)音模型。從而,可以提供一個(gè)其中集成噪聲和SNR的樹(shù)形結(jié)構(gòu)模型,并且產(chǎn)生一個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間。在特征提取步驟中,分析要識(shí)別的輸入有噪聲語(yǔ)音以提取特征參數(shù)序列,并且彼此比較各HMM的似然性以便從該樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間中選擇一個(gè)最優(yōu)模型。對(duì)該從有噪聲語(yǔ)音模型空間中選擇的模型應(yīng)用線性變換以便進(jìn)一步提高似然性。
概括之,依據(jù)本發(fā)明,在每個(gè)SNR條件下利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的每一段添加噪聲的語(yǔ)音數(shù)據(jù)對(duì)干凈語(yǔ)音添加噪聲以產(chǎn)生添加噪聲的語(yǔ)音(圖1中的步驟S1)。群集添加噪聲的語(yǔ)音以形成單個(gè)樹(shù)形結(jié)構(gòu)添加噪聲的語(yǔ)音模型空間。在該添加噪聲的語(yǔ)音模型空間中,對(duì)干凈語(yǔ)音添加屬于各樹(shù)形結(jié)構(gòu)節(jié)點(diǎn)的每段噪聲以產(chǎn)生添加噪聲的語(yǔ)音模型(圖1中的步驟S3)。計(jì)算該添加噪聲的語(yǔ)音樹(shù)形結(jié)構(gòu)模型空間里的各似然性(圖1的步驟S4),并且從頂部向下沿著該樹(shù)形結(jié)構(gòu)選擇最優(yōu)模型(圖1中的步驟S7)?;谶@樣選擇的適應(yīng)語(yǔ)音模型序列的模型參數(shù),進(jìn)行線性變換以使似然性最大化(圖1中的步驟S8)。
事實(shí)上,依據(jù)本發(fā)明,產(chǎn)生一個(gè)其中集成噪聲和SNR的單個(gè)樹(shù)形結(jié)構(gòu)添加噪聲的語(yǔ)音模型空間,以替代用于各個(gè)SNR的各樹(shù)形結(jié)構(gòu)添加噪聲的語(yǔ)音模型空間。由此,可以方便地處理帶有變化的SNR的有噪聲語(yǔ)音并且可以節(jié)省計(jì)算成本。
不僅在模型學(xué)習(xí)過(guò)程中而且還在群集處理中使用添加噪聲的語(yǔ)音。由于在群集和模型學(xué)習(xí)中相容地使用添加噪聲的語(yǔ)音,所以可以學(xué)習(xí)最可能的添加噪聲的語(yǔ)音模型。從而可以達(dá)到更高的識(shí)別準(zhǔn)確度。
(例子)本發(fā)明人檢查了本發(fā)明執(zhí)行的有噪聲對(duì)話語(yǔ)音識(shí)別的效果。下面說(shuō)明一個(gè)實(shí)驗(yàn)例子。
該實(shí)驗(yàn)中使用的語(yǔ)音HMM是一個(gè)通過(guò)利用基于樹(shù)的群集產(chǎn)生的共享狀態(tài)、和發(fā)言者無(wú)關(guān)但和上下文環(huán)境有關(guān)的音素HMM。共使用25維作為特征量MFCC(嘜耳(Mel)頻率倒頻譜系數(shù))12和對(duì)數(shù)功率(logpower)的一階導(dǎo)數(shù)。“嘜耳頻率”是一個(gè)基于人耳的靈敏性的值并且通常用來(lái)表示聲音的可聽(tīng)程度。按如下產(chǎn)生MFCC對(duì)聲波數(shù)據(jù)施加離散傅里葉變換并且結(jié)果值被轉(zhuǎn)換成其對(duì)數(shù)表達(dá)。接著對(duì)該對(duì)數(shù)施加逆離散傅里葉變換以產(chǎn)生按預(yù)定間隔采樣的波形。該采樣值是MFCC。
下面參照?qǐng)D5說(shuō)明本系統(tǒng)的效果。圖5示出通過(guò)利用一給定的語(yǔ)音HMM達(dá)到的字準(zhǔn)確度(基線)以及通過(guò)利用本發(fā)明系統(tǒng)所采納的語(yǔ)音HMM達(dá)到的(本發(fā)明方法的)字準(zhǔn)確度。圖5中的垂直軸代表字準(zhǔn)確度(%)而水平軸代表SNR(分貝)。水平軸上指出為5、10和15分貝的SNR。圖5中的濃淡網(wǎng)格點(diǎn)條代表基線準(zhǔn)確性而帶條代表本發(fā)明的系統(tǒng)的準(zhǔn)確度。
從圖5中示出的結(jié)果可以看出,依據(jù)本發(fā)明的方法要比常規(guī)方法更加有效。在該例中,本發(fā)明的系統(tǒng)的字出錯(cuò)率要比基線的字出錯(cuò)率低56%,即,本發(fā)明可以提供改進(jìn)的語(yǔ)音識(shí)別精度。
(語(yǔ)音模型噪聲適應(yīng)方法)在上面說(shuō)明的噪聲適應(yīng)系統(tǒng)中實(shí)現(xiàn)下面的噪聲適應(yīng)方法。該方法是一種噪聲適應(yīng)方法,用于在噪聲環(huán)境下使得通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的噪聲數(shù)據(jù)和干凈語(yǔ)音數(shù)據(jù)已經(jīng)學(xué)習(xí)到的用于任何噪聲的語(yǔ)音模型適應(yīng)要識(shí)別的語(yǔ)音。該方法包括群集該噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有添加噪聲的語(yǔ)音數(shù)據(jù)段的群集步驟(對(duì)應(yīng)圖1中的步驟S1至S4);根據(jù)該群集步驟的群集結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生步驟(對(duì)應(yīng)圖1中的步驟S5);提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取步驟(對(duì)應(yīng)圖1中的步驟S6);從該語(yǔ)音模型空間產(chǎn)生步驟中產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇步驟(對(duì)應(yīng)圖1中的步驟S7);以及對(duì)該選擇步驟中選擇的模型施加線性變換以提供進(jìn)一步改進(jìn)的似然性的線性變換步驟(對(duì)應(yīng)圖1中的步驟S8)。
通過(guò)對(duì)語(yǔ)音識(shí)別執(zhí)行該方法并采用該單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間,可以方便地處理帶有變化的SNR的有噪聲語(yǔ)音并且可以節(jié)省計(jì)算成本。
(語(yǔ)音模型的噪聲適應(yīng)程序)可以提供一個(gè)用來(lái)實(shí)現(xiàn)圖1中示出的過(guò)程的程序并且用該程序來(lái)控制計(jì)算機(jī)以提供如上面說(shuō)明的相同效果。該程序是一個(gè)用于語(yǔ)音識(shí)別的噪聲適應(yīng)程序,其控制計(jì)算機(jī)以在噪聲環(huán)境下使得通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有噪聲數(shù)據(jù)段和干凈語(yǔ)音數(shù)據(jù)已經(jīng)學(xué)習(xí)到的用于任何噪聲的語(yǔ)音模型適應(yīng)要識(shí)別的語(yǔ)音。該程序包括群集該噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有添加噪聲的語(yǔ)音數(shù)據(jù)段的群集步驟(對(duì)應(yīng)圖1中的步驟S1至S4);根據(jù)該群集步驟的群集結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生步驟(對(duì)應(yīng)圖1中的步驟S5);提取要識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取步驟(對(duì)應(yīng)圖1中的步驟S6);從該語(yǔ)音模型空間產(chǎn)生步驟中產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇步驟(對(duì)應(yīng)圖1中的步驟S7);以及對(duì)該選擇步驟中選擇的模型施加線性變換以提供進(jìn)一步改進(jìn)的似然性的線性變換步驟(對(duì)應(yīng)圖1中的步驟S8)。
通過(guò)對(duì)語(yǔ)音識(shí)別在計(jì)算機(jī)上執(zhí)行該程序并采用該單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間,可以方便地處理帶有變化的SNR的有噪聲語(yǔ)音并且可以節(jié)省計(jì)算成本。
用來(lái)存儲(chǔ)該程序的存儲(chǔ)媒體可以是未在圖1中示出的半導(dǎo)體存儲(chǔ)器、磁盤(pán)、光盤(pán)或者任何其它存儲(chǔ)媒體。
自動(dòng)語(yǔ)音識(shí)別系統(tǒng)通常在實(shí)驗(yàn)室條件下工作良好但在實(shí)際應(yīng)用中它們的性能下降。實(shí)際應(yīng)用中的一個(gè)問(wèn)題是對(duì)背景中含有噪聲或音樂(lè)的語(yǔ)音的識(shí)別性能的下降。本發(fā)明可以解決該噪聲問(wèn)題并且可以改進(jìn)添加噪聲的語(yǔ)音的識(shí)別準(zhǔn)確性。
權(quán)利要求
1.一種語(yǔ)音模型的噪聲適應(yīng)系統(tǒng),用于在噪聲環(huán)境下使得用于任何噪聲的語(yǔ)音模型適應(yīng)要被識(shí)別的語(yǔ)音,所述語(yǔ)音模型是通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的噪聲數(shù)據(jù)以及干凈語(yǔ)音數(shù)據(jù)學(xué)習(xí)的,所述系統(tǒng)包括用于群集所述噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有噪聲數(shù)據(jù)的群集裝置;用于根據(jù)由所述群集裝置執(zhí)行的群集的結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生裝置;用于提取要被識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取裝置;用于從由所述語(yǔ)音模型空間產(chǎn)生裝置產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇裝置;以及用于對(duì)由所述選擇裝置選擇的模型施加線性變換以使所述模型提供進(jìn)一步增加的似然性的線性變換裝置。
2.依據(jù)權(quán)利要求1的噪聲適應(yīng)系統(tǒng),其中所述群集裝置通過(guò)根據(jù)信噪比條件向所述語(yǔ)音添加所述噪聲來(lái)產(chǎn)生所述添加噪聲的語(yǔ)音,減掉所生成的添加噪聲的語(yǔ)音的語(yǔ)音倒頻譜的均值,產(chǎn)生每一段所生成的添加噪聲的語(yǔ)音的高斯分布模型,以及計(jì)算各段添加噪聲的語(yǔ)音之間的似然性以產(chǎn)生似然性矩陣,從而提供群集結(jié)果。
3.依據(jù)權(quán)利要求1或2的噪聲適應(yīng)系統(tǒng),其中所述選擇裝置選擇用于對(duì)由所述參數(shù)提取裝置提取的語(yǔ)音特征參數(shù)提供最高似然性的模型。
4.依據(jù)權(quán)利要求3的噪聲適應(yīng)系統(tǒng),其中所述選擇裝置通過(guò)從最高層到最低層向下地搜索所述樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間來(lái)選擇模型。
5.依據(jù)權(quán)利要求1-4中之一的噪聲適應(yīng)系統(tǒng),其中所述線性變換裝置根據(jù)由所述選擇裝置選擇的模型來(lái)進(jìn)行線性變換以提高似然性。
6.一種語(yǔ)音模型的噪聲適應(yīng)方法,用于在噪聲環(huán)境下使得用于任何噪聲的語(yǔ)音模型適應(yīng)要被識(shí)別的語(yǔ)音,所述語(yǔ)音模型是通過(guò)利用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的噪聲數(shù)據(jù)和干凈語(yǔ)音數(shù)據(jù)學(xué)習(xí)的,所述方法包括群集所述噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的所有添加噪聲的語(yǔ)音數(shù)據(jù)的群集步驟;根據(jù)所述群集步驟執(zhí)行的群集的結(jié)果產(chǎn)生單個(gè)樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間的語(yǔ)音模型空間產(chǎn)生步驟;提取要被識(shí)別的輸入有噪聲語(yǔ)音的語(yǔ)音特征參數(shù)的參數(shù)提取步驟;從在所述語(yǔ)音模型空間產(chǎn)生步驟中產(chǎn)生的樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型的選擇步驟;以及對(duì)在所述選擇步驟中選擇的模型施加線性變換以使所述模型提供進(jìn)一步提高的似然性的線性變換步驟。
全文摘要
本發(fā)明的目的是通過(guò)對(duì)語(yǔ)音識(shí)別產(chǎn)生具有單個(gè)樹(shù)形結(jié)構(gòu)的語(yǔ)音模型并且使用該模型便利對(duì)帶有變化SNR的有噪聲語(yǔ)音的處理和節(jié)省計(jì)算成本。在每個(gè)SNR條件下使用噪聲數(shù)據(jù)庫(kù)中存儲(chǔ)的每段噪聲數(shù)據(jù)計(jì)算具有該SNR條件的所有噪聲模型之間的距離并且群集添加噪聲的語(yǔ)音。根據(jù)該群集的結(jié)果,產(chǎn)生一個(gè)集成噪聲和SNR的單個(gè)樹(shù)形結(jié)構(gòu)模型空間(步驟S1至S5)。在噪聲提取步驟(步驟S6),分析要識(shí)別的輸入有噪聲語(yǔ)音以提取特征參數(shù)串并且彼此比較各HMM的似然性,以從該樹(shù)形結(jié)構(gòu)有噪聲語(yǔ)音模型空間選擇一個(gè)最優(yōu)模型(步驟S7)。對(duì)該選出的有噪聲語(yǔ)音模型空間施加線性變換以使似然性最大化(步驟S8)。
文檔編號(hào)G10L15/02GK1595497SQ20041007716
公開(kāi)日2005年3月16日 申請(qǐng)日期2004年9月10日 優(yōu)先權(quán)日2003年9月12日
發(fā)明者古井貞熙, 張志鵬, 堀越力, 杉村利明 申請(qǐng)人:古井貞熙, 株式會(huì)社Ntt都科摩
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
通山县| 孟村| 宝清县| 东乌| 东乌珠穆沁旗| 尉犁县| 扶沟县| 久治县| 南丹县| 府谷县| 清水县| 连州市| 清水河县| 临高县| 永善县| 绥阳县| 西乌| 景洪市| 遂溪县| 苗栗县| 津南区| 西贡区| 于田县| 渭源县| 美姑县| 苍溪县| 博湖县| 广灵县| 福贡县| 雅安市| 石家庄市| 宜章县| 吴川市| 武川县| 永和县| 合作市| 策勒县| 杭锦后旗| 灯塔市| 仙桃市| 龙里县|