两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

產(chǎn)生聲學(xué)模型的方法和裝置的制作方法

文檔序號(hào):2837150閱讀:466來(lái)源:國(guó)知局
專利名稱:產(chǎn)生聲學(xué)模型的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及產(chǎn)生語(yǔ)音的聲學(xué)模型的方法和裝置,模型被用于在噪聲環(huán)境下達(dá)到高識(shí)別率。
在噪聲環(huán)境下的普通語(yǔ)音識(shí)別中,噪聲數(shù)據(jù)疊加在語(yǔ)音樣本上,并且通過(guò)利用噪聲疊加的語(yǔ)音樣本對(duì)未訓(xùn)練的聲學(xué)模型訓(xùn)練以產(chǎn)生對(duì)應(yīng)噪聲環(huán)境下語(yǔ)音識(shí)別的聲學(xué)模型,參見(jiàn)“噪聲混合數(shù)據(jù)的想象識(shí)別系統(tǒng)評(píng)價(jià)”,1988年3月日本聲學(xué)學(xué)會(huì)會(huì)議論文集,3-P-8。


圖10示出了完成普通語(yǔ)音識(shí)別的普通聲學(xué)模型生成裝置的結(jié)構(gòu)。
在圖8所示的聲學(xué)模型生成裝置中,標(biāo)號(hào)201表示存儲(chǔ)器,標(biāo)號(hào)202表示CPU(中央處理單元)而標(biāo)號(hào)203表示鍵盤(pán)/顯示器。而且,標(biāo)號(hào)204表示CPU總線,存儲(chǔ)器201、CPU202和鍵盤(pán)/顯示器203通過(guò)其互相電氣連接起來(lái)。
而且,標(biāo)號(hào)205a為存儲(chǔ)訓(xùn)練用語(yǔ)音樣本205的存儲(chǔ)單元,標(biāo)號(hào)206a為存儲(chǔ)訓(xùn)練用的一種噪聲樣本的存儲(chǔ)單元而標(biāo)號(hào)207a為存儲(chǔ)未經(jīng)訓(xùn)練的聲學(xué)模型207的存儲(chǔ)單元,這些存儲(chǔ)單元205a—207a分別與CPU總線204電氣連接。
以下借助圖9描述經(jīng)CPU202處理生成的聲學(xué)模型。
在圖9中,字符S表示CPU202完成的處理步驟。
首先,CPU202從存儲(chǔ)單元205a讀取語(yǔ)音樣本205并從存儲(chǔ)單元206a讀取噪聲樣本206,并且CPU202將噪聲樣本206疊加在語(yǔ)音樣本205上(步驟S81),完成預(yù)先確定時(shí)間長(zhǎng)度上每個(gè)噪聲疊加的語(yǔ)音樣本的語(yǔ)音分析(步驟S82)。
接著,CPU202從存儲(chǔ)單元207讀取未經(jīng)訓(xùn)練的聲學(xué)模型207以根據(jù)語(yǔ)音分析處理的分析結(jié)果訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型207,從而生成對(duì)應(yīng)噪聲環(huán)境的聲學(xué)模型210(步驟S83)。以下將預(yù)先確定的時(shí)間長(zhǎng)度稱為幀,并且?guī)扔?0毫秒。
隨后,一種類型的噪聲樣本206是根據(jù)在大廳、車內(nèi)采集數(shù)十秒得到的噪聲獲得的一種數(shù)據(jù)。
按照該生成處理,當(dāng)根據(jù)疊加噪聲樣本的語(yǔ)音樣本完成未經(jīng)訓(xùn)練的聲學(xué)模型的訓(xùn)練操作時(shí),可以獲得較高的識(shí)別率。
但是,語(yǔ)音識(shí)別時(shí)的噪聲環(huán)境通常是未知的,因此在上述普通的生成處理中,如果語(yǔ)音識(shí)別時(shí)的噪聲環(huán)境不同于未經(jīng)訓(xùn)練的聲學(xué)模型訓(xùn)練操作時(shí)的噪聲環(huán)境,則會(huì)產(chǎn)生識(shí)別率降低的問(wèn)題。
為了解決該問(wèn)題,人們?cè)噲D采集語(yǔ)音識(shí)別時(shí)的所有噪聲樣本,但是這是不可能的。
實(shí)際上,通過(guò)假定語(yǔ)音識(shí)別時(shí)存在大量噪聲樣本,試圖采集假定的噪聲樣本從而完成訓(xùn)練操作。
但是由于要花費(fèi)巨大的時(shí)間,所以根據(jù)所有采集的噪聲樣本來(lái)訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型是效率低下的。此外,如果大量采集的噪聲樣本在性能上有偏移,則通過(guò)利用具有偏差特性的噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型將難以廣泛識(shí)別與偏差特性無(wú)關(guān)聯(lián)的未知噪聲。
本發(fā)明的目標(biāo)是克服上述難題。因此本發(fā)明的目標(biāo)是提供一種生成聲學(xué)模型的方法和裝置,它能夠?qū)⒄Z(yǔ)音識(shí)別階段存在的多個(gè)噪聲樣本分類為多個(gè)簇(c1uster)以從每簇中選擇噪聲樣本,并且能夠?qū)⑦x定的噪聲樣本作為訓(xùn)練用噪聲樣本疊加在訓(xùn)練用語(yǔ)音樣本上以根據(jù)疊加噪聲的語(yǔ)音樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型,從而生成聲學(xué)模型。
按照這些模型和系統(tǒng),可以通過(guò)利用生成的聲學(xué)模型完成語(yǔ)音識(shí)別,從而在未知的噪聲環(huán)境下獲得高識(shí)別率。
按照本發(fā)明的一個(gè)方面,提供了一種生成語(yǔ)音識(shí)別用聲學(xué)模型的裝置,所述裝置包含將多個(gè)第一噪聲樣本分類為簇的裝置,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;以及利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置。
按照本發(fā)明的另一個(gè)方面,提供了一種生成語(yǔ)音識(shí)別用聲學(xué)模型的方法,所述方法包含以下步驟制作多個(gè)第一噪聲樣本;制作訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型;將多個(gè)第一噪聲樣本分類為簇,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本;以及利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型。
按照本發(fā)明的另一個(gè)方面,提供了一種計(jì)算機(jī)編程的可讀存儲(chǔ)介質(zhì),包含使計(jì)算機(jī)將多個(gè)第一噪聲樣本分類為簇的裝置,所述簇的數(shù)量小于噪聲樣本數(shù)量;使計(jì)算機(jī)在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;使計(jì)算機(jī)存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;以及使計(jì)算機(jī)利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置。
在本發(fā)明的這些方面中,由于將多個(gè)對(duì)應(yīng)多種噪聲環(huán)境的第一噪聲樣本分類為從而在每個(gè)簇中選擇噪聲樣本,由此根據(jù)每個(gè)選定的噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型,生成語(yǔ)音識(shí)別用的訓(xùn)練過(guò)的聲學(xué)模型,所以可以利用少量的噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型并廣泛覆蓋多種無(wú)偏差的噪聲,從而可以生成能夠在任何未知環(huán)境下獲得高識(shí)別率的經(jīng)過(guò)訓(xùn)練的語(yǔ)音識(shí)別用的聲學(xué)模型。
按照本發(fā)明的另一個(gè)方面,提供了一種識(shí)別未知語(yǔ)音信號(hào)的裝置,包含將多個(gè)第一噪聲樣本分類為簇,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置;輸入未知語(yǔ)音信號(hào)的裝置;以及根據(jù)經(jīng)過(guò)訓(xùn)練的語(yǔ)音識(shí)別用聲學(xué)模型識(shí)別未知的語(yǔ)音信號(hào)的裝置。
在本發(fā)明的進(jìn)一步方面,由于根據(jù)多個(gè)噪聲樣本來(lái)利用上述語(yǔ)音識(shí)別的訓(xùn)練的聲學(xué)模型,所以可以在噪聲環(huán)境下獲取高識(shí)別率。
通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的描述將進(jìn)一步理解本發(fā)明的其他目標(biāo)和方面,其中圖1為按照本發(fā)明第一實(shí)施例的聲學(xué)模型生成裝置的結(jié)構(gòu)示意圖;圖2為按照本發(fā)明第一實(shí)施例的聲學(xué)模型生成裝置的操作流程圖;圖3為按照第一實(shí)施例的圖1步驟S23詳細(xì)操作的流程圖;圖4為按照第一實(shí)施例的噪聲樣本示意圖;圖5為圖3中步驟S23a—23f的操作結(jié)果獲得的系統(tǒng)樹(shù)圖;圖6為按照第一實(shí)施例的聲學(xué)模型生成裝置生成聲學(xué)模型操作的流程圖;圖7為圖6步驟S33中幀匹配操作概念的示意圖;圖8為按照本發(fā)明第二實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)示意圖;圖9為按照本發(fā)明第二實(shí)施例的語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別操作的流程圖;圖10為普通聲學(xué)模型生成裝置的結(jié)構(gòu)示意圖;以及圖11為圖10所示語(yǔ)音識(shí)別裝置普通聲學(xué)模型生成操作的流程圖。
以下借助附圖描述本發(fā)明的較佳實(shí)施例。
(第一實(shí)施例)圖1為按照本發(fā)明第一實(shí)施例的聲學(xué)模型生成裝置的結(jié)構(gòu)示意圖。
在圖1中,由至少一臺(tái)計(jì)算機(jī)構(gòu)成的聲學(xué)模型生成裝置100包含存儲(chǔ)程序P的存儲(chǔ)器101、可以讀取程序P并且根據(jù)程序P完成操作的CPU102。
聲學(xué)模型生成裝置100還包含鍵盤(pán)/顯示單元103,用于操作人員向CPU102輸入數(shù)據(jù)和根據(jù)發(fā)送的數(shù)據(jù)顯示信息;以及CPU總線104,存儲(chǔ)器101、CPU102和鍵盤(pán)/顯示單元103通過(guò)其電氣連接從而允許相互之間進(jìn)行數(shù)據(jù)通信。
而且,聲學(xué)模型生成裝置100包含存儲(chǔ)訓(xùn)練用的多個(gè)語(yǔ)音樣本105的第一存儲(chǔ)單元105a、存儲(chǔ)多個(gè)噪聲樣本NO1、NO2、…、NOM的第二存儲(chǔ)單元106、存儲(chǔ)由CPU102生成的訓(xùn)練用的噪聲樣本的第三存儲(chǔ)單元107以及存儲(chǔ)未經(jīng)訓(xùn)練的聲學(xué)模型108的第四存儲(chǔ)單元108a。這些存儲(chǔ)單元與CPU總線104電氣連接從而可以使CPU102往來(lái)于這些存儲(chǔ)單元進(jìn)行訪問(wèn)。
在該第一實(shí)施例中,CPU102首先根據(jù)圖2所示流程圖的程序P執(zhí)行選擇操作,接著,根據(jù)圖6所示的流程圖的程序P執(zhí)行聲學(xué)模型生成操作。
即,以下借助圖2描述CPU102訓(xùn)練用的噪聲樣本的選擇操作。
即,如圖2所示,提前制作盡可能多的存儲(chǔ)在第二存儲(chǔ)單元106上的對(duì)應(yīng)多個(gè)噪聲環(huán)境的多個(gè)噪聲樣本NO1、NO2、…、NOM。在該實(shí)施例中,噪聲樣本的數(shù)量例如為M。
CPU102在預(yù)先確定的時(shí)間長(zhǎng)度(預(yù)先確定部分;以下稱為幀)上執(zhí)行每個(gè)噪聲樣本NO1、NO2、…、NOM的語(yǔ)音分析從而獲得每個(gè)噪聲樣本NO1、NO2、…、NOM中每幀的k階特性參數(shù)(步驟S21)。
在該實(shí)施例中,幀(預(yù)先確定的時(shí)間長(zhǎng)度)對(duì)應(yīng)10毫秒,并且作為k階特性參數(shù),采用第一階一第七階LPC(線性預(yù)測(cè)編碼)倒頻譜系數(shù)(C1、C2、…、C7)。這些k階特性參數(shù)被稱為特性矢量。
隨后,CPU102獲取每個(gè)噪聲樣本NO1、NO2、…、NOM的每個(gè)特性矢量?jī)?nèi)的時(shí)間平均矢量。因此獲得了對(duì)應(yīng)M個(gè)噪聲樣本NO1、NO2、…、NOM的M個(gè)時(shí)間平均矢量(步驟S22)。
接著,通過(guò)利用簇化方法將M個(gè)時(shí)間平均矢量分類(簇化)為N類(簇)(步驟S23)。在該實(shí)施例中,作為簇化方法,采用分層簇化方法。
即,在分層簇化方法中,噪聲樣本(時(shí)間平均矢量)之間的距離被用作噪聲樣本(時(shí)間平均矢量)之間相似性(同質(zhì)化)的量度。在該實(shí)施例中,作為噪聲樣本之間相似性的量度,采用兩個(gè)時(shí)間平均矢量之間的加權(quán)歐幾里得距離。作為噪聲樣本之間相似性的其他量度,可以采用歐幾里得距離、普通的Mahalanobis距離、考慮樣本乘積之和和離散度的Battacharyya距離。
此外,在該實(shí)施例中,兩個(gè)簇之間的距離被定義為“通過(guò)將屬于兩個(gè)簇的任意兩個(gè)樣本組合形成的距離中的最小距離(最近距離)”。定義方法被稱為“最近鄰方法”。
可以采用其他定義方法作為兩個(gè)簇之間的距離。
例如,作為其他定義方法,兩個(gè)簇之間的距離可以定義為“通過(guò)將屬于兩個(gè)簇的任意兩個(gè)樣本組合形成的距離中的最大距離(最遠(yuǎn)距離)”,該定義方法被稱為“最遠(yuǎn)近鄰方法”,可以定義為“兩個(gè)簇質(zhì)心之間的距離”,該方法被稱為“質(zhì)心方法”,而且可以定義為“通過(guò)將屬于兩個(gè)簇的任意兩個(gè)樣本組合形成的所有距離平均化計(jì)算得到的平均距離”,該定義方法被稱為“分組平均方法”。
即,CPU102將M個(gè)時(shí)間平均的矢量設(shè)定為M個(gè)簇(圖3的步驟23a),并通過(guò)利用最近鄰方法計(jì)算每個(gè)簇之間的每個(gè)距離(步驟S23b)。
接著,CPU102提取至少一對(duì)距離比其他兩簇對(duì)都短(最近)的兩簇對(duì)(步驟S23c),并且將兩個(gè)提取的簇鏈接以將鏈接的簇設(shè)定為同一簇(步驟S23d)。
CPU102確定簇的數(shù)量是否等于1(步驟S23e),并且如果步驟S23e中的確定結(jié)果為NO,則CPU102返回步驟S23c的處理,從而通過(guò)利用鏈接簇重復(fù)地完成從步驟S23c—S23e的操作。
隨后,如果簇的數(shù)量為1使得步驟S23e的確定結(jié)果為YES,則CPU102根據(jù)簇之間的鏈接關(guān)系生成指示M個(gè)噪聲樣本NO1、NO2、…、NOM之間相似性的系統(tǒng)樹(shù)圖DE(步驟S23f)。
在該實(shí)施例中,數(shù)量M被設(shè)定為17,因此40秒內(nèi)的噪聲樣本NO1~NO17例如如圖4所示。
在圖4中,示出了每個(gè)噪聲樣本的名稱和標(biāo)記屬性。例如,噪聲樣本NO1的名稱為“河流”而屬性為河流的沙沙聲,噪聲樣本NO11的名稱為“商務(wù)辦公室”而屬性為商務(wù)辦公室內(nèi)的噪聲。
圖5示出了步驟S23a~S23f中簇化操作結(jié)果獲得的系統(tǒng)樹(shù)圖DE。
在圖5所示的系統(tǒng)樹(shù)圖DE中,沿水平方向的長(zhǎng)度指示每個(gè)簇之間的距離,當(dāng)在給定位置切割系統(tǒng)樹(shù)圖DE時(shí),簇被配置為相互鏈接和相關(guān)的噪聲樣本組。
即,在該實(shí)施例中,CPU102在破折線C-C上的預(yù)先確定位置切割系統(tǒng)樹(shù)圖DE從而將噪聲樣本NO1~NO17劃分為N(=5)個(gè)簇,其中N小于M(步驟S23g)。
如圖5所示,在破折線C-C上切割系統(tǒng)樹(shù)圖DE滯后,由于噪聲樣本NO1與NO2互相鏈接,噪聲樣本NO3~NO5彼此鏈接,噪聲樣本NO8與NO9彼此鏈接,噪聲樣本NO10~NO12彼此鏈接,噪聲樣本NO13~NO15彼此鏈接,以及噪聲樣本NO16與NO17彼此鏈接,所以可以將噪聲樣本噪聲樣本NO1~NO17分類為N(=5)個(gè)簇。
即,簇1~5定義如下簇1{“噪聲樣本NO1(河流)”與“噪聲樣本NO2(音樂(lè))”};簇2{“噪聲樣本NO3(標(biāo)記II)”、“噪聲樣本NO4(花冠)”、“噪聲樣本NO5(ESTIMA)”、“噪聲樣本NO6(MAJESTA)”和“噪聲樣本NO7(PORTOPIA大廳)”};簇3{“噪聲樣本NO8(數(shù)據(jù)顯示大廳)”與“噪聲樣本NO9(地鐵)”};簇4{“噪聲樣本NO10(百貨商場(chǎng))”、“噪聲樣本NO11(商務(wù)辦公室)”、“噪聲樣本NO12(實(shí)驗(yàn)室)”、“噪聲樣本NO13(BUZZ-BUZZ)”、“噪聲樣本NO14(辦公室)”和“噪聲樣本NO17(街道工廠)”};以及簇5{“噪聲樣本NO16(幼兒園)”與“噪聲樣本NO17(東京火車站)”}。
在完成步驟S23(S23a~S23g)之后,CPU102在簇1~5的每一個(gè)中任意選擇一個(gè)噪聲樣本以設(shè)置選定的噪聲樣本為N個(gè)噪聲樣本(噪聲樣本1~N(=5)),從而將選定的噪聲樣本作為訓(xùn)練NL1~NLN用的噪聲樣本存儲(chǔ)在第三存儲(chǔ)單元107上(步驟S24)。作為在簇中選擇一個(gè)噪聲樣本的方式,可以選擇最靠近簇中質(zhì)心的一個(gè)噪聲樣本或者在簇中隨機(jī)選擇一個(gè)噪聲樣本。
在該實(shí)施例中,CPU102選擇簇1中的噪聲樣本NO1(河流)、簇2中的噪聲樣本NO3(標(biāo)記II)、簇3中的噪聲樣本NO8(數(shù)據(jù)顯示大廳)、簇4中的噪聲樣本NO10(百貨商場(chǎng))以及噪聲樣本NO16(幼兒園),并且將選定的噪聲樣本NO1、NO3、NO8、NO10和NO16設(shè)定為訓(xùn)練用的噪聲樣本NL1、NL2、NL3、NL4和NL5、以存儲(chǔ)在第三存儲(chǔ)單元107上。
其次,以下按照?qǐng)D6描述CPU102的聲學(xué)模型生成操作。
首先,CPU102從第三存儲(chǔ)單元107中提取噪聲樣本NL1~NLN中的一個(gè)(步驟S30),并且將提取的噪聲樣本NL1~NLN中的一個(gè)疊加在存儲(chǔ)在第一存儲(chǔ)單元105a上的多個(gè)訓(xùn)練用語(yǔ)音樣本105上(步驟S31)。
在該實(shí)施例中,作為訓(xùn)練用的語(yǔ)音樣本105,采用一組音韻學(xué)平衡單詞543×80人。
以下描述步驟S31中的疊加方式。
CPU102以預(yù)先確定的采樣頻率(Hz)將語(yǔ)音樣本105轉(zhuǎn)換為數(shù)字信號(hào)S(i)(i=1,…,I)并且以采樣頻率(Hz)將提取的噪聲樣本NLn(1≤n≤N)轉(zhuǎn)換為數(shù)字信號(hào)Nn(i)(i=1,…,I)。接著,CPU102將數(shù)字信號(hào)Nn(i)疊加在數(shù)字信號(hào)S(i)上以生成疊加噪聲的語(yǔ)音樣本數(shù)據(jù)Sn(i)(i=1,…,I),它用下列方程表示為Sn(i)=S(i)+Nn(i)(1)這里i=1,…,I,并且I為采樣頻率乘以數(shù)據(jù)采樣時(shí)間獲得的數(shù)值。
接著,CPU102在預(yù)先確定的時(shí)間長(zhǎng)度(幀)內(nèi)執(zhí)行疊加噪聲的語(yǔ)音樣本數(shù)據(jù)Sn(i)的語(yǔ)音分析從而獲得對(duì)應(yīng)疊加噪聲語(yǔ)音樣本數(shù)據(jù)的p階時(shí)間順序特性參數(shù)(步驟S32)。
具體而言,在步驟S32中,CPU102在幀內(nèi)執(zhí)行疊加噪聲的語(yǔ)音樣本數(shù)據(jù)的語(yǔ)音分析從而獲得每幀語(yǔ)音樣本數(shù)據(jù)的作為p階特性參數(shù)的LPC倒頻譜系數(shù)和這些時(shí)間回歸系數(shù)。在該實(shí)施例中,采用LPC倒頻譜系數(shù),但是可以采用FFT(快速傅利葉變換)倒頻譜系數(shù)、MFCC(Mel頻率倒頻譜系數(shù))、Mel-LPC倒頻譜系數(shù)等代替LPC倒頻譜系數(shù)。
接著,CPU102利用作為特性參數(shù)矢量的p階特性參數(shù)訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型108(步驟S33)。在該實(shí)施例中,特性參數(shù)矢量由每幀的特性參數(shù)組成,但是特性參數(shù)矢量可以由多幀的特性參數(shù)組成。
作為完成步驟S31-S33中操作的結(jié)果,根據(jù)提取的噪聲樣本NLn訓(xùn)練聲學(xué)模型108。
隨后,CPU102判斷聲學(xué)模型108是否根據(jù)所有噪聲樣本NLn(n=1~N)得到訓(xùn)練,并且如果步驟S34中的判斷為NO,則CPU102返回步驟S31中的處理從而重復(fù)完成步驟S31-S34的操作。
如果聲學(xué)模型108根據(jù)所有噪聲樣本NLn(n=1~N)得到訓(xùn)練從而使步驟S34中的判斷為YES,則CPU102將生成的聲學(xué)模型作為經(jīng)過(guò)訓(xùn)練的聲學(xué)模型110存儲(chǔ)在第四存儲(chǔ)單元108a上,模型1O根據(jù)所有的噪聲樣本NLn得到訓(xùn)練(步驟S35)。
作為訓(xùn)練用的聲學(xué)模型108,可以采用DP(動(dòng)態(tài)規(guī)劃)匹配方法的矢量特性的時(shí)域序列模式,它們被稱為標(biāo)準(zhǔn)模式隨機(jī)模型,例如HMM(隱含Markov模型)。在該實(shí)施例中,作為訓(xùn)練用的聲學(xué)模型108,采用DP匹配方法的標(biāo)準(zhǔn)模式。DP匹配方法是一種能夠在考慮時(shí)間軸標(biāo)度的同時(shí)計(jì)算兩種模式之間相似性的有效方法。
作為標(biāo)準(zhǔn)模式的單位,通常采用音素、音節(jié)、半音節(jié)、CV/VC(輔音+元音/元音+輔音)等。在該實(shí)施例中,采用音節(jié)作為標(biāo)準(zhǔn)模式的單位。標(biāo)準(zhǔn)模式的幀數(shù)量被設(shè)定為等于平均音節(jié)幀。
即,在訓(xùn)練步驟S33中,步驟S32獲得的特性參數(shù)矢量(疊加噪聲語(yǔ)音樣本)由音節(jié)分割,并且在考慮時(shí)間標(biāo)度的同時(shí)利用DP匹配方法使切割的語(yǔ)音樣本和標(biāo)準(zhǔn)模式在每幀上都得到匹配,從而使每個(gè)特性參數(shù)矢量的各幀對(duì)應(yīng)每個(gè)標(biāo)準(zhǔn)模式的幀。
圖7示出了步驟S33內(nèi)的幀匹配操作。即,對(duì)應(yīng)“/A//SA//HI/”、“/BI//SA//I/”的特性參數(shù)矢量(噪聲疊加語(yǔ)音樣本數(shù)據(jù))與對(duì)應(yīng)“/SA/”的標(biāo)準(zhǔn)模式在音節(jié)(//)上匹配。
在該實(shí)施例中,假定每個(gè)標(biāo)準(zhǔn)模式(標(biāo)準(zhǔn)矢量)符合單個(gè)高斯分布,則獲得對(duì)應(yīng)每個(gè)標(biāo)準(zhǔn)模式的每幀的每個(gè)特性參數(shù)矢量的每幀的平均矢量和協(xié)方差,從而使每個(gè)標(biāo)準(zhǔn)模式的每幀的平均矢量和協(xié)方差為經(jīng)過(guò)訓(xùn)練的標(biāo)準(zhǔn)模式(經(jīng)過(guò)訓(xùn)練的聲學(xué)模型)。在該實(shí)施例中,采用單個(gè)高斯分布,但是可以采用混合高斯分布。
根據(jù)所有的噪聲樣本NLn(n=1~N)完成上述訓(xùn)練操作。因此,最后可以根據(jù)所有噪聲樣本NLn(n=1~N)獲得經(jīng)過(guò)訓(xùn)練的聲學(xué)模型110,它包含對(duì)應(yīng)疊加N個(gè)噪聲樣本的語(yǔ)音樣本數(shù)據(jù)的平均矢量和協(xié)方差矩陣。
如上所述,由于將對(duì)應(yīng)多個(gè)噪聲環(huán)境的多個(gè)噪聲樣本分類為簇,所以可以在每個(gè)簇中選擇一個(gè)噪聲樣本從而獲得涵蓋多種噪聲環(huán)境而數(shù)量又較少噪聲樣本。
因此,由于將獲得的噪聲樣本疊加在語(yǔ)音樣本上從而根據(jù)疊加噪聲的語(yǔ)音樣本數(shù)據(jù)訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型,所以可以利用少量的噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型并且廣泛地涵蓋多種無(wú)偏差的噪聲,可以生成能夠在任何未知環(huán)境下獲得高識(shí)別率的訓(xùn)練過(guò)的聲學(xué)模型。
(第二實(shí)施例)圖8為按照本發(fā)明第二實(shí)施例的語(yǔ)音識(shí)別裝置150的結(jié)構(gòu)示意圖。
由至少一臺(tái)與第一實(shí)施例中計(jì)算機(jī)相同的計(jì)算機(jī)構(gòu)成的語(yǔ)音識(shí)別裝置150包含存儲(chǔ)程序P1的存儲(chǔ)器151、可以讀取程序P1并且根據(jù)程序P1完成操作的CPU152、用于操作人員向CPU152輸入數(shù)據(jù)和根據(jù)發(fā)送的數(shù)據(jù)顯示信息鍵盤(pán)/顯示單元153以及CPU總線154,上述單元151~153通過(guò)其電氣連接從而允許相互之間進(jìn)行數(shù)據(jù)通信。
而且語(yǔ)音識(shí)別裝置150包含語(yǔ)音輸入單元155,用于將未知的語(yǔ)音信號(hào)輸入CPU152;存儲(chǔ)識(shí)別用單詞的音節(jié)的字典數(shù)據(jù)庫(kù)156;以及存儲(chǔ)單元157,存儲(chǔ)第一實(shí)施例中聲學(xué)模型生成裝置100生成的每個(gè)音節(jié)的經(jīng)過(guò)訓(xùn)練的聲學(xué)模型110。輸入單元155、字典數(shù)據(jù)庫(kù)155和存儲(chǔ)單元156與CPU總線154電氣鏈接從而使CPU152可以往來(lái)訪問(wèn)于輸入單元155、字典數(shù)據(jù)庫(kù)156和存儲(chǔ)單元157。
在該實(shí)施例中,當(dāng)通過(guò)輸入單元155向CPU152輸入未知的語(yǔ)音信號(hào)時(shí),CPU152按照?qǐng)D9所示的流程,根據(jù)程序P1,以輸入的語(yǔ)音信號(hào)執(zhí)行語(yǔ)音識(shí)別操作。
即,CPU152首先在預(yù)先確定的時(shí)間長(zhǎng)度(幀)上執(zhí)行輸入語(yǔ)音信號(hào)的語(yǔ)音分析,從而提取每幀的k階順序特性參數(shù),這些操作與圖2的步驟S32類似,因此提取的特性參數(shù)等價(jià)于步驟S32中的參數(shù)(步驟S61)。
CPU152根據(jù)存儲(chǔ)在字典數(shù)據(jù)庫(kù)156內(nèi)的音節(jié)完成輸入的未知語(yǔ)音信號(hào)的順序特性參數(shù)與每個(gè)音節(jié)的聲學(xué)模型110之間的DP匹配,從而輸出在其他單詞中具有最大相似性的單詞作為語(yǔ)音識(shí)別結(jié)果(步驟S63)。
按照完成上述操作的語(yǔ)音識(shí)別裝置150,利用語(yǔ)音樣本訓(xùn)練聲學(xué)模型,在該樣本上疊加了使大量噪聲樣本簇化確定的噪聲樣本,從而可以在未知環(huán)境下獲得高識(shí)別率。
以下描述利用語(yǔ)音識(shí)別裝置的語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果。
為了證明本發(fā)明的效果,利用上述實(shí)施例獲得的語(yǔ)音識(shí)別裝置150和聲學(xué)模型進(jìn)行語(yǔ)音識(shí)別實(shí)驗(yàn)。作為評(píng)價(jià)數(shù)據(jù),采用10個(gè)人講的幾百個(gè)地名的語(yǔ)音數(shù)據(jù)。未用于行進(jìn)的鼻音樣本被疊加在評(píng)價(jià)數(shù)據(jù)上從而完成100個(gè)單詞(100個(gè)地名)的識(shí)別實(shí)驗(yàn)。對(duì)應(yīng)噪聲樣本NL1~NLN(N=5)的訓(xùn)練用噪聲樣本為“河流”、“標(biāo)記II”、“數(shù)據(jù)顯示大廳”、“辦公室”和“KINDERGRATEN”。
疊加在評(píng)價(jià)數(shù)據(jù)上的噪聲樣本是簇1中的“音樂(lè)”、簇2中的“MAJESTA”、簇3中的“地鐵”、簇4中的“辦公室”和簇5中的“東京火車站”。此外,作為未知的噪聲樣本,在路旁錄制的噪聲樣本“道路”和錄制的TV的噪聲樣本“TV CM”被疊加在評(píng)價(jià)數(shù)據(jù)上,從而進(jìn)行單詞識(shí)別實(shí)驗(yàn)。
而且作為對(duì)比實(shí)驗(yàn),同樣進(jìn)行利用只經(jīng)過(guò)簇2中噪聲樣本“標(biāo)記II”訓(xùn)練的聲學(xué)模型的單詞識(shí)別實(shí)驗(yàn)(對(duì)應(yīng)上述普通語(yǔ)音識(shí)別)。
作為這些實(shí)驗(yàn)的結(jié)果,表1示出了單詞識(shí)別率(%)。
如表1所示,按照利用簇2中噪聲樣本標(biāo)記II訓(xùn)練的(A),如果訓(xùn)練時(shí)與識(shí)別時(shí)的噪聲樣本相同(例如簇中的噪聲樣本),則獲得例如94.8%的高識(shí)別率。
但是在屬于簇2以外簇的噪聲環(huán)境中,識(shí)別率變差。
相反,按照利用簇1~5中所有噪聲樣本訓(xùn)練的(B),獲得的除了簇2以外的各簇的識(shí)別率為簇1中的77.1%、簇3中的92.7%、簇4中的90.5%、簇5中的91.3%,高于按照(A)的識(shí)別率。
而且,按照未知噪聲環(huán)境下的實(shí)驗(yàn),對(duì)應(yīng)(B)的本發(fā)明噪聲樣本“道路”和“TV CM”下的識(shí)別率高于對(duì)應(yīng)(A)的普通語(yǔ)音識(shí)別。
因此在本發(fā)明中,顯而易見(jiàn)的是在未知噪聲環(huán)境下獲得了高識(shí)別率。
在實(shí)施例中,選定的N個(gè)噪聲樣本被疊加在訓(xùn)練用的語(yǔ)音樣本上從而訓(xùn)練狀態(tài)為單個(gè)高斯分布的未經(jīng)訓(xùn)練的聲學(xué)模型,但是在本發(fā)明中,聲學(xué)模型的狀態(tài)可以是由對(duì)應(yīng)各噪聲樣本的N個(gè)高斯分布組成的混合高斯分布。而且可以訓(xùn)練N個(gè)聲學(xué)模型,每個(gè)表示單個(gè)高斯分布,從而當(dāng)進(jìn)行語(yǔ)音識(shí)別時(shí),可以完成N個(gè)聲學(xué)模型與對(duì)應(yīng)輸入的未知語(yǔ)音信號(hào)的特性參數(shù)之間的匹配操作,從而將分?jǐn)?shù)設(shè)定為具有最大相似性的聲學(xué)模型作為最大分?jǐn)?shù)。
雖然借助較佳實(shí)施例描述了本發(fā)明,但是本發(fā)明的精神和范圍由所附權(quán)利要求限定。
權(quán)利要求
1.一種生成語(yǔ)音識(shí)別用聲學(xué)模型的裝置,其特征在于所述裝置包含將多個(gè)第一噪聲樣本分類為簇的裝置,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;以及利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置。
2.如權(quán)利要求1所述的裝置,其特征在于所述分類裝置進(jìn)一步包含按幀執(zhí)行每個(gè)第一噪聲樣本的語(yǔ)音分析以獲得每個(gè)第一噪聲樣本內(nèi)每幀的特性參數(shù)的裝置;獲得每個(gè)第一噪聲樣本的每個(gè)特性矢量的時(shí)間平均矢量的裝置;以及將各特性矢量的時(shí)間平均矢量劃分入簇的裝置。
3.如權(quán)利要求2所述的裝置,其特征在于所述簇化裝置利用分層簇化方法完成簇化操作。
4.如權(quán)利要求2所述的裝置,其特征在于所述簇化裝置進(jìn)一步包括將時(shí)間平均矢量設(shè)定為簇的裝置;計(jì)算每個(gè)簇之間的每個(gè)距離的裝置;提取設(shè)定簇中至少一對(duì)簇由(兩簇組成)的裝置,所述至少一對(duì)簇對(duì)提供了在設(shè)定簇中比其他任何兩簇的對(duì)都短的距離;將兩個(gè)提取的簇鏈接以將鏈接的簇設(shè)定為同一簇的裝置;確定包含同一簇的簇的數(shù)量是否等于1,所述提取裝置和鏈接裝置在確定簇的數(shù)量不等于1時(shí)重復(fù)完成提取操作和鏈接操作;如果確定簇的數(shù)量等于1則生成系統(tǒng)樹(shù)圖來(lái)指示鏈接簇之間的鏈接關(guān)系并指示第一噪聲樣本之間相似性的裝置;以及在預(yù)先確定的位置切割系統(tǒng)樹(shù)圖以獲得互相鏈接的多個(gè)簇的裝置,其中所述選擇裝置在每個(gè)獲得的多個(gè)簇中選擇噪聲樣本。
5.如權(quán)利要求1所述的裝置,其特征在于所述訓(xùn)練裝置進(jìn)一步包括存儲(chǔ)訓(xùn)練用的多個(gè)語(yǔ)音樣本的裝置;提取至少一個(gè)訓(xùn)練用的第二噪聲樣本的裝置;將至少一個(gè)提取的第二噪聲樣本疊加在訓(xùn)練用語(yǔ)音樣本上的裝置;按幀執(zhí)行每個(gè)疊加噪聲的語(yǔ)音樣本的語(yǔ)音分析以獲得對(duì)應(yīng)噪聲疊加語(yǔ)音樣本的特性參數(shù)的裝置;以及根據(jù)獲得的特性參數(shù)訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型以獲得語(yǔ)音識(shí)別用聲學(xué)模型的裝置,所述經(jīng)過(guò)訓(xùn)練的聲學(xué)模型按照至少一個(gè)提取的噪聲樣本進(jìn)行訓(xùn)練。
6.一種識(shí)別未知語(yǔ)音信號(hào)的裝置,其特征在于包含將多個(gè)第一噪聲樣本分類為簇,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置;輸入未知語(yǔ)音信號(hào)的裝置;以及根據(jù)經(jīng)過(guò)訓(xùn)練的語(yǔ)音識(shí)別用聲學(xué)模型識(shí)別未知的語(yǔ)音信號(hào)的裝置。
7.一種計(jì)算機(jī)編程的可讀存儲(chǔ)介質(zhì),其特征在于包含使計(jì)算機(jī)將多個(gè)第一噪聲樣本分類為簇的裝置,所述簇的數(shù)量小于噪聲樣本數(shù)量;使計(jì)算機(jī)在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本的裝置;使計(jì)算機(jī)存儲(chǔ)訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型的裝置;以及使計(jì)算機(jī)利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型的裝置。
8.一種生成語(yǔ)音識(shí)別用聲學(xué)模型的方法,其特征在于所述方法包含以下步驟制作多個(gè)第一噪聲樣本;制作訓(xùn)練用的未經(jīng)訓(xùn)練的聲學(xué)模型;將多個(gè)第一噪聲樣本分類為簇,所述簇的數(shù)量小于噪聲樣本數(shù)量;在每個(gè)簇中選擇噪聲樣本以將選定的噪聲樣本設(shè)定為訓(xùn)練用的第二噪聲樣本;以及利用訓(xùn)練用的第二噪聲樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型從而生成語(yǔ)音識(shí)別用的聲學(xué)模型。
全文摘要
本發(fā)明提供一種生成聲學(xué)模型的方法和裝置,它能夠?qū)⒄Z(yǔ)音識(shí)別階段存在的多個(gè)噪聲樣本分類為多個(gè)簇以從每簇中選擇噪聲樣本,并且能夠?qū)⑦x定的噪聲樣本作為訓(xùn)練用噪聲樣本疊加在訓(xùn)練用語(yǔ)音樣本上以根據(jù)疊加噪聲的語(yǔ)音樣本訓(xùn)練未經(jīng)訓(xùn)練的聲學(xué)模型,從而生成聲學(xué)模型。
文檔編號(hào)G10L15/06GK1331467SQ0112252
公開(kāi)日2002年1月16日 申請(qǐng)日期2001年6月27日 優(yōu)先權(quán)日2000年6月28日
發(fā)明者山田麻紀(jì), 星見(jiàn)昌克 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
涿鹿县| 滦平县| 应城市| 大方县| 凤翔县| 金塔县| 通渭县| 宣武区| 沂南县| 秦皇岛市| 满城县| 临清市| 疏勒县| 泰来县| 扎囊县| 岚皋县| 马边| 东城区| 隆安县| 彩票| 广灵县| 惠水县| 三穗县| 广德县| 大冶市| 贺州市| 永丰县| 兰坪| 抚州市| 东明县| 柘城县| 马关县| 绥宁县| 新郑市| 寿宁县| 五寨县| 镇江市| 仪征市| 丰台区| 阳曲县| 北票市|