两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語音識別設(shè)備的制作方法

文檔序號:2821043閱讀:279來源:國知局
專利名稱:語音識別設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及基于用于與說話者無關(guān)的語音識別的語音模型來識別語音的系統(tǒng),以及具體地說,涉及能優(yōu)選地用于減少與說話者無關(guān)的語音識別所需的存儲器容量的語音識別設(shè)備。
背景技術(shù)
通常,用于識別非特定人的語音的技術(shù)稱為與說話者無關(guān)的語音識別,以及用于識別特定人的語音的技術(shù)稱為與說話者相關(guān)的語音識別。
作為用于識別語音的一種方法,例如,使用通過用于每個(gè)音素的語音參數(shù)模型化的語音模型來識別語音,組成一個(gè)詞的音素定義為語音單元。用詞“Hokkaido”舉例,用具有串聯(lián)連接的九個(gè)音素“h”、“o”、“ts”、“k”、“a”、“i”、“d”、“o”和“u”的網(wǎng)絡(luò)產(chǎn)生語音模型“Hokkaido”。另外,為識別另一詞,諸如“Aomori”或“Akita”,應(yīng)當(dāng)準(zhǔn)備匹配該詞的語音模型。在與說話者無關(guān)的語音識別的情況下,用對許多人公用的語音參數(shù)來模型化這一語音模型。
作為用于使用音素的語音模型的用于與說話者無關(guān)的語音識別的技術(shù),通常已知Hidden Markov Model(在下文中簡稱為HMM),并在例如“Digital signal Processing of Speech/Sound Information”(Kiyohiro Shikano,Testu Nakamura和Shiro Ise共同擁有著作權(quán),SHOKODO CO.,LTD.)中詳細(xì)地描述。
將參考圖7、8A和8B簡單地描述用于通過HMM的與說話者無關(guān)的語音識別的方法。圖7表示具有劃分成預(yù)定段的音素的音素組。圖8A和8B表示通過串聯(lián)連接的音素的網(wǎng)絡(luò)模型化的語音模型的原理。
根據(jù)HMM,在日語的情況下,首先使用元音、摩擦音、塞擦音、爆破音、半元音和鼻音的任何音素,通過串聯(lián)連接的音素的網(wǎng)絡(luò)組成一個(gè)詞,如圖7所示。產(chǎn)生匹配該詞的狀態(tài)轉(zhuǎn)變以及對每種狀態(tài),指定表示轉(zhuǎn)變到下一狀態(tài)的概率的轉(zhuǎn)變概率以及表示當(dāng)轉(zhuǎn)變到下一狀態(tài)時(shí),輸出語音參數(shù)的概率的輸出概率,由此產(chǎn)生語音模型。例如,通過按說話順序,串聯(lián)連接的九個(gè)音素的網(wǎng)絡(luò)能模型化用于詞“Hokkaido”的語音模型,如圖8A所示。每個(gè)音素的HMM的狀態(tài)轉(zhuǎn)變?nèi)鐖D8B所示。
在這里,圖8B中的a(I,J)表示從狀態(tài)I到狀態(tài)J的轉(zhuǎn)變概率,例如,該圖中的a(1,1,)表示從狀態(tài)1到狀態(tài)1的轉(zhuǎn)變概率。此外,b(I,x)表示當(dāng)獲得語音參數(shù)x時(shí),狀態(tài)I中的輸出概率,以及該圖中的b(1,x)表示當(dāng)獲得語音參數(shù)x時(shí),狀態(tài)1的輸出概率。
此外,圖8B中的p(I)表示狀態(tài)I的概率,并用下述公式(1)表示。
P(I)=max(p(I)×a(I,I),p(I-1)×a(I-1,I))×b(I,X).......(1)在上述公式(1)中,“max”是選擇自變量的最大值的函數(shù)。
現(xiàn)在,參考圖9將詳細(xì)地描述使用類似此的多個(gè)語音模型來識別具有相對長的詞序列的語音。其例子包括具有象地址等等鏈接的轄區(qū)的名稱和城市、市鎮(zhèn)或鄉(xiāng)村的名稱的詞序列的語音識別。圖9表示語音模型網(wǎng)絡(luò)500的結(jié)構(gòu)。
如圖9所示,語音模型網(wǎng)絡(luò)包括檢測輸入語音的不發(fā)聲部分的停止(pose)、組合了能識別轄區(qū)名稱的語音的多個(gè)語音模型的語音模型組504、組合了能識別轄區(qū)下各城市名稱的語音的多個(gè)語音模型的語音模型組506、組合了能識別城市下行政區(qū)或城鎮(zhèn)名稱的語音的多個(gè)語音模型的語音模型組508、組合了能識別行政區(qū)或城鎮(zhèn)下地區(qū)名稱的多個(gè)語音模型的語音模型組510和檢測輸入語音的不發(fā)聲部分的停止512。
語音模型組504組合了對應(yīng)于轄區(qū)并能識別轄區(qū)名稱的語音的語音模型,并鏈接到停止502。
語音模型組506組合了對應(yīng)于城市并能識別城市名稱的語音的語音模型,并鏈接到屬于語音模型組504的語音模型。在圖9的例子中,組合了能識別屬于Kanagawa轄區(qū)的城市名稱的語音的語音模型的語音模型組506被鏈接到屬于能識別Kanagawa轄區(qū)的語音的語音模型組504的一個(gè)語音模型。
語音模型組508組合了對應(yīng)于行政區(qū)或城鎮(zhèn)并能識別這些行政區(qū)或城鎮(zhèn)名稱的語音的語音模型,并鏈接到屬于語音模型組506的語音模型。在圖9的例子中,組合了能識別屬于Fujisawa市的城鎮(zhèn)名稱的語音的語音模型的語音模型組508鏈接到屬于語音模型組506的一個(gè)語音模型,其能識別Fujisawa市的語音。
語音模型組510組合了對應(yīng)于區(qū)域并能識別區(qū)域名稱的語音的語音模型,并鏈接到屬于語音模型組508的語音模型。在圖9的例子中,組合了能識別屬于北行政區(qū)的區(qū)域名稱的語音的語音模型的語音模型組510鏈接到能識別北行政區(qū)的語音、屬于語音模型組508的一個(gè)語音模型。
停止512鏈接到語音模型組508或語音模型組510。
此外,在這些鏈接關(guān)系中,當(dāng)給定語音參數(shù)時(shí),按停止502、語音模型組504、語音模型組506、語音模型組508、語音模型組510和停止512的順序,或按停止502、語音模型組504、語音模型組506、語音模型組508和停止512的順序,傳播出現(xiàn)概率的變化。
用這種方式,對于與說話者無關(guān)的語音識別,預(yù)先準(zhǔn)備多個(gè)語音模型,以及將語音模型存放在存儲器,諸如RAM中以便識別語音。
然而,用這種方法,當(dāng)鏈接詞的數(shù)量增加時(shí),詞的數(shù)量隨詞組合在一起而劇增,因此,通過Viterbi算法等等的語音識別處理所需的存儲器容量增加,以及在內(nèi)置系統(tǒng),諸如汽車導(dǎo)航中,構(gòu)成系統(tǒng)的存儲器容量也增加。例如,如果識別日本的地方名稱,在能識別具有轄區(qū)名稱其后跟隨城市、城鎮(zhèn)或鄉(xiāng)村名稱的詞序列的語音的語音模型網(wǎng)絡(luò)中,將要識別的詞的數(shù)量約為3500,同時(shí),在能識別具有轄區(qū)和城市、城鎮(zhèn)或鄉(xiāng)村名稱其后跟隨行政區(qū)、國家等等名稱的詞序列的語音模型網(wǎng)絡(luò)中,要識別的詞的數(shù)量大于幾十萬。
鑒于現(xiàn)有技術(shù)的未解決問題做出了本發(fā)明,本發(fā)明的目的在于提供能優(yōu)選地用于降低與說話者無關(guān)的語音識別所需的存儲器容量的語音識別設(shè)備。

發(fā)明內(nèi)容
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第1方面的語音識別設(shè)備包括這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該設(shè)備從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,該設(shè)備包括用于展開語音模型的語音模型展開存儲裝置,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于諸語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與語音模型網(wǎng)絡(luò)中的該主要語音模型組具有鏈接關(guān)系的語音模型組定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加,以及屬于主要語音模型組的語音模型被展開在語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于主要語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于任何一個(gè)輔助語音模型組的語音模型展開在語音模型展開存儲裝置中。
利用該結(jié)構(gòu),當(dāng)識別語音時(shí),使非特定語音識別語音模型和屬于主要語音模型組的語音模型展開在語音模型展開存儲裝置中,以及將從輸入語音抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型?;趶膶儆谥饕Z音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于任何一個(gè)輔助語音模型組的語音模型展開在語音模型展開存儲裝置中。
在這里,主要語音模型組和輔助語音模型組可以具有任何鏈接關(guān)系,例如,可設(shè)想輔助語音模型組鏈接到主要語音模型組的后面的情形,或主要語音模型組鏈接到輔助語音模型組的后面的情形。在這里,后面是指相對于出現(xiàn)概率的改變被傳播的方向的后面。這對主要語音模型組和非特定語音識別語音模型組的鏈接關(guān)系,或輔助語音模型組和非特定語音識別語音模型的鏈接關(guān)系成立。這在根據(jù)本發(fā)明第12方面的語音識別程序或根據(jù)本發(fā)明第14方面的語音識別方法中同樣成立。
此外,在預(yù)定語音單元中模型化語音模型,該預(yù)定語音單元可以是一個(gè)音素或可以是一序列音素。這在根據(jù)本發(fā)明第2方面的語音識別設(shè)備、本發(fā)明第12和第13方面的語音識別程序以及根據(jù)本發(fā)明第14和第15方面的語音識別方法中同樣成立。
此外,語音模型展開存儲裝置通過任何方法以及在任何時(shí)間存儲語音模型,以及可以預(yù)先存儲語音模型,或在不預(yù)先存儲語音模型的情況下于操作主設(shè)備期間,可以存儲通過從外部輸入的語音模型,等等。這在根據(jù)本發(fā)明第2方面的語音識別設(shè)備、本發(fā)明第12和第13方面的語音識別程序以及本發(fā)明第14和第15方面的語音識別方法中同樣成立。
此外,根據(jù)本發(fā)明第2方面的語音識別設(shè)備包括這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該設(shè)備從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,該設(shè)備包括第一語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型;
第二語音模型組,其組合了特定語音參數(shù)的多個(gè)語音模型且與屬于第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型且與屬于第一語音模型組的任何其他語音模型具有鏈接關(guān)系;這樣模型化的非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加;用于展開語音模型的語音模型展開存儲裝置;用于從輸入語音抽取語音參數(shù)的語音參數(shù)抽取裝置;以及語音識別裝置,用于基于屬于第一語音模型組、第二語音組和第三語音模型組的語音模型、以及由語音參數(shù)抽取裝置抽取的語音參數(shù)來識別語音;以及語音識別裝置將屬于第一語音模型組和非特定語音識別語音模型的語音模型展開在語音模型展開存儲裝置中,將由語音參數(shù)抽取裝置抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
通過這種結(jié)構(gòu),當(dāng)從人輸入語音時(shí),由語音參數(shù)抽取裝置從輸入語音抽取語音參數(shù)。通過語音識別裝置,使屬于第一語音模型組的語音模型和非特定語音識別語音模型展開在語音模型展開存儲裝置中,以及將所抽取的參數(shù)提供給語音模型展開存儲裝置中的語音模型?;趶膶儆诘谝徽Z音模型組的語音模型輸出的出現(xiàn)概率以及從非特定語音識別語音模型輸出的出現(xiàn)概率,屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型被展開在語音模型展開存儲裝置中。
在這里,第一語音模型組、第二語音模型組和第三語音模型組可以具有任何鏈接關(guān)系,例如,可想到將第二語音模型組和第三語音模型組鏈接到第一語音模型組的后面的情形,或?qū)⒌谝徽Z音模型組鏈接到第二語音模型組和第三語音模型組后面的情形。在這里,后面是指相對于出現(xiàn)概率的改變被傳播的方向的后面。這對第一語音模型組和非特定語音識別語音模型的鏈接關(guān)系,或第二語音模型組和第三語音模型組和非特定語音識別語音模型的鏈接關(guān)系成立。
此外,根據(jù)本發(fā)明第3方面的語音識別設(shè)備是根據(jù)本發(fā)明第2方面的語音識別設(shè)備,其中,語音識別裝置將由語音參數(shù)抽取裝置抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值,基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
利用該結(jié)構(gòu),通過語音識別裝置,將所抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,使屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
另外,根據(jù)本發(fā)明第4方面的語音識別設(shè)備是如本發(fā)明第二和第3方面的任何一個(gè)的語音識別設(shè)備,其中,語音識別裝置將由語音參數(shù)抽取裝置抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值,從語音模型展開存儲裝置移出屬于第一語音模型組的語音模型和非特定語音識別語音模型,以及基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
利用該結(jié)構(gòu),通過語音識別裝置將所抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),從語音模型展開存儲裝置移出屬于第一語音模型組和非特定語音識別語音模型的語音模型,并基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,使屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
另外,根據(jù)本發(fā)明第5方面的語音識別設(shè)備是如本發(fā)明第3和第4方面的任何一個(gè)的語音識別設(shè)備,其中,非特定語音識別語音模型鏈接到屬于第一語音模型組的語音模型;以及當(dāng)給定語音參數(shù)時(shí),按第一語音模型組的語音模型和非特定語音識別語音模型的順序,傳播出現(xiàn)概率的變化。
利用該結(jié)構(gòu),通過語音識別裝置將所抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。因此,按第一語音模型組的語音模型和非特定語音識別語音模型的順序,傳播出現(xiàn)概率的變化。
另外,根據(jù)本發(fā)明第6方面的語音識別設(shè)備是如本發(fā)明第5方面的語音識別設(shè)備,其中,該設(shè)備進(jìn)一步包括用于存儲語音參數(shù)的語音參數(shù)存儲裝置,語音參數(shù)抽取裝置從輸入語音抽取語音參數(shù),以及按預(yù)定順序?qū)⑺槿〉恼Z音參數(shù)存儲在語音參數(shù)存儲裝置中;以及語音識別裝置按預(yù)定順序從語音參數(shù)存儲裝置讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給語音模型展開存儲裝置的語音模型,以及當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中,按與預(yù)定順序相反的順序,使語音參數(shù)存儲裝置中的語音參數(shù)的讀位置移回預(yù)定的數(shù),按預(yù)定順序從讀位置讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。
利用該結(jié)構(gòu),當(dāng)從人輸入語音時(shí),通過語音參數(shù)抽取裝置從輸入語音抽取語音參數(shù),以及按預(yù)定順序?qū)⑺槿〉恼Z音參數(shù)存儲在語音參數(shù)存儲裝置中。通過語音識別裝置,按預(yù)定順序從語音參數(shù)存儲裝置讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。當(dāng)從非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率,使屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。按與預(yù)定順序相反的順序,使語音參數(shù)存儲裝置中的語音參數(shù)的讀位置返回預(yù)定數(shù),按預(yù)定順序從讀位置讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型。
在這里,語音參數(shù)存儲裝置通過任何方法和在任何時(shí)間存儲語音參數(shù),以及可以預(yù)先存儲語音模型,或在不預(yù)先存儲語音參數(shù)的情況下于操作主設(shè)備期間,可以存儲通過從外部輸入的語音參數(shù),等等。
此外,根據(jù)本發(fā)明第7方面的語音識別設(shè)備是如本發(fā)明第6方面的語音識別設(shè)備,其中,語音識別裝置將來自第一語音模型組、出現(xiàn)概率最高的語音模型指定為識別語音模型,使屬于與識別語音模型具有鏈接關(guān)系的第二語音模型組和第三語音模型組中一個(gè)的語音模型展開在語音模型展開存儲裝置中,計(jì)算出現(xiàn)概率的變化從識別語音模型傳播到非特定語音識別語音模型為止所需的時(shí)間,以及按相當(dāng)于所需的時(shí)間的數(shù)返回語音參數(shù)存儲裝置中語音參數(shù)的讀位置。
利用該結(jié)構(gòu),通過語音識別裝置,將來自第一語音模型組、出現(xiàn)概率最高的語音模型指定為識別語音模型,以及使屬于與識別語音模型具有鏈接關(guān)系的第二語音模型組和第三語音模型組中一個(gè)的語音模型展開在語音模型展開存儲裝置中。計(jì)算出現(xiàn)概率的變化從識別語音模型傳播到非特定語音識別模型為止所需的時(shí)間,以及按對應(yīng)于所需時(shí)間的數(shù)返回語音參數(shù)存儲裝置中的語音參數(shù)的讀位置。
此外,根據(jù)本發(fā)明第8方面的語音識別設(shè)備是如本發(fā)明第7方面的語音識別設(shè)備,其中,語音識別裝置按相當(dāng)于所需時(shí)間的數(shù),使語音參數(shù)存儲裝置中的語音參數(shù)的讀位置從指定識別語音模型時(shí)的讀位置返回。
利用該結(jié)構(gòu),通過語音識別裝置,按對應(yīng)于所計(jì)算的所需時(shí)間的數(shù),使語音參數(shù)存儲裝置中的語音參數(shù)的讀位置從指定識別語音模型時(shí)的讀位置返回。
另外,根據(jù)本發(fā)明第9方面的語音識別設(shè)備是如本發(fā)明第2-8方面中的任何一個(gè)的語音識別設(shè)備的一個(gè)實(shí)施例,其中,代替屬于第二語音模型組和第三語音模型組的語音模型,表示能由語音模型識別的特定語音的發(fā)音的發(fā)音表示字符串存儲在語音模型展開存儲裝置中,以及按等于屬于第二語音模型組的語音模型的數(shù)量和屬于第三語音模型組的語音模型的數(shù)量中較大的一個(gè)的數(shù),將能夠基于發(fā)音表示字符串構(gòu)成的語音模型的語音模型模板存儲在語音模型展開存儲裝置中,如果屬于第二語音模型組和第三語音模型組中任一個(gè)的語音模型展開在語音模型展開存儲裝置中,語音識別裝置基于語音模型展開存儲裝置中的、相應(yīng)于將被展開在語音模型展開存儲裝置中的語音模型的發(fā)音表示字符串,由語音模型展開存儲裝置中的語音模型模板來構(gòu)成語音模型。
利用該結(jié)構(gòu),如果通過語音識別裝置,將屬于第二語音模型組和第三語音模型組中任一個(gè)的語音模型展開在語音模型展開存儲裝置中,通過語音識別裝置,基于語音模型展開存儲裝置中的、相應(yīng)于將被展開在語音模型展開存儲裝置中的語音模型的發(fā)音表示字符串,由語音模型展開存儲裝置中的語音模型模板中構(gòu)成語音模型。
另外,根據(jù)本發(fā)明第10方面的語音識別設(shè)備是如本發(fā)明第2-9方面中的任何一個(gè)的語音識別設(shè)備,其中,語音識別裝置將來自第一語音模型組、出現(xiàn)概率最高的語音模型指定為第一識別語音模型,將展開在語音模型展開存儲裝置中、來自第二語音模型組和第三語音模型組的語音模型、出現(xiàn)概率最高的語音模型指定為第二識別語音模型,以及確定第二識別語音模型的特定語音與第一識別語音模型的特定語音的結(jié)合包括在輸入語音中。
利用該結(jié)構(gòu),通過語音識別裝置,將來自第一語音模型組、出現(xiàn)概率最高的語音模型指定為第一識別語音模型,以及將展開在語音模型展開存儲裝置中、來自第二語音模型組和第三語音模型組的語音模型、出現(xiàn)概率最高的語音模型指定為的第二識別語音模型。確定第二識別語音模型的特定語音與第一識別語音模型的特定語音的結(jié)合包括在輸入語音中。
另外,根據(jù)本發(fā)明第11方面的語音識別設(shè)備是如本發(fā)明第2-第10方面中的任何一個(gè)的語音識別設(shè)備,其中,非特定語音識別語音模型是無用信息模型。
利用該結(jié)構(gòu),當(dāng)從人輸入語音時(shí),通過語音參數(shù)抽取裝置從輸入語音抽取語音參數(shù)。通過語音識別裝置,使屬于第一語音模型組的語音模型和無用信息模型展開在語音模型展開存儲裝置中,以及將所抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型?;趶膶儆诘谝徽Z音模型組的語音模型輸出的出現(xiàn)概率和從無用信息模型輸出的出現(xiàn)概率,使屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第12方面的語音識別程序使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該程序從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,該程序使包括用于展開語音模型的語音模型展開存儲裝置的計(jì)算機(jī)執(zhí)行處理,其中,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與語音模型網(wǎng)絡(luò)中的主要語音模型組具有鏈接關(guān)系的語音模型組定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加,以及屬于主要語音模型組的語音模型展開在語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于主要語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于輔助語音模型組的任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
利用該結(jié)構(gòu),如果由計(jì)算機(jī)讀取該程序以及計(jì)算機(jī)根據(jù)所讀取的程序執(zhí)行處理,獲得與根據(jù)本發(fā)明第1方面的語音識別設(shè)備同等的作用。
另外,根據(jù)本發(fā)明第13方面的語音識別程序使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該程序從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,該程序使計(jì)算機(jī)能使用第一語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型;第二語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型且與屬于第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型且與屬于第一語音模型組的任何其他語音模型具有鏈接關(guān)系;這樣模型化的非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加;語音模型展開存儲裝置,用于展開語音模型,從而執(zhí)行作為以下裝置實(shí)現(xiàn)的處理用于從輸入語音抽取語音參數(shù)的語音參數(shù)抽取裝置,以及,用于基于屬于第一語音模型組、第二語音模型組和第三語音模型組的語音模型以及由語音參數(shù)抽取裝置抽取的語音參數(shù)來識別語音的語音識別裝置;以及語音識別裝置將屬于第一語音模型組的語音模型和非特定語音識別模型展開在語音模型展開存儲裝置中,將由語音參數(shù)抽取裝置抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
利用該結(jié)構(gòu),如果由計(jì)算機(jī)讀取該程序以及計(jì)算機(jī)根據(jù)所讀取的程序執(zhí)行處理,將獲得與根據(jù)本發(fā)明第2方面的語音識別設(shè)備同等的作用。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第14方面的語音識別方法使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該方法從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與語音模型網(wǎng)絡(luò)中的主要語音模型組具有鏈接關(guān)系的語音模型組定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加,以及將屬于主要語音模型組的語音模型展開在語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于主要語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于輔助語音模型組的任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。
根據(jù)本發(fā)明第15方面的語音識別方法使用這樣模型化的語音模型,以使得基于給定的語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)出現(xiàn)概率增加,該方法從輸入語音抽取語音參數(shù),以及基于所抽取的語音參數(shù)和語音模型來識別語音,其中,該方法使用第一語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型;第二語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型且與屬于第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了特定語音參數(shù)不同的多個(gè)語音模型且與屬于第一語音模型組的任何其他語音模型具有鏈接關(guān)系;該方法包括用于從輸入語音抽取語音參數(shù)的語音參數(shù)抽取步驟;以及語音識別步驟,用于基于屬于第一語音模型組、第二語音組和第三語音模型組的語音模型以及在語音參數(shù)抽取步驟中抽取的語音參數(shù)來識別語音;以及在語音識別步驟中,這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加,將屬于第一語音模型組的語音模型展開在語音模型展開存儲裝置中,將在語音參數(shù)抽取步驟中抽取的語音參數(shù)提供給語音模型展開存儲裝置中的語音模型,以及基于從屬于第一語音模型組的語音模型輸出的出現(xiàn)概率和從非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中。


圖1是表示語音識別設(shè)備100的結(jié)構(gòu)的框圖;圖2A和2B表示用串聯(lián)鏈接的音素的網(wǎng)絡(luò)模型化的語音模型的原理,其中,圖2A表示具有串聯(lián)鏈接的音素的詞語音模型,以及圖2B表示每個(gè)音素的HMM狀態(tài)轉(zhuǎn)變;
圖3表示第一語音模型網(wǎng)絡(luò)300的結(jié)構(gòu);圖4表示無用信息模型(garbage model)350的結(jié)構(gòu);圖5表示第二語音模型網(wǎng)絡(luò)400的結(jié)構(gòu);圖6是表示語音模型網(wǎng)絡(luò)間的轉(zhuǎn)變時(shí)序的時(shí)間圖;圖7表示分成預(yù)定段的音素組;圖8A和8B表示通過串聯(lián)鏈接的音素的網(wǎng)絡(luò)模型化的語音模型的原理,其中圖8A表示通過串聯(lián)鏈接的音素的網(wǎng)絡(luò)在男人和女人間共享的詞語音模型,以及圖8B表示每個(gè)音素的HMM狀態(tài)轉(zhuǎn)變;以及圖9表示語音模型網(wǎng)絡(luò)500的結(jié)構(gòu)。
具體實(shí)施例方式
下面,將參考附圖來描述本發(fā)明的第一實(shí)施例。圖1、2A和2B以及圖3-6表示根據(jù)本發(fā)明的語音識別設(shè)備的第一實(shí)施例。
在該實(shí)施例中,根據(jù)本發(fā)明的語音識別設(shè)備應(yīng)用于使用具有鏈接的多個(gè)語音模型的語音模型網(wǎng)絡(luò)來識別相對長的詞序列,諸如地址的語音,如圖1所示。
首先,將參考圖1描述語音識別設(shè)備1的結(jié)構(gòu)。圖1是表示語音識別設(shè)備100的結(jié)構(gòu)的框圖。
語音識別設(shè)備100與包括通過總線連接到其上的CPU、ROM、RAM、I/F等等的通用計(jì)算機(jī)具有相同的功能,并且包括麥克風(fēng)102、A/D轉(zhuǎn)換來自麥克風(fēng)102的輸入語音的A/D轉(zhuǎn)換器104、從由A/D轉(zhuǎn)換器104轉(zhuǎn)換的語音數(shù)據(jù)抽取語音參數(shù)的語音參數(shù)抽取單元106、存儲由語音參數(shù)抽取單元106抽取的語音參數(shù)的環(huán)形緩沖器108、存儲語音模型的語音模型存儲單元110、用于展開(spread)語音模型存儲單元110中的語音模型的RAM 112、匹配單元114、存儲語音參數(shù)抽取單元106和匹配單元114的程序等等的ROM 116,以及輸出匹配單元114的識別結(jié)果的輸出單元118,如圖1所示。
環(huán)形緩沖器108具有用于存儲語音參數(shù)的預(yù)定存儲區(qū)。在寫入環(huán)形緩沖器108中時(shí),將由語音參數(shù)抽取單元106抽取的語音參數(shù)寫入用寫指針表示的地址,以及使寫指針遞增1。然而,當(dāng)寫指針到達(dá)存儲區(qū)末端的地址時(shí),將寫指針設(shè)定為頭端的地址。通過重復(fù)此操作,按從語音參數(shù)抽取單元106抽取的順序,將語音參數(shù)循環(huán)地寫入環(huán)形緩沖器108。由語音參數(shù)抽取單元106控制寫指針。
此外,在從環(huán)形緩沖器108讀取時(shí),從由讀指針表示的地址讀取語音參數(shù),以及使讀指針遞增1。然而,當(dāng)讀指針到達(dá)存儲區(qū)末端的地址時(shí),將讀指針設(shè)置為頭端的地址。通過重復(fù)此操作,按寫入環(huán)形緩沖器108的順序,從環(huán)形緩沖器108循環(huán)地讀取語音參數(shù)。由匹配單元114控制讀指針并調(diào)整該讀指針以便不超過寫指針。
語音模型存儲單元110存儲這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定的語音參數(shù)時(shí)出現(xiàn)概率增加。
參考圖2A和2B,簡單地描述用于通過HMM的與說話者無關(guān)的語音識別方法。圖2A和2B表示通過串聯(lián)鏈接的音素的網(wǎng)絡(luò)模型化的語音模型的原理。
根據(jù)HMM,在日語的情況下,首先通過使用元音、摩擦音、塞擦音、爆破音、半元音和鼻音的任何音素串聯(lián)鏈接的音素網(wǎng)絡(luò)組成一個(gè)詞。創(chuàng)建匹配該詞的狀態(tài)轉(zhuǎn)變以及對每個(gè)狀態(tài),指定表示轉(zhuǎn)變到下一狀態(tài)的概率的轉(zhuǎn)變概率,以及表示當(dāng)轉(zhuǎn)變到下一狀態(tài)時(shí)輸出語音參數(shù)的概率的輸出概率,由此創(chuàng)建語音模型。例如,能通過按圖2A所示的說話順序串聯(lián)連接的九個(gè)音素的網(wǎng)絡(luò)模型化用于詞“Hokkaido”的語音模型。每個(gè)音素的HMM的狀態(tài)轉(zhuǎn)變?nèi)鐖D2B所示。
在這里,圖2B中的a(I,J)表示從狀態(tài)I到狀態(tài)J的轉(zhuǎn)變概率,例如,該圖中的a(1,1)表示從狀態(tài)1到狀態(tài)1的轉(zhuǎn)變概率。此外,b(I,x)表示當(dāng)獲得語音參數(shù)x時(shí),狀態(tài)I中的輸出概率,以及該圖中的b(1,x)表示當(dāng)獲得語音參數(shù)x時(shí),狀態(tài)1的輸出概率。
此外,圖2B中的p(I)表示狀態(tài)I的概率,并用上述公式(1)表示。
如果使用類似此的多個(gè)語音模型來識別具有連接成象地址等等的轄區(qū)名稱和城市、城鎮(zhèn)或鄉(xiāng)村的名稱的詞序列的語音,則建立具有鏈接的多個(gè)語音模型化的語音模型網(wǎng)絡(luò)。
在這一實(shí)施例中,通過展開在RAM 112上的單元創(chuàng)建語音模型網(wǎng)絡(luò),以及該網(wǎng)絡(luò)包括第一語音模型網(wǎng)絡(luò)300和第二語音模型網(wǎng)絡(luò)400。第二語音模型網(wǎng)絡(luò)400邏輯地鏈接到第一語音模型網(wǎng)絡(luò)300的后面。在這里,后面是指相對于出現(xiàn)概率改變的傳播方向的后面。
參考圖3詳細(xì)描述第一語音模型網(wǎng)絡(luò)300的結(jié)構(gòu)。圖3表示第一語音模型網(wǎng)絡(luò)300的結(jié)構(gòu)。
如圖3所示,第一語音模型網(wǎng)絡(luò)300包括檢測輸入語音的不發(fā)聲部分的停止302、組合了能識別轄區(qū)名稱的語音的多個(gè)語音模型的語音模型組304、組合了能識別轄區(qū)下城市名稱的語音的多個(gè)語音模型的語音模型組306和組合了能識別城市下的行政區(qū)或城鎮(zhèn)名稱的語音的多個(gè)語音模型的語音模型組308。
語音模型組304組合了對應(yīng)于轄區(qū)并能識別轄區(qū)名稱的語音模型,并鏈接到停止302。
語音模型組306組合了對應(yīng)于城市并能識別城市名稱的語音模型,并鏈接到屬于語音模型組304的每個(gè)語音模型。在圖3的例子中,將組合了能識別屬于Kanagawa轄區(qū)的城市名稱的語音的語音模型的語音模型組306鏈接到屬于語音模型組304的一個(gè)語音模型,其能識別Kanagawa轄區(qū)的語音。
語音模型組308組合了對應(yīng)于行政區(qū)或城鎮(zhèn)并能識別行政區(qū)或城鎮(zhèn)名稱的語音的語音模型,并鏈接到屬于語音模型組306的語音模型。在圖3的例子中,組合了能識別屬于Fujisawa市的城鎮(zhèn)名稱的語音的語音模型的語音模型組308鏈接到屬于語音模型組306的一個(gè)語音模型,其能識別Fujisawa市的語音。
此外,無用信息模型350鏈接到第一語音模型網(wǎng)絡(luò)300的后面。模型化無用信息模型350,以便當(dāng)給定表示不同于能由屬于語音模型組304、語音模型組306和語音模型組308的語音模型識別的特定語音的語音的語音參數(shù)時(shí),出現(xiàn)概率增加,該無用信息模型鏈接到語音模型組306或語音模型組308。無用信息模型350是用于未知冗余詞的填充符模型,并具有這樣的特性,即,如果說出不存在于語音模型網(wǎng)絡(luò)中的任何路徑上所存在的一系列語音模型(在下文中,稱為標(biāo)簽序列(label sequence))中的詞,則出現(xiàn)概率(似然性)增加。例如,圖4所示的例子表示僅識別轄區(qū)名稱的語音模型組,以及相對于轄區(qū)名稱前的冗余詞,諸如“anoh”或“sonoh”,提高了識別轄區(qū)名稱的速率。對于無用信息模型350的說明,參見現(xiàn)有的文獻(xiàn)“H.Boulard,B.D′hoore和J.-Bolite,“Optimizing recognition and RejectionPerformance in Wordspotting Systems””,Porc.ICASSP,Adelaide,Austria,pp.I-373-376,1994。
此外,在這些鏈接關(guān)系中,當(dāng)給定語音參數(shù)時(shí),按停止302、語音模型組304、語音模型組306、語音模型組308和無用信息模型350的順序,或按停止302、語音模型組304、語音模型組306和無用信息模型350的順序,傳播出現(xiàn)概率的變化。
現(xiàn)在,將參考圖5詳細(xì)地描述第二語音模型網(wǎng)絡(luò)400的結(jié)構(gòu)。圖5表示第二語音模型網(wǎng)絡(luò)400的結(jié)構(gòu)。
如圖5所示,第二語音模型網(wǎng)絡(luò)400包括組合了能識別行政區(qū)或城鎮(zhèn)的區(qū)域名稱的多個(gè)語音模型的語音模型組以及用于檢測輸入語音的不發(fā)聲部分的停止404。
語音模型組402組合了對應(yīng)于區(qū)域并能識別區(qū)域名稱的語音的語音模型,并鏈接到無用信息模型350。在圖5的例子中,組合了能識別屬于北行政區(qū)的區(qū)域名稱的語音的語音模型的語音模型組402鏈接到無用信息模型350。
停止404鏈接到語音模型組402。
現(xiàn)在,將描述匹配單元114的結(jié)構(gòu)。
匹配單元1-4從語音模型存儲單元110讀取屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350,以及將所讀取的語音模型和無用信息模型350展開在RAM 112中。
然后,從由環(huán)形緩沖器108的讀指針表示的地址讀取語音參數(shù),以及使讀指針遞增1。然而,當(dāng)讀指針達(dá)到存儲區(qū)未端的地址時(shí),將讀指針設(shè)置為頭端的地址。
然后,將所讀取的語音參數(shù)提供給RAM 112中的語音模型。當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),將出現(xiàn)概率的積分值最高的標(biāo)簽序列識別為來自第一語音模型網(wǎng)絡(luò)300的第一識別語音模型。
然后,從RAM 112移出屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350,從語音模型存儲單元110讀取將鏈接到第一識別語音模型的末端的語音模型組402的語音模型和停止404,以及將所讀取的語音模型和停止404展開在RAM 112中。
然后,計(jì)算直到出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350所需的時(shí)間,以及按對應(yīng)于所計(jì)算的所需時(shí)間的數(shù),返回環(huán)形緩沖器108中的語音參數(shù)的讀指針。然而,當(dāng)讀指針達(dá)到存儲區(qū)的頭端的地址時(shí),將讀指針設(shè)置成末端的地址。
從由環(huán)形緩沖器108中的讀指針表示的地址讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給RAM 112中的語音模型。因此,將出現(xiàn)概率的積分值最高的語音模型指定為來自語音模型組402的第二識別語音模型,以及確定第二識別語音模型的特定語音與第一識別語音模型的特定語音的結(jié)合包括在輸入語音中。
現(xiàn)在,將參考圖6描述這一實(shí)施例的操作。圖6是表示語音模型網(wǎng)絡(luò)間的轉(zhuǎn)換的時(shí)序的時(shí)間圖。
在這里,將以用在汽車導(dǎo)航等等中的相對長的詞序列,諸如地址的語音識別為例描述該操作。
為識別語音,通過匹配單元114,從語音模型存儲單元110讀取屬于第一語音模型網(wǎng)絡(luò)300的語音模型以及無用信息模型350,以及將所讀取的語音模型和無用信息模型350展開在RAM 112中。
在這種狀態(tài)下,當(dāng)從麥克風(fēng)102輸入來自人的語音時(shí),由A/D轉(zhuǎn)換器104對來自麥克風(fēng)102的輸入語音進(jìn)行A/D轉(zhuǎn)換,由語音參數(shù)抽取單元106從由A/D轉(zhuǎn)換器104轉(zhuǎn)換的語音數(shù)據(jù)抽取語音參數(shù),以及將所抽取的語音參數(shù)寫入環(huán)形緩沖器108中由寫指針表示的地址中。用這種方式,按從語音參數(shù)抽取單元106抽取的順序,循環(huán)地將語音參數(shù)寫入環(huán)形緩沖器108。
然后,通過匹配單元114,從環(huán)形緩沖器108中由讀指針表示的地址讀取語音參數(shù),以及使讀指針遞增1。此時(shí),當(dāng)讀指針達(dá)到存儲區(qū)的末端的地址時(shí),將讀指針設(shè)置成頭端的地址。
然后,將所讀取的語音參數(shù)提供給RAM 112中的語音模型。當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),將出現(xiàn)概率的積分值最高的標(biāo)簽序列指定為來自第一語音模型網(wǎng)絡(luò)300的第一識別語音模型。在圖6的例子中,當(dāng)從人輸入語音“KanagawakenFujisawashi Mirokuji”時(shí),將能識別特定語音“Kanagawaken”的語音模型指定為語音模型組304中的第一識別語音模型,以及將能識別特定語音“Fujisawashi”的語音模型指定為語音模型組306中的第一識別語音模型。
然后,從RAM 112移出屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350,從語音模型存儲單元110讀取屬于將鏈接到第一識別語音模型末端的一個(gè)語音模型組402的語音模型和停止404,以及將所讀取的語音模型和停止404展開在RAM 112中。在圖6的例子中,組合了能識別Fujisawa市下的區(qū)域名稱的多個(gè)語音模型的語音模型組402鏈接到第一識別語音模型的末端,因此,讀取這樣一個(gè)語音模型組402。
然后,計(jì)算出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350所需的時(shí)間,以及按對應(yīng)于所計(jì)算的所需時(shí)間的數(shù),返回環(huán)形緩沖器108中的語音參數(shù)的讀指針。此時(shí),當(dāng)讀指針到達(dá)存儲區(qū)的頭端的地址時(shí),將讀指針設(shè)置成末端的地址。返回讀指針的目的是降低直到無用信息模型350的出現(xiàn)概率變得等于預(yù)定值為止的延遲時(shí)間的影響。在圖6的例子中,使讀指針遞減1作為回溯幀數(shù)。
從由環(huán)形緩沖器108中的讀指針表示的地址讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給RAM 112中的語音模型。因此,將出現(xiàn)概率的積分值最高的語音模型指定為來自語音模型組402的第二識別語音模型。在圖6所示的例子中,當(dāng)從人輸入語音“KanagawakenFujisawashi Mirokuji”時(shí),將能識別特定語音“Mirokuji”的語音模型指定為第二語音模型組402中的第二識別語音模型。當(dāng)指定第一識別語音模型和第二識別語音模型時(shí),確定第二識別語音模型的特定語音與第一識別語音模型的特定語音的結(jié)合包括在輸入語音中。即,確定語音“Kanagawaken Fujisawashi Mirokuji”包括在輸入語音中。
(實(shí)例)現(xiàn)在,將描述本發(fā)明的實(shí)例。
能識別約3500個(gè)詞的語音的語音模型包括在第一語音模型網(wǎng)絡(luò)300中,以及組合了能識別最多約1000個(gè)詞的語音的語音模型的語音模型組402包括在第二語音模型網(wǎng)絡(luò)400中。
如果屬于第一語音模型網(wǎng)絡(luò)300和第二語音模型網(wǎng)絡(luò)400的所有語音模型都展開在RAM 112中以便如在傳統(tǒng)的技術(shù)中那樣識別語音,則用于展開語音模型所需的存儲容量為約20(MByte),以及用于通過Viterbi算法等的語音識別處理所需的存儲容量約為1(Mbyte),這導(dǎo)致耗費(fèi)總共21(Mbyte)的存儲容量。
另一方面,如在本發(fā)明中那樣,如果屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350展開在RAM 112中以便識別前級(pre-stage)中的語音,移出它們,然后使屬于第二語音模型網(wǎng)絡(luò)400的語音模型展開在RAM 112中以便識別后級(post-stage)中的語音,則用于展開語音模型所需的存儲容量約為1.4(MByte),以及用于通過Viterbi算法等等的語音識別處理所需的存儲容量約為0.5(MByte),這導(dǎo)致耗費(fèi)總共1.9(Mbyte)的存儲容量。因此,與傳統(tǒng)技術(shù)相比,減少了91%的所需存儲容量。
用這種方式,在該實(shí)施例中,匹配單元114將屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350展開在RAM 112中,將由語音參數(shù)抽取單元116抽取的語音參數(shù)提供給RAM 112中的語音模型,以及基于從屬于第一語音模型網(wǎng)絡(luò)300的語音模型輸出的出現(xiàn)概率以及從無用信息模型350輸出的出現(xiàn)概率,將屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中。
用這種方式,即使使用具有鏈接關(guān)系的多個(gè)語音模型組識別語音,也不需要展開用于所有語音模型組402的語音模型,但應(yīng)當(dāng)將用于語音模型組402中任何一個(gè)的語音模型展開在RAM 112中,從而與傳統(tǒng)技術(shù)相比可以減少用于識別語音所需的存儲容量。
另外,在該實(shí)施例中,匹配單元114將由語音參數(shù)抽取單元106抽取的語音參數(shù)提供給RAM 112中的語音模型,以及當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),匹配單元114從RAM112移出屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350,以及基于從屬于第一語音模型網(wǎng)絡(luò)300的語音模型輸出的出現(xiàn)概率,使屬于的任何一個(gè)語音模型組402語音模型展開在RAM 112中。
用這種方式,由于屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中,從RAM 112中移出屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350,從而使得減少識別語音所需的存儲容量成為可能。
另外,在該實(shí)施例中,無用信息模型350鏈接到屬于第一語音模型網(wǎng)絡(luò)300的語音模型,以及當(dāng)給定語音參數(shù)時(shí),按第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350的順序,傳播出現(xiàn)概率的變化。
用這種方法,當(dāng)使用具有頂層處為第一語音模型網(wǎng)絡(luò)300的分層鏈接關(guān)系的多個(gè)語音模型組時(shí),能減少所需存儲容量。例如,當(dāng)如在該實(shí)施例中,識別用在汽車導(dǎo)航等等中的相對長的詞序列,諸如地址等等的語音時(shí),這很有利。
另外,在該實(shí)施例中,語音參數(shù)抽取單元106從輸入語音抽取語音參數(shù),以及按預(yù)定順序,將所抽取的語音參數(shù)存儲在環(huán)形緩沖器108中,匹配單元114按預(yù)定順序從環(huán)形緩沖器108讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給RAM 112中的語音模型,以及當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),匹配單元114基于從屬于第一語音模型網(wǎng)絡(luò)300的語音模型輸出的出現(xiàn)概率,將屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中,按與預(yù)定順序相反的順序,將環(huán)形緩沖器108中的語音參數(shù)的讀指針按預(yù)定數(shù)返回,按預(yù)定順序從讀指針讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給RAM 112中的語音模型。
用這種方式,需要一些延遲時(shí)間,直到無用信息模型350的出現(xiàn)概率變得等于預(yù)定值為止,因此,通過返回環(huán)形緩沖器108中的讀指針,能減少延遲時(shí)間的影響,以便當(dāng)使用屬于任何一個(gè)語音模型組402的語音模型來識別語音時(shí),能相當(dāng)準(zhǔn)確地識別語音。
另外,在該實(shí)施例中,匹配單元114將來自第一語音模型網(wǎng)絡(luò)300、出現(xiàn)概率最高的標(biāo)簽序列識別為第一識別語音模型,使屬于與第一識別語音模型具有鏈接關(guān)系的一個(gè)語音模型組402的語音模型展開在RAM 112中,計(jì)算從出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350所需的時(shí)間,以及按對應(yīng)于所需時(shí)間的數(shù),返回環(huán)形緩沖器108中的語音參數(shù)的讀指針。
用這種方式,按對應(yīng)于所花時(shí)間的數(shù)返回語音模型的讀指針,直到出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350為止,因此,能進(jìn)一步減少延遲時(shí)間的影響,以便當(dāng)使用屬于任何一個(gè)語音模型組402的語音模型識別語音時(shí),可更準(zhǔn)確地識別語音。
另外,在該實(shí)施例中,匹配單元114按對應(yīng)于所需時(shí)間的數(shù),使環(huán)形緩沖器108中的語音參數(shù)的讀指針從指定第一識別語音模型時(shí)的讀指針返回。
用這種方式,相對于指定第一識別語音模型時(shí)的讀指針,按對應(yīng)于所花時(shí)間的數(shù)返回語音參數(shù)的讀指針,直到出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350為止。因此,能進(jìn)一步減少延遲時(shí)間的影響,以便當(dāng)使用屬于任何一個(gè)語音模型組402的語音模型識別語音時(shí),更準(zhǔn)確地識別語音。
在上述第一實(shí)施例中,語音參數(shù)抽取單元106相當(dāng)于根據(jù)本發(fā)明第2、3、4、6或13方面的語音參數(shù)抽取設(shè)備,通過語音參數(shù)抽取單元106抽取相當(dāng)于根據(jù)本發(fā)明第15方面的語音參數(shù)抽取步驟,以及環(huán)形緩沖器108相當(dāng)于根據(jù)本發(fā)明第6、7或8方面的語音參數(shù)存儲設(shè)備。此外,RAM 112對應(yīng)于根據(jù)本發(fā)明第1、2、3、4、6、7、10、12、13、14或15方面的語音模型展開存儲裝置,以及匹配單元114相當(dāng)于本發(fā)明第2、3、4、6、7、8、10或13方面的語音識別裝置。
此外,在上述第一實(shí)施例中,第一語音模型網(wǎng)絡(luò)300和第二語音模型網(wǎng)絡(luò)400相當(dāng)于本發(fā)明第1、12或14方面的語音模型網(wǎng)絡(luò),以及語音型組306或語音模型組308相當(dāng)于根據(jù)本發(fā)明第1、12或14方面的主語音模型組,或根據(jù)本發(fā)明第2、3、4、5、6、7、10、13或15方面的第一語音模型組。此外,無用信息模型350相當(dāng)于根據(jù)本發(fā)明第1、2、3、4、5、6、7、11、12、13、14或15方面的非特定語音識別語音模型,以及語音模型組402相當(dāng)于本發(fā)明第1、12或14方面的輔助語音模型組、根據(jù)本發(fā)明第2、3、4、6、7、10、13或15方面的第二語音模型組,或根據(jù)本發(fā)明第2、3、4、6、7、10、13或15方面的第三語音模型組。
現(xiàn)在,將描述本發(fā)明的第二實(shí)施例。
在該實(shí)施例中,如圖1所示,根據(jù)本發(fā)明的語音識別設(shè)備應(yīng)用于使用具有鏈接到其上的多個(gè)語音模型的語音模型網(wǎng)絡(luò)來識別相對長的詞序列,諸如地址的語音,以及不同于第一實(shí)施例之處在于根據(jù)語音模型模板來構(gòu)成語音模型。
在語音模型存儲單元110中,代替屬于語音模型組402的語音模型,存儲表示能由語音模型識別的特定語音的發(fā)音的假名字符串,以及能基于假名字符串構(gòu)成語音模型的語音模型模板被存儲在屬于語音模型組402的多個(gè)語音模型中。
匹配單元114從語音模型存儲單元110讀取屬于第一語音模型網(wǎng)絡(luò)300的語音模型、無用信息模型350、假名字符串和語音模型模板,以及使讀取的語音模型、無用信息模型350、假名字符串和語音模型模板存儲在RAM 112中。
然后,如果屬于任何一個(gè)語音模型組402的語音模型展開在RAM112中,基于RAM 112中的、對應(yīng)于將展開在RAM 112中的語音模型的假名字符串,由RAM 112中的語音模型模板來構(gòu)成語音模板。
如果使用HMM識別語音,最后要求將希望識別的詞,例如“Hokkaido”轉(zhuǎn)換成HMM序列。在這種情況下,首先將“Hokkaido”轉(zhuǎn)換成音素序列“h,q,ts,k,a,i,d,o,u”。然后,可以將音素序列“h,q,ts,k,a,i,d,o,u”進(jìn)一步劃分成更精確的音素序列,但最后,產(chǎn)生對應(yīng)于各個(gè)音素序列的HMM序列。
在圖2A和2B所示的例子中,向每個(gè)音素序列指定3個(gè)HMM狀態(tài)。即,這意味著“Hokkaido”的字符數(shù)據(jù)具有9(音素序列)×3(狀態(tài)數(shù))=27個(gè)狀態(tài)。如果用一半大小的字符表示,“Hokkaido”等于6(Byte)的數(shù)據(jù)。如果每個(gè)用2(Byte)表示,HMM的每個(gè)狀態(tài)等于27×2=54(Byte)。
此外,對語音模型網(wǎng)絡(luò)的數(shù)據(jù),描述語音模型到語音模型的鏈接信息(語法或規(guī)則)。例如,詞“Hokkaido”是鏈接到“Hokkaido的城市、城鎮(zhèn)和鄉(xiāng)村名稱”的信息。另外,如果當(dāng)識別詞時(shí)使識別結(jié)果返回為詞的ID,則可以包括詞的ID值等等。另外,在語音識別中,包括另外的數(shù)據(jù)作為語音模型網(wǎng)絡(luò)的數(shù)據(jù)。
因此,如果將語音模型直接展開在RAM 112中的情形與假名字符串和語音模型模板展開在RAM 112中,然后僅構(gòu)成用于識別語音所需的語音模型的情形進(jìn)行比較,后者需要更少的存儲容量。
現(xiàn)在將描述這一實(shí)施例的操作。
在這里,以識別用在汽車導(dǎo)航等等中的相當(dāng)長的詞序列,諸如地址的語音為例來描述該操作。
為識別語音,通過匹配單元114,從語音模型存儲單元110讀取屬于第一語音模型網(wǎng)絡(luò)300的語音模型、無用信息模型350、假名字符串和語音模型模板,以及將所讀取的語音模型、無用信息模型350、假名字符串和語音模型模板展開在RAM 112中。
在這種情況下,當(dāng)從麥克風(fēng)102輸入來自人的語音時(shí),通過A/D轉(zhuǎn)換器104對來自麥克風(fēng)102的輸入語音進(jìn)行A/D轉(zhuǎn)換,由語音參數(shù)抽取單元106從由A/D轉(zhuǎn)換器104轉(zhuǎn)換的語音數(shù)據(jù)抽取語音參數(shù),以及將所抽取的語音參數(shù)寫入環(huán)形緩沖器108中由寫指針表示的地址中。在這種情況下,按從語音參數(shù)抽取單元10抽取的順序,使語音參數(shù)循環(huán)地寫入環(huán)形緩沖器108中。
因此,通過匹配單元114,從環(huán)形緩沖器108中由讀指針表示的地址讀取語音參數(shù),以及使讀指針遞增1。此時(shí),當(dāng)讀指針到達(dá)存儲區(qū)末端的地址時(shí),使讀指針設(shè)置為頭端的地址。
然后,將所讀取的語音參數(shù)提供給RAM 112中的語音模型。當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),將出現(xiàn)概率的積分值最高的標(biāo)簽序列指定為來自第一語音模型網(wǎng)絡(luò)300的第一識別語音模型。
然后,應(yīng)當(dāng)使屬于將被鏈接到第一識別語音模型的末端的一個(gè)語音模型組402的語音模型以及停止404展開在RAM 112中,但在這種情況下,基于RAM 112中的、對應(yīng)于將展開在RAM 112中的語音模型的假名字符串,由RAM 112中的語音模型模板構(gòu)成語音模型。
然后,計(jì)算出現(xiàn)概率的變化從第一識別語音模型傳播到無用信息模型350為止所需的時(shí)間,以及按對應(yīng)于計(jì)算的所需時(shí)間的數(shù),使環(huán)形緩沖器108中的語音參數(shù)的讀指針返回。此時(shí),當(dāng)讀指針到達(dá)存儲區(qū)頭端的地址時(shí),將讀指針設(shè)置成末端的地址。返回讀指針的目的是降低直到無用信息模型350的出現(xiàn)概率變得等于預(yù)定值為止的延遲時(shí)間的影響。
從環(huán)形緩沖器108中由讀指針表示的地址讀取語音參數(shù),以及將所讀取的語音參數(shù)提供給RAM 112中的語音模型。因此,將出現(xiàn)概率的積分值最高的語音模型識別為來自語音模型組402的第二識別語音模型。
(實(shí)例)現(xiàn)在,將描述本發(fā)明的例子。諸如詞的數(shù)量的條件與上述實(shí)例中相同。
如果像在傳統(tǒng)技術(shù)中那樣,屬于第一語音模型網(wǎng)絡(luò)300和第二語音模型網(wǎng)絡(luò)400的所有語音模型都展開在RAM 112中以便識別語音,則用于展開語音模型所需的存儲容量約為20(MByte),以及通過Viterbi算法等等的語音識別處理所需的存儲容量約為1(MByte),這導(dǎo)致耗費(fèi)總共21(MByte)的存儲容量。
另一方面,如果象在本發(fā)明中那樣,屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350展開在RAM 112中以便識別前級中的語音,以及基于假名字符串由語音模板構(gòu)成語音模型以便識別后級中的語音,則用于展開語音模板所需的存儲容量約為0.86(MByte),以及用于通過Viterbi算法等等的語音識別處理所需的存儲容量約為0.5(MByte),這導(dǎo)致耗費(fèi)總共1.36(MByte)的存儲容量。因此,與傳統(tǒng)技術(shù)相比,這能減少93%的所需存儲容量。
用這種方式,在該實(shí)施例中,如果屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中,匹配單元114基于RAM 112中的、對應(yīng)于將被展開在RAM 112中的語音模型的假名字符串,由RAM112中的語音模型模板構(gòu)成語音模型。
用這種方式,與語音模型相比,語音模型模板通常具有小的數(shù)據(jù)容量,因此,當(dāng)需要時(shí),通過動態(tài)展開語音模型,能進(jìn)一步減少識別語音所需的存儲容量。此外,為執(zhí)行一系列語音識別,能減少讀取語音模型所需的時(shí)間,因?yàn)椴粡恼Z音模型存儲單元110讀取語音模型。
在如上所述的第二實(shí)施例中,RAM 112相當(dāng)于根據(jù)本發(fā)明第9方面的語音模型展開存儲裝置,匹配單元114相當(dāng)于根據(jù)本發(fā)明第9方面的語音識別裝置,以及語音模型組402相當(dāng)于根據(jù)本發(fā)明第9方面的第二語音模型組,或相當(dāng)于根據(jù)本發(fā)明第9方面的第三語音模型組。此外,假名字符串相當(dāng)于發(fā)音表示字符串。
在如上所述的第二實(shí)施例中,匹配單元114從語音模型存儲單元110讀取屬于第一語音模型網(wǎng)絡(luò)300的語音模型、無用信息模型350、假名字符串和語音模型模板,使所讀取的語音模型、無用信息模型350、假名字符串和語音模型模板展開在RAM 112中,以及基于RAM112中的、對應(yīng)于將被展開在RAM 112中的語音模型的假名字符串,由RAM 112中的語音模型模板構(gòu)成語音模型,如果屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中(但本發(fā)明不限于此),對于假名字符串或語音模型模板,僅讀取RAM 112中后級中語音識別(通過第二語音模型網(wǎng)絡(luò)400的語音識別)所需的那些假名字符串或語音模板。
此外,在如上所述的第一和第二實(shí)施例中,無用信息模型350鏈接到第一語音模型網(wǎng)絡(luò)300的后面,但本發(fā)明不限于此,可以將無用信息模型350鏈接到第一語音模型網(wǎng)絡(luò)300的前面,以及基于從屬于第一語音模型網(wǎng)絡(luò)300的語音模型輸出的出現(xiàn)概率,可以將屬于任何一個(gè)語音模型組402的語音模型展開在RAM 112中。
此外,在如上所述的第一和第二實(shí)施例中,在語音模型網(wǎng)絡(luò)間轉(zhuǎn)換時(shí),如果無用信息模型350具有多個(gè)歷史信息,則能建立匹配所需要的多個(gè)候選詞的語音模型網(wǎng)絡(luò)來執(zhí)行識別處理。在如上所述的地方名稱的識別的例子中,如果在第一語音模型網(wǎng)絡(luò)300中獲得的第一候選詞是“Kanagawaken Fujisawashi”的標(biāo)簽序列,以及第二候選詞是“Kanagawaken Atsugishi”的標(biāo)簽序,例如,能建立將被鏈接到“Kanagawaken Fujisawashi”的標(biāo)簽序列的語音模型網(wǎng)絡(luò)和將被鏈接到“Kanagawaken Atsugishi”的標(biāo)簽序列的語音模型網(wǎng)絡(luò),以及能在考慮到在一個(gè)語音模型網(wǎng)絡(luò)中的每個(gè)出現(xiàn)概率以及在另一個(gè)語音模型網(wǎng)絡(luò)中的每個(gè)出現(xiàn)概率的情況下輸出最終識別結(jié)果。
此外,在如上所述的第一和第二實(shí)施例中,已經(jīng)描述了為實(shí)現(xiàn)語音參數(shù)抽取單元106和匹配單元114的功能,總是執(zhí)行預(yù)先存儲在ROM 116中的控制程序的情形,但本發(fā)明不限于此,可以從存儲表示那些過程的程序的存儲介質(zhì)讀取RAM 112中的程序并執(zhí)行。
在這里,存儲介質(zhì)包括半導(dǎo)體存儲介質(zhì),諸如RAM或ROM、磁存儲型存儲介質(zhì),諸如FD和HD、光讀取型存儲介質(zhì),諸如CD、CDV、LD和DVD,以及磁存儲型/光讀取型存儲介質(zhì),諸如MO,包括任何存儲介質(zhì),只要它們能由計(jì)算機(jī)讀取,而與讀取過程,諸如電、磁和光過程無關(guān)。
此外,在如上所述的第一和第二實(shí)施例中,使用如圖1所示的鏈接的多個(gè)語音模型,將根據(jù)本發(fā)明的語音識別設(shè)備應(yīng)用于識別相對長的詞序列,諸如地址,但本發(fā)明不限于此,并且能將語音識別設(shè)備應(yīng)用于不背離本發(fā)明的精神的限度內(nèi)的其他任何情形。
如上所述,根據(jù)本發(fā)明第1方面的語音識別設(shè)備,即使使用具有鏈接關(guān)系的多個(gè)語音模型組來識別語音,也不需要展開所有輔助語音模型組的語音模型,而僅任何一個(gè)輔助語音模型組中的語音模型應(yīng)當(dāng)被展開在語音模型展開存儲裝置中,從而與傳統(tǒng)技術(shù)相比,使得減少識別語音所需的存儲容量成為可能。
另外,根據(jù)本發(fā)明第2至11方面的語音識別設(shè)備,不需要展開第二語音模型組和第三語音模型組兩者的語音模型,但是僅第二語音模型組和第三語音模型組中任何一個(gè)的語音模型應(yīng)當(dāng)被展開在語音模型展開存儲裝置中,從而與傳統(tǒng)技術(shù)相比,使得減少識別語音所需的存儲容量成為可能。
另外,根據(jù)本發(fā)明第4方面的語音識別設(shè)備,當(dāng)屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在語音模型展開存儲裝置中時(shí),從語音模型展開存儲裝置移出屬于第一語音模型組的語音模型和非特定語音識別語音模型,從而使得進(jìn)一步減少識別語音所需的存儲容量成為可能。
另外,根據(jù)本發(fā)明第5至8方面的語音識別設(shè)備,當(dāng)使用具有頂層處為第一語音模型組的分層鏈接關(guān)系的多個(gè)語音模型組來識別語音時(shí),能減少所需存儲容量。
另外,根據(jù)本發(fā)明第6至8方面的語音識別設(shè)備,需要一些延遲時(shí)間,直到非特定語音識別語音模型的出現(xiàn)概率變得等于預(yù)定值為止,因此,通過返回語音參數(shù)存儲裝置中語音參數(shù)的該位置,能減少延遲時(shí)間的影響,以便當(dāng)使用屬于第二語音模型組和第三語音模型組中任何一個(gè)的語音模型來識別語音時(shí),相當(dāng)準(zhǔn)確地識別語音。
另外,根據(jù)本發(fā)明第7至8方面的語音識別設(shè)備,按所花費(fèi)時(shí)間的數(shù)返回語音參數(shù)的讀位置,直到出現(xiàn)概率的變化從識別語音模型傳播到非特定語音識別語音模型為止,因此,能進(jìn)一步減少延遲時(shí)間的影響,以便當(dāng)使用屬于第二語音模型和第三語音模型組中任何一個(gè)的語音模型來識別語音時(shí),更準(zhǔn)確地識別語音。
另外,根據(jù)本發(fā)明第8方面的語音識別設(shè)備,相對于指定識別語音模型時(shí)的讀取位置,按對應(yīng)于所花時(shí)間的數(shù)返回使語音參數(shù)的讀位置,直到出現(xiàn)概率的變化從識別語音模型傳播到非特定語音識別語音模型為止,因此,能進(jìn)一步減少延遲時(shí)間的影響,以便當(dāng)使用屬于第二語音模型和第三語音模型組中任何一個(gè)的語音模型來識別語音時(shí),更準(zhǔn)確地識別語音。
另外,根據(jù)本發(fā)明第9方面的語音識別設(shè)備,與語音模型相比,語音模型模板通常具有小的數(shù)據(jù)容量,因此,當(dāng)需要時(shí),通過動態(tài)展開語音模型,能進(jìn)一步減少用于識別語音所需的存儲容量。
根據(jù)本發(fā)明方面12方面的語音識別程序,能獲得與根據(jù)本發(fā)明第1方面的語音識別設(shè)備相同的效果。
此外,根據(jù)本發(fā)明第13方面的語音識別程序,能獲得與根據(jù)本發(fā)明第2方面的語音識別設(shè)備相同的效果。
根據(jù)本發(fā)明第14方面的語音識別方法,能獲得與根據(jù)本發(fā)明第1方面的語音識別設(shè)備相同的效果。
根據(jù)本發(fā)明第15方面的語音識別方法,能獲得與根據(jù)本發(fā)明第2方面的語音識別設(shè)備相同的效果。
權(quán)利要求
1.一種語音識別設(shè)備,包括被這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,該設(shè)備從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,所述設(shè)備包括用于展開所述語音模型的語音模型展開存儲裝置,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了所述特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與所述語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與所述語音模型網(wǎng)絡(luò)中的所述主要語音模型組具有鏈接關(guān)系的語音模型組被定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加,以及屬于所述主要語音模型組的語音模型被展開在所述語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述主要語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于所述輔助語音模型組的任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
2.一種語音識別設(shè)備,包括這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,所述設(shè)備從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,所述設(shè)備包括第一語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型;第二語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何其他語音模型具有鏈接關(guān)系;這樣模型化的非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加;用于展開所述語音模型的語音模型展開存儲裝置;用于從輸入語音抽取所述語音參數(shù)的語音參數(shù)抽取裝置;以及語音識別裝置,用于基于屬于所述第一語音模型組、所述第二語音模型組和所述第三語音模型組的語音模型以及由所述語音參數(shù)抽取裝置抽取的語音參數(shù)來識別語音;以及所述語音識別裝置將屬于所述第一語音模型組的語音模型和所述非特定語音識別語音模型展開在所述語音模型展開存儲裝置中,將由所述語音參數(shù)抽取裝置抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
3.如權(quán)利要求2所述的語音識別設(shè)備,其特征在于,所述語音識別裝置將由所述語音參數(shù)抽取裝置抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及當(dāng)從所述非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
4.如權(quán)利要求2和3的任何一個(gè)所述的語音識別設(shè)備,其特征在于,所述語音識別裝置將由所述語音參數(shù)抽取裝置抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及當(dāng)從所述非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于所述預(yù)定值時(shí),從所述語音模型展開存儲裝置移出屬于所述第一語音模型組的語音模型和所述非特定語音識別語音模型,以及基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
5.如權(quán)利要求3和4的任何一個(gè)所述的語音識別設(shè)備,其特征在于,所述非特定語音識別語音模型鏈接到屬于所述第一語音模型組的語音模型;以及當(dāng)給定所述語音參數(shù)時(shí),按所述第一語音模型組的語音模型和所述非特定語音識別語音模型的順序,傳播所述出現(xiàn)概率的變化。
6.如權(quán)利要求5所述的語音識別設(shè)備,其特征在于,其特征在于,所述設(shè)備進(jìn)一步包括用于存儲所述語音參數(shù)的語音參數(shù)存儲裝置,所述語音參數(shù)抽取裝置從輸入語音抽取所述語音參數(shù),以及按預(yù)定順序?qū)⑺槿〉恼Z音參數(shù)存儲在所述語音參數(shù)存儲裝置中;以及所述語音識別裝置按所述預(yù)定順序從所述語音參數(shù)存儲裝置讀取所述語音參數(shù),以及將所讀取的語音參數(shù)提供給所述語音模型展開存儲裝置的語音模型,以及當(dāng)從所述非特定語音識別語音模型輸出的出現(xiàn)概率等于或大于所述預(yù)定值時(shí),基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中,按與所述預(yù)定順序相反的順序,使所述語音參數(shù)存儲裝置中所述語音參數(shù)的讀位置移回預(yù)定數(shù),按所述預(yù)定順序從讀位置讀取所述語音參數(shù),以及將所讀取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型。
7.如權(quán)利要求6所述的語音識別設(shè)備,其特征在于,所述語音識別裝置將來自所述第一語音模型組、所述出現(xiàn)概率最高的語音模型指定為識別語音模型,使屬于與所述識別語音模型具有鏈接關(guān)系的所述第二語音模型組和所述第三語音模型組中之一的語音模型展開在所述語音模型展開存儲裝置中,計(jì)算所述出現(xiàn)概率的變化從所述識別語音模型傳播到所述非特定語音識別語音模型為止所需的時(shí)間,以及按相應(yīng)于所述的所需時(shí)間的數(shù),返回所述語音參數(shù)存儲裝置中所述語音參數(shù)的讀位置。
8.如權(quán)利要求7所述的語音識別設(shè)備,其特征在于,所述語音識別裝置按相應(yīng)于所述的所需時(shí)間的數(shù),從指定所述識別語音模型時(shí)的所述讀位置返回所述語音參數(shù)存儲裝置中所述語音參數(shù)的讀位置。
9.如權(quán)利要求2-8的任何一個(gè)所述的語音識別設(shè)備,其特征在于,代替屬于所述第二語音模型組和所述第三語音模型組的語音模型,將表示能由語音模型識別的特定語音的發(fā)音的發(fā)音表示字符串存儲在所述語音模型展開存儲裝置中,以及按等于屬于所述第二語音模型組的語音模型的數(shù)量和屬于所述第三語音模型組的語音模型的數(shù)量中較大的一個(gè)的數(shù),將能基于所述發(fā)音表示字符串構(gòu)成所述語音模型的語音模型模板存儲在所述語音模型展開存儲裝置中,如果屬于所述第二語音模型組和第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中,則所述語音識別裝置基于所述語音模型展開存儲裝置中的、相應(yīng)于將被展開在所述語音模型展開存儲裝置中的語音模型的發(fā)音表示字符串,由所述語音模型展開存儲裝置中的語音模型模板來構(gòu)成所述語音模型。
10.如權(quán)利要求2-9的任何一個(gè)所述的語音識別設(shè)備,其特征在于,所述語音識別裝置將來自所述第一語音模型組、所述出現(xiàn)概率最高的語音模型指定為第一識別語音模型,將展開在所述語音模型展開存儲裝置中、來自所述第二語音模型組和所述第三語音模型組的語音模型、所述出現(xiàn)概率最高的語音模型指定為第二識別語音模型,以及確定所述第二識別語音模型的特定語音與所述第一識別語音模型的特定語音的結(jié)合包括在輸入語音中。
11.如權(quán)利要求2-10的任何一個(gè)所述的語音識別設(shè)備,其特征在于,所述非特定語音識別語音模型是無用信息模型。
12.一種語音識別程序,其使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,該識別程序從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,所述程序使包括用于展開所述語音模型的語音模型展開存儲裝置的計(jì)算機(jī)執(zhí)行處理,其中,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了所述特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與所述語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與所述語音模型網(wǎng)絡(luò)中的所述主要語音模型組具有鏈接關(guān)系的語音模型組被定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加,以及屬于所述主要語音模型組的語音模型展開在所述語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述主要語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于所述輔助語音模型組的任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
13.一種語音識別程序,其使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,該識別程序從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,所述程序使計(jì)算機(jī)能使用第一語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型;第二語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何其他語音模型具有鏈接關(guān)系;這樣模型化的非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加;以及語音模型展開存儲裝置,用于展開所述語音模型從而實(shí)現(xiàn)作為以下裝置實(shí)現(xiàn)的處理用于從輸入語音抽取所述語音參數(shù)的語音參數(shù)抽取裝置,以及,用于基于屬于所述第一語音模型組、所述第二語音組和所述第三語音模型組的語音模型以及由所述語音參數(shù)抽取裝置抽取的語音參數(shù)來識別語音的語音識別裝置;以及所述語音識別裝置將屬于所述第一語音模型組的語音模型和所述非特定語音識別語音模型展開在所述語音模型展開存儲裝置中,將由所述語音參數(shù)抽取裝置抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
14.一種語音識別方法,其使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,該方法從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,構(gòu)成多個(gè)語音模型組,每個(gè)組組合了所述特定語音參數(shù)不同的多個(gè)語音模型,以及構(gòu)成指定用于語音模型組的預(yù)定鏈接關(guān)系的語音模型網(wǎng)絡(luò),以及與所述語音模型網(wǎng)絡(luò)中的多個(gè)語音模型組具有鏈接關(guān)系的語音模型組被定義為主要語音模型組,以及與所述語音模型網(wǎng)絡(luò)中的所述主要語音模型組具有鏈接關(guān)系的語音模型組被定義為輔助語音模型組;以及當(dāng)識別語音時(shí),這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述主要語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加,以及屬于所述主要語音模型組的語音模型被展開在所述語音模型展開存儲裝置中;以及將從輸入語音抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述主要語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,使屬于任何一個(gè)所述輔助語音模型組的語音模型展開在所述語音模型展開存儲裝置中。
15.一種語音識別方法,其使用這樣模型化的語音模型,以使得基于給定語音參數(shù),將特定語音包括在輸入語音中的概率輸出作為出現(xiàn)概率,以及當(dāng)給定特定語音參數(shù)時(shí)所述出現(xiàn)概率增加,該方法從輸入語音抽取所述語音參數(shù),以及基于所抽取的語音參數(shù)和所述語音模型來識別語音,其特征在于,所述方法使用第一語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型;第二語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何語音模型具有鏈接關(guān)系;第三語音模型組,其組合了所述特定語音參數(shù)不同的多個(gè)語音模型且與屬于所述第一語音模型組的任何其他語音模型具有鏈接關(guān)系;所述方法包括用于從輸入語音抽取所述語音參數(shù)的語音參數(shù)抽取步驟;以及語音識別步驟,用于基于屬于所述第一語音模型組、所述第二語音模型組和所述第三語音模型組的語音模型以及在所述語音參數(shù)抽取步驟中抽取的語音參數(shù)來識別語音;以及在所述語音識別步驟中,這樣模型化非特定語音識別語音模型,以使得當(dāng)給定表示不同于能由屬于所述第一語音模型組的語音模型識別的特定語音的語音的語音參數(shù)時(shí),所述出現(xiàn)概率增加,將屬于所述第一語音模型組的語音模型展開在語音模型展開存儲裝置中,將在所述語音參數(shù)抽取步驟中抽取的語音參數(shù)提供給所述語音模型展開存儲裝置中的語音模型,以及基于從屬于所述第一語音模型組的語音模型輸出的出現(xiàn)概率和從所述非特定語音識別語音模型輸出的出現(xiàn)概率,將屬于所述第二語音模型組和所述第三語音模型組中任何一個(gè)的語音模型展開在所述語音模型展開存儲裝置中。
全文摘要
提供一種能優(yōu)選地用于減少用于與說話者無關(guān)的語音識別所需的存儲容量的語音識別設(shè)備。匹配單元114將屬于第一語音模型網(wǎng)絡(luò)300的語音模型和無用信息模型350展開在RAM112中,以及將由語音模型抽取單元106抽取的語音參數(shù)提供給RAM112中的語音模型,當(dāng)從無用信息模型350輸出的出現(xiàn)概率等于或大于預(yù)定值時(shí),匹配單元114基于從屬于第一語音模型網(wǎng)絡(luò)300的語音模型輸出的出現(xiàn)概率,將屬于任何一個(gè)語音模型組402的語音模型展開在RAM112中。
文檔編號G10L15/00GK1653518SQ0381056
公開日2005年8月10日 申請日期2003年5月7日 優(yōu)先權(quán)日2002年5月10日
發(fā)明者宮崎敏幸 申請人:旭化成株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
东平县| 洪江市| 屏山县| 瓮安县| 霍邱县| 扎鲁特旗| 太谷县| 孟津县| 电白县| 卢龙县| 瓮安县| 罗平县| 涿州市| 土默特左旗| 东平县| 望奎县| 东城区| 若尔盖县| 都江堰市| 武夷山市| 资溪县| 菏泽市| 郑州市| 石狮市| 乌兰察布市| 东阿县| 清远市| 盐山县| 海伦市| 泌阳县| 繁峙县| 航空| 抚顺市| 崇仁县| 体育| 班戈县| 松滋市| 永修县| 名山县| 思南县| 鄂州市|