利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法

文檔序號(hào)：2822052閱讀：368來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法
技術(shù)領(lǐng)域：
本發(fā)明是有關(guān)于一種混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，特別有關(guān)一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法。
背景技術(shù)：
由于經(jīng)貿(mào)市場(chǎng)的全球化趨勢(shì)以及國(guó)際社會(huì)的互動(dòng)增加，使得國(guó)人生活逐漸國(guó)際化。因此，在日常語(yǔ)言的表達(dá)上，混合多國(guó)語(yǔ)言的表達(dá)方式成為不可避免的使用方式。尤其許多專業(yè)領(lǐng)域的專有名詞，或者是外文人名、地名等都無(wú)法用翻譯名詞適切地表達(dá)，以混合多國(guó)語(yǔ)言或多國(guó)語(yǔ)言交叉使用的表達(dá)方式已成為日常語(yǔ)言的一部份。于語(yǔ)音辨識(shí)的應(yīng)用中，將混合多國(guó)語(yǔ)言的語(yǔ)音加以辨識(shí)，使其成為具有完整意義的指令，即成為語(yǔ)音辨識(shí)中相當(dāng)重要的工作。
現(xiàn)行混合多國(guó)語(yǔ)言(Mixed multi-lingual)的語(yǔ)音辨識(shí)方法，以下列三者為主。其一是由多個(gè)各自獨(dú)立的單一語(yǔ)言語(yǔ)音辨識(shí)系統(tǒng)構(gòu)成，于實(shí)際應(yīng)用時(shí)，通常必須由使用者選擇欲進(jìn)行辨識(shí)的語(yǔ)言種類，或者由計(jì)算機(jī)判斷輸入的語(yǔ)音屬于何種語(yǔ)言，再指定一種語(yǔ)言的語(yǔ)音辨識(shí)系統(tǒng)進(jìn)行辨識(shí)。此方法于同一語(yǔ)音輸入中僅能使用一種語(yǔ)言，無(wú)法處理于同時(shí)包含多國(guó)語(yǔ)言的語(yǔ)音輸入。雖然此方法包括多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)系統(tǒng)，但若嚴(yán)格界定的，其并不屬于可辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法。
其二是以一種語(yǔ)言來(lái)仿真其它的語(yǔ)言，也就是利用一種主要語(yǔ)言的相似音來(lái)仿真其它語(yǔ)言的發(fā)音。例如，選定中文作為主要語(yǔ)言，就利用中文的拼音來(lái)仿真其它語(yǔ)言的發(fā)音，如英文中的DVD即利用漢語(yǔ)拼音dil bil dil來(lái)近似仿真。此方法雖可解決前述方法所無(wú)法處理的包含多國(guó)語(yǔ)言的語(yǔ)音輸入問(wèn)題，但由于采用近似仿真的方式，許多發(fā)音無(wú)法得到最佳的仿真效果，進(jìn)而影響辨識(shí)的結(jié)果。如英文中的V便無(wú)法用漢語(yǔ)拼音適切地仿真出來(lái)，因此辨識(shí)的結(jié)果便會(huì)失真。
其三是以一組全球音標(biāo)(global phoneme)來(lái)標(biāo)示所有語(yǔ)言的發(fā)音，再利用決策樹(decision tree)將所有標(biāo)示后的語(yǔ)音進(jìn)行分類辨識(shí)。此方法雖可避免前述方法辨識(shí)結(jié)果失真的問(wèn)題，但采用一組音標(biāo)來(lái)標(biāo)示所有語(yǔ)言，當(dāng)字匯量累積至相當(dāng)程度時(shí)，各語(yǔ)種間互相干擾的情形便容易發(fā)生，無(wú)法達(dá)到預(yù)期的辨識(shí)效果。

發(fā)明內(nèi)容
本發(fā)明的一目的在于利用雙音模型(diphone model)的特性，除了跨語(yǔ)言(cross-lingual)的雙音模型外，其它的雙音模型都和單語(yǔ)辨識(shí)時(shí)相同，只能接到同一種語(yǔ)言，所以每一種語(yǔ)言的內(nèi)部都采用該種語(yǔ)言的拼音來(lái)組成。如此一來(lái)，不僅可完成一句話中同時(shí)包含多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)，而且只有跨語(yǔ)言的部份以雙音模型連接至另一種語(yǔ)言，各語(yǔ)種間互相干擾的情形便得到有效的控制。
由于建制一完備的語(yǔ)音辨識(shí)系統(tǒng)，必須以大量語(yǔ)音庫(kù)進(jìn)行訓(xùn)練，本發(fā)明提出另一方法在于系統(tǒng)尚未訓(xùn)練建制完成前，以獨(dú)立不同語(yǔ)言所個(gè)別訓(xùn)練出來(lái)的雙音模型語(yǔ)音辨識(shí)系統(tǒng)來(lái)組合成一語(yǔ)音辨識(shí)系統(tǒng)，以解決語(yǔ)音辨識(shí)系統(tǒng)建制初期的實(shí)際困擾。
為達(dá)成上述諸目的，本發(fā)明提供一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，用以辨識(shí)混合多語(yǔ)的語(yǔ)音信號(hào)，并產(chǎn)生語(yǔ)音指令，包括語(yǔ)音建模器、語(yǔ)音搜尋器以及決策反應(yīng)器。雙音模型是以混合語(yǔ)言的語(yǔ)音邊緣(phone boundary)作為建模依據(jù)。例如，“告訴我New York的天氣”，其中“我N”以及“k的”即為混合語(yǔ)言的語(yǔ)音邊緣。
語(yǔ)音建模器，其接收混合多語(yǔ)的語(yǔ)音信號(hào)，將混合多語(yǔ)的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù)(feature)，再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料。
語(yǔ)音搜尋器，其接收語(yǔ)音模型資料，并搜尋比對(duì)多語(yǔ)模型數(shù)據(jù)庫(kù)(multi-lingual models database)，產(chǎn)生分別對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組。每一候選資料組可具有多個(gè)候選語(yǔ)音模型資料及其對(duì)應(yīng)的比較相似度(likelihood)，根據(jù)詞匯連接機(jī)率，甚至在特定的用途時(shí)(ID，地址...等)，可參考語(yǔ)音規(guī)則，決定詞匯可否連接等找出最佳的多個(gè)候選語(yǔ)音指令。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型(anti-model)?；旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模器建制而成，而混合多語(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生器建制而成。
多語(yǔ)建模器接收多語(yǔ)查詢指令，并經(jīng)過(guò)分析得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料。多語(yǔ)建模器包括多語(yǔ)音標(biāo)序列對(duì)應(yīng)器以及跨語(yǔ)言雙音模型產(chǎn)生器。多語(yǔ)音標(biāo)序列對(duì)應(yīng)器，比對(duì)多語(yǔ)查詢指令以得到與多語(yǔ)查詢指令對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。跨語(yǔ)言雙音模型產(chǎn)生器，篩選組合多語(yǔ)音標(biāo)序列，得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料。
多語(yǔ)矯正模型產(chǎn)生器，接收多語(yǔ)查詢指令，經(jīng)過(guò)正規(guī)化計(jì)算，得到混合多語(yǔ)矯正模型，包括單一語(yǔ)言矯正模型產(chǎn)生器以及矯正模型結(jié)合器。單一語(yǔ)言矯正模型產(chǎn)生器，接收多語(yǔ)查詢指令，參考單一語(yǔ)言雙音模型庫(kù)，分為不同語(yǔ)種進(jìn)行正規(guī)化計(jì)算，產(chǎn)生單一語(yǔ)言矯正模型，每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。矯正模型結(jié)合器，接收單一語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型。
決策反應(yīng)器，其根據(jù)比較相似度以及決策規(guī)則組，由候選語(yǔ)音指令決定一最佳的語(yǔ)音指令，然后依語(yǔ)音指令可產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。
其次，本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)，并產(chǎn)生可辨識(shí)的語(yǔ)音指令。首先，將混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù)，再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料。
接著，根據(jù)多語(yǔ)模型數(shù)據(jù)庫(kù)，搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組，每一候選資料組具有多個(gè)可能的候選語(yǔ)音模型資料，而每一候選語(yǔ)音模型資料具有一比較相似度。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型?；旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模程序建制而成，首先比對(duì)多語(yǔ)查詢指令，以得到對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。然后，把多語(yǔ)音標(biāo)序列根據(jù)前后音標(biāo)，根據(jù)發(fā)音學(xué)做更精細(xì)的變化，可能加上一些卷舌，喉振音等，以得到更精細(xì)的混合多語(yǔ)字音對(duì)應(yīng)資料，這部分其實(shí)在比較簡(jiǎn)單的系統(tǒng)也是可以省略的。進(jìn)行篩選組合時(shí)，是先固定左側(cè)音標(biāo)，于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果，若無(wú)法對(duì)應(yīng)再固定右側(cè)音標(biāo)，于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果，得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
混合多語(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生程序建制而成。首先將多語(yǔ)查詢指令，參考單一語(yǔ)言雙音模型庫(kù)進(jìn)行正規(guī)化計(jì)算，產(chǎn)生單一語(yǔ)言矯正模型，每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。接著，將單一語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
最后，根據(jù)比較相似度以及決策規(guī)則組，由每一候選資料組中決定結(jié)果語(yǔ)音模型資料，并將所得的結(jié)果語(yǔ)音模型資料結(jié)合成語(yǔ)音指令，最后可再依語(yǔ)音指令產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。

圖1是顯示本發(fā)明的功能方塊圖；圖2是顯示本發(fā)明中建制混合多語(yǔ)字音對(duì)應(yīng)資料的功能方塊圖；圖3是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的功能方塊圖；圖4是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的細(xì)部功能方塊圖；圖5是顯示本發(fā)明所揭示的實(shí)施例中跨語(yǔ)言資料表的范例表示圖；圖6是顯示本發(fā)明所揭示的實(shí)施例應(yīng)用的功能示意圖；
圖7是顯示本發(fā)明的執(zhí)行流程圖；符號(hào)說(shuō)明100-混合多語(yǔ)語(yǔ)音信號(hào)102-語(yǔ)音建模器104-語(yǔ)音模型資料106-語(yǔ)音搜尋器107-語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)108-多語(yǔ)模型數(shù)據(jù)庫(kù)110-最佳候選語(yǔ)音指令112-決策反應(yīng)器114-決策規(guī)則組116-語(yǔ)音指令及相對(duì)應(yīng)動(dòng)作200-多語(yǔ)查詢指令202-多語(yǔ)文音標(biāo)序列對(duì)應(yīng)器206-跨語(yǔ)言雙音模型產(chǎn)生器208-混合多語(yǔ)字音對(duì)應(yīng)資料30-多語(yǔ)查詢指令32-多語(yǔ)矯正模型產(chǎn)生器34-單一語(yǔ)言雙音模型庫(kù)36-混合多語(yǔ)矯正模型320-單一語(yǔ)言矯正模型產(chǎn)生器(甲語(yǔ)言)322-單一語(yǔ)言雙音模型庫(kù)(甲語(yǔ)言)324-單一語(yǔ)言矯正模型產(chǎn)生器(乙語(yǔ)言)326-單一語(yǔ)言雙音模型庫(kù)(乙語(yǔ)言)328-單一語(yǔ)言矯正模型產(chǎn)生器(丙語(yǔ)言)330-單一語(yǔ)言雙音模型庫(kù)(丙語(yǔ)言)332-矯正模型結(jié)合器
600-語(yǔ)音信號(hào)輸入602-麥克風(fēng)604-電話接口606-模擬/數(shù)字608-只讀存儲(chǔ)器610-隨機(jī)存取內(nèi)存612-閃存614-數(shù)字信號(hào)處理單元616-網(wǎng)絡(luò)模塊618-連接端口模塊620-行動(dòng)反應(yīng)程序升級(jí)622-數(shù)字/模擬624-喇叭626-電話接口628-語(yǔ)音輸出具體實(shí)施方式
如圖1所示，圖1是顯示本發(fā)明的功能方塊圖。本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其用以辨識(shí)混合多語(yǔ)的語(yǔ)音信號(hào)100，并產(chǎn)生語(yǔ)音指令116，包括語(yǔ)音建模器102、語(yǔ)音搜尋器106以及決策反應(yīng)器112。
語(yǔ)音建模器102，用以接收混合多語(yǔ)的語(yǔ)音信號(hào)100，將混合多語(yǔ)的語(yǔ)音信號(hào)100轉(zhuǎn)換為語(yǔ)音特征參數(shù)，再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料104。
語(yǔ)音搜尋器106，接收語(yǔ)音模型資料104，并查詢多語(yǔ)模型數(shù)據(jù)庫(kù)108，搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料104的候選資料組，每一候選資料組可能有多個(gè)候選語(yǔ)音模型資料，每一候選語(yǔ)音模型資料會(huì)具有一比較相似度。上述搜尋比對(duì)還可能參考語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)(Rules or Languages Modelsdatabase)以及混多語(yǔ)指令字符串(Mixed multi-lingual query commandsstrings)。語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)主要是由某一特定領(lǐng)域或某一語(yǔ)言規(guī)則所組成，混多語(yǔ)指令字符串以及多語(yǔ)字音對(duì)應(yīng)字符串亦為某一特定領(lǐng)域的常用字符串，其作用均在于增加語(yǔ)法辨識(shí)能力，提升辨識(shí)率(recognition rate)。語(yǔ)音搜尋器再根據(jù)詞匯連接機(jī)率或參考語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)107決定詞匯可否連接等評(píng)估出最佳的多個(gè)候選語(yǔ)音指令110。
決策反應(yīng)器112，其根據(jù)比較相似度以及決策規(guī)則組114，由候選語(yǔ)音指令110中決定一結(jié)果語(yǔ)音指令，然后可再依語(yǔ)音指令產(chǎn)生行動(dòng)反應(yīng)。決策規(guī)則組114可以預(yù)設(shè)一信賴度門檻(threshold)，以判斷結(jié)果是否為一可認(rèn)知的指令，過(guò)濾可能辨認(rèn)錯(cuò)誤的指令，避免錯(cuò)誤動(dòng)作?；蛞詿o(wú)條件接受辨識(shí)結(jié)果等規(guī)則來(lái)作為決策基準(zhǔn)。行動(dòng)反應(yīng)可能是發(fā)出語(yǔ)音或燈號(hào)、提示使用者重新輸入或者進(jìn)行遠(yuǎn)程(remote)控制等。
多語(yǔ)模型數(shù)據(jù)庫(kù)108包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型?；旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料以多語(yǔ)建模器事先建制完成，混合多語(yǔ)矯正模型以多語(yǔ)矯正模型產(chǎn)生器事先建制完成。
如圖2所示，圖2是顯示本發(fā)明中建制混合多語(yǔ)字音對(duì)應(yīng)資料的功能方塊圖。多語(yǔ)建模器包括多語(yǔ)音標(biāo)序列對(duì)應(yīng)器202以及跨語(yǔ)言雙音模型產(chǎn)生器206。多語(yǔ)音標(biāo)序列對(duì)應(yīng)器202，可參考多語(yǔ)字匯字典，將多語(yǔ)查詢指令200經(jīng)過(guò)比對(duì)，得到對(duì)應(yīng)的多語(yǔ)音標(biāo)序列?？缯Z(yǔ)言雙音模型產(chǎn)生器206，可參考跨語(yǔ)言資料表以及語(yǔ)法規(guī)則庫(kù)，篩選組合多語(yǔ)音標(biāo)序列，得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料208。
跨語(yǔ)言雙音模型產(chǎn)生器206于進(jìn)行上述篩選組合時(shí)，是先固定左側(cè)音標(biāo)，于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果，若無(wú)法對(duì)應(yīng)再固定右側(cè)音標(biāo)，于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果，得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。如圖5所示，圖5是顯示本發(fā)明所揭示的實(shí)施例中跨語(yǔ)言資料表的范例表示圖，圖中c表示中文，e表示英文。如圖中第一列所示，如中文的z拼音于英文中便無(wú)法找出較佳的近似音，利用本發(fā)明所提出的雙音模型的方式可找到英文中的ch或th的近似候選雙音模型。如圖中第二列所示，如中文的zcl拼音無(wú)法找出較佳的近似音，根據(jù)決策規(guī)則判定為不對(duì)應(yīng)。如圖中第三列所示，如中文的ing拼音必須以英文的ih+ng組合才能完成，根據(jù)決策規(guī)則將其組合。
如圖3所示，圖3是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的功能方塊圖。多語(yǔ)矯正模型產(chǎn)生器32，接收多語(yǔ)查詢指令30，經(jīng)過(guò)正規(guī)化計(jì)算，得到混合多語(yǔ)矯正模型36。同時(shí)如圖4所示，圖4是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的細(xì)部功能方塊圖。多語(yǔ)矯正模型產(chǎn)生器32包括數(shù)個(gè)單一語(yǔ)言矯正模型產(chǎn)生器320、324、328以及矯正模型結(jié)合器332。單一語(yǔ)言矯正模型產(chǎn)生器320、324、328，接收多語(yǔ)查詢指令30，參考單一語(yǔ)言雙音模型庫(kù)322、326、330，分為不同語(yǔ)種進(jìn)行正規(guī)化計(jì)算，產(chǎn)生單一語(yǔ)言矯正模型，每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。矯正模型結(jié)合器332，接收單一語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型36。
換言之，單一語(yǔ)言矯正模型產(chǎn)生器(甲語(yǔ)言)320參考單一語(yǔ)言雙音模型庫(kù)(甲語(yǔ)言)322，產(chǎn)生甲語(yǔ)言矯正模型。單一語(yǔ)言矯正模型產(chǎn)生器(乙語(yǔ)言)324參考單一語(yǔ)言雙音模型庫(kù)(乙語(yǔ)言)326，產(chǎn)生乙語(yǔ)言矯正模型。單一語(yǔ)言矯正模型產(chǎn)生器(丙語(yǔ)言)328參考單一語(yǔ)言雙音模型庫(kù)(丙語(yǔ)言)330，產(chǎn)生丙語(yǔ)言矯正模型。再由矯正模型結(jié)合器332，接收甲語(yǔ)言、乙語(yǔ)言、丙語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型36。
單一語(yǔ)言矯正模型產(chǎn)生器320、324、328采用公式(1)、(2)來(lái)進(jìn)行正規(guī)化P=Σk=1CkN(0,μk,σk)--(1)]]>logP＝logP-logPanti(2)
如果所應(yīng)用的語(yǔ)音辨識(shí)系統(tǒng)，是以充分的多國(guó)語(yǔ)言混合數(shù)據(jù)庫(kù)所訓(xùn)練建制完成。系統(tǒng)本身就已經(jīng)含有訓(xùn)練好的所有跨語(yǔ)言雙音模型，則于圖2中不需有跨語(yǔ)言模型產(chǎn)生器，同時(shí)因?yàn)橄到y(tǒng)本身已是以多語(yǔ)混合訓(xùn)練而成，所以可不再需矯正模型，所以也無(wú)需如圖4的正規(guī)化加權(quán)計(jì)算產(chǎn)生混合多語(yǔ)矯正模型。如果所應(yīng)用的語(yǔ)音辨識(shí)系統(tǒng)，是以多個(gè)以不同語(yǔ)言個(gè)別訓(xùn)練成的語(yǔ)音辨識(shí)系統(tǒng)所組成，即以多個(gè)單一語(yǔ)言的雙音模型結(jié)合而成，就必須進(jìn)行如圖4的正規(guī)化加權(quán)計(jì)算。
舉例而言，可利用如圖6的硬件架構(gòu)實(shí)現(xiàn)本發(fā)明。如圖所示，使用者于使用前可透過(guò)網(wǎng)絡(luò)模塊616或連接端口模塊618與語(yǔ)音辨識(shí)系統(tǒng)進(jìn)行連接。使用者可根據(jù)使用需求定義所需的辨識(shí)規(guī)則，如地址、車牌或身份證字號(hào)等。使用者于使用時(shí)，可透過(guò)麥克風(fēng)602或電話接口604輸入查詢或指令，即語(yǔ)音信號(hào)輸入600。
接著，由模擬信號(hào)至數(shù)字信號(hào)轉(zhuǎn)換模塊606，將語(yǔ)音信號(hào)輸入600轉(zhuǎn)換為數(shù)字信號(hào)。而語(yǔ)音辨識(shí)系統(tǒng)的程序軟件置于只讀存儲(chǔ)器608、隨機(jī)存取內(nèi)存610以及閃存612中，數(shù)字信號(hào)處理單元614可進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)控制與資料辨識(shí)等工作。其中，如果所欲儲(chǔ)存的資料為固定且變動(dòng)性不大的資料，如網(wǎng)絡(luò)協(xié)議、開機(jī)程序等可置于只讀存儲(chǔ)器608中。如果所欲儲(chǔ)存的資料為變動(dòng)性大且經(jīng)常更新的資料，如各語(yǔ)言間的轉(zhuǎn)換表、語(yǔ)音機(jī)率模型等可置于閃存612中。數(shù)字信號(hào)處理單元614于執(zhí)行時(shí)間，會(huì)將辨識(shí)系統(tǒng)加載隨機(jī)存取內(nèi)存610中進(jìn)行各項(xiàng)辨識(shí)分析。
最后，所得的結(jié)果透過(guò)數(shù)字信號(hào)至模擬信號(hào)轉(zhuǎn)換模塊622，轉(zhuǎn)換為模擬信號(hào)，由喇叭624或電話接口626輸出。此外，也可經(jīng)由網(wǎng)絡(luò)模塊616或連接端口模塊618對(duì)遠(yuǎn)程對(duì)象，進(jìn)行對(duì)應(yīng)的行動(dòng)反應(yīng)620。而且系統(tǒng)程序或者數(shù)據(jù)庫(kù)等亦可由網(wǎng)絡(luò)模塊616或連接端口模塊618進(jìn)行程序升級(jí)與更新620。
其次，本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)，并產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。如圖7所示，圖7是顯示本發(fā)明的執(zhí)行流程圖。首先，將混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù)，再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料(步驟S700)。
接著，搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組，每一候選雙音模型組具有多個(gè)可能的候選雙音模型，而每一候選雙音模型具有一比較相似度(步驟S702)，并評(píng)估出最佳的多個(gè)候選語(yǔ)音指令。步驟S702中的搜尋比對(duì)可根據(jù)多語(yǔ)模型數(shù)據(jù)庫(kù)、語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)以及混合多語(yǔ)查詢指令字符串。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型。混合多語(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模程序建制而成，多語(yǔ)建模程序首先可參考多語(yǔ)字匯字典，將多語(yǔ)查詢指令經(jīng)過(guò)比對(duì)，得到與多語(yǔ)查詢指令對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。然后，分類多語(yǔ)音標(biāo)序列進(jìn)行分類，再參考跨語(yǔ)言資料表以及語(yǔ)法規(guī)則庫(kù)，篩選組合已分類的多語(yǔ)音標(biāo)序列，得到混合多語(yǔ)字音對(duì)應(yīng)資料?；旌隙嗾Z(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生程序建制而成。多語(yǔ)矯正模型產(chǎn)生程序首先將多語(yǔ)查詢指令，參考單一語(yǔ)言雙音模型庫(kù)進(jìn)行正規(guī)化計(jì)算，產(chǎn)生單一語(yǔ)言矯正模型，每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。接著，將單一語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
最后，根據(jù)比較相似度以及決策規(guī)則組，由每一候選雙音模型組中決定結(jié)果語(yǔ)音模型資料(步驟S704)，并將所得的結(jié)果語(yǔ)音模型資料結(jié)合成語(yǔ)音指令(步驟S706)，可再依語(yǔ)音指令產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)(步驟S708)。
綜言之，本發(fā)明所揭示的裝置及方法，透過(guò)雙音模型的建制，實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)功能，用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)，并可產(chǎn)生語(yǔ)音指令，達(dá)到本發(fā)明所欲達(dá)到的目的。尤其在多國(guó)語(yǔ)言交叉混合及累積大量字匯的情形下，仍可具有相當(dāng)良好的辨識(shí)成果，大幅改善現(xiàn)行技術(shù)所無(wú)法解決的問(wèn)題。
權(quán)利要求
1.一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其用以辨識(shí)一混合多語(yǔ)的語(yǔ)音信號(hào)為一語(yǔ)音指令，其特征在于所述語(yǔ)音辨識(shí)裝置包括一語(yǔ)音建模器，用以接收上述混合多語(yǔ)的語(yǔ)音信號(hào)，將上述混合多語(yǔ)的語(yǔ)音信號(hào)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音特征參數(shù)，再將上述語(yǔ)音特征參數(shù)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音模型資料；一語(yǔ)音搜尋器，其耦接于上述語(yǔ)音建模器，用以接收上述語(yǔ)音模型資料，并且搜尋比對(duì)分別對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)候選資料組，每一候選資料組具有復(fù)數(shù)候選語(yǔ)音模型資料，及其對(duì)應(yīng)的比較相似度，并評(píng)估出最佳的復(fù)數(shù)候選語(yǔ)音指令；一決策反應(yīng)器，其耦接于上述語(yǔ)音搜尋器，由上述候選語(yǔ)音指令中決定對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)結(jié)果語(yǔ)音模型資料，并將上述結(jié)果語(yǔ)音模型資料結(jié)合成一語(yǔ)音指令。
2.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于上述語(yǔ)音模型資料是為具有雙音模型的資料。
3.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于上述語(yǔ)音搜尋器，是根據(jù)一多語(yǔ)模型數(shù)據(jù)庫(kù)進(jìn)行搜尋比對(duì)。
4.根據(jù)權(quán)利要求3所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)字音對(duì)應(yīng)資料。
5.根據(jù)權(quán)利要求4所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于更包括一多語(yǔ)建模器，用以產(chǎn)生上述混合多語(yǔ)字音對(duì)應(yīng)資料，其包括一多語(yǔ)音標(biāo)序列對(duì)應(yīng)器，將復(fù)數(shù)第一多語(yǔ)查詢指令經(jīng)過(guò)比對(duì)，得到對(duì)應(yīng)的復(fù)數(shù)多語(yǔ)音標(biāo)序列；一跨語(yǔ)言雙音模型產(chǎn)生器，其耦接于上述多語(yǔ)音標(biāo)序列對(duì)應(yīng)器，用以篩選組合上述多語(yǔ)音標(biāo)序列，以得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
6.根據(jù)權(quán)利要求3的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)矯正模型。
7.根據(jù)權(quán)利要求6所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于更包括一多語(yǔ)矯正模型產(chǎn)生器，用以產(chǎn)生上述混合多語(yǔ)矯正模型，其包括至少一單一語(yǔ)言矯正模型產(chǎn)生器，用以接收復(fù)數(shù)第二多語(yǔ)查詢指令，分別對(duì)應(yīng)于復(fù)數(shù)既定語(yǔ)種進(jìn)行正規(guī)化計(jì)算，產(chǎn)生復(fù)數(shù)單一語(yǔ)言矯正模型；一矯正模型結(jié)合器，其耦接于上述單一語(yǔ)言矯正模型產(chǎn)生器，用以接收上述單一語(yǔ)言矯正模型，進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
8.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，其特征在于上述語(yǔ)音搜尋器，是根據(jù)上述語(yǔ)音模型資料連接的順序以及一語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)進(jìn)行評(píng)估。
9.一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其用以辨識(shí)一混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)，其特征在于包括下列步驟將上述混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音特征參數(shù)，再將上述語(yǔ)音特征參數(shù)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音模型資料；搜尋比對(duì)分別對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)候選資料組，每一候選資料組具有復(fù)數(shù)候選語(yǔ)音模型資料，及其對(duì)應(yīng)的比較相似度，并評(píng)估出最佳的復(fù)數(shù)候選語(yǔ)音指令；根據(jù)上述比較相似度，分別由上述候選資料組中決定對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)結(jié)果語(yǔ)音模型資料，并將上述結(jié)果語(yǔ)音模型資料結(jié)合成一語(yǔ)音指令。
10.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于上述語(yǔ)音模型資料是為具有雙音模型的資料。
11.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于上述雙音模型搜尋比對(duì)的步驟中，上述搜尋比對(duì)是根據(jù)一多語(yǔ)模型數(shù)據(jù)庫(kù)。
12.根據(jù)權(quán)利要求11所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)字音對(duì)應(yīng)資料。
13.根據(jù)權(quán)利要求12所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于更包括一多語(yǔ)建模程序，用以產(chǎn)生上述混合多語(yǔ)字音對(duì)應(yīng)資料，包括下列步驟將復(fù)數(shù)第一多語(yǔ)查詢指令經(jīng)過(guò)比對(duì)，得到對(duì)應(yīng)的復(fù)數(shù)多語(yǔ)音標(biāo)序列；篩選組合上述多語(yǔ)音標(biāo)序列，以得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
14.根據(jù)權(quán)利要求13所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于篩選組合上述已分類的多語(yǔ)音標(biāo)序列的步驟中，尚包括下列步驟先固定左側(cè)音標(biāo)，于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果；當(dāng)無(wú)法對(duì)應(yīng)時(shí)固定右側(cè)音標(biāo)，于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果；由對(duì)應(yīng)結(jié)果得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
15.根據(jù)權(quán)利要求11所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)矯正模型。
16.根據(jù)權(quán)利要求15所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于更包括一多語(yǔ)矯正模型產(chǎn)生程序，用以產(chǎn)生上述混合多語(yǔ)矯正模型，包括下列步驟接收復(fù)數(shù)第二多語(yǔ)查詢指令，分別對(duì)應(yīng)于復(fù)數(shù)既定語(yǔ)種進(jìn)行正規(guī)化計(jì)算，產(chǎn)生復(fù)數(shù)單一語(yǔ)言矯正模型；將上述單一語(yǔ)言矯正模型進(jìn)行加權(quán)計(jì)算，以得到上述混合多語(yǔ)矯正模型。
17.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法，其特征在于評(píng)估出最佳的上述候選語(yǔ)音指令的步驟是根據(jù)上述語(yǔ)音模型資料連接的順序以及一語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)進(jìn)行評(píng)估。
全文摘要
一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置，用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)為語(yǔ)音指令，包括語(yǔ)音建模器、語(yǔ)音搜尋器以及決策反應(yīng)器。語(yǔ)音建模器，用以接收混合多語(yǔ)的語(yǔ)音信號(hào)，將其轉(zhuǎn)換為語(yǔ)音特征參數(shù)與語(yǔ)音模型資料。語(yǔ)音搜尋器，用以搜尋比對(duì)語(yǔ)音模型資料，產(chǎn)生候選語(yǔ)音模型資料及其比較相似度，并配合語(yǔ)法規(guī)則等以求出最佳的多個(gè)候選指令。決策反應(yīng)器，根據(jù)所求得每個(gè)候選指令的比較相似度，以預(yù)設(shè)的信賴度或邏輯關(guān)系，決定是否接受該辨識(shí)結(jié)果或要求重新輸入。
文檔編號(hào)G10L15/00GK1540626SQ03128510
公開日2004年10月27日申請(qǐng)日期2003年4月25日優(yōu)先權(quán)日2003年4月25日
發(fā)明者李允文申請(qǐng)人:臺(tái)達(dá)電子工業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李允文
技術(shù)所有人：臺(tái)達(dá)電子工業(yè)股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高斯混合模型語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)言模型相關(guān)技術(shù)

統(tǒng)計(jì)語(yǔ)言模型相關(guān)技術(shù)

r語(yǔ)言arima模型預(yù)測(cè)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法