專利名稱:利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)于一種混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,特別有關(guān)一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置及方法。
背景技術(shù):
由于經(jīng)貿(mào)市場(chǎng)的全球化趨勢(shì)以及國(guó)際社會(huì)的互動(dòng)增加,使得國(guó)人生活逐漸國(guó)際化。因此,在日常語(yǔ)言的表達(dá)上,混合多國(guó)語(yǔ)言的表達(dá)方式成為不可避免的使用方式。尤其許多專業(yè)領(lǐng)域的專有名詞,或者是外文人名、地名等都無(wú)法用翻譯名詞適切地表達(dá),以混合多國(guó)語(yǔ)言或多國(guó)語(yǔ)言交叉使用的表達(dá)方式已成為日常語(yǔ)言的一部份。于語(yǔ)音辨識(shí)的應(yīng)用中,將混合多國(guó)語(yǔ)言的語(yǔ)音加以辨識(shí),使其成為具有完整意義的指令,即成為語(yǔ)音辨識(shí)中相當(dāng)重要的工作。
現(xiàn)行混合多國(guó)語(yǔ)言(Mixed multi-lingual)的語(yǔ)音辨識(shí)方法,以下列三者為主。其一是由多個(gè)各自獨(dú)立的單一語(yǔ)言語(yǔ)音辨識(shí)系統(tǒng)構(gòu)成,于實(shí)際應(yīng)用時(shí),通常必須由使用者選擇欲進(jìn)行辨識(shí)的語(yǔ)言種類,或者由計(jì)算機(jī)判斷輸入的語(yǔ)音屬于何種語(yǔ)言,再指定一種語(yǔ)言的語(yǔ)音辨識(shí)系統(tǒng)進(jìn)行辨識(shí)。此方法于同一語(yǔ)音輸入中僅能使用一種語(yǔ)言,無(wú)法處理于同時(shí)包含多國(guó)語(yǔ)言的語(yǔ)音輸入。雖然此方法包括多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)系統(tǒng),但若嚴(yán)格界定的,其并不屬于可辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法。
其二是以一種語(yǔ)言來(lái)仿真其它的語(yǔ)言,也就是利用一種主要語(yǔ)言的相似音來(lái)仿真其它語(yǔ)言的發(fā)音。例如,選定中文作為主要語(yǔ)言,就利用中文的拼音來(lái)仿真其它語(yǔ)言的發(fā)音,如英文中的DVD即利用漢語(yǔ)拼音dil bil dil來(lái)近似仿真。此方法雖可解決前述方法所無(wú)法處理的包含多國(guó)語(yǔ)言的語(yǔ)音輸入問(wèn)題,但由于采用近似仿真的方式,許多發(fā)音無(wú)法得到最佳的仿真效果,進(jìn)而影響辨識(shí)的結(jié)果。如英文中的V便無(wú)法用漢語(yǔ)拼音適切地仿真出來(lái),因此辨識(shí)的結(jié)果便會(huì)失真。
其三是以一組全球音標(biāo)(global phoneme)來(lái)標(biāo)示所有語(yǔ)言的發(fā)音,再利用決策樹(decision tree)將所有標(biāo)示后的語(yǔ)音進(jìn)行分類辨識(shí)。此方法雖可避免前述方法辨識(shí)結(jié)果失真的問(wèn)題,但采用一組音標(biāo)來(lái)標(biāo)示所有語(yǔ)言,當(dāng)字匯量累積至相當(dāng)程度時(shí),各語(yǔ)種間互相干擾的情形便容易發(fā)生,無(wú)法達(dá)到預(yù)期的辨識(shí)效果。
發(fā)明內(nèi)容
本發(fā)明的一目的在于利用雙音模型(diphone model)的特性,除了跨語(yǔ)言(cross-lingual)的雙音模型外,其它的雙音模型都和單語(yǔ)辨識(shí)時(shí)相同,只能接到同一種語(yǔ)言,所以每一種語(yǔ)言的內(nèi)部都采用該種語(yǔ)言的拼音來(lái)組成。如此一來(lái),不僅可完成一句話中同時(shí)包含多國(guó)語(yǔ)言的語(yǔ)音辨識(shí),而且只有跨語(yǔ)言的部份以雙音模型連接至另一種語(yǔ)言,各語(yǔ)種間互相干擾的情形便得到有效的控制。
由于建制一完備的語(yǔ)音辨識(shí)系統(tǒng),必須以大量語(yǔ)音庫(kù)進(jìn)行訓(xùn)練,本發(fā)明提出另一方法在于系統(tǒng)尚未訓(xùn)練建制完成前,以獨(dú)立不同語(yǔ)言所個(gè)別訓(xùn)練出來(lái)的雙音模型語(yǔ)音辨識(shí)系統(tǒng)來(lái)組合成一語(yǔ)音辨識(shí)系統(tǒng),以解決語(yǔ)音辨識(shí)系統(tǒng)建制初期的實(shí)際困擾。
為達(dá)成上述諸目的,本發(fā)明提供一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,用以辨識(shí)混合多語(yǔ)的語(yǔ)音信號(hào),并產(chǎn)生語(yǔ)音指令,包括語(yǔ)音建模器、語(yǔ)音搜尋器以及決策反應(yīng)器。雙音模型是以混合語(yǔ)言的語(yǔ)音邊緣(phone boundary)作為建模依據(jù)。例如,“告訴我New York的天氣”,其中“我N”以及“k的”即為混合語(yǔ)言的語(yǔ)音邊緣。
語(yǔ)音建模器,其接收混合多語(yǔ)的語(yǔ)音信號(hào),將混合多語(yǔ)的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù)(feature),再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料。
語(yǔ)音搜尋器,其接收語(yǔ)音模型資料,并搜尋比對(duì)多語(yǔ)模型數(shù)據(jù)庫(kù)(multi-lingual models database),產(chǎn)生分別對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組。每一候選資料組可具有多個(gè)候選語(yǔ)音模型資料及其對(duì)應(yīng)的比較相似度(likelihood),根據(jù)詞匯連接機(jī)率,甚至在特定的用途時(shí)(ID,地址...等),可參考語(yǔ)音規(guī)則,決定詞匯可否連接等找出最佳的多個(gè)候選語(yǔ)音指令。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型(anti-model)?;旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模器建制而成,而混合多語(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生器建制而成。
多語(yǔ)建模器接收多語(yǔ)查詢指令,并經(jīng)過(guò)分析得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料。多語(yǔ)建模器包括多語(yǔ)音標(biāo)序列對(duì)應(yīng)器以及跨語(yǔ)言雙音模型產(chǎn)生器。多語(yǔ)音標(biāo)序列對(duì)應(yīng)器,比對(duì)多語(yǔ)查詢指令以得到與多語(yǔ)查詢指令對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。跨語(yǔ)言雙音模型產(chǎn)生器,篩選組合多語(yǔ)音標(biāo)序列,得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料。
多語(yǔ)矯正模型產(chǎn)生器,接收多語(yǔ)查詢指令,經(jīng)過(guò)正規(guī)化計(jì)算,得到混合多語(yǔ)矯正模型,包括單一語(yǔ)言矯正模型產(chǎn)生器以及矯正模型結(jié)合器。單一語(yǔ)言矯正模型產(chǎn)生器,接收多語(yǔ)查詢指令,參考單一語(yǔ)言雙音模型庫(kù),分為不同語(yǔ)種進(jìn)行正規(guī)化計(jì)算,產(chǎn)生單一語(yǔ)言矯正模型,每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。矯正模型結(jié)合器,接收單一語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型。
決策反應(yīng)器,其根據(jù)比較相似度以及決策規(guī)則組,由候選語(yǔ)音指令決定一最佳的語(yǔ)音指令,然后依語(yǔ)音指令可產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。
其次,本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào),并產(chǎn)生可辨識(shí)的語(yǔ)音指令。首先,將混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù),再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料。
接著,根據(jù)多語(yǔ)模型數(shù)據(jù)庫(kù),搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組,每一候選資料組具有多個(gè)可能的候選語(yǔ)音模型資料,而每一候選語(yǔ)音模型資料具有一比較相似度。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型?;旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模程序建制而成,首先比對(duì)多語(yǔ)查詢指令,以得到對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。然后,把多語(yǔ)音標(biāo)序列根據(jù)前后音標(biāo),根據(jù)發(fā)音學(xué)做更精細(xì)的變化,可能加上一些卷舌,喉振音等,以得到更精細(xì)的混合多語(yǔ)字音對(duì)應(yīng)資料,這部分其實(shí)在比較簡(jiǎn)單的系統(tǒng)也是可以省略的。進(jìn)行篩選組合時(shí),是先固定左側(cè)音標(biāo),于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果,若無(wú)法對(duì)應(yīng)再固定右側(cè)音標(biāo),于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果,得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
混合多語(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生程序建制而成。首先將多語(yǔ)查詢指令,參考單一語(yǔ)言雙音模型庫(kù)進(jìn)行正規(guī)化計(jì)算,產(chǎn)生單一語(yǔ)言矯正模型,每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。接著,將單一語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
最后,根據(jù)比較相似度以及決策規(guī)則組,由每一候選資料組中決定結(jié)果語(yǔ)音模型資料,并將所得的結(jié)果語(yǔ)音模型資料結(jié)合成語(yǔ)音指令,最后可再依語(yǔ)音指令產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。
圖1是顯示本發(fā)明的功能方塊圖;圖2是顯示本發(fā)明中建制混合多語(yǔ)字音對(duì)應(yīng)資料的功能方塊圖;圖3是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的功能方塊圖;圖4是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的細(xì)部功能方塊圖;圖5是顯示本發(fā)明所揭示的實(shí)施例中跨語(yǔ)言資料表的范例表示圖;圖6是顯示本發(fā)明所揭示的實(shí)施例應(yīng)用的功能示意圖;
圖7是顯示本發(fā)明的執(zhí)行流程圖;符號(hào)說(shuō)明100-混合多語(yǔ)語(yǔ)音信號(hào)102-語(yǔ)音建模器104-語(yǔ)音模型資料106-語(yǔ)音搜尋器107-語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)108-多語(yǔ)模型數(shù)據(jù)庫(kù)110-最佳候選語(yǔ)音指令112-決策反應(yīng)器114-決策規(guī)則組116-語(yǔ)音指令及相對(duì)應(yīng)動(dòng)作200-多語(yǔ)查詢指令202-多語(yǔ)文音標(biāo)序列對(duì)應(yīng)器206-跨語(yǔ)言雙音模型產(chǎn)生器208-混合多語(yǔ)字音對(duì)應(yīng)資料30-多語(yǔ)查詢指令32-多語(yǔ)矯正模型產(chǎn)生器34-單一語(yǔ)言雙音模型庫(kù)36-混合多語(yǔ)矯正模型320-單一語(yǔ)言矯正模型產(chǎn)生器(甲語(yǔ)言)322-單一語(yǔ)言雙音模型庫(kù)(甲語(yǔ)言)324-單一語(yǔ)言矯正模型產(chǎn)生器(乙語(yǔ)言)326-單一語(yǔ)言雙音模型庫(kù)(乙語(yǔ)言)328-單一語(yǔ)言矯正模型產(chǎn)生器(丙語(yǔ)言)330-單一語(yǔ)言雙音模型庫(kù)(丙語(yǔ)言)332-矯正模型結(jié)合器
600-語(yǔ)音信號(hào)輸入602-麥克風(fēng)604-電話接口606-模擬/數(shù)字608-只讀存儲(chǔ)器610-隨機(jī)存取內(nèi)存612-閃存614-數(shù)字信號(hào)處理單元616-網(wǎng)絡(luò)模塊618-連接端口模塊620-行動(dòng)反應(yīng)程序升級(jí)622-數(shù)字/模擬624-喇叭626-電話接口628-語(yǔ)音輸出具體實(shí)施方式
如圖1所示,圖1是顯示本發(fā)明的功能方塊圖。本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其用以辨識(shí)混合多語(yǔ)的語(yǔ)音信號(hào)100,并產(chǎn)生語(yǔ)音指令116,包括語(yǔ)音建模器102、語(yǔ)音搜尋器106以及決策反應(yīng)器112。
語(yǔ)音建模器102,用以接收混合多語(yǔ)的語(yǔ)音信號(hào)100,將混合多語(yǔ)的語(yǔ)音信號(hào)100轉(zhuǎn)換為語(yǔ)音特征參數(shù),再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料104。
語(yǔ)音搜尋器106,接收語(yǔ)音模型資料104,并查詢多語(yǔ)模型數(shù)據(jù)庫(kù)108,搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料104的候選資料組,每一候選資料組可能有多個(gè)候選語(yǔ)音模型資料,每一候選語(yǔ)音模型資料會(huì)具有一比較相似度。上述搜尋比對(duì)還可能參考語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)(Rules or Languages Modelsdatabase)以及混多語(yǔ)指令字符串(Mixed multi-lingual query commandsstrings)。語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)主要是由某一特定領(lǐng)域或某一語(yǔ)言規(guī)則所組成,混多語(yǔ)指令字符串以及多語(yǔ)字音對(duì)應(yīng)字符串亦為某一特定領(lǐng)域的常用字符串,其作用均在于增加語(yǔ)法辨識(shí)能力,提升辨識(shí)率(recognition rate)。語(yǔ)音搜尋器再根據(jù)詞匯連接機(jī)率或參考語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)107決定詞匯可否連接等評(píng)估出最佳的多個(gè)候選語(yǔ)音指令110。
決策反應(yīng)器112,其根據(jù)比較相似度以及決策規(guī)則組114,由候選語(yǔ)音指令110中決定一結(jié)果語(yǔ)音指令,然后可再依語(yǔ)音指令產(chǎn)生行動(dòng)反應(yīng)。決策規(guī)則組114可以預(yù)設(shè)一信賴度門檻(threshold),以判斷結(jié)果是否為一可認(rèn)知的指令,過(guò)濾可能辨認(rèn)錯(cuò)誤的指令,避免錯(cuò)誤動(dòng)作?;蛞詿o(wú)條件接受辨識(shí)結(jié)果等規(guī)則來(lái)作為決策基準(zhǔn)。行動(dòng)反應(yīng)可能是發(fā)出語(yǔ)音或燈號(hào)、提示使用者重新輸入或者進(jìn)行遠(yuǎn)程(remote)控制等。
多語(yǔ)模型數(shù)據(jù)庫(kù)108包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型?;旌隙嗾Z(yǔ)字音對(duì)應(yīng)資料以多語(yǔ)建模器事先建制完成,混合多語(yǔ)矯正模型以多語(yǔ)矯正模型產(chǎn)生器事先建制完成。
如圖2所示,圖2是顯示本發(fā)明中建制混合多語(yǔ)字音對(duì)應(yīng)資料的功能方塊圖。多語(yǔ)建模器包括多語(yǔ)音標(biāo)序列對(duì)應(yīng)器202以及跨語(yǔ)言雙音模型產(chǎn)生器206。多語(yǔ)音標(biāo)序列對(duì)應(yīng)器202,可參考多語(yǔ)字匯字典,將多語(yǔ)查詢指令200經(jīng)過(guò)比對(duì),得到對(duì)應(yīng)的多語(yǔ)音標(biāo)序列??缯Z(yǔ)言雙音模型產(chǎn)生器206,可參考跨語(yǔ)言資料表以及語(yǔ)法規(guī)則庫(kù),篩選組合多語(yǔ)音標(biāo)序列,得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)字音對(duì)應(yīng)資料208。
跨語(yǔ)言雙音模型產(chǎn)生器206于進(jìn)行上述篩選組合時(shí),是先固定左側(cè)音標(biāo),于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果,若無(wú)法對(duì)應(yīng)再固定右側(cè)音標(biāo),于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果,得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。如圖5所示,圖5是顯示本發(fā)明所揭示的實(shí)施例中跨語(yǔ)言資料表的范例表示圖,圖中c表示中文,e表示英文。如圖中第一列所示,如中文的z拼音于英文中便無(wú)法找出較佳的近似音,利用本發(fā)明所提出的雙音模型的方式可找到英文中的ch或th的近似候選雙音模型。如圖中第二列所示,如中文的zcl拼音無(wú)法找出較佳的近似音,根據(jù)決策規(guī)則判定為不對(duì)應(yīng)。如圖中第三列所示,如中文的ing拼音必須以英文的ih+ng組合才能完成,根據(jù)決策規(guī)則將其組合。
如圖3所示,圖3是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的功能方塊圖。多語(yǔ)矯正模型產(chǎn)生器32,接收多語(yǔ)查詢指令30,經(jīng)過(guò)正規(guī)化計(jì)算,得到混合多語(yǔ)矯正模型36。同時(shí)如圖4所示,圖4是顯示本發(fā)明中建制混合多語(yǔ)矯正模型的細(xì)部功能方塊圖。多語(yǔ)矯正模型產(chǎn)生器32包括數(shù)個(gè)單一語(yǔ)言矯正模型產(chǎn)生器320、324、328以及矯正模型結(jié)合器332。單一語(yǔ)言矯正模型產(chǎn)生器320、324、328,接收多語(yǔ)查詢指令30,參考單一語(yǔ)言雙音模型庫(kù)322、326、330,分為不同語(yǔ)種進(jìn)行正規(guī)化計(jì)算,產(chǎn)生單一語(yǔ)言矯正模型,每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。矯正模型結(jié)合器332,接收單一語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型36。
換言之,單一語(yǔ)言矯正模型產(chǎn)生器(甲語(yǔ)言)320參考單一語(yǔ)言雙音模型庫(kù)(甲語(yǔ)言)322,產(chǎn)生甲語(yǔ)言矯正模型。單一語(yǔ)言矯正模型產(chǎn)生器(乙語(yǔ)言)324參考單一語(yǔ)言雙音模型庫(kù)(乙語(yǔ)言)326,產(chǎn)生乙語(yǔ)言矯正模型。單一語(yǔ)言矯正模型產(chǎn)生器(丙語(yǔ)言)328參考單一語(yǔ)言雙音模型庫(kù)(丙語(yǔ)言)330,產(chǎn)生丙語(yǔ)言矯正模型。再由矯正模型結(jié)合器332,接收甲語(yǔ)言、乙語(yǔ)言、丙語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到多語(yǔ)模型數(shù)據(jù)庫(kù)中的混合多語(yǔ)矯正模型36。
單一語(yǔ)言矯正模型產(chǎn)生器320、324、328采用公式(1)、(2)來(lái)進(jìn)行正規(guī)化P=Σk=1CkN(0,μk,σk)--(1)]]>logP=logP-logPanti(2)
如果所應(yīng)用的語(yǔ)音辨識(shí)系統(tǒng),是以充分的多國(guó)語(yǔ)言混合數(shù)據(jù)庫(kù)所訓(xùn)練建制完成。系統(tǒng)本身就已經(jīng)含有訓(xùn)練好的所有跨語(yǔ)言雙音模型,則于圖2中不需有跨語(yǔ)言模型產(chǎn)生器,同時(shí)因?yàn)橄到y(tǒng)本身已是以多語(yǔ)混合訓(xùn)練而成,所以可不再需矯正模型,所以也無(wú)需如圖4的正規(guī)化加權(quán)計(jì)算產(chǎn)生混合多語(yǔ)矯正模型。如果所應(yīng)用的語(yǔ)音辨識(shí)系統(tǒng),是以多個(gè)以不同語(yǔ)言個(gè)別訓(xùn)練成的語(yǔ)音辨識(shí)系統(tǒng)所組成,即以多個(gè)單一語(yǔ)言的雙音模型結(jié)合而成,就必須進(jìn)行如圖4的正規(guī)化加權(quán)計(jì)算。
舉例而言,可利用如圖6的硬件架構(gòu)實(shí)現(xiàn)本發(fā)明。如圖所示,使用者于使用前可透過(guò)網(wǎng)絡(luò)模塊616或連接端口模塊618與語(yǔ)音辨識(shí)系統(tǒng)進(jìn)行連接。使用者可根據(jù)使用需求定義所需的辨識(shí)規(guī)則,如地址、車牌或身份證字號(hào)等。使用者于使用時(shí),可透過(guò)麥克風(fēng)602或電話接口604輸入查詢或指令,即語(yǔ)音信號(hào)輸入600。
接著,由模擬信號(hào)至數(shù)字信號(hào)轉(zhuǎn)換模塊606,將語(yǔ)音信號(hào)輸入600轉(zhuǎn)換為數(shù)字信號(hào)。而語(yǔ)音辨識(shí)系統(tǒng)的程序軟件置于只讀存儲(chǔ)器608、隨機(jī)存取內(nèi)存610以及閃存612中,數(shù)字信號(hào)處理單元614可進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)控制與資料辨識(shí)等工作。其中,如果所欲儲(chǔ)存的資料為固定且變動(dòng)性不大的資料,如網(wǎng)絡(luò)協(xié)議、開機(jī)程序等可置于只讀存儲(chǔ)器608中。如果所欲儲(chǔ)存的資料為變動(dòng)性大且經(jīng)常更新的資料,如各語(yǔ)言間的轉(zhuǎn)換表、語(yǔ)音機(jī)率模型等可置于閃存612中。數(shù)字信號(hào)處理單元614于執(zhí)行時(shí)間,會(huì)將辨識(shí)系統(tǒng)加載隨機(jī)存取內(nèi)存610中進(jìn)行各項(xiàng)辨識(shí)分析。
最后,所得的結(jié)果透過(guò)數(shù)字信號(hào)至模擬信號(hào)轉(zhuǎn)換模塊622,轉(zhuǎn)換為模擬信號(hào),由喇叭624或電話接口626輸出。此外,也可經(jīng)由網(wǎng)絡(luò)模塊616或連接端口模塊618對(duì)遠(yuǎn)程對(duì)象,進(jìn)行對(duì)應(yīng)的行動(dòng)反應(yīng)620。而且系統(tǒng)程序或者數(shù)據(jù)庫(kù)等亦可由網(wǎng)絡(luò)模塊616或連接端口模塊618進(jìn)行程序升級(jí)與更新620。
其次,本發(fā)明提出一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào),并產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)。如圖7所示,圖7是顯示本發(fā)明的執(zhí)行流程圖。首先,將混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù),再將語(yǔ)音特征參數(shù)轉(zhuǎn)換為語(yǔ)音模型資料(步驟S700)。
接著,搜尋比對(duì)對(duì)應(yīng)于語(yǔ)音模型資料的候選資料組,每一候選雙音模型組具有多個(gè)可能的候選雙音模型,而每一候選雙音模型具有一比較相似度(步驟S702),并評(píng)估出最佳的多個(gè)候選語(yǔ)音指令。步驟S702中的搜尋比對(duì)可根據(jù)多語(yǔ)模型數(shù)據(jù)庫(kù)、語(yǔ)言及語(yǔ)法規(guī)則數(shù)據(jù)庫(kù)以及混合多語(yǔ)查詢指令字符串。
多語(yǔ)模型數(shù)據(jù)庫(kù)包括混合多語(yǔ)字音對(duì)應(yīng)資料以及混合多語(yǔ)矯正模型。混合多語(yǔ)字音對(duì)應(yīng)資料是以多語(yǔ)建模程序建制而成,多語(yǔ)建模程序首先可參考多語(yǔ)字匯字典,將多語(yǔ)查詢指令經(jīng)過(guò)比對(duì),得到與多語(yǔ)查詢指令對(duì)應(yīng)的多語(yǔ)音標(biāo)序列。然后,分類多語(yǔ)音標(biāo)序列進(jìn)行分類,再參考跨語(yǔ)言資料表以及語(yǔ)法規(guī)則庫(kù),篩選組合已分類的多語(yǔ)音標(biāo)序列,得到混合多語(yǔ)字音對(duì)應(yīng)資料?;旌隙嗾Z(yǔ)矯正模型是以多語(yǔ)矯正模型產(chǎn)生程序建制而成。多語(yǔ)矯正模型產(chǎn)生程序首先將多語(yǔ)查詢指令,參考單一語(yǔ)言雙音模型庫(kù)進(jìn)行正規(guī)化計(jì)算,產(chǎn)生單一語(yǔ)言矯正模型,每一單一語(yǔ)言矯正模型對(duì)應(yīng)于一種單一語(yǔ)言。接著,將單一語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
最后,根據(jù)比較相似度以及決策規(guī)則組,由每一候選雙音模型組中決定結(jié)果語(yǔ)音模型資料(步驟S704),并將所得的結(jié)果語(yǔ)音模型資料結(jié)合成語(yǔ)音指令(步驟S706),可再依語(yǔ)音指令產(chǎn)生相對(duì)應(yīng)的行動(dòng)反應(yīng)(步驟S708)。
綜言之,本發(fā)明所揭示的裝置及方法,透過(guò)雙音模型的建制,實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)功能,用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào),并可產(chǎn)生語(yǔ)音指令,達(dá)到本發(fā)明所欲達(dá)到的目的。尤其在多國(guó)語(yǔ)言交叉混合及累積大量字匯的情形下,仍可具有相當(dāng)良好的辨識(shí)成果,大幅改善現(xiàn)行技術(shù)所無(wú)法解決的問(wèn)題。
權(quán)利要求
1.一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其用以辨識(shí)一混合多語(yǔ)的語(yǔ)音信號(hào)為一語(yǔ)音指令,其特征在于所述語(yǔ)音辨識(shí)裝置包括一語(yǔ)音建模器,用以接收上述混合多語(yǔ)的語(yǔ)音信號(hào),將上述混合多語(yǔ)的語(yǔ)音信號(hào)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音特征參數(shù),再將上述語(yǔ)音特征參數(shù)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音模型資料;一語(yǔ)音搜尋器,其耦接于上述語(yǔ)音建模器,用以接收上述語(yǔ)音模型資料,并且搜尋比對(duì)分別對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)候選資料組,每一候選資料組具有復(fù)數(shù)候選語(yǔ)音模型資料,及其對(duì)應(yīng)的比較相似度,并評(píng)估出最佳的復(fù)數(shù)候選語(yǔ)音指令;一決策反應(yīng)器,其耦接于上述語(yǔ)音搜尋器,由上述候選語(yǔ)音指令中決定對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)結(jié)果語(yǔ)音模型資料,并將上述結(jié)果語(yǔ)音模型資料結(jié)合成一語(yǔ)音指令。
2.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于上述語(yǔ)音模型資料是為具有雙音模型的資料。
3.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于上述語(yǔ)音搜尋器,是根據(jù)一多語(yǔ)模型數(shù)據(jù)庫(kù)進(jìn)行搜尋比對(duì)。
4.根據(jù)權(quán)利要求3所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)字音對(duì)應(yīng)資料。
5.根據(jù)權(quán)利要求4所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于更包括一多語(yǔ)建模器,用以產(chǎn)生上述混合多語(yǔ)字音對(duì)應(yīng)資料,其包括一多語(yǔ)音標(biāo)序列對(duì)應(yīng)器,將復(fù)數(shù)第一多語(yǔ)查詢指令經(jīng)過(guò)比對(duì),得到對(duì)應(yīng)的復(fù)數(shù)多語(yǔ)音標(biāo)序列;一跨語(yǔ)言雙音模型產(chǎn)生器,其耦接于上述多語(yǔ)音標(biāo)序列對(duì)應(yīng)器,用以篩選組合上述多語(yǔ)音標(biāo)序列,以得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
6.根據(jù)權(quán)利要求3的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)矯正模型。
7.根據(jù)權(quán)利要求6所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于更包括一多語(yǔ)矯正模型產(chǎn)生器,用以產(chǎn)生上述混合多語(yǔ)矯正模型,其包括至少一單一語(yǔ)言矯正模型產(chǎn)生器,用以接收復(fù)數(shù)第二多語(yǔ)查詢指令,分別對(duì)應(yīng)于復(fù)數(shù)既定語(yǔ)種進(jìn)行正規(guī)化計(jì)算,產(chǎn)生復(fù)數(shù)單一語(yǔ)言矯正模型;一矯正模型結(jié)合器,其耦接于上述單一語(yǔ)言矯正模型產(chǎn)生器,用以接收上述單一語(yǔ)言矯正模型,進(jìn)行加權(quán)計(jì)算得到上述混合多語(yǔ)矯正模型。
8.根據(jù)權(quán)利要求1所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,其特征在于上述語(yǔ)音搜尋器,是根據(jù)上述語(yǔ)音模型資料連接的順序以及一語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)進(jìn)行評(píng)估。
9.一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其用以辨識(shí)一混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào),其特征在于包括下列步驟將上述混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音特征參數(shù),再將上述語(yǔ)音特征參數(shù)轉(zhuǎn)換為復(fù)數(shù)語(yǔ)音模型資料;搜尋比對(duì)分別對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)候選資料組,每一候選資料組具有復(fù)數(shù)候選語(yǔ)音模型資料,及其對(duì)應(yīng)的比較相似度,并評(píng)估出最佳的復(fù)數(shù)候選語(yǔ)音指令;根據(jù)上述比較相似度,分別由上述候選資料組中決定對(duì)應(yīng)于上述語(yǔ)音模型資料的復(fù)數(shù)結(jié)果語(yǔ)音模型資料,并將上述結(jié)果語(yǔ)音模型資料結(jié)合成一語(yǔ)音指令。
10.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于上述語(yǔ)音模型資料是為具有雙音模型的資料。
11.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于上述雙音模型搜尋比對(duì)的步驟中,上述搜尋比對(duì)是根據(jù)一多語(yǔ)模型數(shù)據(jù)庫(kù)。
12.根據(jù)權(quán)利要求11所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)字音對(duì)應(yīng)資料。
13.根據(jù)權(quán)利要求12所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于更包括一多語(yǔ)建模程序,用以產(chǎn)生上述混合多語(yǔ)字音對(duì)應(yīng)資料,包括下列步驟將復(fù)數(shù)第一多語(yǔ)查詢指令經(jīng)過(guò)比對(duì),得到對(duì)應(yīng)的復(fù)數(shù)多語(yǔ)音標(biāo)序列;篩選組合上述多語(yǔ)音標(biāo)序列,以得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
14.根據(jù)權(quán)利要求13所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于篩選組合上述已分類的多語(yǔ)音標(biāo)序列的步驟中,尚包括下列步驟先固定左側(cè)音標(biāo),于右側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果;當(dāng)無(wú)法對(duì)應(yīng)時(shí)固定右側(cè)音標(biāo),于左側(cè)音標(biāo)尋求對(duì)應(yīng)結(jié)果;由對(duì)應(yīng)結(jié)果得到上述混合多語(yǔ)字音對(duì)應(yīng)資料。
15.根據(jù)權(quán)利要求11所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于上述多語(yǔ)模型數(shù)據(jù)庫(kù)包括復(fù)數(shù)混合多語(yǔ)矯正模型。
16.根據(jù)權(quán)利要求15所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于更包括一多語(yǔ)矯正模型產(chǎn)生程序,用以產(chǎn)生上述混合多語(yǔ)矯正模型,包括下列步驟接收復(fù)數(shù)第二多語(yǔ)查詢指令,分別對(duì)應(yīng)于復(fù)數(shù)既定語(yǔ)種進(jìn)行正規(guī)化計(jì)算,產(chǎn)生復(fù)數(shù)單一語(yǔ)言矯正模型;將上述單一語(yǔ)言矯正模型進(jìn)行加權(quán)計(jì)算,以得到上述混合多語(yǔ)矯正模型。
17.根據(jù)權(quán)利要求9所述的利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)方法,其特征在于評(píng)估出最佳的上述候選語(yǔ)音指令的步驟是根據(jù)上述語(yǔ)音模型資料連接的順序以及一語(yǔ)音規(guī)則數(shù)據(jù)庫(kù)進(jìn)行評(píng)估。
全文摘要
一種利用雙音模型實(shí)現(xiàn)混合多國(guó)語(yǔ)言的語(yǔ)音辨識(shí)裝置,用以辨識(shí)混合多國(guó)語(yǔ)言的語(yǔ)音信號(hào)為語(yǔ)音指令,包括語(yǔ)音建模器、語(yǔ)音搜尋器以及決策反應(yīng)器。語(yǔ)音建模器,用以接收混合多語(yǔ)的語(yǔ)音信號(hào),將其轉(zhuǎn)換為語(yǔ)音特征參數(shù)與語(yǔ)音模型資料。語(yǔ)音搜尋器,用以搜尋比對(duì)語(yǔ)音模型資料,產(chǎn)生候選語(yǔ)音模型資料及其比較相似度,并配合語(yǔ)法規(guī)則等以求出最佳的多個(gè)候選指令。決策反應(yīng)器,根據(jù)所求得每個(gè)候選指令的比較相似度,以預(yù)設(shè)的信賴度或邏輯關(guān)系,決定是否接受該辨識(shí)結(jié)果或要求重新輸入。
文檔編號(hào)G10L15/00GK1540626SQ03128510
公開日2004年10月27日 申請(qǐng)日期2003年4月25日 優(yōu)先權(quán)日2003年4月25日
發(fā)明者李允文 申請(qǐng)人:臺(tái)達(dá)電子工業(yè)股份有限公司