專利名稱:語音識別方法和裝置以及記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別方法和裝置以及記錄介質(zhì),特別涉及一種語音識別方法和裝置以及記錄介質(zhì),其中,甚至在語音包含具有不穩(wěn)定聲學(xué)特征值的詞時,語音識別也可以用更少量的資源獲得更高的準(zhǔn)確度。
背景技術(shù):
圖1示出典型的傳統(tǒng)語音識別裝置。
由用戶發(fā)出的語音輸入到麥克風(fēng)1,麥克風(fēng)1然后將所輸入語音轉(zhuǎn)換為作為電信號的語音信號。這些語音信號輸入到A/D(analog/digital,模擬/數(shù)字)轉(zhuǎn)換器2,A/D轉(zhuǎn)換器2然后對作為模擬信號從麥克風(fēng)1輸出的語音信號進(jìn)行采樣和量化,以將這些信號轉(zhuǎn)換為作為數(shù)字信號的語音數(shù)據(jù)。這些語音數(shù)據(jù)發(fā)送到特征值提取單元3。
特征值提取單元3對來自A/D轉(zhuǎn)換器2的語音數(shù)據(jù)以合適的所選幀進(jìn)行逐幀的聲學(xué)處理,以提取特征值,如MFCC(Mel Frequency CepstrumCoeffient,嘜頻率倒譜系數(shù)),并將所提取的值發(fā)送到匹配單元4。另外,特征值提取單元3能夠提取其他特征值,如頻譜、線性預(yù)測系數(shù)或線譜對。
使用來自特征值提取單元3的特征值,匹配單元4在必要時參考聲學(xué)模型數(shù)據(jù)庫5、詞典數(shù)據(jù)庫6和文法數(shù)據(jù)庫7,根據(jù)例如連續(xù)分布(HIGHMOLECULAR MATERIALS,高分子材料)對輸入到麥克風(fēng)1的語音(輸入語音)進(jìn)行語音識別。
也就是,聲學(xué)模型數(shù)據(jù)庫5存儲表示聲學(xué)特性,如正在識別語音的語言中的每個音素或音節(jié),的聲學(xué)模型。由于在此語音識別基于連續(xù)分布高分子材料方法,因此所使用的聲學(xué)模型是高分子材料(隱馬爾科夫模型)。詞典數(shù)據(jù)庫6記錄表明正在識別的每個詞(詞匯)的發(fā)音信息(音素信息)的詞典。文法數(shù)據(jù)庫7存儲表明登記在詞典數(shù)據(jù)庫6的詞典中的詞如何相互連接的文法規(guī)則集(語言模型)。例如,基于上下文無關(guān)文法(Context Free Grammar,CFG)或統(tǒng)計詞連接概率(N-文法)可以用作該文法規(guī)則集。
匹配單元4參考詞典數(shù)據(jù)庫6的詞典,連接存儲在聲學(xué)模型數(shù)據(jù)庫5中的聲學(xué)模型,以構(gòu)造詞的聲學(xué)模型(詞模型)。匹配單元4還參考存儲在文法數(shù)據(jù)庫7中的文法規(guī)則,連接幾個詞模型,并且使用如此連接的詞模型,根據(jù)連續(xù)分布高分子材料方法,基于特征值,識別輸入到麥克風(fēng)1的語音。也就是,匹配單元4檢測具有由特征值提取單元3輸出的時間序列的特征值觀察的最大分值(可能性)的詞模型序列,并且作為語音識別結(jié)果輸出與詞模型序列對應(yīng)的詞序列。
具體地說,匹配單元4為與所連接詞模型對應(yīng)的詞序列累計各個特征值的出現(xiàn)概率。這些累計值就是分值,并且分值最大的詞序列作為詞識別結(jié)果進(jìn)行輸出。
分值一般通過全面評估由存儲在聲學(xué)模型數(shù)據(jù)庫5中的聲學(xué)模型給予的聲學(xué)分值和由存儲在文法數(shù)據(jù)庫7中的文法規(guī)則集給予的語言模型進(jìn)行計算。
也就是,例如,根據(jù)由特征值提取單元3輸出的特征值序列的觀察概率(出現(xiàn)概率),從形成詞模型的聲學(xué)模型,逐詞地,應(yīng)用高分子材料方法,計算聲學(xué)模型。如果應(yīng)用兩詞文法,語言分值根據(jù)當(dāng)前考慮詞和其直接前面詞的連接(耦合)概率進(jìn)行查找。語言識別結(jié)果根據(jù)通過全面評估每個詞的聲學(xué)分值和語言分值獲得的最終分值進(jìn)行最終確定。
具體地說,如果,對于由N個詞構(gòu)成的詞序列中的第k詞Wk,詞Wk的聲學(xué)分值表示為A(Wk)并且語言分值表示為L(Wk),那么該詞序列的最終值S根據(jù)方程(1)進(jìn)行計算S=O′(A(Wk)+Ck×(Wk))------(1)]]>其中 表示當(dāng)k從1改變到N時取和,并且Ck表示應(yīng)用到詞Wk的語言分值L(Wk)的加權(quán)。
匹配單元4實現(xiàn)查找最大化方程1所示的最終分值的N和查找詞序列W1,W2,…,WN的匹配處理。這些詞序列W1,W2,…,WN作為詞識別結(jié)果進(jìn)行輸出。
上述處理的結(jié)果是,如果用戶念出,例如“ニユ一ヨ一クに行きたいです”(“我想去紐約”,念作“new york ni ikitai desu”),圖1的語音識別設(shè)備給予各個詞,如“ニユ一ヨ一ク”(“紐約”,念作“new york”)、“に”(“到”,念作“ni”)、“行きたい”(“想去”,念作“ikitai”)和“です”(念作“desu”)聲學(xué)和語言分值。如果通過全面評估獲得的最終分值最大,詞序列“ニユ一ヨ一ク”、“に”、“行きたい”、“です”作為語音識別結(jié)果進(jìn)行輸出。
需要注意的是,如果在上述情況下,五個詞“ニユ一ヨ一ク”、“に”、“行きたい”和“です”登記在詞典數(shù)據(jù)庫6的詞典中,可由這五個詞形成的五詞序列存在55種可能性。因此,在簡單考慮的情況下,匹配單元4將不得不評估這55種詞序列,以確定該詞序列最匹配由用戶作出的發(fā)音,即該詞序列的最終分值最大。如果登記在詞典中的詞數(shù)增加,詞序列的可能數(shù)目對應(yīng)于所登記詞的增加數(shù)目的數(shù)目,等于詞數(shù)的詞數(shù)次方,從而要評估的詞序列數(shù)目過大。
而且,由于包含在發(fā)音中的詞數(shù)未知,因此不僅由五詞構(gòu)成的詞序列,而且由一、二…詞構(gòu)成的詞序列都需要進(jìn)行評估。因此,要評估的詞序列的數(shù)目進(jìn)一步增加。因此,一個關(guān)鍵任務(wù)是,從計算量和要使用的存儲器容量的觀點,有效確定超大詞序列中最可能是語音識別結(jié)果的一個。
在用于改善計算量和存儲器容量的效率的方法中,存在當(dāng)在查找聲學(xué)分值的過程中所發(fā)現(xiàn)的聲學(xué)分值低于預(yù)設(shè)閥值時剪除分值計算的聲學(xué)剪除方法,和根據(jù)語言分值剪除作為分值計算目標(biāo)的詞的語言學(xué)剪除方法。
采用這種剪除方法,分值計算的目標(biāo)根據(jù)預(yù)設(shè)判決標(biāo)準(zhǔn),如給予每個詞的,在上述計算過程中的聲學(xué)分值,或語言分值進(jìn)行剪除,以減小計算量。然而,如果判決標(biāo)準(zhǔn)太嚴(yán)格,甚至語音識別的正確結(jié)果也被剪除而導(dǎo)致識別錯誤。因此,如果應(yīng)用剪除方法,剪除需要以預(yù)設(shè)的裕量執(zhí)行,從而防止剪除語音識別的正確結(jié)果。這樣,要大幅減少計算量就很困難。
如果,在查找聲學(xué)分值中,發(fā)現(xiàn)要計算所有詞的聲學(xué)分值,處理量將增大。基于這種考慮,提出一種使用多個詞共同的聲學(xué)分值計算的特定部分的方法。已知有一種作為這種共有方法的方法,從首音素到最后一個共同音素使用詞典中具有相同首音素的這些詞共同的聲學(xué)模型,并且從在最后一個共同音素之后的音素使用單個語音模型,以構(gòu)造單一樹結(jié)構(gòu)網(wǎng)絡(luò),并使用該網(wǎng)絡(luò)查找聲學(xué)分值。具體地說,對于詞“秋田”(“秋天田野”,念作“akita”)和“曙”(“黎明”,念作“akebono”),“秋田”的音素信息為[akita]并且“曙”的音素信息為[akebono],“秋田”的聲學(xué)分值和“曙”可以從第一音素直到第二音素a,k進(jìn)行共同計算。對于詞“秋田”的剩余音素k、i、t和a和詞“曙”的剩余音素e、b、o、n和o,聲學(xué)分值進(jìn)行獨立計算。
因此,采用這種方法,聲學(xué)分值的處理量可以大量減少。
采用這種方法,不可能確定正在從聲學(xué)分值進(jìn)行共同計算的共同詞部分計算其聲學(xué)模型的詞。在上述詞“秋田”和“曙”的示例中,如果為第一和第二音素a和k計算聲學(xué)分值,就不可能識別正在計算其聲學(xué)模型的詞是“秋田”還是“曙”。
在這種情況下,對于“秋田”,當(dāng)開始第三音素的聲學(xué)分值計算時,正在處理的詞可以識別作“秋田”。類似地,對于“曙”,當(dāng)開始第三音素的聲學(xué)分值計算時,正在處理的詞可以識別作“曙”。
因此,如果共同使用一部分聲學(xué)分值計算,每個詞不能在計算詞的聲學(xué)分值的開始進(jìn)行識別,因此不能考慮該詞的語言分值。因此,在開始計算詞的聲學(xué)分值之前使用上述語言學(xué)剪除方法是困難的,并且將做不必要的計算。
而且,如果共同使用一部分聲學(xué)分值計算,形成詞典中的全部詞的上述樹結(jié)構(gòu)網(wǎng)絡(luò),因此需要大存儲器容量用來維護(hù)該網(wǎng)絡(luò)。
為改善存儲器容量和處理量的效率,已知有一種初步選擇要計算其聲學(xué)分值的詞,而不計算詞典中全部詞的聲學(xué)分值,并且僅為初選詞計算聲學(xué)分值的方法。
用于初步選擇的方法參見,例如,L.R.Bahl,S.V.De Gennaro,P.S.Gopalakrishnan和R.L.Mercer,“一種用于大詞匯量語言識別的快速近似聲學(xué)匹配(A Fast Approximate Acoustic match for large Vocabulary SpeechRecognition)”、IEEE學(xué)報語言和音頻會議論文集,卷1,頁59-67,1993。
該初步選擇使用更簡單的聲學(xué)模型或精確度不特別高的文法規(guī)則集進(jìn)行執(zhí)行。也就是,對詞典中的所有詞執(zhí)行初步選擇,從而,如果初步選擇使用精確度高的聲學(xué)模型或文法規(guī)則集,則需要大量的資源,如處理量或存儲器容量用來保持實時操作。采用這種初步選擇,如果要處理大詞匯量,使用簡化聲學(xué)模型或文法規(guī)則集,以更少量資源執(zhí)行高速處理是可能的。
在其中應(yīng)用初步選擇的語音識別裝置中,如果僅為初選詞執(zhí)行匹配處理是足夠的,從而,甚至在使用精確度高的聲學(xué)模型或文法規(guī)則集的情況下,匹配處理可以用少量資源進(jìn)行快速執(zhí)行。因此,執(zhí)行初步選擇的語音識別裝置在大詞匯量語音識別中特別有用。
同時,在為給定詞完成采用特征值序列的匹配處理時找到可能為真的結(jié)束點之后,從與此時變?yōu)槠鹗键c的結(jié)束點對應(yīng)的時間點使用特征值序列,執(zhí)行初步選擇。也就是,在包含在連續(xù)語音中的詞之間的邊界尚未最終確定的時間點執(zhí)行初步選擇。
因此,如果在初步選擇中使用的特征值序列的起始端點或結(jié)束端點偏離當(dāng)前討論詞的起始端點或結(jié)束端點,使用包含直接前于或直接后于當(dāng)前討論詞的詞的特征值的特征值序列或缺少當(dāng)前討論詞的起始端或結(jié)束端部分的特征值的特征值序列,也就是,使用可稱之為聲學(xué)不穩(wěn)定特征值序列,執(zhí)行這種初步選擇。
因此,在初步選擇中,采用簡單的語音模型,可能發(fā)生沒有選擇包含在語音中的特定詞。這種選擇錯誤可能發(fā)生在具有更少量音素的詞中,如日語中的助詞或助動詞或英語中的冠詞或介詞。
如果在初步選擇中沒有選擇正確詞,對該詞不執(zhí)行匹配處理,從而語音識別結(jié)果發(fā)生錯誤。
存在放寬詞選擇的聲學(xué)或語言學(xué)判決標(biāo)準(zhǔn)以增加所選詞的數(shù)目,和采用精確度高的聲學(xué)模型或文法規(guī)則集這些方法。
然而,如果,在初步選擇中,放寬詞選擇的聲學(xué)或語言學(xué)判決標(biāo)準(zhǔn),概率不特別高的大量詞將作為語音識別結(jié)果成為匹配處理的目標(biāo),因此大大增加比初步選擇單位詞負(fù)載更重的匹配處理所需的資源。
另一方面,如果在初步選擇中使用精確度高的聲學(xué)模型或文法規(guī)則集,初步選擇所需的資源將大大增加。
發(fā)明公開因此本發(fā)明的一個目的是提供一種語音識別在精確度上可以得到提高,而必要資源盡可能地避免增加的語音識別裝置。
本發(fā)明的語音識別裝置包括選擇裝置,用于根據(jù)使用特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于第一測度的第二測度選擇一個或更多第二詞;和分值計算裝置,用于計算由選擇裝置選擇的第一和第二詞的分值。
選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預(yù)設(shè)條件的詞作為第二詞。選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預(yù)設(shè)條件的詞作為第二詞。選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預(yù)設(shè)條件的詞作為第二詞。選擇裝置可以進(jìn)一步包括用于存儲語音識別結(jié)果的存儲裝置。在這種情況下,選擇裝置以存儲裝置中的存儲狀態(tài)作為第二測度,選擇包含在存儲在存儲裝置中的語音識別結(jié)果中的詞作為第二詞。
本發(fā)明的語音識別裝置可以進(jìn)一步包括用于提供對語音識別結(jié)果進(jìn)行糾正的輸入的輸入裝置。存儲裝置存儲由來自輸入裝置的輸入進(jìn)行糾正的語音識別結(jié)果。選擇裝置使用語音特征值計算分值,以根據(jù)分值選擇第一詞。
本發(fā)明的語音識別方法包括選擇步驟,根據(jù)使用特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于第一測度的第二測度選擇一個或更多第二詞;和分值計算步驟,計算由選擇步驟選擇的第一和第二詞的分值。
本發(fā)明的記錄介質(zhì)包括一個包含如下步驟的程序選擇步驟,根據(jù)使用特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于第一測度的第二測度選擇一個或更多第二詞;和分值計算步驟,計算由選擇步驟選擇的第一和第二詞的分值。
在本發(fā)明的語音識別方法和裝置以及記錄介質(zhì)中,根據(jù)使用特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于第一測度的第二測度選擇一個或更多第二詞。計算如此選擇的第一和第二詞的分值。
附圖簡述圖1是示出典型的傳統(tǒng)語音識別裝置的方框圖;圖2是示出本發(fā)明語音識別裝置的一個實施例的方框圖;圖3示出詞連接信息;圖4是示出語音識別裝置的處理的流程圖;圖5是示出本發(fā)明語音識別裝置的另一實施例的方框圖;圖6是示出語音識別裝置的處理的流程圖;圖7是示出實施本發(fā)明的典型計算機(jī)的方框圖。
實現(xiàn)本發(fā)明的最佳方式圖2示出本發(fā)明語音識別裝置的一個實施例。圖2中,與圖1所示裝置對應(yīng)的部分用相同參考號進(jìn)行描述,并且不作具體說明。
由用戶發(fā)出的語音的特征值序列,由特征值提取單元3輸出,以幀為單位發(fā)送到控制器11,控制器11然后將來自特征值提取單元3的特征值發(fā)送到特征值存儲單元12。
控制器11參考存儲在詞連接信息存儲單元16中的詞連接信息??刂破?1根據(jù)聲學(xué)或語言學(xué)分值生成詞連接信息,表示由執(zhí)行類似于由圖1的匹配單元4執(zhí)行的匹配處理的匹配單元14獲得的匹配處理結(jié)果,以根據(jù)如此生成的詞連接信息更新存儲在詞連接信息存儲單元16中的內(nèi)容。而且,根據(jù)存儲在詞連接信息存儲單元16中的詞連接信息,控制器11最后確定并輸出最終語音識別結(jié)果。
特征值存儲單元12存儲從控制器11向其發(fā)送的特征值序列,直到獲得用戶語音識別結(jié)果。同時,控制器11將由特征值提取單元3輸出的特征值的獲得時間點(在此稱作提取時間點,參照語音域的起始時間點)隨同特征值一起發(fā)送到特征值存儲單元12。特征值存儲單元12存儲特征值和提取時間點。存儲在特征值存儲單元12中的特征值和提取時間點可以在必要時由詞初選單元13和匹配單元14作參考。
響應(yīng)來自匹配單元14的請求,詞初選單元13在必要時參考詞連接信息存儲單元16、聲學(xué)模型數(shù)據(jù)庫17A、詞典數(shù)據(jù)庫18A和文法數(shù)據(jù)庫19A,使用存儲在特征值存儲單元12中的特征值,執(zhí)行詞的初步選擇,選擇一個或多個在匹配單元14中匹配處理的詞。
匹配單元14在必要時參考詞連接信息存儲單元16、聲學(xué)模型數(shù)據(jù)庫17B、詞典數(shù)據(jù)庫18B和文法數(shù)據(jù)庫19B,在控制器11的控制下使用存儲在特征值存儲單元12中的特征值,執(zhí)行對來自詞初選單元13作為詞初選處理的結(jié)果獲得的詞的匹配處理。
詞連接信息存儲單元16存儲從控制器11提供的詞連接信息,直到獲得用戶語音識別結(jié)果。
需要注意的是,詞連接信息表示代表最終語音識別結(jié)果的詞序列的成分詞的關(guān)系(連接或聯(lián)合),并且包括每個詞的聲學(xué)分值和語言分值和與各個詞相關(guān)聯(lián)的語音部分的起始端和結(jié)束端的時間點。
圖3通過圖示出存儲在詞連接信息存儲單元16中的詞連接信息。
在圖3的實施例中,作為詞連接信息的圖結(jié)構(gòu)由表示詞的弧(arc)(圖3中用相互連接○標(biāo)記的線段表示)和表示詞間邊界的節(jié)點(圖3中用○標(biāo)記表示)構(gòu)成。
節(jié)點具有表示與節(jié)點關(guān)聯(lián)的特征值的提取時間點的時間信息。由于提取時間點是由特征值提取單元3輸出的特征值獲得時間點,由于語音域的起始時間點為0,因此與語音域起始對應(yīng)的節(jié)點Node1的時間信息即第一詞的引導(dǎo)端為0。注意,節(jié)點表示弧的起始端或結(jié)束端,起始端節(jié)點或結(jié)束端節(jié)點的時間信息分別是與該節(jié)點關(guān)聯(lián)的詞的發(fā)音起始端和結(jié)束端。
圖3中,從左向右的方向表示時間流逝,從而,對于給定弧的左端和右端節(jié)點,左節(jié)點和右節(jié)點分別表示起始和結(jié)束端節(jié)點。
弧具有聲學(xué)分值和與其關(guān)聯(lián)的詞的分值。作為語音識別結(jié)果候選者的詞序列通過順序連接結(jié)束端節(jié)點為起始端節(jié)點的弧形成。
也就是,在控制器11中,與最可能是語音識別結(jié)果的詞對應(yīng)的弧連接到表示語音域起始端的節(jié)點Node1。在圖3的實施例中,與“今日”(“今天”,念作“kyou”)對應(yīng)的弧Arc1、與“いい”(“好”,念作“ii”)對應(yīng)的弧Arc6和弧Arc11“天氣”(“天氣”,念作“tenki”)進(jìn)行連接。根據(jù)在匹配單元14中找到的聲學(xué)分值和語言分值確定給定詞是否為一個可能是語音識別結(jié)果的詞。
采用類似方式,對于結(jié)束端節(jié)點Node2,作為與“今日”對應(yīng)的弧Arc1的結(jié)束端,結(jié)束端節(jié)點Node7,作為與“いい”對應(yīng)的弧Arc6的結(jié)束端,和結(jié)束端節(jié)點Node12,作為與“天氣”對應(yīng)的弧Arc11的結(jié)束端,與可能詞對應(yīng)的弧以上述方式進(jìn)行連接。
通過上述的弧連接,以語音域的起始點作為起始點,由弧和節(jié)點構(gòu)成的一個或更多路徑從左向右形成。如果全部路徑到達(dá)語音域的結(jié)束端(圖3中的時間T),從語音域的起始端到結(jié)束端形成的多個弧的聲學(xué)和語言分值在控制器11中進(jìn)行累計,以得到最終分值。最終確定與形成具有最大最終分值的路徑的弧對應(yīng)的詞序列,并且作為語音識別結(jié)果進(jìn)行輸出。
具體地參照圖3,如果來自通過與“今日”對應(yīng)的弧Arc1的節(jié)點Node1、節(jié)點Node2、與“は”(“是”,念作“wa”)對應(yīng)的弧Arc2、節(jié)點Node3、與“いい”對應(yīng)的弧Arc3、節(jié)點Node4、與“天氣”對應(yīng)的弧Arc4、節(jié)點Node5、與“ですわ”(“不是嗎?”,念作“desune”)對應(yīng)的弧Arc5和節(jié)點Node6的路徑獲得最大最終分值,詞序列“今日”、“は”、“いい”、“天氣”和“ですわ”作為語音識別結(jié)果進(jìn)行輸出。
在上述情況下,弧與語音域中的全部節(jié)點進(jìn)行連接,以形成從語音域的起始端擴(kuò)展到結(jié)束端的路徑。然而,如果在路徑形成的過程中構(gòu)造的路徑被發(fā)現(xiàn)不適合作為語音識別結(jié)果,路徑形成過程可以在該時間點進(jìn)行剪除,也就是,從該時間點沒有弧進(jìn)行連接。
根據(jù)上述路徑形成規(guī)則,給定弧的結(jié)束端點成為一個或多個下一連接弧的起始節(jié)點,從而,基本上,路徑以擴(kuò)展樹的分枝和葉子的方式進(jìn)行形成。作為一種例外情況,存在這樣一種情況,一個弧的結(jié)束端與另一弧的結(jié)束端重合,也就是,其中弧的結(jié)束端節(jié)點與另一弧的結(jié)束端節(jié)點相同。
例如,如果使用兩詞文法作為文法規(guī)則,從不同節(jié)點擴(kuò)展的兩個弧表示相同詞,并且該詞的發(fā)音結(jié)束時間相同,則這兩個弧的端點相互重合。
圖3中,從作為起始端的節(jié)點Node7擴(kuò)展的弧Arc7和從作為起始端的節(jié)點Node13擴(kuò)展的弧Arc13都與“天氣”相關(guān)聯(lián),并且具有相同的語音發(fā)音結(jié)束時間點,從而這些弧具有作為相同結(jié)束端的共同節(jié)點Node8。
雖然這些節(jié)點可以不是相同共用節(jié)點,考慮到內(nèi)存容量效率,這些節(jié)點最好是相同節(jié)點Node8。
雖然圖3中使用兩詞文法作為文法規(guī)則,但是,例如,如果使用例如三詞文法,也可以使用共同節(jié)點。
存儲在詞連接信息存儲單元16中的詞連接信息可以在必要時由詞初選單元13和匹配單元14進(jìn)行參考。
參照圖2,聲學(xué)模型數(shù)據(jù)庫17A、17B基本存儲參照圖1的聲學(xué)模型數(shù)據(jù)庫5進(jìn)行說明的聲學(xué)模型。
然而,聲學(xué)模型數(shù)據(jù)庫17B存儲對圖1的聲學(xué)模型數(shù)據(jù)庫5進(jìn)行說明的聲學(xué)模型。也就是,如果,在聲學(xué)模型數(shù)據(jù)庫17A中,僅存儲一個不依賴于音素或音節(jié)的前邊或后邊上下文的模式聲學(xué)模型,在聲學(xué)模型數(shù)據(jù)庫17B中不僅存儲不依賴于前邊或后邊上下文的聲學(xué)模型,還存儲依賴于跨越多個詞的上下文的聲學(xué)模型或依賴于詞內(nèi)上下文的聲學(xué)模型。
基本上,詞典18A、18B存儲參照圖1的詞典數(shù)據(jù)庫16進(jìn)行說明的詞典。
也就是,相同詞集登記在文法數(shù)據(jù)庫18A和18B的詞典中。然而,詞典數(shù)據(jù)庫18B的詞典在其中存儲高精度音素信息,該信息能夠以比用詞典數(shù)據(jù)庫18A的詞典可能的更高精度進(jìn)行處理。也就是,如果單一音素信息(讀取)存儲在詞典數(shù)據(jù)庫18A的詞典中,在詞典數(shù)據(jù)庫18A的詞典中為每個詞存儲多種音素信息。
具體地說,對于詞“お早う”(“早上好”,念作“ohayou”),單一音素信息“おはよう”(“早上好”,念作“ohayou”)存儲在詞典數(shù)據(jù)庫18A的詞典中,而在詞典數(shù)據(jù)庫18B的詞典中,“おはよ一”(“早上好”,念作“ohayou-”)或“おはよ”(“早上好”,念作“ohayo”)作為音素信息進(jìn)行登記。
文法數(shù)據(jù)庫19A、19B基本存儲參照圖1的文法數(shù)據(jù)庫7進(jìn)行說明的文法規(guī)則。
然而,文法數(shù)據(jù)庫19B存儲在精確度上比在文法數(shù)據(jù)庫19A中存儲的文法規(guī)則更高的高精確度文法規(guī)則。也就是,如果文法數(shù)據(jù)庫19A存儲來自單詞文法(詞出現(xiàn)概率)的文法規(guī)則,文法數(shù)據(jù)庫19B存儲兩詞文法(考慮與直接前面詞的關(guān)系的詞出現(xiàn)概率)、三詞文法(考慮與直接前面詞和第二前面詞的關(guān)系的詞出現(xiàn)概率)和上下文無關(guān)文法。
如上所述,每個音素和音節(jié)的單一聲學(xué)模式存儲在聲學(xué)模型數(shù)據(jù)庫17A中,而每個音素和音節(jié)的多個聲學(xué)模式存儲在聲學(xué)模型數(shù)據(jù)庫17B中。在詞典數(shù)據(jù)庫18A中,為每個詞存儲單一音素信息,而在詞典數(shù)據(jù)庫18B中,存儲多個聲學(xué)模型模式。在文法數(shù)據(jù)庫19A中,簡單文法規(guī)則存儲在在文法數(shù)據(jù)庫19A中,而在文法數(shù)據(jù)庫19B中,存儲更高精確度的文法規(guī)則。
因此,詞初選單元13,參考聲學(xué)模型數(shù)據(jù)庫17A、詞典數(shù)據(jù)庫18A和文法數(shù)據(jù)庫19A,能夠迅速查找大量詞的聲學(xué)和語言分值,雖然不是很準(zhǔn)確。另一方面,匹配單元14,參考聲學(xué)模型數(shù)據(jù)庫17B、詞典數(shù)據(jù)庫18B和文法數(shù)據(jù)庫19B,能夠以更高準(zhǔn)確度快速查找可容忍大量詞的聲學(xué)和語言分值。
雖然聲學(xué)模型數(shù)據(jù)庫17A和17B對存儲其中的聲學(xué)模型的精確度進(jìn)行區(qū)分,但是存儲其中的聲學(xué)模型也可以是相同的。類似地,詞典數(shù)據(jù)庫18A、18B的詞典的存儲器內(nèi)容也可以是相同的。
參照圖4的流程圖,說明圖2所示的語音識別裝置的語音識別處理。
當(dāng)用戶發(fā)出語音,如此發(fā)音的語音由麥克風(fēng)1和A/D轉(zhuǎn)換器2轉(zhuǎn)換為數(shù)字語音數(shù)據(jù),然后將其發(fā)送到特征值提取單元3。特征值提取單元3然后從向其提供的語音數(shù)據(jù)順序提取語音特征值,以將所提取特征值發(fā)送到控制器11。
控制器11通過某種或其它技術(shù)識別語音域,并且,在語音域中,將從特征值提取單元3提供的特征值序列隨同每個特征值的提取時間一起發(fā)送到特征值存儲單元12,以存儲在其中。
在語音域開始之后的步驟S1,控制器11生成表示語音域起始的節(jié)點(下面稱作初始節(jié)點),并且將所生成節(jié)點發(fā)送到詞連接信息存儲單元16,以存儲在其中。也就是,控制器11在步驟S1使圖3的節(jié)點Node1存儲在詞連接信息存儲單元16中。
而且,控制器11在語音域起始之后的步驟S1生成表示語音域開始的節(jié)點(下面稱作初始節(jié)點),并且將所生成節(jié)點發(fā)送到詞連接信息存儲單元16,以存儲在其中。也就是,控制器11使圖3的節(jié)點Node1在步驟S1存儲在詞連接信息存儲單元16中。
控制器11繼續(xù)到步驟S2,并且參照詞連接信息存儲單元16的詞連接信息,驗證是否存在任何中間節(jié)點。
也就是,在詞連接信息中,如圖3所示,如上所述,弧連接到結(jié)束端節(jié)點,形成從語音域起始端向結(jié)束端擴(kuò)展的路徑。在步驟S2,結(jié)束端節(jié)點中尚未連接弧并且尚未到達(dá)語音期間的結(jié)束端的節(jié)點,如圖3中的節(jié)點Node8、節(jié)點Node10節(jié)點Node11,都作為中間節(jié)點進(jìn)行提取以確定是否存在這種中間節(jié)點。
如上所述,語音域通過某種技術(shù)進(jìn)行識別,而與結(jié)束端節(jié)點對應(yīng)的時間點可以通過參考結(jié)束端節(jié)點的綁定時間信息進(jìn)行識別。因此,尚未連接弧的結(jié)束端節(jié)點是否為沒有到達(dá)語音域結(jié)束端的中間節(jié)點可以通過比較語音域的最后時間點和結(jié)束端節(jié)點的時間信息進(jìn)行驗證。
如果,在步驟S2,確認(rèn)存在任何中間節(jié)點,控制器11繼續(xù)到步驟S3,選擇詞連接信息中的一個中間節(jié)點作為將詞確定為連接到該節(jié)點的弧的節(jié)點。該節(jié)點在下面有時稱作當(dāng)前考慮節(jié)點。
也就是,如果在詞連接信息中只存在一個中間節(jié)點,控制器11選擇那個中間節(jié)點作為當(dāng)前考慮節(jié)點。具體地說,控制器11參考多個中間節(jié)點的時間信息,并且選擇由時間信息表示的具有最舊時間的節(jié)點,也就是,靠語音域起始端的節(jié)點,或由時間信息表示的具有最新時間的節(jié)點,也就是,離語音域結(jié)束端最近的節(jié)點,作為當(dāng)前考慮節(jié)點??刂破?1還累計形成從起始節(jié)點到多個中間節(jié)點的路徑的弧具有的聲學(xué)分值和語言分值,并且將形成累計值最大或最小的路徑的結(jié)束端的中間節(jié)點選作當(dāng)前考慮節(jié)點。
控制器11將一個命令輸出到匹配單元14,使得以當(dāng)前考慮節(jié)點的時間信息作為開始時間點執(zhí)行匹配處理。該命令在下面有時稱作匹配處理命令。
一旦從控制器11接收到匹配處理命令,匹配單元14就將當(dāng)前考慮節(jié)點及其時間信息發(fā)送到詞初選單元13,以請求它執(zhí)行詞初選處理??刂破?1然后繼續(xù)到步驟S4。
一旦從匹配單元14接收到詞初選處理的請求,詞初選單元13就在步驟S4執(zhí)行詞初選處理,在登記在詞典數(shù)據(jù)庫18A的詞典中的詞中選擇連接到當(dāng)前考慮節(jié)點的弧的候選詞。
也就是,詞初選單元13從當(dāng)前考慮節(jié)點的時間信息識別在計算語音和聲學(xué)分值時使用的特征值序列的開始時間,同時自開始時間起根據(jù)所需從特征值存儲單元12讀出特征值序列。詞初選單元13通過連接聲學(xué)模型數(shù)據(jù)庫17A的聲學(xué)模型形成登記在詞典數(shù)據(jù)庫18A中的每個詞的詞模型,以使用從特征值存儲單元12讀出的特征值序列根據(jù)詞模型計算聲學(xué)分值。
詞初選單元13根據(jù)存儲在文法數(shù)據(jù)庫19A中的文法規(guī)則計算與每個詞模型對應(yīng)的詞的語言分值。也就是,詞初選單元13根據(jù),例如,單詞文法查找每個詞的語言分值。
詞初選單元13可以參考詞連接信息,使用依賴于當(dāng)前討論詞(與其結(jié)束端為當(dāng)前考慮節(jié)點的弧對應(yīng)的詞)的直接前面詞的跨詞(cross word)模型執(zhí)行每個詞聲學(xué)分值的計算。需要注意的是采用跨詞模型比不采用跨詞模型,聲學(xué)分值的計算量更大。
在詞初選單元13中,每個詞語言分值的計算可以根據(jù)描述當(dāng)前討論詞與直接前面詞連接的概率的兩詞文法進(jìn)行。然而,如果語言分值根據(jù)兩詞文法(bigram)或甚至三詞文法(trigram)進(jìn)行計算,這比使用單詞文法進(jìn)行計算,計算機(jī)量更大。
當(dāng)詞初選單元13如上所述查找每個詞的聲學(xué)和語言分值時,它查找表示全面評估聲學(xué)分值和語言分值的分值(下面稱作詞分值)作為第一測度,以將其上限L值發(fā)送到匹配單元14作為要進(jìn)行匹配處理的詞。
而且,詞初選單元13在步驟S4根據(jù)不同于反映聲學(xué)分值的詞分值的測度選擇一個或更多登記在詞典數(shù)據(jù)庫18A中的詞,以將所選詞發(fā)送到匹配單元14。
也就是,詞初選單元13,不考慮其聲學(xué)分值,選擇登記在詞典數(shù)據(jù)庫18A中且發(fā)音時間比較短的那些詞,如音素和音節(jié)數(shù)目少于預(yù)設(shè)值的詞,例如英語中的介詞或冠詞和日語中的助詞或助動詞,以將所選詞發(fā)送到匹配單元14。在這種情況下,發(fā)音時間短的詞有必要成為匹配處理的目標(biāo)。
如上所述在詞初選單元13中根據(jù)與聲學(xué)分值無關(guān)的特定測度選擇的詞稱作特定詞。
一旦接收到根據(jù)詞分值從詞初選單元13選擇的L個詞和根據(jù)與詞分值無關(guān)的預(yù)設(shè)條件(測度)選擇的特定詞,匹配單元14就在步驟S5執(zhí)行對這些詞的匹配處理。
也就是,匹配單元14從當(dāng)前考慮節(jié)點的時間信息識別在計算聲學(xué)和語言分值時使用的特征值序列的開始時間,以從開始時間讀出必要的特征值序列。而且匹配單元14參考詞典數(shù)據(jù)庫18B,識別來自詞初選單元13的詞的音素信息,并且從聲學(xué)模型數(shù)據(jù)庫17A讀出與音素信息相關(guān)聯(lián)的音素模型,以形成連接詞模型。
匹配單元14根據(jù)如上形成的詞模型,使用從特征值存儲單元12讀出的特征值序列,計算來自詞初選單元13的詞的聲學(xué)分值。匹配單元14可以參考詞連接信息,根據(jù)跨詞問題執(zhí)行詞的聲學(xué)分值的計算。
而且,匹配單元14參考文法數(shù)據(jù)庫19B,計算來自詞初選單元13的詞的語言分值。也就是,匹配單元14參考例如詞連接信息,根據(jù)來自三詞文法的概率,識別來自詞初選單元13的詞的第一前面詞和第二前面詞,以查找來自詞初選單元13的詞的語言分值。
匹配單元14為來自詞初選單元13的全部L個詞和特定詞查找聲學(xué)和語言分值,然后繼續(xù)到步驟S6。全部L個詞和特定詞統(tǒng)稱為所選詞。在步驟S6,根據(jù)全面評估聲學(xué)和語言分值為每個所選詞查找詞分值,同時根據(jù)詞分值更新存儲在詞連接信息存儲單元16中的詞連接信息。
也就是,在步驟S6,匹配單元14為所選詞查找詞分值,并且將該詞分值與預(yù)設(shè)閥值進(jìn)行比較,以從所選詞剪除作為到當(dāng)前考慮節(jié)點的連接弧的詞。匹配單元14發(fā)送剪除之后留下的詞和當(dāng)前考慮詞的聲學(xué)和語言分值和結(jié)束時間。
詞的結(jié)束端時間從在計算聲學(xué)分值時使用的特征值的提取時間點進(jìn)行識別。如果獲得多個極可能為結(jié)束時間的提取時間點,將剪除之后留下的詞與結(jié)束時間和相應(yīng)語言和聲學(xué)分值一起發(fā)送到控制器11。
同時,詞的結(jié)束時間從在計算聲學(xué)分值時使用的特征值的提取時間點進(jìn)行識別。如果獲得多個極可能為結(jié)束時間的提取時間點,一組結(jié)束時間與相關(guān)聲學(xué)和語言分值為當(dāng)前討論詞發(fā)送到控制器11。
一旦接收到從匹配單元14提供的詞的聲學(xué)和語言分值和結(jié)束時間,控制器11用存儲在詞連接信息存儲單元16中的詞連接信息(圖3)中的當(dāng)前考慮節(jié)點,為來自匹配單元14的每個詞擴(kuò)展弧,以將弧連接到與結(jié)束點位置對應(yīng)的結(jié)束端節(jié)點??刂破?1還給予這些弧相關(guān)詞與聲學(xué)和語言分值,以給予每個弧的結(jié)束端節(jié)點相應(yīng)結(jié)束時間作為時間信息??刂破?1然后返回到步驟S2,重復(fù)如上所述的類似處理。
由于詞連接信息根據(jù)匹配單元14的處理結(jié)果進(jìn)行順序更新,因此對于詞初選單元13和匹配單元14,能夠通過利用最近詞連接信息執(zhí)行處理。
同時,如果可能,控制器11在更新詞連接信息中提供結(jié)束端節(jié)點的共同使用。
另一方面,如果在步驟S2確定不存在中間節(jié)點,控制器11繼續(xù)到步驟S7,參考詞連接信息,為由詞連接信息形成的每條路徑累計詞分值,以查找最終分值??刂破?1輸出與形成具有最大最終分值的路徑的弧對應(yīng)的詞序列作為用戶發(fā)音的語音識別結(jié)果,以完成處理。
如上所述,詞初選單元13根據(jù)包括從聲學(xué)特征值計算的聲學(xué)分值的詞分值選擇最可能是語音識別結(jié)果的詞,同時根據(jù)與從聲學(xué)特征值計算的聲學(xué)分值無關(guān)的測度,選擇具有少量音素且具有不穩(wěn)定聲學(xué)特征值的詞,如日語中的助詞或助動詞或英語中的冠詞或介詞。這些詞在匹配單元14中進(jìn)行匹配處理,從而防止在詞初選單元13中不選擇具有不穩(wěn)定聲學(xué)特征值的詞所導(dǎo)致的語音識別精確度的惡化。
由于在詞初選單元13中沒有減小詞選擇時的剪除范圍,也沒有使用更高精確度的聲學(xué)模型或文法規(guī)則,因此最小化由詞初選單元13處理所需的資源以改善準(zhǔn)確的語音識別是可能的。
而且,由于具有少量音素和不穩(wěn)定聲學(xué)特征值的詞有必要進(jìn)行匹配處理,因此只是具有大量音素從而更加穩(wěn)定的聲學(xué)特征值可以根據(jù)包括聲學(xué)分值的詞分值在詞初選單元13中進(jìn)行選擇。在詞初選單元13中,即使使用更加簡單的聲學(xué)模型或文法規(guī)則,在詞初選單元13中也不會發(fā)生沒有選擇正確詞的問題,這樣,在減少在詞初選單元13中處理所需的資源的同時,語音識別準(zhǔn)確度也可以得到提高。
如果根據(jù)包括聲學(xué)分值的詞分值在詞初選單元13中選擇的詞只是具有大量音素且聲學(xué)特征值相對穩(wěn)定的詞,即使減少根據(jù)聲學(xué)和語言分值選擇的詞數(shù),也不會發(fā)生沒有選擇正確詞的問題,這樣,在減少在匹配單元14中處理所需的資源的同時,語音識別準(zhǔn)確度也可以得到提高。
在上述實施例中,詞初選單元13根據(jù)發(fā)音時間的測度,選擇具有更短發(fā)音時間的詞,而不管其聲學(xué)分值,以防止詞初選單元13沒有選擇具有不穩(wěn)定聲學(xué)特征值的詞而造成語音識別準(zhǔn)確度的惡化。作為替換,可以使詞初選單元13只根據(jù)與聲學(xué)分值無關(guān)的測度,即與語音特征值無關(guān)的測度,如語言分值,選擇詞,而不同于根據(jù)詞分值選擇的詞。在這種情況下,類似地,在減少資源的同時提高語音識別準(zhǔn)確度是可能的。
也就是,可以使詞初選單元13只根據(jù)從來自統(tǒng)計詞連接概率(N-文法)的文法規(guī)則獲得的語言分值,選擇可能與向著達(dá)到當(dāng)前考慮節(jié)點的路徑的當(dāng)前考慮節(jié)點的(n-1)詞序列相連接的詞。由于在這種情況下不考慮從特征值計算的聲學(xué)分值選擇詞,因此可能防止由于沒有選擇因為不穩(wěn)定聲學(xué)特征值而使其聲學(xué)分值減小并且因此使其詞分值減小的詞而造成的語音識別準(zhǔn)確度的惡化。
由于語言分值的計算處理量能比聲學(xué)分值的計算處理量小很多,因此防止資源的增加是可能的。
僅基于從來自統(tǒng)計詞連接概率的文法規(guī)則獲得的語言分值的詞選擇可以通過獲取存儲在文法數(shù)據(jù)庫19A中的文法規(guī)則容易地完成。
圖5示出本發(fā)明語音識別裝置的另一實施例。與圖2共同的部分用相同參考號進(jìn)行描述,并且不作具體說明。也就是,除識別結(jié)果存儲單元21是在圖5的裝置中新提供的之外,圖5的語音識別裝置與圖2的相同。
識別結(jié)果存儲單元21適用于輸入由控制器11輸出的語音識別結(jié)果。識別結(jié)果存儲單元21存儲語音識別結(jié)果。同時,識別結(jié)果存儲單元21具有對應(yīng)于一個或更多語音識別結(jié)果的記錄容量,并且設(shè)計為,當(dāng)其中已存儲與記錄容量對應(yīng)的語音識別結(jié)果數(shù)量時,后面提供的識別結(jié)果將以覆寫最舊存儲值的方式進(jìn)行存儲。因此,最近語音識別結(jié)果的滯后性存儲在識別結(jié)果存儲單元21中。詞初選單元13能夠參考存儲在識別結(jié)果存儲單元21中的最近語音識別結(jié)果的滯后性。
參照圖6的流程圖,說明圖5的語音識別裝置的語音識別處理。
在步驟S11到S17,圖5的語音識別裝置基本上執(zhí)行與圖4的步驟S1到S7類似的處理。
在步驟S17,控制器11輸出與形成具有最大最終分值的路徑的弧對應(yīng)的詞序列作為用戶發(fā)音的語音識別結(jié)果??刂破?1然后繼續(xù)到步驟S18,其中語音識別結(jié)果發(fā)送到識別結(jié)果存儲單元21,以存儲在其中,結(jié)束處理。
然而,在步驟S14,詞初選單元13執(zhí)行下面詞初選處理。
在圖4的步驟S4,詞初選單元13,從特征值存儲單元12讀出自當(dāng)前考慮節(jié)點時間信息中的開始時間以來必要的特征值序列,并且使用從特征值存儲單元12讀出的特征值序列,計算登記在詞典數(shù)據(jù)庫18A中的各個詞的聲學(xué)分值,同時根據(jù)存儲在文法數(shù)據(jù)庫19A中的文法規(guī)則計算其語言分值,以查找與全面評估聲學(xué)和語言分值對應(yīng)的詞分值(第一測度)。詞初選單元13將詞分值排在前L位的詞發(fā)送到匹配單元14,作為要進(jìn)行匹配處理的詞。
詞初選單元13根據(jù)存儲在識別結(jié)果存儲單元21中的測度(第二測度)選擇一個或更多登記在詞典數(shù)據(jù)庫18A中的詞,以將所選詞發(fā)送到匹配單元14。
經(jīng)驗上,在大多數(shù)情況下用戶會再次念過去語音中包括的詞。因此,圖5的詞初選單元13從詞典數(shù)據(jù)庫18A選擇與存儲在識別結(jié)果存儲單元21中的語音識別結(jié)果相同的詞作為特定詞,并且將如此選擇的詞發(fā)送到匹配單元14,作為要進(jìn)行匹配處理的詞。
一旦從詞初選單元13接收到根據(jù)詞分值選擇的L個詞和根據(jù)與詞分值無關(guān)的預(yù)設(shè)條件(測度)選擇的特定詞,在此該測度存儲在識別結(jié)果存儲單元21中,匹配單元14就在步驟S5執(zhí)行對如此接收的詞的匹配處理。
在這種情況下,詞初選單元13根據(jù)與聲學(xué)分值無關(guān)的測度選擇詞,從而由于例如環(huán)境噪聲或電路噪聲造成的語音特征值出現(xiàn)顯著變化、和沒有由其中反映從該特征值計算的聲學(xué)分值的詞分值被選擇的詞,可以在不采用高精確度聲學(xué)模型的情況下準(zhǔn)備進(jìn)行匹配處理,從而允許用更少資源提高語音識別準(zhǔn)確度。
同時,語音識別裝置可以進(jìn)一步包括當(dāng)執(zhí)行用于糾正語音識別結(jié)果的輸入處理時由用戶操作的輸入單元22,如鍵盤。如果,在這種情況下,用戶操作輸入單元22,以對由控制器11輸出的語音識別結(jié)果進(jìn)行糾正,控制器11可以配置為,使語音識別的糾正結(jié)果存儲在識別結(jié)果存儲單元21中,取代或結(jié)合只由用戶輸出的語音識別結(jié)果。在上述情況下,這使語音識別準(zhǔn)確度能夠用少量資源進(jìn)行提高。
上述處理操作序列可以通過硬件或軟件進(jìn)行執(zhí)行。在后一情況下,形成軟件的程序安裝在例如通用計算機(jī)上。
圖7示出其中安裝上述操作序列的典型計算機(jī)。
程序可以記錄在計算機(jī)中的記錄介質(zhì)的硬盤105或ROM103的出口。
程序可以暫時性或永久性存儲或記錄在可移動記錄介質(zhì)111,如軟盤、CD-ROM(Compact Disc Read-Only Memory,高密盤-只讀存儲器)、MO(Magneto-optical,光磁)盤、DVD(Digital Versatile Disc,數(shù)字多用途盤)、磁盤或半導(dǎo)體存儲器中。這種可移動記錄介質(zhì)可以作為成為打包軟件進(jìn)行供應(yīng)。
需要注意的是,代替從上述可移動記錄介質(zhì)111安裝在計算機(jī)上,程序可以從下載站點,通過用于數(shù)字衛(wèi)星廣播的人造衛(wèi)星的無線電通道,或者通過網(wǎng)絡(luò),如LAN(Local Area Network,局域網(wǎng))或因特網(wǎng)的電纜傳輸?shù)接嬎銠C(jī),在這些情況下,計算機(jī)可以由通信單元108接收如此傳輸?shù)某绦?,以將該程序安裝在計算機(jī)的硬盤105上。
計算機(jī)在其中包括CPU(central processing unit,中央處理器)102,輸入/輸出接口110通過總線101與之連接。如果通過輸入/輸出接口110輸入一個命令,如由用戶操作由鍵盤、鼠標(biāo)或麥克風(fēng)形成的輸入單元107,CPU102執(zhí)行存儲在ROM(read-only memory,只讀存儲器)103中的程序。作為替換,CPU102載入存儲在硬盤105中的程序,或從裝載在驅(qū)動器109上的可移動記錄介質(zhì)111讀出并安裝在硬盤105上以在RAM(random access memory,隨機(jī)訪問存儲器)104上執(zhí)行的程序。這使CPU102能夠執(zhí)行符合上述流程圖或由上述方框圖結(jié)構(gòu)執(zhí)行的處理的處理。CPU102在必要時從由LCD(Liquid Crystal Display,液晶顯示器)或揚(yáng)聲器形成的輸出單元106通過輸入/輸出接口110輸出處理結(jié)果,將從發(fā)送器108發(fā)送處理結(jié)果,或?qū)⑻幚斫Y(jié)果記錄在硬盤105上。
需要注意的是,由計算機(jī)執(zhí)行的,用于執(zhí)行各種處理操作的程序的處理步驟可以用并行或基于對象執(zhí)行,而沒有必要按照流程圖中的時間順序執(zhí)行各個步驟。
該程序還可以用一臺計算機(jī),或用多臺計算機(jī)以分布的方式進(jìn)行處理。該程序還可以傳輸?shù)竭h(yuǎn)端控制器,并且執(zhí)行。
如上所述,詞初選單元13根據(jù)使用特征值計算的詞分值從登記在詞典數(shù)據(jù)庫18A中的一組詞中選擇詞,同時還根據(jù)一個測度、可能在語言上與緊接前面識別的詞相連的詞或包含在語音識別過去結(jié)果中的詞,選擇具有短發(fā)音時間的詞,以對如此選擇的詞進(jìn)行匹配處理。因此,可以在初步詞選擇處理中避免出現(xiàn)沒有選擇預(yù)設(shè)詞,而沒有必要使用聲學(xué)模型。結(jié)果是可以避免出現(xiàn)語音識別準(zhǔn)確度的惡化,并且盡可能地避免必要資源的增加。
而且,要進(jìn)行匹配處理的詞根據(jù)不同于詞分值的測度(不受語音特征值影響,與使用特征值計算的聲學(xué)分值無關(guān)的測度)進(jìn)行選擇,從而,甚至在嘈雜的環(huán)境中,要進(jìn)行匹配的詞可以不受噪聲的影響進(jìn)行選擇,以提供語音識別裝置的噪聲抵抗力。
由于在詞初選單元13中預(yù)選要在匹配單元14中進(jìn)行分值計算的詞,因此匹配單元14為各個詞的分值計算可以為每個詞獨立執(zhí)行,而不形成具有共同聲學(xué)分值計算部分的樹結(jié)構(gòu)網(wǎng)絡(luò)。如果,在這種情況下,各個詞的分值計算在匹配單元14中以分時的方式執(zhí)行,能夠減少對更小值的計算所需的存儲器容量。
由于匹配單元14的分值計算可以時間上獨立地執(zhí)行,從而,通過審慎地使用分值計算所需的存儲器容量,能夠?qū)⑺璐鎯ζ魅萘拷档揭粋€更低值。
在這種情況下,當(dāng)為給定詞開始分值計算時,能夠識別詞,從而,在分值計算的早期,能夠應(yīng)用語言分值執(zhí)行剪除,這樣可以消除由于詞識別不合理導(dǎo)致的計算浪費(fèi)。
圖2或圖5所示的語音識別裝置可以應(yīng)用于使用語音檢索數(shù)據(jù)庫、驅(qū)動各種設(shè)備、向各種設(shè)備輸入數(shù)據(jù)或語音對話系統(tǒng)。更具體地說,語音識別裝置可以應(yīng)用在用于響應(yīng)使用語音的地點名稱查詢確定地圖信息的數(shù)據(jù)庫檢索系統(tǒng)、響應(yīng)語音命令對包裹進(jìn)行分類的工業(yè)機(jī)器人、通過語音輸入代替鍵盤輸入創(chuàng)建文本的聽寫系統(tǒng)和由機(jī)器人與用戶進(jìn)行交談的對話系統(tǒng)中。
在詞初選單元13中,根據(jù)音素數(shù)目或語音部分選擇的特定詞可以登記在詞典中,其它詞除外。
在上述實施例中,詞初選單元13根據(jù)詞分值(它是對聲學(xué)和語言分值的全面評估)選擇L個詞。然而能夠僅根據(jù)聲學(xué)分值選擇L個詞。
如果要進(jìn)行匹配處理的詞根據(jù)與其中反映聲學(xué)分值的詞分值不同的測度進(jìn)行選擇,可以使用多個測度作為這種測度,從而具有短發(fā)音時間的詞和包含在語音識別過去結(jié)果中的詞可以成為要進(jìn)行匹配處理的詞。
工業(yè)應(yīng)用性從要進(jìn)行語音識別處理的一組詞中,根據(jù)使用特征值計算的第一測度選擇一個或更多第一詞,同時根據(jù)不同于第一測度的第二測度選擇一個或更多第二詞,并且對如此選擇的第一和第二詞計算分值。因此,由于根據(jù)第一測度沒有選擇第二詞而造成語音識別準(zhǔn)確度的惡化是沒有危險的。
權(quán)利要求
1.一種語音識別裝置,其中計算反映輸入語音的語音識別結(jié)果的聲學(xué)可能性的分值,并且根據(jù)該分值識別語音,包括提取裝置,用于提取所述語音的特征值;選擇裝置,用于根據(jù)使用所述特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于所述第一測度的第二測度選擇一個或更多第二詞;分值計算裝置,用于計算由所述選擇裝置選擇的所述第一和第二詞的所述分值;最終確定裝置,用于根據(jù)所述分值最終確定一個詞串作為所述語音的識別結(jié)果。
2.如權(quán)利要求1所述的語音識別裝置,其中,所述選擇裝置,以音素數(shù)作為所述第二測度,選擇音素數(shù)滿足預(yù)設(shè)條件的詞作為所述第二詞。
3.如權(quán)利要求1所述的語音識別裝置,其中,所述選擇裝置,以語音部分作為所述第二測度,選擇語音部分滿足預(yù)設(shè)條件的詞作為所述第二詞。
4.如權(quán)利要求1所述的語音識別裝置,其中,所述選擇裝置,以語言學(xué)可能性作為所述第二測度,選擇語言學(xué)可能性滿足預(yù)設(shè)條件的詞作為所述第二詞。
5.如權(quán)利要求1所述的語音識別裝置,進(jìn)一步包括存儲裝置,用于存儲語音識別結(jié)果;其中,所述選擇裝置,以所述存儲裝置中的存儲狀態(tài)作為所述第二測度,選擇包含于存儲在所述存儲裝置中的語音識別結(jié)果中的詞作為所述第二詞。
6.如權(quán)利要求5所述的語音識別裝置,進(jìn)一步包括輸入裝置,用于提供對語音識別結(jié)果進(jìn)行糾正的輸入;其中所述存儲裝置存儲通過來自所述輸入裝置的輸入進(jìn)行糾正的語音識別結(jié)果。
7.如權(quán)利要求1所述的語音識別裝置,其中,所述選擇裝置使用語音的特征值計算所述分值,以基于所述分值選擇所述第一詞。
8.一種語音識別方法,其中計算反映輸入語音的語音識別結(jié)果的聲學(xué)可能性的分值,并且根據(jù)該分值識別語音,包括提取步驟,提取所述語音的特征值;選擇步驟,根據(jù)使用所述特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于所述第一測度的第二測度選擇一個或更多第二詞;分值計算步驟,計算由所述選擇步驟選擇的所述第一和第二詞的所述分值最終確定步驟,根據(jù)所述分值最終確定一個詞串作為所述語音的識別結(jié)果。
9.一種記錄介質(zhì),在其上記錄一個用于使計算機(jī)執(zhí)行語音識別處理的程序,其中,計算反映輸入語音的語音識別結(jié)果的聲學(xué)可能性的分值,并且根據(jù)該分值識別語音,包括提取步驟,提取所述語音的特征值;選擇步驟,根據(jù)使用所述特征值計算的第一測度,從一組詞中選擇一個或更多第一詞進(jìn)行語音識別處理,并且根據(jù)不同于所述第一測度的第二測度選擇一個或更多第二詞;分值計算步驟,計算由所述選擇裝置選擇的所述第一和第二詞的所述分值;最終確定步驟,根據(jù)所述分值最終確定一個詞串作為所述語音的識別結(jié)果。
全文摘要
一種提高語音識別準(zhǔn)確度并且避免增加資源的語音識別裝置。根據(jù)聲學(xué)分值和語言學(xué)分值選擇可能為語音識別結(jié)果的詞,同時還根據(jù)不是聲學(xué)分值的測度,如“音素數(shù)目少”、“特定語音部分”、“包含在語音識別過去結(jié)果中”和“語言學(xué)分值高于預(yù)設(shè)值”,選擇詞。并且對如此選擇的詞進(jìn)行匹配處理。
文檔編號G10L15/00GK1365488SQ01800736
公開日2002年8月21日 申請日期2001年2月16日 優(yōu)先權(quán)日2000年2月28日
發(fā)明者淺野康治, 南野活樹, 小川浩明, 赫爾穆特·勒克 申請人:索尼公司