本申請涉及語音識別領(lǐng)域,尤其涉及一種語音識別的方法及裝置。
背景技術(shù):
現(xiàn)有的語音識別技術(shù)一般利用由語言模型和聲學(xué)模型構(gòu)成的語音識別網(wǎng)絡(luò)對語音進(jìn)行識別。其中,聲學(xué)模型是通過將訓(xùn)練語音數(shù)據(jù)庫利用訓(xùn)練算法進(jìn)行模型訓(xùn)練后產(chǎn)生,在進(jìn)行語音識別時將待識別的語音的特征參數(shù)同聲學(xué)模型進(jìn)行匹配以得到識別結(jié)果。語言模型是通過對訓(xùn)練文本數(shù)據(jù)庫進(jìn)行語法、語義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練而產(chǎn)生,語言模型能夠結(jié)合語法和語義的知識,描述詞之間的內(nèi)在關(guān)系。
命名實(shí)體(namedentity,ne)是指具有實(shí)體意義的一些特定名稱,常見有人名、地名、機(jī)構(gòu)名、歌曲名等,也可以有時間、日期、數(shù)量短語等。在現(xiàn)有的語音識別系統(tǒng)中對命名實(shí)體的識別準(zhǔn)確率較低,一些場景中常常需要對命名實(shí)體進(jìn)行進(jìn)一步識別,例如,歌曲名稱,聯(lián)系人姓名等。這是由于命名實(shí)體的長度一般比較短(例如,歌曲名稱“默”),因此難以有效地結(jié)合語言模型和聲學(xué)模型進(jìn)行識別,導(dǎo)致識別的準(zhǔn)確率較低。并且,很多命名實(shí)體之間有一定混淆性,例如,“河南”和“荷蘭”語音相近,如果不結(jié)合上下文難以準(zhǔn)確識別出是哪一個;還有一些命名實(shí)體不符合語言規(guī)律,例如,使用網(wǎng)絡(luò)流行語作為歌曲名稱,例如,歌曲名稱“何棄療”。上述的兩種情況更增加了對特定類型的命名實(shí)體進(jìn)行語音識別的難度。
技術(shù)實(shí)現(xiàn)要素:
本申請的一個目的是提高對命名實(shí)體語音的識別的準(zhǔn)確性。
根據(jù)本申請的一個實(shí)施例,提供了一種語音識別的方法,一種語音識別的方法,該方法包括以下步驟:
利用基于漢字的語音識別,對待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的漢字識別結(jié)果的漢字序列;
利用基于拼音的語音識別,對所述待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的拼音識別結(jié)果的拼音序列;
根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度;
根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度,從所述特定命名實(shí)體列表中確定所述待識別命名實(shí)體語音的語音識別結(jié)果。
根據(jù)本申請的一個實(shí)施例,一種人名語音搜索方法,包括:
將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;
利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;
利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼音識別結(jié)果的拼音序列;
根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定人名列表中的各個候選人名與所述待識別人名語音的相似度;
根據(jù)所述各個候選人名與所述待識別人名語音的相似度,從所述特定人名列表中確定所述待識別人名語音的語音識別結(jié)果。
根據(jù)本申請的一個實(shí)施例,提供了一種歌曲語音搜索方法,包括:
將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別歌名語音;
利用基于漢字的語音識別,對待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的漢字識別結(jié)果的漢字序列;
利用基于拼音的語音識別,對所述待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的拼音識別結(jié)果的拼音序列;
根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定歌名列表中的各個候選歌名與所述待識別歌名語音的相似度;
根據(jù)所述各個候選歌名與所述待識別歌名語音的相似度,從所述特定歌 名列表中確定所述待識別歌名語音的語音識別結(jié)果。
根據(jù)本申請的一個實(shí)施例,提供了一種通過語音建立通信連接的方法,包括:
將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;
利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;
利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼音識別結(jié)果的拼音序列;
根據(jù)識別出的所述漢字序列和所述拼音序列,確定用戶通訊錄中的各個人名與所述待識別人名語音的相似度;
根據(jù)所述各個候選人名與所述待識別人名語音的相似度,從所述用戶通訊錄中確定所述待識別人名語音的語音識別結(jié)果;
向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)起通信連接。
與現(xiàn)有技術(shù)相比,本申請的實(shí)施例具有以下優(yōu)點(diǎn):
本申請實(shí)施例在對待識別命名實(shí)體語音進(jìn)行常規(guī)的語音識別得到漢字形式的識別結(jié)果的基礎(chǔ)上,還進(jìn)行拼音識別,得到拼音形式的識別結(jié)果,并根據(jù)識別出的漢字識別結(jié)果和拼音識別結(jié)果,在特定命名實(shí)體列表中確定待識別命名實(shí)體的最終的語音識別結(jié)果,而不僅僅依賴于漢字形式的識別結(jié)果在特定命名實(shí)體列表中確定最終的語音識別結(jié)果,提高了對命名實(shí)體語音的識別的準(zhǔn)確性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
圖1為本申請一個實(shí)施例提供的語音識別的方法的流程圖;
圖2為語音識別目前通用的體系構(gòu)架示意圖;
圖3為本申請一個實(shí)施例確定候選命名實(shí)體與待識別命名實(shí)體語音的相似度的一個具體流程圖;
圖4為本申請另一個實(shí)施例的語音識別的方法的流程圖;
圖5為本申請一個實(shí)施例的人名語音搜索方法的流程圖;
圖6為本申請一個實(shí)施例的歌曲語音搜索方法的流程圖;
圖7為本申請一個實(shí)施例的通過語音建立通信連接的方法的流程圖;
圖8為本申請一個實(shí)施例的語音識別裝置的框圖;
圖9為本申請一個實(shí)施例的相似度確定單元的一個具體框圖;
圖10為本申請另一個實(shí)施例的語音識別裝置的框圖;
圖11為本申請一個實(shí)施例的人名語音搜索裝置的框圖;
圖12為本申請一個實(shí)施例的歌曲語音搜索裝置的框圖;
圖13為本申請一個實(shí)施例的通過語音建立通信連接的裝置的框圖。
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施方式
在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
在上下文中所稱“計(jì)算機(jī)設(shè)備”,也稱為“電腦”,是指可以通過運(yùn)行預(yù)定程序或指令來執(zhí)行數(shù)值計(jì)算和/或邏輯計(jì)算等預(yù)定處理過程的智能電子設(shè)備,其可以包括處理器與存儲器,由處理器執(zhí)行在存儲器中預(yù)存的存續(xù)指令來執(zhí)行預(yù)定處理過程,或是由asic、fpga、dsp等硬件執(zhí)行預(yù)定處理過程,或是由上述二者組合來實(shí)現(xiàn)。計(jì)算機(jī)設(shè)備包括但不限于服務(wù)器、個人電腦、筆記本電腦、平板電腦、智能手機(jī)等。
所述計(jì)算機(jī)設(shè)備包括用戶設(shè)備與網(wǎng)絡(luò)設(shè)備。其中,所述用戶設(shè)備包括但不限于電腦、智能手機(jī)、pda等;所述網(wǎng)絡(luò)設(shè)備包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(cloudcomputing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一 種,由一群松散耦合的計(jì)算機(jī)集組成的一個超級虛擬計(jì)算機(jī)。其中,所述計(jì)算機(jī)設(shè)備可單獨(dú)運(yùn)行來實(shí)現(xiàn)本申請,也可接入網(wǎng)絡(luò)并通過與網(wǎng)絡(luò)中的其他計(jì)算機(jī)設(shè)備的交互操作來實(shí)現(xiàn)本申請。其中,所述計(jì)算機(jī)設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、vpn網(wǎng)絡(luò)等。
需要說明的是,所述用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)等僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計(jì)算機(jī)設(shè)備或網(wǎng)絡(luò)如可適用于本申請,也應(yīng)包含在本申請保護(hù)范圍以內(nèi),并以引用方式包含于此。
后面所討論的方法(其中一些通過流程圖示出)可以通過硬件、軟件、固件、中間件、微代碼、硬件描述語言或者其任意組合來實(shí)施。當(dāng)用軟件、固件、中間件或微代碼來實(shí)施時,用以實(shí)施必要任務(wù)的程序代碼或代碼段可以被存儲在機(jī)器或計(jì)算機(jī)可讀介質(zhì)(比如存儲介質(zhì))中。(一個或多個)處理器可以實(shí)施必要的任務(wù)。
這里所公開的具體結(jié)構(gòu)和功能細(xì)節(jié)僅僅是代表性的,并且是用于描述本申請的示例性實(shí)施例的目的。但是本申請可以通過許多替換形式來具體實(shí)現(xiàn),并且不應(yīng)當(dāng)被解釋成僅僅受限于這里所闡述的實(shí)施例。
應(yīng)當(dāng)理解的是,雖然在這里可能使用了術(shù)語“第一”、“第二”等等來描述各個單元,但是這些單元不應(yīng)當(dāng)受這些術(shù)語限制。使用這些術(shù)語僅僅是為了將一個單元與另一個單元進(jìn)行區(qū)分。舉例來說,在不背離示例性實(shí)施例的范圍的情況下,第一單元可以被稱為第二單元,并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語“和/或”包括其中一個或更多所列出的相關(guān)聯(lián)項(xiàng)目的任意和所有組合。
這里所使用的術(shù)語僅僅是為了描述具體實(shí)施例而不意圖限制示例性實(shí)施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個”、“一項(xiàng)”還意圖包括復(fù)數(shù)。還應(yīng)當(dāng)理解的是,這里所使用的術(shù)語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
還應(yīng)當(dāng)提到的是,在一些替換實(shí)現(xiàn)方式中,所提到的功能/動作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來說,取決于所涉及的功能/動作, 相繼示出的兩幅圖實(shí)際上可以基本上同時執(zhí)行或者有時可以按照相反的順序來執(zhí)行。
在詳述本申請實(shí)施例的詳細(xì)過程之前,先對現(xiàn)有技術(shù)的語音識別作一下簡單介紹。圖2是一個現(xiàn)有技術(shù)中的語音識別的體系結(jié)構(gòu)的示意圖。如圖2所示,通常根據(jù)大量的語音數(shù)據(jù)和文本數(shù)據(jù)分別建立語音數(shù)據(jù)庫和文本數(shù)據(jù)庫,通過從語音數(shù)據(jù)提取語音特征,訓(xùn)練聲學(xué)模型,利用文本數(shù)據(jù)訓(xùn)練語言模型。當(dāng)接收到輸入的待識別語音時,通過提取該語音的特征,通過聲學(xué)模型識別出音節(jié),通過查詢字典中音節(jié)與文本的可能映射關(guān)系,利用語言模型進(jìn)行語音解碼,通過相應(yīng)的搜索算法,輸出該語音對應(yīng)的文本。
下面結(jié)合附圖對本申請作進(jìn)一步詳細(xì)描述。
本申請實(shí)施例總體應(yīng)用于已經(jīng)獲取到待識別語音中包含的待識別命名實(shí)體語音的情形。例如,針對一款智能音箱產(chǎn)品中的歌曲搜索的應(yīng)用,通常為了搜索歌曲,用戶可能發(fā)出的語音命令有“我想聽......”、“請給我找......”、“我想聽......這首歌曲”、“請給我找......這首歌曲”等。把用戶可能發(fā)出的所有命令的格式作成命令模板,如上述“我想聽......”、“請給我找......”、“我想聽......這首歌曲”、“請給我找......這首歌曲”等。當(dāng)用戶發(fā)出語音命令,如“我想聽《張三的歌》”時,將用戶的語音命令進(jìn)行初步語音識別,即圖2中經(jīng)過聲學(xué)模型和語言模型的識別,與存儲的命令模板進(jìn)行匹配。一般來說,初步語音識別對于模板中的通用詞匯,例如“我想聽”是不會識別錯誤的,只是對于“張三的歌”,由于當(dāng)初在訓(xùn)練聲學(xué)模型和文本模型時用的語音和文本可能都側(cè)重于通用詞匯,很少用人名、歌名等專用詞匯訓(xùn)練,因此對于“張三的歌”的語音,識別其為哪幾個字比較困難。通過初步語音識別,識別出用戶的語音命令中的通用詞匯,將這些識別出的通用詞匯與存儲的命令模板進(jìn)行匹配,從而找到待識別命名實(shí)體語音。如“我想聽《張三的歌》”與“我想聽......”匹配,則待識別命名實(shí)體語音為“張三的歌”的語音。本申請實(shí)施例下面的過程用于識別該語音所對應(yīng)的命名實(shí)體,即到底是“張三的歌”,還是“章三的歌”、“張三的哥”等。
參考圖1,在步驟s110中,利用基于漢字的語音識別,對所述待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的漢字識別結(jié)果的漢字序列。
所述基于漢字的語音識別即利用文本數(shù)據(jù)庫中的文本數(shù)據(jù)訓(xùn)練語言模型時用的是文本的漢字序列的語音識別。也就是說,在圖2所示的語音識別體系結(jié)構(gòu)中,利用文本數(shù)據(jù)庫中的文本數(shù)據(jù)訓(xùn)練圖2中的語言模型時用的是文本的漢字序列。
利用該基于漢字的語音識別,對待識別命名實(shí)體語音進(jìn)行識別,所輸出的識別結(jié)果為一串漢字序列。例如,對于命名實(shí)體“張三”的語音,輸出識別結(jié)果為漢字序列“張三”。
參考圖1,在步驟s120中,利用基于拼音的語音識別,對所述待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的拼音識別結(jié)果的拼音序列。
所述基于拼音的語音識別即利用文本數(shù)據(jù)庫中的文本數(shù)據(jù)訓(xùn)練語言模型時用的是文本的拼音序列的語音識別。也就是說,在圖2所示的語音識別體系結(jié)構(gòu)中,利用文本數(shù)據(jù)庫中的文本數(shù)據(jù)訓(xùn)練圖2中的語言模型時用的是文本的拼音序列。
漢語拼音是國際普遍承認(rèn)的漢語普通話拉丁轉(zhuǎn)寫標(biāo)準(zhǔn),主要用于給漢字注音。漢語拼音采用國際通用的26個拉丁字母,分聲母和韻母。漢語的語音單位主要包括音節(jié)和音素。漢語中一個漢字就可以是一個音節(jié),即把聲母加上韻母或者單獨(dú)一個韻母就可以成為一個音節(jié)。音素根據(jù)語音的自然屬性(物理屬性和生理屬性)劃分出來的最小語音單位。
本申請實(shí)施例基于漢語拼音方案建立基于拼音的語音識別網(wǎng)絡(luò)。所述基于拼音的語音識別網(wǎng)絡(luò)由聲學(xué)模型和基于拼音的語言模型構(gòu)成。其中,聲學(xué)模型可以為與前述基于漢字的語音識別網(wǎng)絡(luò)中的聲學(xué)模型相同?;谄匆舻恼Z言模型可以為基于音節(jié)的語言模型或基于音素的語言模型。因此,步驟s120包括以下幾種具體實(shí)施方式:
在第一種實(shí)施方式中,所述基于拼音的語音識別為音節(jié)識別。所述拼音序列為音節(jié)序列。
在該第一種實(shí)施方式中,步驟120具體為對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以識別出作為所述待識別命名實(shí)體語音的音節(jié)識別結(jié)果的音節(jié)序列。
也就是說,利用聲學(xué)模型與該基于音節(jié)的語言模型構(gòu)成的音節(jié)識別網(wǎng)絡(luò)對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以識別出作為所述待識別命名實(shí)體語音的音節(jié)識別結(jié)果的音節(jié)序列。例如,對于命名實(shí)體“張三”的語音,通過音節(jié)識別網(wǎng)絡(luò)進(jìn)行音節(jié)識別后輸出音節(jié)序列“zhangsan”。
在第二種實(shí)施方式中,所述基于拼音的語音識別為用于音素識別。所述拼音序列包括音素序列。在第二種實(shí)施方式中,步驟120具體為對所述待識別命名實(shí)體語音進(jìn)行音素識別,以識別出作為所述待識別命名實(shí)體語音的音素識別結(jié)果的音素序列。
也即是說,利用聲學(xué)模型與所述基于音素的語音模型構(gòu)成的音素識別網(wǎng)絡(luò)對所述待識別命名實(shí)體語音進(jìn)行音素識別,以識別出作為所述待識別命名實(shí)體語音的音素識別結(jié)果的音素序列。例如,對于命名實(shí)體“張三”的語音,通過該音素識別網(wǎng)絡(luò)進(jìn)行音素識別后輸出音素序列“zhangsan”。
基于第二種實(shí)施方式,在第三種實(shí)施方式中,步驟s120可以進(jìn)一步包括:
對識別出的音素序列中的韻母音素進(jìn)行聲調(diào)識別,以識別出作為所述待識別命名實(shí)體語音的聲調(diào)識別結(jié)果的聲調(diào)序列。
普通話中有四個聲調(diào),通常叫四聲,分別為陰平(第一聲),如b??;陽平(第二聲),如bá;上聲(第三聲),如bǎ;去聲(第四聲),如bà。在語音識別技術(shù)中,一般還會加上輕聲(第五聲)。對識別出的音素序列中的韻母進(jìn)行識別,并將識別出的聲調(diào)添加到該音素序列中,可以得到一串聲調(diào)序列,將該聲調(diào)序列作為所述待識別命名實(shí)體語音的聲調(diào)識別結(jié)果。其中,識別出的韻母的聲調(diào)可以標(biāo)注于該韻母的后面,從而,標(biāo)注后得到作為所述待識別命名實(shí)體語音的聲調(diào)識別結(jié)果的聲調(diào)序列。例如,將通過音素識別后得到的音素序列“zhangsan”進(jìn)行聲調(diào)識別后得到聲調(diào)序列“zhang1san1”。
在第四種實(shí)施方式中,所述基于拼音的語音識別包括音節(jié)識別和音素識別,所述拼音序列包括音節(jié)序列和音素序列。
在第四種實(shí)施方式中,步驟s120具體包括:
對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以識別出作為所述待識別命名實(shí)體語音的音節(jié)識別結(jié)果的音節(jié)序列;以及
對所述待識別命名實(shí)體語音進(jìn)行音素識別,以識別出作為所述待識別命名實(shí)體語音的音素識別結(jié)果的音素序列。
對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以及對所述待識別命名實(shí)體語音進(jìn)行音素識別的具體描述也可參考前述第一種實(shí)施方式和第二實(shí)施方式中的描述。
基于第四種實(shí)施方式,在第五種實(shí)施方式中,步驟s120進(jìn)一步包括:
對識別出的音素序列中的韻母音素進(jìn)行聲調(diào)識別,以識別出作為所述待識別命名實(shí)體語音的聲調(diào)識別結(jié)果的聲調(diào)序列。
該步驟的詳細(xì)描述可參考第三種實(shí)施方式中對識別出的音素序列中的韻母音素進(jìn)行聲調(diào)識別的描述,此處不加贅述。
參考圖1,在步驟s130中,根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體的相似度。
相似度即候選命名實(shí)體與待識別命名實(shí)體相似的程度,其可以通過多種度量來計(jì)算,其中在一種具體實(shí)施方式中,根據(jù)所述各個候選命名實(shí)體所對應(yīng)的漢字序列與識別出的所述漢字序列的編輯距離,以及所述各個候選命名實(shí)體所對應(yīng)的拼音序列與識別出的所述拼音序列的編輯距離來確定各個候選命名實(shí)體與所述待識別命名實(shí)體的相似度。
如圖3所示,步驟s130具體包括以下步驟:
步驟s131,確定特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的漢字序列與識別出的所述漢字序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的漢字序列編輯距離。
編輯距離算法(edit-distancebasedalgorithm,eda)是衡量兩個字符串的匹配程度的算法,是指兩個字符串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。利用編輯距離算法來計(jì)算特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的漢字序列與識別出的所述漢字序列的編輯距離。漢字序 列的編輯距離的計(jì)算中,字符具體為漢字。例如,候選命名實(shí)體是“張三的歌”,識別出的漢字序列是“章三歌”,則“章三歌”的“章”要替換成“張”,并加入“的”才能變成“張三的歌”,“章三歌”和“張三的歌”的漢字序列編輯距離為2。
步驟s132,確定特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的拼音序列與識別出的所述拼音序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的拼音序列編輯距離。
與步驟s131中相同,利用編輯距離算法來計(jì)算特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的拼音序列與識別出的所述拼音序列的編輯距離,以作為各個候選命名實(shí)體與所述待識別命名實(shí)體語音的拼音序列編輯距離。
對應(yīng)于步驟s120的第一種實(shí)施方式,所述拼音序列編輯距離為所述特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的識別結(jié)果的音節(jié)序列編輯距離,則利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的音節(jié)序列與識別出的音節(jié)序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體的音節(jié)序列編輯距離。即前述編輯距離算法中的字符在這里是音節(jié)。例如,候選命名實(shí)體所對應(yīng)的音節(jié)序列為“zhangsandege”,識別出的音節(jié)序列是zhangshangge”,其中“zhangshangge”要變成“zhangsandege”,首先要把“shang”變成“san”,然后再加入“de”,即2個音節(jié)的變化,編輯距離為2。
對應(yīng)于步驟s120的第二種實(shí)施方式,所述拼音序列編輯距離為所述特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的識別結(jié)果的音素序列編輯距離,則利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音素序列編輯距離。即前述編輯距離算法中的字符在這里是音素。例如,候選命名實(shí)體所對應(yīng)的音素序列為“zhangsandege”,識別出的音節(jié)序列是“zhangshangge”,其中“zhangshangge”要變成“zhangsandege”,首先要把“sh”變成“s”,把“ang”變成“an”,然后再加入“d”和“e”,即4個音節(jié)的變化,編輯距離為4。對應(yīng)于步驟s120的第三種實(shí)施方式,所述拼音序列編輯距離 包括所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的識別結(jié)果的音素序列編輯距離和聲調(diào)序列編輯距離,則
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音素序列編輯距離;以及
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的聲調(diào)序列與識別出的聲調(diào)序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的聲調(diào)序列編輯距離。
所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離的計(jì)算方式如上所述。所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的聲調(diào)序列與識別出的聲調(diào)序列的編輯距離的計(jì)算中,前述編輯距離算法中的字符在這里是聲調(diào)。例如,候選命名實(shí)體所對應(yīng)的聲調(diào)序列為“zhang1san1”,識別出的聲調(diào)序列是“zhang1san2”,其中“zhang1san2”要變成“zhang1san1”,只需要變化“san”的聲調(diào),編輯距離為1。
對應(yīng)于步驟s120的第四種實(shí)施方式,所述拼音序列編輯距離包括所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的識別結(jié)果的音節(jié)序列編輯距離和音素序列編輯距離,則
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音節(jié)序列與識別出的音節(jié)序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音節(jié)序列編輯距離;以及
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音素序列編輯距離。所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音節(jié)序列與識別出的音節(jié)序列的編輯距離、所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離的計(jì)算方式如上所述。
對應(yīng)于步驟s120的第五種實(shí)施方式,所述拼音序列編輯距離包括所述各個候選命名實(shí)體與所述待識別命名實(shí)體的音節(jié)序列編輯距離、音素序列編輯距離和聲調(diào)序列編輯距離,則
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音節(jié)序列與識別出的音節(jié)序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音節(jié)序列編輯距離;
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的音素序列編輯距離;以及
利用編輯距離算法計(jì)算所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的聲調(diào)序列與識別出的聲調(diào)序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的聲調(diào)序列編輯距離。所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音節(jié)序列與識別出的音節(jié)序列的編輯距離、所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的音素序列與識別出的音素序列的編輯距離、所述特定命名實(shí)體列表中各個候選命名實(shí)體所對應(yīng)的聲調(diào)序列與識別出的聲調(diào)序列的編輯距離的計(jì)算方式如上所述。
步驟s133,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體的漢字序列編輯距離和拼音序列編輯距離,計(jì)算所述各個候選命名實(shí)體與所述待識別命名實(shí)體的總體編輯距離。
總體編輯距離可以是加權(quán)平均編輯距離、平均編輯距離、編輯距離的加權(quán)和、編輯距離的和等。
如果總體編輯距離是加權(quán)平均編輯距離,可以預(yù)先設(shè)置所述漢字序列編輯距離和所述拼音序列編輯距離各自對應(yīng)的預(yù)定權(quán)重。在進(jìn)行待識別命名實(shí)體語音的語音識別時,可以按照該預(yù)定權(quán)重,對特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體的漢字序列編輯距離和拼音序列編輯距離進(jìn)行加權(quán)處理,將得到的加權(quán)平均值作為所述特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的總體編輯距離。
作為總體編輯距離的一種特例,就是各預(yù)定權(quán)重相等的情形,也就是總體編輯距離是平均編輯距離的情況。
另外,還可以讓總體編輯距離等于候選命名實(shí)體與所述待識別命名實(shí)體的漢字序列編輯距離和拼音序列編輯距離的加權(quán)和或和等。
在總體編輯距離是加權(quán)平均值的情況下,對應(yīng)于步驟s120的第一種或第 二種實(shí)施方式,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體的識別結(jié)果的漢字序列編輯距離對應(yīng)的權(quán)重和音節(jié)序列編輯距離對應(yīng)的權(quán)重或音素序列編輯距離對應(yīng)的權(quán)重,對所述漢字序列編輯距離與所述音節(jié)序列編輯距離進(jìn)行加權(quán)處理,或者對所述漢字序列編輯距離與所述音素序列編輯距離進(jìn)行加權(quán)處理,得到的加權(quán)平均值作為所述特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的總體編輯距離。
在總體編輯距離是加權(quán)平均值的情況下,對應(yīng)于步驟s120的第三種實(shí)施方式,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體的識別結(jié)果的漢字序列編輯距離對應(yīng)的權(quán)重、音素序列編輯距離對應(yīng)的權(quán)重和聲調(diào)序列編輯距離對應(yīng)的權(quán)重,對所述漢字序列編輯距離、所述音素序列編輯距離和所述聲調(diào)序列編輯距離進(jìn)行加權(quán)處理,以得到它們的加權(quán)平均值作為所述各個候選命名實(shí)體與該待識別命名實(shí)體語音的總體編輯距離。
在總體編輯距離是加權(quán)平均值的情況下,對應(yīng)于步驟s120的第四種實(shí)施方式,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體的識別結(jié)果的漢字序列編輯距離對應(yīng)的權(quán)重、音節(jié)序列編輯距離對應(yīng)的權(quán)重和音素序列編輯距離對應(yīng)的權(quán)重,對所述漢字序列編輯距離、所述音節(jié)序列編輯距離和所述音素序列編輯距離進(jìn)行加權(quán)處理,以得到它們的加權(quán)平均值作為所述各個候選命名實(shí)體與該待識別命名實(shí)體語音的總體編輯距離。
在總體編輯距離是加權(quán)平均值的情況下,對應(yīng)于步驟s120的第五種實(shí)施方式,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體的識別結(jié)果的漢字序列編輯距離對應(yīng)的權(quán)重、音節(jié)序列編輯距離對應(yīng)的權(quán)重、音素序列編輯距離對應(yīng)的權(quán)重和聲調(diào)序列編輯距離對應(yīng)的權(quán)重,對所述漢字序列編輯距離、所述音節(jié)序列編輯距離、所述音素序列編輯距離和所述聲調(diào)序列編輯距離進(jìn)行加權(quán)處理,以得到它們的加權(quán)平均值作為所述各個候選命名實(shí)體與該待識別命名實(shí)體語音的總體編輯距離。
步驟s134,將計(jì)算得到的所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的總體編輯距離與預(yù)定常數(shù)之和的倒數(shù),作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度。
由于編輯距離越小,相似度越高,因此,將各個候選命名實(shí)體與所述待 識別命名實(shí)體語音的總體編輯距離與預(yù)定常數(shù)之和的倒數(shù)作為它們的相似度。由于可能存在總體編輯距離為0的情況,因此需要預(yù)先設(shè)定一個常數(shù),從而將所述總體編輯距離與該預(yù)定常數(shù)之和作為相似度的分母部分。該預(yù)定常數(shù)優(yōu)選地設(shè)置為1,則相似度=1/(d+1),其中d為候選命名實(shí)體與待識別命名實(shí)體的總體編輯距離。例如,某個候選命名實(shí)體與所述待識別命名實(shí)體的總體編輯距離為1,則它們的相似度為1/(1+1)=1/2。
參考圖1,在步驟s140中,根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度,從所述特定命名實(shí)體列表中確定所述待識別命名實(shí)體語音的語音識別結(jié)果。
具體而言,將所述特定命名實(shí)體列表中與所述待識別命名實(shí)體語音的識別結(jié)果的相似度最大的候選命名實(shí)體作為所述待識別命名實(shí)體語音的語音識別結(jié)果。實(shí)際上,也就是將所述特定命名實(shí)體列表中與所述待識別命名實(shí)體語音的識別結(jié)果的總體編輯距離最小的候選命名實(shí)體作為所述待識別命名實(shí)體語音的語音識別結(jié)果。
本申請實(shí)施例在對待識別命名實(shí)體進(jìn)行常規(guī)的語音識別得到漢字形式的識別結(jié)果的基礎(chǔ)上,還進(jìn)行拼音識別,得到拼音形式的識別結(jié)果,并根據(jù)識別出的漢字識別結(jié)果和拼音識別結(jié)果,在特定命名實(shí)體列表中確定待識別命名實(shí)體最終的語音識別結(jié)果,提高了對命名實(shí)體語音識別的準(zhǔn)確性。
另外,為了進(jìn)一步提高對命名實(shí)體語音識別的準(zhǔn)確性,所述基于漢字的語音識別中用到的語言模型可以是用所述特定命名實(shí)體列表中的各個候選命名實(shí)體對應(yīng)的漢字序列以及通用訓(xùn)練文本庫中的文本的漢字序列共同訓(xùn)練而生成的。
一般的基于漢字的語音識別的體系結(jié)構(gòu)中(如圖2所示),其用到的語言模型僅僅是用通用訓(xùn)練文本庫中的文本的漢字序列訓(xùn)練出來的。由于通用訓(xùn)練文本庫中的文本一般很少有命名實(shí)體,如人名、地名等,這樣的語音識別的體系結(jié)構(gòu)對于命名實(shí)體的識別來說,準(zhǔn)確性差。但本申請的實(shí)施例中,可以用所述特定命名實(shí)體列表中的各個候選命名實(shí)體對應(yīng)的漢字序列以及通用訓(xùn)練文本庫中的文本的漢字序列共同訓(xùn)練語言模型,就進(jìn)一步提高了命名實(shí)體語音識別的準(zhǔn)確性。
另外,為了進(jìn)一步提高對命名實(shí)體語音識別的準(zhǔn)確性,所述音節(jié)識別用到的語言模型可以是用對所述特定命名實(shí)體列表中的各個候選命名實(shí)體進(jìn)行音節(jié)展開得到的音節(jié)序列、和對通用訓(xùn)練文本庫中的文本進(jìn)行音節(jié)展開得到的音節(jié)序列訓(xùn)練而生成的。所述音素識別用到的語言模型可以是用對所述特定命名實(shí)體列表中的各個候選命名實(shí)體進(jìn)行音素展開得到的音素序列、和對通用訓(xùn)練文本庫中的文本進(jìn)行音素展開得到的音素序列訓(xùn)練而生成的。這樣,與僅僅用通用訓(xùn)練文本庫中的文本進(jìn)行音節(jié)展開得到的音節(jié)序列訓(xùn)練語言模型、或僅僅用通用訓(xùn)練文本庫中的文本進(jìn)行音素展開得到的音素序列訓(xùn)練語言模型相比,由于訓(xùn)練時加入了所述特定命名實(shí)體列表中的各個候選命名實(shí)體,就進(jìn)一步提高了命名實(shí)體語音識別的準(zhǔn)確性。
參考圖4,基于上述任意實(shí)施例,可選地,該語音識別方法1還包括獲取待識別語音中包含的待識別命名實(shí)體語音的步驟s100。
在實(shí)際的應(yīng)用場景中,用戶下達(dá)語音命令時通常是說一句話,并不是只發(fā)出一個命名實(shí)體的語音。例如,用戶發(fā)出“我要聽《張三的歌》”的語音。因此,需要識別出用戶發(fā)出的語音中哪一部分為待識別命名實(shí)體語音。
如前所述,在一種具體實(shí)施方式中,可以對包含待識別命名實(shí)體語音的待識別語音進(jìn)行初步語音識別,根據(jù)識別的結(jié)果與預(yù)先存儲的命令模板進(jìn)行匹配,從而確定出所述語音中哪一部分是待識別命名實(shí)體語音。
如圖5所示,本申請一個實(shí)施例提供了一種人名語音搜索方法2,包括:s200、將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;s210、利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;s220、利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼音識別結(jié)果的拼音序列;s230、根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定人名列表中的各個候選人名與所述待識別人名語音的相似度;s240、根據(jù)所述各 個候選人名與所述待識別人名語音的相似度,從所述特定人名列表中確定所述待識別人名語音的語音識別結(jié)果。
與圖4相比,圖5的實(shí)施例僅是將命名實(shí)體具體化為人名的一個方案,因此對其各步驟具體實(shí)現(xiàn)不贅述。這里,特定人名列表可以是公司所有員工列表,通過圖5的實(shí)施例,就達(dá)到了通過簡單的語音交互來語音搜索公司員工的效果,可以用于公司電話的自動轉(zhuǎn)接等情形。
如圖6所示,本申請的一個實(shí)施例提供了一種歌曲語音搜索方法3,包括:s300、將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別歌名語音;s310、利用基于漢字的語音識別,對待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的漢字識別結(jié)果的漢字序列;s320、利用基于拼音的語音識別,對所述待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的拼音識別結(jié)果的拼音序列;s330、根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定歌名列表中的各個候選歌名與所述待識別歌名語音的相似度;s340、根據(jù)所述各個候選歌名與所述待識別歌名語音的相似度,從所述特定歌名列表中確定所述待識別歌名語音的語音識別結(jié)果。
與圖4相比,圖6的實(shí)施例僅是將命名實(shí)體具體化為歌名的一個方案,因此對其各步驟具體實(shí)現(xiàn)不贅述。該方案可以用于智能音箱產(chǎn)品中的歌曲搜索。這里,特定歌名列表可以是音箱中存儲的所有歌曲的歌名列表。通過圖6的實(shí)施例,就達(dá)到了通過簡單的語音交互來搜索音箱中的歌曲,從而實(shí)現(xiàn)語音自動點(diǎn)播的效果。
如圖7所示,本申請的一個實(shí)施例提供了一種通過語音建立通信連接的方法5,包括:s200、將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;s210、利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;s220、利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼 音識別結(jié)果的拼音序列;s230、根據(jù)識別出的所述漢字序列和所述拼音序列,確定用戶通訊錄中的各個人名與所述待識別人名語音的相似度;s240、根據(jù)所述各個候選人名與所述待識別人名語音的相似度,從所述用戶通訊錄中確定所述待識別人名語音的語音識別結(jié)果;s250、向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)起通信連接。
圖7的實(shí)施例的步驟s200-s240與圖5的實(shí)施例類似,故不贅述。步驟s250可以包括向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)起通話連接請求或向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)送短信。
該方案例如可以用在車載語音自動通信產(chǎn)品中。這里,用戶通訊錄可以是用戶終端中存儲的通訊錄。這樣,達(dá)到了在司機(jī)開車時不用用手撥打手機(jī)只是通過簡單說一句話就可以自動通話或發(fā)短信的效果。
如圖8所示,本申請的一個實(shí)施例提供了一種語音識別的裝置4,該裝置4包括:
第一識別單元410,用于利用基于漢字的語音識別,對待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的漢字識別結(jié)果的漢字序列;
第二識別單元420,用于利用基于拼音的語音識別,對所述待識別命名實(shí)體語音進(jìn)行語音識別,以識別出作為所述待識別命名實(shí)體語音的拼音識別結(jié)果的拼音序列;
相似度確定單元430,用于根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定命名實(shí)體列表中的各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度;
識別結(jié)果確定單元440,用于根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度,從所述特定命名實(shí)體列表中確定所述待識別命名實(shí)體語音的語音識別結(jié)果。
可選地,所述基于漢字的語音識別中用到的語言模型是用所述特定命名實(shí)體列表中的各個候選命名實(shí)體對應(yīng)的漢字序列以及通用訓(xùn)練文本庫中的文本的漢字序列共同訓(xùn)練而生成的。
可選地,所述基于拼音的語音識別為音節(jié)識別,所述拼音序列包括音節(jié)序列。第二識別單元進(jìn)一步用于:對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以識別出作為所述待識別命名實(shí)體語音的音節(jié)識別結(jié)果的音節(jié)序列。
可選地,所述基于拼音的語音識別為音素識別,所述拼音序列包括音素序列。第二識別單元進(jìn)一步用于:對所述待識別命名實(shí)體語音進(jìn)行音素識別,以識別出作為所述待識別命名實(shí)體語音的音素識別結(jié)果的音素序列。
可選地,所述基于拼音的語音識別包括音節(jié)識別和音素識別,所述拼音序列包括音節(jié)序列和音素序列。第二識別單元進(jìn)一步用于:對所述待識別命名實(shí)體語音進(jìn)行音節(jié)識別,以識別出作為所述待識別命名實(shí)體語音的音節(jié)識別結(jié)果的音節(jié)序列;以及對所述待識別命名實(shí)體語音進(jìn)行音素識別,以識別出作為所述待識別命名實(shí)體語音的音素識別結(jié)果的音素序列。
可選地,第二識別單元進(jìn)一步用于:
對識別出的音素序列中的韻母音素進(jìn)行聲調(diào)識別,以識別出作為所述待識別命名實(shí)體語音的聲調(diào)識別結(jié)果的聲調(diào)序列。
可選地,如圖9所示,相似度確定單元430包括:
漢字序列編輯距離確定子單元431,用于確定特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的漢字序列與識別出的所述漢字序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的漢字序列編輯距離;
拼音序列編輯距離確定子單元432,用于確定特定命名實(shí)體列表中的各個候選命名實(shí)體所對應(yīng)的拼音序列與識別出的所述拼音序列的編輯距離,以作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的拼音序列編輯距離;
總體編輯距離確定子單元433,用于根據(jù)所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的漢字序列編輯距離和拼音序列編輯距離,計(jì)算所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的總體編輯距離;
相似度確定子單元434,用于將計(jì)算得到的所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的總體編輯距離與預(yù)定常數(shù)之和的倒數(shù),作為所述各個候選命名實(shí)體與所述待識別命名實(shí)體語音的相似度。
可選地,所述音節(jié)識別用到的語言模型是用對所述特定命名實(shí)體列表中的各個候選命名實(shí)體進(jìn)行音節(jié)展開得到的音節(jié)序列、和對通用訓(xùn)練文本庫中的文本進(jìn)行音節(jié)展開得到的音節(jié)序列訓(xùn)練而生成的。
可選地,所述音素識別用到的語言模型是用對所述特定命名實(shí)體列表中的各個候選命名實(shí)體進(jìn)行音素展開得到的音素序列、和對通用訓(xùn)練文本庫中的文本進(jìn)行音素展開得到的音素序列訓(xùn)練而生成的。
可選地,如圖10所示,該裝置4還包括:
獲取單元400,用于獲取待識別語音中包含的待識別命名實(shí)體語音。
參考圖11,根據(jù)本申請的一個實(shí)施例,提供了一種人名語音搜索裝置6,包括:
待識別人名語音獲取單元610,用于將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;
第一待識別人名語音識別單元620,用于利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;
第二待識別人名語音識別單元630,用于利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼音識別結(jié)果的拼音序列;
待識別人名相似度確定單元640,用于根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定人名列表中的各個候選人名與所述待識別人名語音的相似度;
待識別人名語音識別結(jié)果確定單元650,用于根據(jù)所述各個候選人名與所述待識別人名語音的相似度,從所述特定人名列表中確定所述待識別人名語音的語音識別結(jié)果。
參考圖12,根據(jù)本申請的一個實(shí)施例,提供了一種歌曲語音搜索裝置7,包括:
待識別歌名語音獲取單元710,用于將待識別語音命令與預(yù)先存儲的語 音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別歌名語音;
第一待識別歌名語音識別單元720,用于利用基于漢字的語音識別,對待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的漢字識別結(jié)果的漢字序列;
第二待識別歌名語音識別單元730,用于利用基于拼音的語音識別,對所述待識別歌名語音進(jìn)行語音識別,以識別出作為所述待識別歌名語音的拼音識別結(jié)果的拼音序列;
待識別歌名相似度確定單元740,用于根據(jù)識別出的所述漢字序列和所述拼音序列,確定特定歌名列表中的各個候選歌名與所述待識別歌名語音的相似度;
待識別歌名語音識別結(jié)果確定單元750,用于根據(jù)所述各個候選歌名與所述待識別歌名語音的相似度,從所述特定歌名列表中確定所述待識別歌名語音的語音識別結(jié)果。
參考圖13,根據(jù)本申請的一個實(shí)施例,提供了一種通過語音建立通信連接的裝置8,包括:
待識別人名語音獲取單元610,用于將待識別語音命令與預(yù)先存儲的語音命令模板進(jìn)行匹配,從而獲取出該待識別語音命令中的待識別人名語音;
第一待識別人名語音識別單元620,用于利用基于漢字的語音識別,對待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的漢字識別結(jié)果的漢字序列;
第二待識別人名語音識別單元630,用于利用基于拼音的語音識別,對所述待識別人名語音進(jìn)行語音識別,以識別出作為所述待識別人名語音的拼音識別結(jié)果的拼音序列;
待識別人名相似度確定單元640,用于根據(jù)識別出的所述漢字序列和所述拼音序列,確定用戶通訊錄中的各個人名與所述待識別人名語音的相似度;
待識別人名語音識別結(jié)果確定單元650,用于根據(jù)所述各個候選人名與所述待識別人名語音的相似度,從所述用戶通訊錄中確定所述待識別人名語音的語音識別結(jié)果;
通信連接發(fā)起單元660,用于向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)起通信連接。
可選地,通信連接發(fā)起單元進(jìn)一步用于向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)起通話連接請求或向確定的作為語音識別結(jié)果的用戶通訊錄中的用戶發(fā)送短信。
需要注意的是,本申請可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,本申請的各個裝置可采用專用集成電路(asic)或任何其他類似硬件設(shè)備來實(shí)現(xiàn)。在一個實(shí)施例中,本申請的軟件程序可以通過處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本申請的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,ram存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。另外,本申請的一些步驟或功能可采用硬件來實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。
對于本領(lǐng)域技術(shù)人員而言,顯然本申請不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本申請的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本申請。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本申請的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本申請內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
雖然前面特別示出并且描述了示例性實(shí)施例,但是本領(lǐng)域技術(shù)人員將會理解的是,在不背離權(quán)利要求書的精神和范圍的情況下,在其形式和細(xì)節(jié)方面可以有所變化。