專利名稱:語音認(rèn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用語音來進(jìn)行身份確認(rèn)的語音認(rèn)證系統(tǒng),尤其涉及一 種文本依存型的語音認(rèn)證系統(tǒng)。
背景技術(shù):
到目前為止,作為系統(tǒng)使用者的身份確認(rèn)的一個方法,應(yīng)用著語音認(rèn)證。 近年來,在移動環(huán)境中的電子商務(wù)交易等時的個人認(rèn)證中,使用作為生物測 定學(xué)認(rèn)證之一的指紋認(rèn)證的情況很多。但是,指紋認(rèn)證另外需要特別的傳感 器,而在利用語音來進(jìn)行個人認(rèn)證時,例如,由于便攜電話中已經(jīng)安裝有作 為傳感器的麥克風(fēng),所以希望將便攜終端適用于移動環(huán)境下的語音認(rèn)證。語音認(rèn)證大致分為文本依存型和文本獨立型兩種。文本依存型是這樣一 種方式,即,預(yù)先讓使用者朗讀關(guān)鍵詞(密碼)或句子,來登錄該語音,在 認(rèn)證時,使使用者說出與登錄時相同的關(guān)鍵詞或句子,來進(jìn)行認(rèn)證。文本獨 立型是與說話內(nèi)容無關(guān)而僅通過音質(zhì)來進(jìn)行認(rèn)證的方式。因此,在文本獨立 型的情況下,不需要決定關(guān)鍵詞等,使用者可通過任意的發(fā)聲內(nèi)容來進(jìn)行登 錄及認(rèn)證。本發(fā)明涉及前一種的文本依存型的語音認(rèn)證。在文本依存型語音認(rèn)證中,由于根據(jù)音質(zhì)和發(fā)聲內(nèi)容(關(guān)鍵詞等)的秘 密性信息兩者來進(jìn)行認(rèn)證處理,所以可得到較高的認(rèn)證精度。但是,在認(rèn)證 時旁邊有其他人的環(huán)境中,有可能會被聽到秘密的關(guān)鍵詞。因此,在不能保 持私秘性的環(huán)境中進(jìn)行認(rèn)證的用途中(例如,店鋪的收銀機或在自動售貨機 中使用內(nèi)置付帳功能的便攜電話來進(jìn)行支付時的身份確認(rèn)等中),由于使用 者有抗拒情緒,所以很難采用文本依存型語音認(rèn)證。另外,在暴露了關(guān)鍵詞的情況下,由于發(fā)聲內(nèi)容的秘密性不能用于認(rèn)證,所以認(rèn)證精度降低了。進(jìn)而,還有他人用磁帶錄音機或IC錄音機來不正當(dāng)?shù)劁浿屏耸褂谜弑救税l(fā)出的秘密的關(guān)鍵詞,并在認(rèn)證時通過將其進(jìn)行再現(xiàn), 從而成功詐騙(錄音再現(xiàn)詐騙)的危險。對于這些問題,為了防止錄音再現(xiàn)詐騙,提出了根據(jù)語音的相位差信息
來檢測出是來自揚聲器的再現(xiàn)的方法(參考專利文獻(xiàn)1)和通過比較傳送特性,或通過在語音上覆蓋DTMF信號來輸入聲音空隙,從而檢測出錄音再現(xiàn) 的方法(參考專利文獻(xiàn)2)等。另外,還存在使使用者每次認(rèn)證對不同的內(nèi) 容的文本進(jìn)行發(fā)聲,來防止錄音再現(xiàn)詐騙的系統(tǒng)(參考專利文獻(xiàn)3)。另外,提出了如下方法,即,使多種密碼與索引相對應(yīng)來進(jìn)行登錄,在 認(rèn)證時,與密碼一起,輸入與該密碼對應(yīng)的索引,從而即使密碼被暴露,也 可防止詐騙(專利文獻(xiàn)4)。另外,提出了這樣一種方法,即作為在附近不 暴露用于語音認(rèn)證的密碼的方法,顯示分別對號碼指定了顏色的畫面,通過 在認(rèn)證時發(fā)出顏色的名字,從而防止密碼的泄漏(專利文獻(xiàn)5)。另外,在通過數(shù)字多位的語音輸入來進(jìn)行操作者的認(rèn)證的系統(tǒng)中,還有 預(yù)先準(zhǔn)備多種數(shù)字位的輸入順序,在認(rèn)證時指示其中的一種來加以輸入的方 法(專利文獻(xiàn)6)。另外,還有通過指定為使秘密的記號串變形而發(fā)聲,而 防止密碼的泄漏的系統(tǒng)(專利文獻(xiàn)7)。進(jìn)一步,還已知通過指示將虛擬號 碼隨機插入到語音輸入的密碼中,從而防止密碼的泄漏的語音響應(yīng)識別裝置(專利文獻(xiàn)8)。專利文獻(xiàn)l-JP特開2001--10949號公報專利文獻(xiàn)2:JP特表2002-一514318號公報專利文獻(xiàn)3:JP特開2000-_ 148187號公報專利文獻(xiàn)4:JP特開2000--181490號公報專利文獻(xiàn)5:JP特開2002.-311992號公報專利文獻(xiàn)6:JP特開昭59-_ 191645號公報專利文獻(xiàn)7:JP特開昭63-—231496號公報專利文獻(xiàn)8:JP特開昭63--207262號公報但是,即使執(zhí)行如上述專利文獻(xiàn)1 3記載的錄音再現(xiàn)詐騙對策,由于在錄音的時刻暴露了密碼,所以認(rèn)證精度也降低了。另外,為了防止密碼的泄漏或進(jìn)行隱藏,如上述專利文獻(xiàn)4 8所記載的方法那樣,需要發(fā)聲內(nèi)容 的改變或特別的操作,有對使用者來說難以使用的問題。另外,在每次認(rèn)證 時指定發(fā)聲內(nèi)容的情況下,由于說話內(nèi)容(說什么)的秘密信息不能用于認(rèn) 證,所以有不能得到高精度的問題
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明的目的是提供一種在文本依存型語音認(rèn)證系統(tǒng) 中,通過防止關(guān)鍵詞的泄漏和錄音詐騙,可以使用關(guān)鍵詞的秘密性來維持高 認(rèn)證精度的語音認(rèn)證系統(tǒng)。為了實現(xiàn)上述目的,本發(fā)明的語音認(rèn)證系統(tǒng),對關(guān)鍵詞進(jìn)行語音輸入而 進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng),其特征在于,具有輸入部,其將以 可發(fā)聲的單位為最小單位而分割為多個部分的關(guān)鍵詞的語音輸入,對每個所 述部分隔開時間間隔經(jīng)多次來接收;說話人模型(SpeakerModel)存儲部, 其預(yù)先存儲使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵詞作為以所述可發(fā)聲的單 位所作成的說話人模型;特征量轉(zhuǎn)換部,從在所述輸入部中通過一次語音輸 入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量;類似度計 算部,其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人模型之間的類 似度;發(fā)聲內(nèi)容判斷部,其根據(jù)所述類似度計算部所求出的類似度,通過所 述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)信息;關(guān)鍵詞確認(rèn)部,其根據(jù)所述發(fā) 聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的信息,判斷利用所述多次語音輸入 的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷部,其根據(jù)所述關(guān)鍵詞確認(rèn)部的 判斷結(jié)果和由所述類似度計算部所求出的類似度,判斷接受還是拒絕認(rèn)證。根據(jù)該結(jié)構(gòu),將關(guān)鍵詞通過以可發(fā)聲的單位作為最小單位而分割為多個 部分來進(jìn)行語音輸入,在周圍有他人的環(huán)境中進(jìn)行認(rèn)證時,可以防止整個關(guān) 鍵詞的泄漏。另外,由于不一次連續(xù)發(fā)出整個關(guān)鍵詞,所以可以防止整個關(guān) 鍵詞被錄音,故還可抑制錄音詐騙。并且,在關(guān)鍵詞確認(rèn)部中,判斷通過多 次的語音輸入,構(gòu)成登錄關(guān)鍵詞的所有的音韻的語音輸入是否完成,并根據(jù) 該判斷結(jié)果和類似度計算部所求出的類似度,來判斷接受還是拒絕認(rèn)證,從 而可以提供高精度的文本依存型語音認(rèn)證系統(tǒng)。本發(fā)明的語音認(rèn)證系統(tǒng)中,所述可發(fā)聲的單位的一個例子是音節(jié)。這時, 在所述說話人模型存儲部中,最好對構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型 添加有分別獨立的索引,所述特征量轉(zhuǎn)換部從通過所述語音輸入所接受的關(guān) 鍵詞的部分中求出每個音節(jié)的特征量,所述類似度計算部求出所述每個音節(jié) 的特征量和所述說話人模型之間的類似度,語音認(rèn)證系統(tǒng)還具有音節(jié)判斷 部,該音節(jié)判斷部根據(jù)所述類似度計算部所求出的類似度,判斷通過所述語
音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵詞的哪個音節(jié)最類似,所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果,判斷利用通過所述多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。由此,即使不進(jìn)行語音識別,在認(rèn)證時也可判斷語音輸入的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān)鍵詞的說話內(nèi)容一致,所 以不需要具有語音識別用的語法字典等,就可以簡化系統(tǒng)結(jié)構(gòu)。本發(fā)明的語音認(rèn)證系統(tǒng)中,可發(fā)聲的單位的另一例子是數(shù)字的讀出或字 母的讀出。由此,可以適用于由數(shù)字或者字母、或這些的組合構(gòu)成的關(guān)鍵詞。本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,還具有語音識別部,該語音識別部 根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量中,通過不特定說話人的語音識別來 識別所述關(guān)鍵詞的部分的音韻,所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識別部的識 別結(jié)果,判斷利用通過所述多次的語音輸入被語音識別的結(jié)果能否構(gòu)成登錄 關(guān)鍵詞。通過利用語音識別來判斷認(rèn)證時的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān) 鍵詞的說話內(nèi)容一致,可以進(jìn)行高精度的語音認(rèn)證。本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,在對所述關(guān)鍵詞的某個部分的語音 輸入結(jié)束之后再經(jīng)過規(guī)定時間也沒有對下一部分的語音輸入,而且利用此次 為止的語音輸入的發(fā)聲內(nèi)容信息無法構(gòu)成登錄關(guān)鍵詞的情況下,所述認(rèn)證判 斷部拒絕認(rèn)證。這是因為可以強化安全性。本發(fā)明的語音認(rèn)證系統(tǒng)中優(yōu)選地,還具有位置信息取得部,其每當(dāng)有 所述關(guān)鍵詞的部分的語音輸入時,取得使用者的所在位置信息;位置確認(rèn)部,其比較前次有語音輸入時所述位置信息取得部所取得的所在位置信息和這 次有語音輸入時所述位置信息所取得部取得的所在位置信息,確認(rèn)在從前次 有語音輸入時到這次有語音輸入時為止的期間使用者是否移動了規(guī)定距離 以上。這是因為在分割關(guān)鍵詞而進(jìn)行語音輸入時,每次語音輸入時移動位置, 從而進(jìn)一步降低了周圍的其他人知道整個關(guān)鍵詞的可能性,由此可以強化安 全性。另外,在本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,還具有類似度綜合部,該 類似度綜合部對通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分,綜合所 述類似度計算部所求出的類似度來求出綜合類似度,所述認(rèn)證判斷部根據(jù)所 述類似度綜合部所求出的綜合類似度,判斷接受還是拒絕認(rèn)證。這是因為由 于對整個關(guān)鍵詞綜合判斷類似度使發(fā)聲長度變長,所以可以通過穩(wěn)定的類似
度來進(jìn)行判斷。還有,本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,所述輸入部利用使用者的便 攜終端來接收語音輸入。這是因為,由此,可以在離開最先輸入語音的位置 的位置上進(jìn)行第二次之后的語音輸入,所以可以降低整個關(guān)鍵詞暴露給他人 的可能性。為了實現(xiàn)上述目的,本發(fā)明的計算機程序,是實現(xiàn)對關(guān)鍵詞進(jìn)行語音輔r 入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng),其特征在于,使計算機執(zhí)行如下處理輸入處理,將以可發(fā)聲的單位為最小單位而分割為多個部分的關(guān)鍵詞 的語音輸入,對每個所述部分隔開時間間隔經(jīng)多次來接收;特征量轉(zhuǎn)換處理, 從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音 的特征量;類似度計算處理,參考作為以所述可發(fā)聲的單位所作成的說話者 模型而預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲部,求出所述特征量轉(zhuǎn) 換處理索求出的特征量和所述說話人模型之間的類似度;發(fā)聲內(nèi)容判斷處 理,根據(jù)所述類似度計算處理所求出的類似度,通過所述多次語音輸入來判 斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)處理,根據(jù)所述發(fā)聲內(nèi)容判斷處理所 判斷的與發(fā)聲內(nèi)容有關(guān)的信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否 構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷處理,根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所 述類似度計算處理所求出的類似度,判斷接受還是拒絕認(rèn)證。 記錄了上述計算機程序的記錄媒體也是本發(fā)明的一個方面。
圖1是表示本發(fā)明的第一實施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖2是說明在所述語音認(rèn)證系統(tǒng)中,根據(jù)認(rèn)證時從輸入關(guān)鍵詞的音節(jié)和 登錄關(guān)鍵詞的音節(jié)的類似度來判斷關(guān)鍵詞的正確性的方法的圖。圖3是表示本發(fā)明的第一實施方式的語音認(rèn)證系統(tǒng)的動作的流程圖。 圖4是表示本發(fā)明的第二實施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖5是表示本發(fā)明的第二實施方式的語音認(rèn)證系統(tǒng)的動作的流程圖。 圖6是表示本發(fā)明的第三實施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖7是表示本發(fā)明的第三實施方式的語音認(rèn)證系統(tǒng)的動作的流程圖。 圖8是表示本發(fā)明的第四實施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。
圖9是表示本發(fā)明的第四實施方式的語音認(rèn)證系統(tǒng)的動作的流程圖。
具體實施例方式
(第一實施方式) 下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的一個實施方式。
在本實施方式的語音認(rèn)證系統(tǒng)中,要接受認(rèn)證的使用者通過從便攜電話 或便攜終端中語音輸入預(yù)先所登錄的秘密的關(guān)鍵詞(密碼),來接受認(rèn)證。 在該語音認(rèn)證系統(tǒng)中,使用者在認(rèn)證時將構(gòu)成關(guān)鍵詞的所有音節(jié)分割為由一 個音節(jié)或多個音節(jié)構(gòu)成的部分,從而隔開時間間隔,并且最好移動位置,分 多次來語音輸入分割后的關(guān)鍵詞。分割后的關(guān)鍵詞的輸入順序可以是關(guān)鍵詞 的順序,也可以是隨機的順序。此外,在認(rèn)證時,需要通過所述多次語音輸 入,來發(fā)出構(gòu)成關(guān)鍵詞的所有音節(jié)。例如,在關(guān)鍵詞是"卡拉OK"的情況下,使用者將該關(guān)鍵詞例如分割 為"卡拉"和"OK",在語音輸入第一個分割關(guān)鍵詞(例如"卡拉")后, 經(jīng)過幾秒到幾分鐘后,語音輸入第二個分割關(guān)鍵詞(例如"OK")。為了 避免處于附近的其他人聽到關(guān)鍵詞,在第一次語音輸入和第二次語音輸入間 使用者最好移動位置。
關(guān)鍵詞的分割也能夠以"卡O"和"拉K"、 "K卡"和"O拉"、"拉 卡"和"KO"的方式使音節(jié)的順序隨機。另夕卜,也可以以"卡"和"KO拉" 的方式具有由單音節(jié)構(gòu)成的分割關(guān)鍵詞。并且,分割數(shù)并不限于兩個。而且,本實施方式的語音認(rèn)證系統(tǒng)根據(jù)這樣被分割發(fā)聲的關(guān)鍵詞,來進(jìn) 行語音認(rèn)證。由此,即使在附近有其他人的環(huán)境中說出關(guān)鍵詞,由于在一次 發(fā)聲中僅能聽到關(guān)鍵詞的一部分,所以可以防止其他人知道全部關(guān)鍵詞。本實施方式的語音認(rèn)證系統(tǒng)中,由于將關(guān)鍵詞分割為由一個音節(jié)或多個 音節(jié)構(gòu)成的分割關(guān)鍵詞來進(jìn)行語音認(rèn)證,所以適用于容易通過音節(jié)單位來劃 分單詞的語言(例如日語)的語音認(rèn)證。本實施方式的語音認(rèn)證系統(tǒng)如圖1所示,具有輸入部11、特征量轉(zhuǎn)換部 12、類似度計算部13、音節(jié)判斷部14、類似度保存部15、待機時間管理部 16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話人別音 節(jié)模型數(shù)據(jù)庫20和關(guān)鍵詞登錄部21 。
輸入部11從使用者的便攜電話或便攜終端中輸入要接受認(rèn)證的使用者的使用者ID和聲音。此外,在如便攜電話那樣使用者被限定為一人的情況 下,不需要使用者ID的輸入步驟。特征量轉(zhuǎn)換部12將所輸入的聲音轉(zhuǎn)換為 用于與說話人別音節(jié)模型進(jìn)行比較的特征量。音節(jié)判斷部14比較在特征量轉(zhuǎn)換部12得到的特征量,和使用者預(yù)先登 錄在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中的說話人音節(jié)模型,來求出類似度, 并根據(jù)所求出的類似度,來判斷輸入語音的各音節(jié)與說話人音節(jié)模型的何處 最類似。類似度保存部15針對輸入語音的各音節(jié),保存通過所述音節(jié)判斷 部14所求出的相對于說話人音節(jié)模型的類似度。待機時間管理部16監(jiān)視關(guān)鍵詞被分多次發(fā)聲時的發(fā)聲的時間間隔。關(guān) 鍵詞確認(rèn)部17根據(jù)由音節(jié)判斷部14得到的音節(jié)的識別結(jié)果,來確認(rèn)是否通 過多次發(fā)聲發(fā)出了關(guān)鍵詞的所有音節(jié)。類似度綜合部18根據(jù)類似度保存部 15所保存的每個音節(jié)的類似度,來求出綜合類似度,該綜合類似度表示在認(rèn) 證時發(fā)聲的關(guān)鍵詞語音與所登錄的關(guān)鍵詞語音作為整體有多大程度類似。認(rèn) 證判斷部19根據(jù)通過類似度綜合部18求出的綜合類似度,來判斷接受或拒 絕是否受理使用者的認(rèn)證。關(guān)鍵詞登錄部21在語音認(rèn)證系統(tǒng)的使用者登錄關(guān)鍵詞時,從該使用者 向輸入部11語音輸入的關(guān)鍵詞中作成音節(jié)模型,并登錄到登錄說話人別音 節(jié)模型數(shù)據(jù)庫20中。此外,上述語音認(rèn)證系統(tǒng)可通過計算機及其周邊設(shè)備來實現(xiàn)。這時,類 似度保存部15和登錄說話人別音節(jié)模型數(shù)據(jù)庫20可以通過計算機內(nèi)部或可 從該計算機訪問的存儲裝置來實現(xiàn)。輸入部11、特征量轉(zhuǎn)換部12、類似度 計算部13、音節(jié)判斷部14、待機時間管理部16、關(guān)鍵詞確認(rèn)部17、類似度 綜合部18、認(rèn)證判斷部19、關(guān)鍵詞登錄部21可以通過使上述計算機的處理 器執(zhí)行實現(xiàn)各部分的功能的程序來加以實現(xiàn)。因此,這種程序或記錄有該程 序的計算機可讀取的記錄介質(zhì)也是本發(fā)明的一個實施方式。這里,說明以上結(jié)構(gòu)的本實施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先,說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的登錄說話人別音節(jié)模 型數(shù)據(jù)庫20時的步驟。使用者決定所希望的關(guān)鍵詞,并對與輸入部11相連
的便攜電話等的麥克風(fēng)發(fā)聲。這時,使用者通過每一個音節(jié)以無音區(qū)間來劃分關(guān)鍵詞后進(jìn)行發(fā)聲。例如,在關(guān)鍵詞是"卡拉OK"的情況下,由于該關(guān) 鍵詞中包含"卡""拉""0" "K"四個音節(jié),所以使用者通過無音區(qū)間 來劃分這4個音節(jié)來進(jìn)行發(fā)聲。輸入部11將所輸入的音節(jié)發(fā)聲送到特征量 轉(zhuǎn)換部12。在特征量轉(zhuǎn)換部12中,將所輸入的聲波轉(zhuǎn)換為MFCC (Mel Frequency Cepstral Coefficients:梅爾頻率倒譜系數(shù))或LPC倒頻譜等提取了 語音的特征后的特征向量序列。之后,依次送到關(guān)鍵詞登錄部21。
關(guān)鍵詞登錄部21分別對所輸入的音節(jié),按輸入的順序來分配索引。艮P, 在上述的例子中,分別將索引II分配給"卡(第一個音節(jié))",將索引12 分配給"拉(第二個音節(jié))"、將索引13分配給"O (第三個音節(jié))"并將 索引14分配給"K (第四個音節(jié))"。另外,關(guān)鍵詞登錄部21只要以輸入 音節(jié)的順序來分配索引就足夠了,即不需要識別各音節(jié)的發(fā)聲(音韻)是哪 個。但是如后所述,有時在該時刻還進(jìn)行同一內(nèi)容的音節(jié)是否包含在關(guān)鍵詞 中的檢査。
關(guān)鍵詞登錄部21從這樣分配了索引后的各音節(jié)中作成說話人音節(jié)模型, 并如上所述,該使用者的使用者ID等與分配后的索引一起,建立聯(lián)系并登 錄到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。說話人別音節(jié)模型例如是通過 MAP (MaximumAPosteriori:最大后驗)估計,來將不特定說話人的GMM (GuassianMixture Model:高斯混合模型)與特定說話人自適應(yīng),并按音節(jié) 來實施該適應(yīng)來作成的。但是,說話人音節(jié)模型并不限于GMM,若是HMM (Hidden Markov Model:隱馬爾科夫模型)等可以按索引來作成說話人模型, 則可以適用任意的方法。還可不用自適應(yīng),通過將所登錄的特征向量序列直 接作為模板來保存,從而作成以說話人別音節(jié)模型。此外,為了使認(rèn)證精度提高,最好讓使用者盡可能多(例如三次以上) 地重復(fù)發(fā)出關(guān)鍵詞。這時,對于一個音節(jié),使用重復(fù)的次數(shù)(例如在重復(fù)三 次發(fā)聲的情況下是三次)的特征向量序列來對應(yīng)說話人別音節(jié)模型,并登錄 到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。在說話人別音節(jié)模型的作為前述的 模板保存的形態(tài)的情況下,將具有重復(fù)多次次數(shù)的模板的說話人別音節(jié)模型 登記到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。接著,參考圖3的流程圖來說明在通過上述的步驟使用者登錄了 "卡拉OK"這樣的關(guān)鍵詞后,該使用者接受認(rèn)證時的步驟。此外,這里,表示了 使用者從便攜電話進(jìn)行語音輸入,且將關(guān)鍵詞分割為兩次來進(jìn)行發(fā)聲的例 子,但是關(guān)鍵詞的分割數(shù)并不限于2。還有,關(guān)鍵詞的輸入裝置并不限于便 攜電話。在便攜電話上有認(rèn)證開始按鈕的情況下通過按下按鈕,或在啟動認(rèn)證所 需的應(yīng)用程序時、或在其他應(yīng)用程序的執(zhí)行中間有認(rèn)證請求時,開始認(rèn)證處 理。首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Opll)。此外,在如便攜電話那樣,使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,使用者若向便攜電話的麥克風(fēng)發(fā)出第一個 分割關(guān)鍵詞,則輸入部11接受該語音(Opl2)。而且,在這里,所述使用 者將關(guān)鍵詞分割為"卡拉"和"OK",來輸入語音。作為第一個分割關(guān)鍵 詞,使用者通過按每一個音節(jié)以無音區(qū)間來劃分"卡""拉"而進(jìn)行語音輸 入。然后,這樣,根據(jù)進(jìn)行輸入的順序,將這樣被語音輸入的"卡""拉" 的各音節(jié)表示為S1、 S2。此外,第一個分割關(guān)鍵詞的輸入是否結(jié)束可以通過無音區(qū)間是否持續(xù)規(guī) 定時間以上來加以判斷。或者,也可在分割關(guān)鍵詞的輸入結(jié)束時,讓使用者 進(jìn)行規(guī)定的鍵操作。將所輸入的音節(jié)Sl、 S2分別在特征量轉(zhuǎn)換部12中通過與登錄時相同的 分析方法,轉(zhuǎn)換為MFCC或LPC倒頻譜等的用于與說話人音節(jié)模型進(jìn)行比 較的特征向量序列(特征量)(Opl3)。將由特征量轉(zhuǎn)換部12得到的特征 量送到類似度計算部13。接著,類似度計算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲的該使用者的說話人音節(jié)模型(即,上述的 索引I1 I4的說話人音節(jié)模型),并計算對所提取的說話人音節(jié)模型的所述 特征量的類似度(Opl4)。這里,音節(jié)Sl相對索引Il的說話人模型的類似 度以CS1: 的方式來表示。g卩,在Opl4中,對于例如音節(jié)Sl,將CS1: 、 CS1:I2、 CS1:I3、 CsH4四個值作為類似度求出,對于音節(jié)S2,將Cs2:n、 CS2: I2、 CS2:I3、 CS2:I4四個值作為類似度求出。并將所求出的類似度送到音節(jié)判 斷部14中。 而且,在將音節(jié)模型作為模板登錄時,在如使關(guān)鍵詞重復(fù)發(fā)聲的情況那 樣,對同一音節(jié)登錄有多次說話人別音節(jié)模板的情況下,對所有這些說話人 別音節(jié)模板,分別進(jìn)行類似度的計算。因此,在關(guān)鍵詞登錄時,在重復(fù)三次發(fā)出"卡""拉""O" "K"而將模板作為說話人音節(jié)模型進(jìn)行登錄的情況下,若以II (1) 、 II (2) 、 II 。〉...的方式來分配這些說話人音節(jié)模型的索引,則在Op4中,例如,對于音節(jié)S1,將G詞(D、 CS1:I1(2)、 CS1:I1(3)、 CS1: 12 (1)、 csl: 12 (2)、 csl: 12 (3)12個值作為類似度得到。接著,音節(jié)判斷部14根據(jù)通過類似度計算部13求出的類似度,對Sl、 S2的各音節(jié),選擇在各個登錄的說話人的音節(jié)模型數(shù)據(jù)庫20中所存儲的說 話人音節(jié)模型中類似度最高的模型的索引(Opl5)。例如,由于作為音節(jié)S1,使用者發(fā)出的是"卡",所以在針對音節(jié)S1 的類似度CS1: 、 CS1:12、 CS1: I3、 Csl: 14中,對于索引II (登錄時的音節(jié)"卡") 的說話人音節(jié)模型的類似度Cshu為最大值。因此,如圖2所示,音節(jié)判斷 部14判斷為發(fā)聲的音節(jié)S1相當(dāng)于索引II的說話人音節(jié)模型,并作為已發(fā)聲 音節(jié)的索引數(shù)據(jù)將"I1"保存在類似度保存部15中。而且,與此同時,將針 對音節(jié)Sl的類似度最大值、即Csl: 作為音節(jié)Sl的類似度(音節(jié)類似度) 保存在類似度保存部15中。另外,與上述相同,對于音節(jié)S2,也選擇說話人音節(jié)模型中類似度最高 的模型的索引。這里,由于作為音節(jié)S2使用者發(fā)出的是"拉",所以針對 音節(jié)S2的類似度(:82:11、 CS2:I2、 CS2:I3、 CS2:I4t,對于索引12 (登錄時的音節(jié)"拉")的說話人音節(jié)模型的類似度Cs2d2為最大值。因此,如圖2所示,音節(jié)判斷部14判斷為音節(jié)S2相當(dāng)于索引I2,并作為已發(fā)聲音節(jié)的索引 數(shù)據(jù)將"12"保存在類似度保存部15中。而且,與此同時,將針對音節(jié)S2 的類似度的最大值、即<^2:12也作為音節(jié)S2的音節(jié)類似度而保存在類似度保 存部15中。這里,由于第二個分割關(guān)鍵詞的輸入還沒有結(jié)束(Opl6的結(jié)果是NO), 所以進(jìn)入到Op17。此外,待機時間管理部16通過計時器(未圖示)來測量將第一個分割 關(guān)鍵詞("卡拉")輸入到輸入部11后的經(jīng)過時間。并且,在規(guī)定時間(例 如10分鐘)內(nèi)沒有開始第二個分割關(guān)鍵詞的輸入的情況下,作為超時而進(jìn)
入到Opl8,并從類似度保存部15等中清除第一個分割關(guān)鍵詞的處理結(jié)果 (Opl8)。這時,使用者為了接受認(rèn)證,而必須從第一個分割關(guān)鍵詞輸入起 重新進(jìn)行。
此外,為了可靠防止對第三者暴露關(guān)鍵詞,若從第一個分割關(guān)鍵詞的語 音輸入起沒有經(jīng)過了預(yù)定時間(例如2分鐘),也可不接受第二個分割關(guān)鍵 詞的語音輸入。這時,在第一個分割關(guān)鍵詞的輸入結(jié)束時,為了相隔一定時 間直到第二個分割關(guān)鍵詞的語音輸入為止優(yōu)先將指示的消息顯示在使用者 的便攜電話等的顯示器上,或?qū)⑼瑯觾?nèi)容的語音消息發(fā)送到該便攜電話上。
另一方面,在Opl7中,在上述規(guī)定時間內(nèi)開始了第二個分割關(guān)鍵詞輸 入的情況下,待機時間管理部16停止及清除計時器的同時,進(jìn)入到Opl9, 而接受第二個分割關(guān)鍵詞輸入(0pl9),然后,進(jìn)入Opl3。
在該例子中,作為第二個分割關(guān)鍵詞,使用者按每一個音節(jié)來劃分"O" "K"并進(jìn)行發(fā)聲。之后,根據(jù)所輸入的順序,將這樣語音輸入的"O" "K" 的各音節(jié)顯示為S3、 S4。
將所輸入的音節(jié)S3、S4分別在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征量(Op13)。 接著,類似度計算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用 者的使用者ID相關(guān)聯(lián)存儲的說話人音節(jié)模型(即,索引I1 I4的說話人音 節(jié)模型),并計算所述特征量相對所提取的說話人音節(jié)模型的類似度(Op 14 )。
由此,分別相對于索引11 14的說話人音節(jié)模型,計算出音節(jié)S3、 S4 在特征量轉(zhuǎn)換部12得到的特征量與其的類似度Cs3:u、 CS3:I2、 CS3:I3、 CS3:14、 Cs4: II、 Cs4: 12、 Cs4: 13、 Cs4: 14。
此外,在關(guān)鍵詞的登錄時,通過使關(guān)鍵詞重復(fù)發(fā)聲,從而在對同一音節(jié) 登錄有多次的說話人音節(jié)模型的情況下,對所有這些說話人音節(jié)模型,分別進(jìn)行類似度的計算。因此,在關(guān)鍵詞登錄時,重復(fù)三次發(fā)聲"卡""拉""0""K",而登錄了說話人音節(jié)模型的情況下,若以II (1) 、 II (2) 、 II (3)...的方式來分配這些說話人音節(jié)模型的索引,則例如針對于音節(jié)S3,將(^3:11(1)、Gs3: II (2) 、 Cs3: II (3) 、 Cs3: 12 (1) 、 Gs3: 12 (2) 、 Cs3: 12 (3)…12個值作為類似度來得到。
接著,音節(jié)判斷部14基于在類似度計算部13求出的類似度,針對S3、 S4的各音節(jié),選擇出在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲的說話人
音節(jié)模型中類似度最高的模型的索引(Opl5)。該例子中,由于作為音節(jié)S3,使用者發(fā)出的是"O",所以針對音節(jié)S3的類似度CS3:I1、 CS3:I2、 CS3:I3、 Cs3:m中,CsH3為最大值。因此,音節(jié)判斷部14判斷為音節(jié)S3相當(dāng)于索引I3,并作為已發(fā)聲音節(jié)的索引數(shù)據(jù),將"I3" 保存在類似度保存部15中。而且,與此同時,將對于音節(jié)S3的類似度的最 大值、即CS3: 13也作為音節(jié)S3的音節(jié)類似度,而保存在類似度保存部15中。 與上述同樣,對于音節(jié)S4,也選擇出說話人音節(jié)模型中類似度最高的模 型的索引。這里,由于作為音節(jié)S4,使用者發(fā)出的是"K",所以在針對音節(jié)S4的類似度Cs4:u、 CS4:I2、 CS4:I3、 Cs4:m中,Csn4為最大值。因此,音節(jié)判斷部14判斷為音節(jié)S4相當(dāng)于索引14,并作為已發(fā)聲音節(jié)的索引數(shù)據(jù), 將"14"保存在類似度保存部15中。與此同時,將對于音節(jié)S4的類似度的 最大值、即CS4:14也作為音節(jié)S3的音節(jié)類似度,保存在類似度保存部15中。如上所述,若第二個分割關(guān)鍵詞的處理結(jié)束(Opl6中Yes),則關(guān)鍵詞 確認(rèn)部17根據(jù)類似度保存部15中所保存的已發(fā)聲音節(jié)的索引的數(shù)據(jù),確認(rèn) 是否通過第一次和第二次的發(fā)聲,發(fā)出了關(guān)鍵詞的所有音節(jié)(Op20)。在上 述例子的情況下,類似度保存部15中保存有"II" "12" "13" "14"來作 為已發(fā)聲音節(jié)的索引數(shù)據(jù)。SP,由于所登錄的關(guān)鍵詞的所有索引(11 14) 一致,所以關(guān)鍵詞確認(rèn)部17可以確認(rèn)關(guān)鍵詞的所有音節(jié)己發(fā)聲。在Op20的 判斷結(jié)果是是的情況下,將該內(nèi)容通知給認(rèn)證判斷部19,認(rèn)證判斷部19拒 絕該使用者的認(rèn)證(Op21)。例如,在上述例子中,在作為第一個分割關(guān)鍵詞發(fā)聲為"卡""拉", 作為第二個分割關(guān)鍵詞,發(fā)聲為"卡""K"的情況下,沒有發(fā)出"0", 所以在已發(fā)聲完畢的音節(jié)的索引數(shù)據(jù)中不存在"O"的索引13。因此,拒絕 認(rèn)證。另一方面,在Op20的判斷結(jié)果是"是"的情況下,類似度綜合部18基 于類似度保存部15中所保存的各個音節(jié)S1 S4的音節(jié)類似度(CS1: 、 CS2: I2、 CS3:I3、 CS4:I4),來算出表示進(jìn)行發(fā)聲的整個關(guān)鍵詞與登錄關(guān)鍵詞有多大 程度類似的綜合類似度(Op22)。作為綜合類似度,可以使用各音節(jié)的音節(jié) 類似度的總和(例如,該例子中,CS1:I1 + CS2:I2+CS3:I3+CS4:I4),也可使 用各音節(jié)的音節(jié)類似度的平均值?;蛘撸部蓪⒁詭瑪?shù)等的時間長度來平均 各音節(jié)的音節(jié)類似度的總和后的值作為綜合類似度來使用。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19,認(rèn)證 判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定的閾值, 認(rèn)證判斷部19接受該使用者的認(rèn)證,若小于則拒絕(Op23)。本實施方式的語音認(rèn)證系統(tǒng)中,通過以上的步驟,可以進(jìn)行基于語音進(jìn) 行的使用者的認(rèn)證。此外,在上述實施方式中,識別是否通過分割為多次的關(guān)鍵詞發(fā)聲正好 發(fā)出了構(gòu)成所登錄的關(guān)鍵詞的所有音節(jié)。因此,雖然在上述的具體例中,將 "卡拉OK"這個關(guān)鍵詞分割為"卡拉"和"OK"兩個,但是例如,即使采 用以"卡O"和"拉K"、 "K卡"和"O拉"、"拉卡"和"KO"的方式 將音節(jié)的順序設(shè)定為隨機的關(guān)鍵詞的分割方法,也可進(jìn)行正確的語音認(rèn)證。而且,在本實施方式中,由于在登錄關(guān)鍵詞時和認(rèn)證時都不識別音韻, 所以在關(guān)鍵詞包含兩個相同音的音節(jié)的情況下,不能區(qū)別這些音節(jié)。因此, 在認(rèn)證時語音輸入的多個音節(jié)相對多個所登錄的說話人音節(jié)模型相互表示 高類似度的情況下,優(yōu)先將這些看作同一音節(jié)來進(jìn)行處理。例如,在關(guān)鍵詞是"^ * ^々"的情況下,在登錄該關(guān)鍵詞時,關(guān)鍵詞 登錄部21分別將索引II分配給"》(第一個音節(jié))",將索引12分配給"卻 (第二個音節(jié))",將索引13分配給"^ (第三個音節(jié))",將索引14分 配給(第四個音節(jié))",并在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中存儲 說話人音節(jié)模型。并且,在認(rèn)證時,例如使用者發(fā)出(音節(jié)S1) " 、 (音節(jié)S2)"作為第一個分割關(guān)鍵詞,發(fā)出(音節(jié)S3)"和"々(音節(jié)S4)"作為 第二個分割關(guān)鍵詞。這時,音節(jié)S2和音節(jié)S4兩者相對索引I2、 14的說話人 音節(jié)模型,同時表示高類似度,但是由于音節(jié)S2和索引I2的說話人音節(jié)模 型的類似度、音節(jié)S4和索引12的說話人音節(jié)模型的類似度、音節(jié)S2和索 引14的說話人音節(jié)模型的類似度、音節(jié)S4和索引14的說話人音節(jié)模型的類 似度彼此沒有大的差別,所以與音節(jié)S2的類似度最高的索引有可能和與音 節(jié)S4的類似度最高的索引一致。例如,在判斷為音節(jié)S2和S4兩者與索引 12最類似的情況下,看作沒有發(fā)出索引14的音節(jié),而拒絕了認(rèn)證。因此,這樣一來,在表示多個音節(jié)相對多個說話人音節(jié)模型彼此有高的
類似度,且該類似度顯著高于相對其他說話人音節(jié)模型的類似度的情況下,可以在Opl5中,不選擇類似度最高的索引,而將這多個音節(jié)看作相同音, 并將與這多個音節(jié)的類似度高的說話人音節(jié)模型的索引全部保存在類似度 保存部15中。或者,若在登錄時,通過調(diào)查多個音節(jié)發(fā)聲是否相對多個說 話人別音節(jié)模型彼此具有高的類似度等,來檢查這多個音節(jié)是否是同一音, 并存儲表示這些的信息,而將相同索引作為與這些音節(jié)類似的說話人音節(jié)模 型的索引保存在類似度保存部15中,則即使所有的索引不一致,也不會拒 絕認(rèn)證。由此,在上述例子中,即使將例如"II" 、 "12" 、 "13"和"12"作為 對"^" "V "考"的輸入音節(jié)的類似說話人音節(jié)模型的索引,而保存在類似度保存部15中,也可正確判斷為發(fā)出了關(guān)鍵詞的所有音節(jié)。以上,說明了本發(fā)明的一個實施方式的語音認(rèn)證系統(tǒng),但是上述說明不 過是用于實施本發(fā)明的一個具體例,可以在發(fā)明的范圍內(nèi)進(jìn)行各種改變。例如,在上述實施方式中,說明了在認(rèn)證時將關(guān)鍵詞分割為2次來進(jìn)行 發(fā)聲的例子,但是關(guān)鍵詞的分割數(shù)并不限于兩個,可以任意。在關(guān)鍵詞的分 割數(shù)是三個以上的情況下,也可使分割關(guān)鍵詞的語音輸入和對所輸入的分割 關(guān)鍵詞的圖3的Opl3 Op15的處理重復(fù)分割數(shù)。因此,通過如"卡"和"拉 OK" 、 "OK拉"禾n "卡"、"拉"禾Q "K"禾Q "O卡"或"O"禾n "拉" 和"卡"和"K"這樣的分割,也可進(jìn)行正確的語音識別。進(jìn)而,要接受認(rèn)證的使用者也可任意決定分割數(shù)。這時,也可在通過多 次發(fā)出分割關(guān)鍵詞結(jié)束整個關(guān)鍵詞的發(fā)聲時,通過讓使用者按下例如便攜電 話的特定按鈕,從而語音認(rèn)證系統(tǒng)檢測出輸入部11中按下了該按鈕時,而 進(jìn)入到圖3的Op20之后的處理。或,也可在每次分割關(guān)鍵詞的發(fā)聲結(jié)束時, 比較到此為止發(fā)出的音節(jié)的集合和構(gòu)成登錄關(guān)鍵詞的音節(jié),并在判斷為已經(jīng) 全部發(fā)出了構(gòu)成關(guān)鍵詞的音節(jié)時,移動到圖3的Op20之后的處理。還有,本實施方式中為這樣的結(jié)構(gòu),即在輸入第二個分割關(guān)鍵詞后,通 過關(guān)鍵詞確認(rèn)部17來進(jìn)行關(guān)鍵詞確認(rèn),進(jìn)一步,通過類似度綜合部18算出 作為整個關(guān)鍵詞的綜合類似度,并通過認(rèn)證判斷部19來判斷接受或拒絕認(rèn) 證。但是,也可在第一個分割關(guān)鍵詞的語音輸入結(jié)束的時刻,類似度綜合部 18僅從第一個分割關(guān)鍵詞中包含的音節(jié)中算出綜合類似度。
這時,也可在從第一個分割關(guān)鍵詞算出的綜合類似度小于預(yù)定的閾值的 情況下,使第一個分割關(guān)鍵詞的語音輸入重新進(jìn)行。由此,例如,在第二個 分割關(guān)鍵詞的類似度高,但是第一個分割關(guān)鍵詞的類似度低的情況下,有可 以減少從最開始重新進(jìn)行語音輸入的手續(xù)的優(yōu)點。另外,從嚴(yán)格安全性的觀點來看,也可在第一個分割關(guān)鍵詞的類似度低的情況下,不輸入第二個分割關(guān)鍵詞,認(rèn)證判斷部19就拒絕認(rèn)證。還有,也可在第二個分割關(guān)鍵詞的輸入結(jié)束后,在第二個分割關(guān)鍵詞的 類似度低的情況下,以通過關(guān)鍵詞確認(rèn)部17確認(rèn)所有音節(jié)已經(jīng)發(fā)聲完成的 情況作為條件,來重新進(jìn)行第二個分割關(guān)鍵詞的語音輸入。添加上述條件是 因為若在沒有確認(rèn)所有音節(jié)已發(fā)聲完成的情況下承認(rèn)重新進(jìn)行第二個分割 關(guān)鍵詞的語音輸入,則變?yōu)樵试S進(jìn)行關(guān)鍵詞的嘗試,有可能成為詐騙者的認(rèn) 證突破點。此外,為了得到穩(wěn)定的認(rèn)證結(jié)果,與對每個分割關(guān)鍵詞求出類似度的方 法相比,在分割關(guān)鍵詞的語音輸入完成結(jié)束后,算出作為整個關(guān)鍵詞的綜合 類似度的方法更有利。這是因為分割關(guān)鍵詞的發(fā)聲長度短故有時難得到穩(wěn)定 的類似度,相對于此,作為整個關(guān)鍵詞的綜合類似度的發(fā)聲長度長,所以可 得到較為穩(wěn)定的類似度。因此,通過第一個分割關(guān)鍵詞的類似度進(jìn)行判斷時 的閾值會設(shè)定為比整體稍寬。 (第二實施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的另一個實施方式。對于與第一實施方 式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與第一實施方式中所用的附圖標(biāo) 記相同的符號,并省略該詳細(xì)說明。本實施方式的語音認(rèn)證系統(tǒng)還適用于使用如英語等那樣,利用不容易以 音節(jié)單位分割關(guān)鍵詞的語言進(jìn)行的語音認(rèn)證。因此,本實施方式的語音認(rèn)證系統(tǒng)如圖4所示,具有輸入部11、特征量 轉(zhuǎn)換部12、類似度計算部13、類似度保存部15、待機時間管理部16、關(guān)鍵 詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、說話人模型數(shù)據(jù)庫22、關(guān) 鍵詞登錄部21、語法生成部23、識別語法存儲部24和語音識別部25。這里,參考圖5來說明本實施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先,說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的說話人模型數(shù)據(jù)庫22 中時的步驟。使用者決定所希望的關(guān)鍵詞,對與輸入部11相連的便攜電話等的麥克風(fēng)來進(jìn)行發(fā)聲。在本實施方式中,語法生成部23語音識別語音輸 入的關(guān)鍵詞(不特定說話人的語音識別),并將作為識別結(jié)果的識別語法登 錄到識別語法存儲部24中。此外,在登錄前,最好在畫面等上顯示識別結(jié) 果,來確認(rèn)使用者登錄的關(guān)鍵詞的內(nèi)容。還有,最好提供修改識別結(jié)果的裝 置(按鈕等)。由于通過不特定說話人的語音識別來進(jìn)行單音節(jié)識別精度上很困難,所:以使用者在登錄關(guān)鍵詞時,最好使用例如便攜電話的鍵等,對輸入部11文 本輸入關(guān)鍵詞的發(fā)聲內(nèi)容。并將輸入文本(關(guān)鍵詞的發(fā)聲內(nèi)容)和發(fā)出的關(guān)鍵詞語音從輸入部11傳到語法生成部23。語法生成部23從文本輸入的發(fā)聲內(nèi)容中生成用于識別使用者可輸入的 關(guān)鍵詞分割的模式的語法。該語法并不限于音節(jié)單位,能夠以網(wǎng)羅基于音素 單位的分割的所有模式的方式生成。在如日語那樣,是容易用音節(jié)單位來劃 分的語言的情況下,以網(wǎng)羅通過音節(jié)單位可分割的所有模式的方式來生成, 但是在如英語那樣,是很難用音節(jié)單位來劃分的語言的情況下,以網(wǎng)羅基于 音素單位的分割的所有模式的方式生成。例如,對于"vertification"這樣的 關(guān)鍵詞,生成接受"ve, veri, verifi, tion, cation, fication, verifica"等模 式的語法。將所生成的語法傳到關(guān)鍵詞登錄部21中,同時存儲到識別語法 存儲部24中。關(guān)鍵詞登錄部21使用所登錄的關(guān)鍵詞的語音,來作成相適應(yīng)的說話人 模型(即音素或音節(jié)單位的說話人模型),并與該使用者的使用者ID建立 聯(lián)系,登錄到說話人模型數(shù)據(jù)庫22中。作為音素單位的說話人模型的作成 方法,有通過不特定說話人的語音識別來進(jìn)行關(guān)鍵詞的語音和音素的時間對 應(yīng)(稱作排列alignment),按構(gòu)成關(guān)鍵詞的音素來進(jìn)行自適應(yīng),并將說話人 別音素模型作為說話人模型來作成的方法。另外,作為自適應(yīng)方法若是MLLR (Maximum Likelihood Linear Regression:最大似然線性回歸)法、MAP法 等通過模型自適應(yīng)來實現(xiàn)說話人自適應(yīng)的方法,則可以是任何一個。在以音 節(jié)為單位來作成說話人模型的情況下,在通過音節(jié)單位來進(jìn)行了與關(guān)鍵詞的 時間對應(yīng)后,進(jìn)行說話人自適應(yīng)來作成。下面說明在通過上述步驟關(guān)鍵詞登錄完成后,使用者通過語音輸入接受 認(rèn)證時的步驟。此外,在下面的例子中,也對2次分割關(guān)鍵詞來進(jìn)行語音車俞 入的例子進(jìn)行說明,但是關(guān)鍵詞的分割數(shù)并不限于2。首先,輸入部11接受使用者使用便攜電話的鍵區(qū)輸入的使用者ID等 (Op31)。此外,在如便攜電話那樣將使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,在使用者向便攜電話的麥克風(fēng)發(fā)出第一個 分割關(guān)鍵詞時,輸入部11接受該語音(Op32)。本實施方式中,使用者也 可不按每個音節(jié)劃分來進(jìn)行語音輸入。例如,在關(guān)鍵詞是"卡拉OK"的情 況下,在第一個分割關(guān)鍵詞是"卡拉"的情況下,也可不如第一實施方式那 樣在"卡"和"拉"之間輸入無音區(qū)間,而一起發(fā)聲"卡拉"。由于對于英語等,說話人不會嚴(yán)格意識到音節(jié)的傾向很強,所以在分割 關(guān)鍵詞時,有可能錯誤地使音節(jié)丟失或重復(fù)。音節(jié)的重復(fù)在關(guān)鍵詞認(rèn)證時不 怎么成為問題,所以在本實施方式中,例如,在關(guān)鍵詞是"verfication"的情 況下,允許以"verifi"和"ficatkm"的方式在分割關(guān)鍵詞中音節(jié)重復(fù)。所輸入的分割關(guān)鍵詞在特征量轉(zhuǎn)換部12中,轉(zhuǎn)換為MFCC或LPC倒頻 譜等的用于語音識別的特征量(Op33)。將由特征量轉(zhuǎn)換部12得到的特征 量送到語音識別部25。接著,語音識別部25參考在識別語法存儲部24中所存儲的識別語法, 通過不特定說話人的語音識別來識別作為分割關(guān)鍵詞發(fā)出的語音的音韻 (Op34)。并將識別結(jié)果送到類似度計算部13。也可在進(jìn)行了與關(guān)鍵詞不 同的發(fā)聲時等,在識別評價非常差的情況下,最好判斷為"不能識別",這 時,將"不能識別"這樣的結(jié)果送到類似度計算部13。在該例子中,雖然通過不特定說話人的語音識別來進(jìn)行識別,但是也可 利用在登錄時對應(yīng)的說話人模型來加以識別。這時,由于語音識別時計算出 的類似度仍為對說話人模型的類似度,所以不需要類似度計算部13中的類 似度計算。接著,類似度計算部13根據(jù)所述識別結(jié)果,從說話人模型數(shù)據(jù)庫22中 提取該使用者的說話人模型中,與在所述Op34識別出的音韻對應(yīng)的說話人 模型,并計算所述特征量對于所提取的說話人模型的類似度(Op35)。根據(jù)Op35的結(jié)果,將表示從已發(fā)聲的分割關(guān)鍵詞識別出的音韻是否網(wǎng) 羅了登錄關(guān)鍵詞的哪個音素的信息(己發(fā)聲音素數(shù)據(jù))保存在類似度保存部 15中(Op36)。與此同時,將所識別出的音韻相對說話人模型的類似度也 保存在類似度保存部15中。這里,由于第二個分割關(guān)鍵詞的輸入還沒有完成(Op37的結(jié)果為"否"), 所以進(jìn)入到Op38。此外,待機時間管理部16通過計時器來測量對輸入部11輸入了第一個 分割關(guān)鍵詞后的經(jīng)過時間。并且,在規(guī)定時間內(nèi)沒有開始第二個分割關(guān)鍵詞 輸入的情況下,作為超時進(jìn)入到Op39,并從類似度保存部15等中清除第一 個分割關(guān)鍵詞的處理結(jié)果(Op39)。這時,使用者為了接受認(rèn)證,必須從第 一個分割關(guān)鍵詞輸入起重新進(jìn)行。另一方面,Op38中,在上述規(guī)定時間內(nèi)開始了第二個分割關(guān)鍵詞輸入 的情況下,待機時間管理部16停止及清除計時器的同時,進(jìn)入到Op40,接 受第二個分割關(guān)鍵詞輸入(Op40),之后,進(jìn)入到Op33。并且,在對第二個分割關(guān)鍵詞進(jìn)行了Op33 Op36的處理后,關(guān)鍵詞確 認(rèn)部17根據(jù)在類似度保存部15中所保存的已發(fā)聲音素數(shù)據(jù),來確認(rèn)是否通 過第一次和第二次的發(fā)聲,發(fā)出了關(guān)鍵詞的所有音素(Op41)。在Op41的 判斷結(jié)果是"否"的情況下,將該內(nèi)容通知給認(rèn)證判斷部19,從而認(rèn)證判斷 部19拒絕該使用者的認(rèn)證(Op42)。另一方面,在Op41的判斷結(jié)果是"是"的情況下,類似度綜合部18根 據(jù)在類似度保存部15中所保存的每個分割關(guān)鍵詞的類似度,來算出表示所 發(fā)出的整個關(guān)鍵詞與登錄關(guān)鍵詞有多大程度的類似的綜合類似度(Op43)。 作為綜合類似度可以使用分割關(guān)鍵詞的類似度的總和,也可使用分割關(guān)鍵詞 的類似度的平均值。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19,認(rèn)證 判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定閾值, 認(rèn)證判斷部19接受該使用者的認(rèn)證,若低于則加以拒絕(Op44)。本實施方式的語音認(rèn)證系統(tǒng)中,可通過以上的步驟,來進(jìn)行基于語音進(jìn) 行的使用者認(rèn)證。本實施方式中,如上所述,也可將多個音節(jié)作為關(guān)鍵詞 分割的最小單位,若是語素或單詞等可以作為發(fā)聲的單位,則也可在音節(jié)之 外作為關(guān)鍵詞分割的最小單位。還有,也可以在關(guān)鍵詞是數(shù)字列(例如"1234")的情況下,若是日語,則以"< ",、"二 ""寸 > "、"'〉"的方式,或若是英語,則以"one"、 "two" 、 "three" 、 "four"的方式,以數(shù)字作為單位來進(jìn)行關(guān)鍵詞確認(rèn)和 語音認(rèn)證。但是,這時,需要使用數(shù)字識別用的語法。同樣,在關(guān)鍵詞是數(shù)字和字母等的混合(例如"la2b")的情況下,需 要使用數(shù)字和字母的識別用語法。 (第三實施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一個實施方式。此外,對于與第一 或第二實施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與這些實施方式中 使用的附圖標(biāo)記相同的記號,來省略該詳細(xì)的說明。本實施方式的語音認(rèn)證系統(tǒng)在每次語音輸入第二次之后的分割關(guān)鍵詞 時,確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時,使用者是否移動了位置,在沒 有移動位置的情況下不接受語音輸入。因此,本實施方式的語音認(rèn)證系統(tǒng)如圖6所示,具有輸入部12、特征量 轉(zhuǎn)換部12、類似度計算部13、音節(jié)判斷部14、類似度保存部15、待機時間 管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話 人別音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21、位置信息取得部31和位置確認(rèn) 部32。 S卩,本實施方式的語音認(rèn)證系統(tǒng)是在第一實施方式的語音認(rèn)證系統(tǒng)上 進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)。位置信息取得部31通過使用者的便攜電話等所嵌入的GPS (Global Positioning System:全球定位系統(tǒng)),在每次使用者語音輸入分割關(guān)鍵詞時, 取得表示使用者的當(dāng)前位置的信息。位置確認(rèn)部根據(jù)通過位置信息取得部31 取得的信息,來確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時,使用者是否移動了 位置。參考圖7來說明以上結(jié)構(gòu)的本實施方式的語音認(rèn)證系統(tǒng)的動作。 首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op51)。在如便攜電話那樣,使用者被限定為一人的情況下,不需要使用 者ID的輸入步驟。接著,使用者向便攜電話的麥克風(fēng)發(fā)出第一個分割關(guān)鍵 詞后,輸入部ll接受該語音(Op52)。與此同時,位置信息取得部31通過 在使用者的便攜電話所嵌入的GPS,取得表示使用者的當(dāng)前位置的信息,并 將所取得的信息送到位置確認(rèn)部32 (Op53)。
所輸入的第一個分割關(guān)鍵詞的各音節(jié)在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征 量(Op54)。將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計算部13。接著,類似度計算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲的該使用者的說話人音節(jié)模型,并計算出戶萬 述特征量對所提取的說話人音節(jié)模型的類似度(Op55)。將所求出的類4以度 送到音節(jié)判斷部14。接著,音節(jié)判斷部14根據(jù)由類似度計算部13求出的類似度,對第一個 分割關(guān)鍵詞的各音節(jié),選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20的說話人音節(jié) 模型中類似度最高的模型的索引,并與該類似度一起,保存在類似度保存部 15中(Op56)。這里,由于第二個分割關(guān)鍵詞的輸入還沒有完成(Op57的 結(jié)果是"否"),所以進(jìn)入到Op58。為了更可靠防止對第三者暴露關(guān)鍵詞,最好在第一個分割關(guān)鍵詞的$俞入 結(jié)束時,在第二個分割關(guān)鍵詞的語音輸入之前,將指示為移動位置的消息顯 示在使用者的便攜電話等的顯示器上,或?qū)⑼瑯觾?nèi)容的語音消息送到該便攜 電話中。因此,Op58中,在第一個分割關(guān)鍵詞的語音輸入后,經(jīng)過適當(dāng)?shù)臅r間 (例如1分鐘)后,位置信息取得部31通過使用者的便攜電話上所嵌入的 GPS,取得表示使用者的當(dāng)前位置的信息,并將所取得的信息傳送到位置確 認(rèn)部32。位置確認(rèn)部32通過比較在Op53中取得的第一個分割關(guān)鍵詞輸入時的位 置信息和在Op58中取得的位置信息,從而確認(rèn)在輸入了第一個分割關(guān)鍵詞 后,使用者是否移動到離開規(guī)定距離(例如50m)以上的位置上(Op59)。 此外,所述規(guī)定的距離并不限于50m,也可任意。若Op59的確認(rèn)結(jié)果是"否",則語音認(rèn)證系統(tǒng)向使用者的便攜電話發(fā) 送指示為移動位置的語音消息。或者,顯示指示為使其移動位置的警告消息 (Op60)。另一方面,如果Op59的確認(rèn)結(jié)果是"是",則繼續(xù)進(jìn)行Op61之后的 處理。由于Op61 Op67的處理與第一實施方式中說明的Opl7 Op23相同, 所以省略說明。如上所述,本實施方式的語音認(rèn)證系統(tǒng)利用GPS等來確認(rèn)使用者的當(dāng)前
位置,在從分割關(guān)鍵詞的前次輸入時起使用者沒有移動規(guī)定的距離以上的'瞎 況下,指示為使其移動位置。由此,可以更可靠防止對第三者暴露關(guān)鍵詞。 此外,在本實施方式中,示例了第一實施方式的語音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu),但是在第二實施方式的i吾 音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)也是本 發(fā)明的一實施方式。 (第四實施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一實施方式。此外,對于與第一 第三實施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與這些實施方式中4吏 用的附圖標(biāo)記相同的符號,而省略該詳細(xì)說明。本實施方式的語音認(rèn)證系統(tǒng)是這樣的結(jié)構(gòu),即系統(tǒng)對使用者指示關(guān)鍵詞 的分割方法等,在使用者沒有按指示進(jìn)行語音輸入的情況下,拒絕認(rèn)證。因此,本實施方式的語音認(rèn)證系統(tǒng)如圖8所示,具有輸入部ll、特征量 轉(zhuǎn)換部12、類似度計算部13、音節(jié)判斷部14、類似度保存部15、待機時間 管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、按登錄的 說話人的音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21和指示輸出部41。即,本實 施方式的語音認(rèn)證系統(tǒng)是在第一實施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指 示輸出部41的結(jié)構(gòu)。指示輸出部41的根據(jù)從預(yù)定的多種模式中隨機選出的模式,來輸出指 示,使得使用者分割輸入關(guān)鍵詞。作為這種指示,考慮例如"作為第一個分割關(guān)鍵詞請輸入最先的三個音 節(jié),作為第二個分割關(guān)鍵詞請輸入其余的所有音節(jié)。"、"請將奇數(shù)音節(jié)作 為第一個分割關(guān)鍵詞,將偶數(shù)音節(jié)作為第二個分割關(guān)鍵詞。"、"請從反方 向起一個音節(jié)一個音節(jié)地輸入關(guān)鍵詞。"這樣的指示。另外,這些指示始終 是一個例子,指示內(nèi)容任意。這里,參考圖9來說明本實施方式的語音認(rèn)證系統(tǒng)的動作。此外,由于 使用者進(jìn)行的關(guān)鍵詞的登錄步驟與第一實施方式相同,所以省略說明。首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op71)。此外,在如便攜電話那樣,使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,指示輸出部41根據(jù)從預(yù)定的多種模式中隨
機選擇出的模式,對使用者的便攜電話作為顯示或語音消息來輸出用于使第一個分割關(guān)鍵詞輸入的指示(Op72)。為了進(jìn)行后述的Op76的音節(jié)判斷部 14的處理,也將由指示輸出部41得到的指示內(nèi)容送到音節(jié)判斷部14。例如,這里,在進(jìn)行了 "請將奇數(shù)音節(jié)作為第一個分割關(guān)鍵詞"這樣的 指示的情況下,若關(guān)鍵詞是"卡拉OK",則使用者必須輸入"卡"、"O" 作為第一個分割關(guān)鍵詞,輸入"拉"、"K"作為第二個分割關(guān)鍵詞。使用者在根據(jù)該指示,當(dāng)向便攜電話的麥克風(fēng)發(fā)出第一個分割關(guān)鍵詞 時,輸入部ll接受該語音(Op73)。所輸入的音節(jié)S1、S2分別在特征量轉(zhuǎn)換部12中,轉(zhuǎn)換為特征量(Op74)。 將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計算部13中。接著,類似度計算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲的該使用者的說話人音節(jié)模型,并計算戶萬述 特征量對于所提取的說話人音節(jié)模型的類似度(Op75)。將所求出的類似度 送到音節(jié)判斷部14。接著,音節(jié)判斷部14根據(jù)通過類似度計算部13求出的類似度,來對第 一個分割關(guān)鍵詞的各音節(jié),選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲 的說話人音節(jié)模型中類似度最高的模型的索引,并與該類似度一起保存在類 似度保存部15中(Op76)。而且,Op76中,音節(jié)判斷部14判斷第一個分割關(guān)鍵詞的各音節(jié)是否如 基于指示輸出部41進(jìn)行的指示那樣來發(fā)聲。S卩,在上述例子中,作為第一 個分割關(guān)鍵詞,發(fā)出輸入奇數(shù)音節(jié)的指示,即,發(fā)出輸入作為關(guān)鍵詞的第一 音節(jié)(索引II)的"卡"和作為第三音節(jié)(第三索引)的"O"的內(nèi)容的指 示。因此,第一個分割關(guān)鍵詞的第一個音節(jié)必須與索引II的說話人音節(jié)模型 的類似度最大,第二個音節(jié)必須與索引13的說話人音節(jié)模型的類似度最大。 在不這樣作的情況下,音節(jié)判斷部14將該判斷結(jié)果通知給認(rèn)證判斷部19, 從而認(rèn)證判斷部19拒絕認(rèn)證。此外,在圖9中,Op77之后與第一實施方式中說明的Opl6 Op23相 同,所以省略該重復(fù)的說明。本實施方式的語音認(rèn)證系統(tǒng)中,如上所述,通過指示輸出部41向使用 者指示分割方法,使得關(guān)鍵詞的分割方法在每次認(rèn)證隨機,從而可以更可靠
防止關(guān)鍵詞的暴露。此外,上述的說明中,指示輸出部41選擇一個關(guān)鍵詞的分割方法來向 使用者進(jìn)行指示,但是指示輸出部41也可向使用者提示多種模式的分割方 法,使用者從中選擇其中一種模式。還有,本實施方式中,示例了在第一實施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指示輸出部41的結(jié)構(gòu),但是在第二或第三實施方式的語音認(rèn)證系統(tǒng)上 進(jìn)一步具有指示輸出部41的結(jié)構(gòu)也是本發(fā)明的一個實施方式。例如,是在第二實施方式的語音認(rèn)證系統(tǒng)中加了指示輸出部41的結(jié)構(gòu) 的情況下,在關(guān)鍵詞是數(shù)字列的情況下,例如,可以進(jìn)行"作為第一個分割 關(guān)鍵詞,請輸入第2位和第4位的數(shù)字,作為第二個分割關(guān)鍵詞,請輸入第 l位和第3位的數(shù)字。"、"請從反方向依次輸入密碼。"這樣的指示。在 關(guān)鍵詞是數(shù)字和字母的混合的情況下,可以進(jìn)行"作為第一個分割關(guān)鍵詞i青 輸入奇數(shù)位的數(shù)字或字母,第二次請輸入偶數(shù)位的數(shù)字或字母"這樣的指示。上面,如各實施方式中所說明的,根據(jù)本發(fā)明,通過分割關(guān)鍵詞并進(jìn)行 輸入,從而他人不會聽到整個關(guān)鍵詞。因此,他人很難知道關(guān)鍵詞內(nèi)容,由 于不能持續(xù)錄音整體關(guān)鍵詞,所以可以防止錄音詐騙。另外,文本依存型的語音認(rèn)證大多暴露了關(guān)鍵詞內(nèi)容,現(xiàn)有技術(shù)中,為 了維持高性能,必須頻繁變換關(guān)鍵詞,有使用成本高的問題。但是,根據(jù)本 發(fā)明,很難暴露關(guān)鍵詞內(nèi)容,從而不需要頻繁改變關(guān)鍵詞,有可以減少關(guān)鍵 詞變更用的成本的效果。而且,若例如在人很少的位置語音輸入第一個分割關(guān)鍵詞,在收銀機前 等公眾面前僅語音輸入第二個分割關(guān)鍵詞,由于可以縮短在公眾面前的認(rèn)證 時間,所以有可以快速進(jìn)行支付的效果。此外,在上述各實施方式的語音認(rèn)證系統(tǒng)中,例如,使用者也可選擇是 否分割輸入關(guān)鍵詞,以便在周圍沒有他人的情況等中,可不用分割關(guān)鍵詞就 進(jìn)行語音認(rèn)證。 產(chǎn)業(yè)上的可用性本發(fā)明通過防止關(guān)鍵詞的泄漏和錄音詐騙,作為可使用關(guān)鍵詞的秘密性 來維持高的認(rèn)證精度的文本依存型的語音認(rèn)證系統(tǒng)有用。
權(quán)利要求
1. 一種語音認(rèn)證系統(tǒng),對關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依存 型語音認(rèn)證系統(tǒng),其特征在于,具有輸入部,其將以可發(fā)聲的單位為最小單位而分割為多個部分的關(guān)鍵詞的語音輸入,對每個所述部分隔開時間間隔經(jīng)多次接收;說話人模型存儲部,其預(yù)先存儲使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵 詞作為以所述可發(fā)聲的單位所作成的說話人模型;特征量轉(zhuǎn)換部,其從在所述輸入部中通過一次語音輸入所接收的關(guān)鍵詞 的部分中求出該部分中所包含的語音的特征量;類似度計算部,其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人 模型之間的類似度;發(fā)聲內(nèi)容判斷部,其根據(jù)所述類似度計算部所求出的類似度,通過所述 多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)部,其根據(jù)所述發(fā)聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的 信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷部,其根據(jù)所述關(guān)鍵詞確認(rèn)部的判斷結(jié)果和所述類似度計算部 所求出的類似度,判斷接受還是拒絕認(rèn)證。
2. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 所述可發(fā)聲的單位是音節(jié)。
3. 根據(jù)權(quán)利要求2所述的語音認(rèn)證系統(tǒng),其特征在于, 在所述說話人模型存儲部中,對構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型添加有分別獨立的索引,所述特征量轉(zhuǎn)換部從通過所述語音輸入所接收的關(guān)鍵詞的部分中求出 每個音節(jié)的特征量,所述類似度計算部求出所述每個音節(jié)的特征量和所述說話人模型之間 的類似度,語音認(rèn)證系統(tǒng)還具有音節(jié)判斷部,該音節(jié)判斷部根據(jù)所述類似度計算部 所求出的類似度,判斷通過所述語音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵 詞的哪個音節(jié)最類似,所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果,判斷利用通過所述 多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。
4. 根據(jù)權(quán)利要求1 3中任意一項所述的語音認(rèn)證系統(tǒng),其特征在于, 所述可發(fā)聲的單位是數(shù)字的讀出或字母的讀出。
5. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 還具有語音識別部,該語音識別部根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量,通過不特定說話人的語音識別來識別所述關(guān)鍵詞的部分的音韻,所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識別部的識別結(jié)果,判斷利用通過所述 多次語音輸入被語音識別的結(jié)果能否構(gòu)成登錄關(guān)鍵詞。
6. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 在對所述關(guān)鍵詞的某部分的語音輸入結(jié)束之后再經(jīng)過規(guī)定時間也沒有對下一部分的語音輸入,而且利用此次為止的語音輸入的發(fā)聲內(nèi)容信息無法 構(gòu)成登錄關(guān)鍵詞的情況下,所述認(rèn)證判斷部拒絕認(rèn)證。
7. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于,還具有 位置信息取得部,其每當(dāng)有所述關(guān)鍵詞的部分的語音輸入時,取得使用者的所在位置信息;位置確認(rèn)部,其比較前次有語音輸入時所述位置信息取得部所取得的所 在位置信息和這次有語音輸入時所述位置信息取得部所取得的所在位置信 息,確認(rèn)在從前次有語音輸入時到這次有語音輸入時為止的期間使用者是否 移動了規(guī)定距離以上。
8. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 還具有類似度綜合部,該類似度綜合部對通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分,綜合所述類似度計算部所求出的類似度來求出綜合類 似度,所述認(rèn)證判斷部根據(jù)所述類似度綜合部所求出的綜合類似度,判斷接受 還是拒絕認(rèn)證。
9. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 所述輸入部利用使用者的便攜終端來接收語音輸入。
10. —種計算機程序,實現(xiàn)對關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依 存型語音認(rèn)證系統(tǒng),其特征在于,使計算機執(zhí)行如下處理輸入處理,將以可發(fā)聲的單位為最小單位而分割為多個部分的關(guān)鍵詞的 語音輸入,對每個所述部分隔開時間間隔經(jīng)多次接收;特征量轉(zhuǎn)換處理,從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該 部分中所包含的語音的特征量;類似度計算處理,參考作為以所述可發(fā)聲的單位所作成的說話者模型而 預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲部,求出所述特征量轉(zhuǎn)換處理 所求出的特征量和所述說話人模型之間的類似度;發(fā)聲內(nèi)容判斷處理,根據(jù)所述類似度計算處理所求出的類似度,通過所 述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)處理,根據(jù)所述發(fā)聲內(nèi)容判斷處理所判斷的與發(fā)聲內(nèi)容有關(guān) 的信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷處理,根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所述類似度計算 處理所求出的類似度,判斷接受還是拒絕認(rèn)證。
全文摘要
一種語音認(rèn)證系統(tǒng),是語音輸入關(guān)鍵詞來進(jìn)行認(rèn)證的文本依存性的語音認(rèn)證系統(tǒng),具有輸入部(11),其將以可發(fā)聲的單位為最小單位而分割為多個部分的關(guān)鍵詞的語音輸入,對每個所述部分隔開時間間隔經(jīng)多次接收;語音模型存儲部(20),預(yù)先存儲使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵詞作為以所述發(fā)聲的單位所作成的說話人模型;特征量轉(zhuǎn)換部(12),從在輸入部(11)中通過一次語音輸入所接收的關(guān)鍵詞部分中求出該部分中所包含的語音的特征量;類似度計算部(13),求出特征量和說話人模型之間的類似度;關(guān)鍵詞確認(rèn)部(17),根據(jù)在類似度計算部求出的類似度,判斷利用所述多次語音輸入,構(gòu)成登錄關(guān)鍵詞的所有音韻的語音輸入是否完成;認(rèn)證判斷部(19),基于關(guān)鍵詞確認(rèn)部的判斷結(jié)果和類似度計算部所求出的類似度,判斷接受還是拒絕認(rèn)證。
文檔編號G10L17/00GK101124623SQ20058004849
公開日2008年2月13日 申請日期2005年2月18日 優(yōu)先權(quán)日2005年2月18日
發(fā)明者早川昭二 申請人:富士通株式會社