專利名稱:說話人認(rèn)證的驗證方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地涉及說話人認(rèn)證(speakerauthentification)的技術(shù)。
背景技術(shù):
利用每個人說話時的發(fā)音特點(diǎn)可以識別出不同的說話人,從而可以進(jìn)行說話人的認(rèn)證。在K.Yu,J.Mason,J.Oglesby發(fā)表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-18)中介紹了常見的三種說話人識別引擎技術(shù)HMM(Hidden Markov Model,隱馬爾可夫模型),DTW(Dynamic Timing Warping,動態(tài)時間規(guī)整)和VQ(Vector Quantization,矢量量化)。
通常,一個說話人認(rèn)證系統(tǒng)包括注冊(enrollment)和驗證(verification)兩個部分。在注冊階段,根據(jù)說話人(用戶)本人說出的包含密碼的語音,生成該說話人的說話人模板;在驗證階段,根據(jù)說話人模板判斷測試語音是否為該說話人本人說出的相同密碼的語音。具體地,在驗證過程中通常應(yīng)用DTW算法對測試語音的聲學(xué)特征向量序列與說話人模板進(jìn)行DTW匹配,從而得到匹配得分,并將匹配得分與在測試階段得到的分辨閾值進(jìn)行比較,來判斷測試語音是否為該說話人本人說出的相同密碼的語音。在DTW中,計算測試語音的聲學(xué)特征向量序列和說話人模板的全局匹配得分的方法通常是直接沿著最優(yōu)的匹配路徑將所有節(jié)點(diǎn)距離相加求和。然而,由于匹配錯誤在用戶測試的時候常常會出現(xiàn)一些較大的節(jié)點(diǎn)距離。這給區(qū)分用戶和冒充者帶來了困難。
在X.Wen and R.Liu發(fā)表的文章“Enhancing the stability of speakerverification with compressed templates”,ISCSLP2002,pp.111-114(2002)中提出了一個基于幀級驗證的說話人驗證系統(tǒng)。在P.Mills,J.Bowles發(fā)表的文章“Fuzzy logic enhanced symmetric dynamic programming forspeech recognition”,F(xiàn)uzzy Systems,Proceedings of the Fifth IEEEInternational Conference on,Vol.3,pp.2013-2019(1996)中則描述了一個基于模糊邏輯的語音識別系統(tǒng)。這兩種方法的本質(zhì)都是在DTW算法的節(jié)點(diǎn)距離上做了一種變換。然而,這兩種變換都對參數(shù)非常敏感,只有為每個模板都設(shè)置合適的參數(shù)才能取得較好的效果。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了說話人認(rèn)證的驗證方法和裝置以及說話人認(rèn)證系統(tǒng)。
根據(jù)本發(fā)明的一個方面,提供了一種說話人認(rèn)證的驗證方法,包括輸入說話人說出的包含密碼的語音;從上述輸入的語音提取聲學(xué)特征向量序列;對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證的驗證裝置,包括語音輸入單元(utterance input unit),用于輸入說話人說出的包含密碼語音;聲學(xué)特征向量序列提取單元(acoustic feature vector sequenceextractor),用于從上述輸入的語音提取聲學(xué)特征向量序列;DTW匹配單元(DTW-matching unit),用于對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;節(jié)點(diǎn)距離計算單元(localdistance calculator),用于計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;節(jié)點(diǎn)距離非線性變換單元(local distancenonlinear-transform unit),用于對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;匹配得分計算單元(matching score calculator),用于根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較單元(compare unit),用于比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證系統(tǒng),包括前面所述的說話人認(rèn)證的驗證裝置。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證方法的流程圖;圖2示出了輸入樣本和參考模板的DTW匹配實例;圖3示出了非線性變換曲線的一個實例;圖4是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖;以及圖5是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖。
具體實施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證方法的流程圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。
如圖1所示,首先在步驟101,由進(jìn)行驗證的用戶輸入包含密碼的語音。其中,密碼是用戶在注冊階段設(shè)定的用于驗證的特定短語或發(fā)音序列。
接著,在步驟105,從輸入的語音提取聲學(xué)特征向量序列。本發(fā)明對于表示聲學(xué)特征的方式并沒有特別的限制,可以采用例如,MFCC(Mel-scale Frequency Cepstral Coefficients,梅爾倒頻譜參數(shù))、LPCC(Linear Prediction Cepstrum Coefficient,線性預(yù)測倒譜參數(shù))或者其它基于能量、基音頻率或小波分析等得到的各種系數(shù)等,只要是能夠表現(xiàn)說話人的個人語音特點(diǎn)即可;但是,應(yīng)當(dāng)與在注冊階段用于表示聲學(xué)特征的方式相對應(yīng)。
接著,在步驟110,對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配,獲得最優(yōu)匹配路徑。具體地,圖2示出了輸入樣本和參考模板的DTW匹配實例。如圖2所示,橫軸為說話人模板的幀節(jié)點(diǎn),縱軸為輸入語音的幀節(jié)點(diǎn)。在進(jìn)行DTW匹配時,計算說話人模板的一個幀節(jié)點(diǎn)與對應(yīng)的輸入語音的幀節(jié)點(diǎn)和其相鄰的幀節(jié)點(diǎn)之間的節(jié)點(diǎn)距離,選擇節(jié)點(diǎn)距離最小的輸入語音的幀節(jié)點(diǎn)作為與說話人模板的所述幀節(jié)點(diǎn)相對應(yīng)的幀節(jié)點(diǎn)。重復(fù)上述步驟,找出與說話人模板的每個幀節(jié)點(diǎn)相對應(yīng)的輸入語音的幀節(jié)點(diǎn),從而獲得最優(yōu)匹配路徑。
本實施例中的說話人模板是利用說話人認(rèn)證的注冊方法生成的說話人模板,其中至少包含與密碼語音對應(yīng)的聲學(xué)特征和分辨閾值。在此,對說話人認(rèn)證的注冊過程進(jìn)行簡要描述。首先,輸入說話人說出的包含密碼的語音。接著,從輸入的密碼語音提取聲學(xué)特征。然后,生成說話人模板。為了提高說話人模板的質(zhì)量,可以采用多個訓(xùn)練語音來構(gòu)建一個說話人模板。首先選定一個訓(xùn)練語音作為初始模板,然后用DTW的方法將第二個訓(xùn)練語音與之時間對齊,并用兩段語音中相對應(yīng)的特征向量的平均來生成一個新的模板,然后再將第三個訓(xùn)練語音與新模板時間對齊,如此循環(huán)直到所有的訓(xùn)練語音都結(jié)合到一個獨(dú)立的模板中,即所謂的模板合并。詳細(xì)內(nèi)容可以參考W.H.Abdulla、D.Chow和G.Sin發(fā)表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003,pp.1576-1579)。
此外,在說話人認(rèn)證的注冊過程中,說話人模板中包含的分辨閾值可以如下確定。首先,通過采集大量說話人和他人對同一密碼發(fā)音的語音數(shù)據(jù),分別與訓(xùn)練出的說話人模板進(jìn)行DTW匹配,得到說話人和他人的匹配得分分布。然后,至少可以通過以下三種方法來估計該說話人模板的分辨閾值a)將兩條分布曲線的交叉點(diǎn),即,錯誤接受率(FAR,F(xiàn)alse Accept Rate)和錯誤拒絕率(FRR,F(xiàn)alse Reject Rate)的和最小處的值作為閾值;b)將等誤識率(EER,Equal Error Rate)對應(yīng)的值作為閾值;或者c)將錯誤接受率在某個值(如0.1%)時對應(yīng)的值作為閾值。
返回到圖1,接著,在步驟115,計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離。也就是說,計算在圖2的最優(yōu)匹配路徑中輸入語音與說話人模板的對應(yīng)的各個幀節(jié)點(diǎn)之間的節(jié)點(diǎn)距離。
然后,在步驟120,對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重。在本實施例中,利用函數(shù)S=exp(-d/para)進(jìn)行非線性變換,該函數(shù)的曲線如圖3所示。在圖3中,橫軸為節(jié)點(diǎn)距離d,縱軸為函數(shù)值S。在本實施例的非線性變換公式中,d是節(jié)點(diǎn)距離,para為該變換的一個參數(shù),可以調(diào)整該函數(shù)曲線的形狀。
在具體實現(xiàn)中,這個參數(shù)para可以是不依賴于模板,即一個定值;也可以依賴于模板,即每個模板對應(yīng)一個固定的參數(shù)值,例如將模板的分辨閾值作為參數(shù)值;或者可以是既依賴于模板也依賴于幀(節(jié)點(diǎn)),即每個模板的每一幀都有一個獨(dú)立的參數(shù)值。
依賴于模板的參數(shù)可以通過上述計算說話人模板的分辨閾值的方法獲得。
依賴于幀的參數(shù)可以通過與上述計算說話人模板的分辨閾值同樣的方法獲得,只是分別對每幀進(jìn)行獨(dú)立統(tǒng)計。具體地,通過采集大量說話人和他人對同一密碼發(fā)音的語音數(shù)據(jù),分別與訓(xùn)練出的說話人模板進(jìn)行DTW匹配,得到說話人和他人的每個幀節(jié)點(diǎn)距離的分布。然后,至少可以通過以下三種方法來估計依賴于每個幀的參數(shù)a)將每個幀對應(yīng)的說話人和他人的兩條分布曲線的交叉點(diǎn),即,錯誤接受率(FAR,F(xiàn)alse Accept Rate)和錯誤拒絕率(FRR,F(xiàn)alse Reject Rate)的和最小處的值作為參數(shù);b)將等誤識率(EER,Equal Error Rate)對應(yīng)的值作為參數(shù);或者c)將錯誤接受率在某個值(如0.1%)時對應(yīng)的值作為參數(shù)。
當(dāng)然,參數(shù)也可以根據(jù)不同的非線性變換函數(shù)作適當(dāng)?shù)恼{(diào)整,如加上一個常數(shù)4,即S=exp(-d/(para+4)),以期得到最佳的性能。
此外,本發(fā)明的非線性變換并不限于S=exp(-d/para),所有三階導(dǎo)函數(shù)在(0,∞)區(qū)間內(nèi)為負(fù)值的函數(shù)都可以達(dá)到上文提及的“對較小的節(jié)點(diǎn)距離給予較大的權(quán)重”的目的。例如S=ln(d/para),S=arctan(d/para),S=para/d以及它們的嵌套組合如S=arctan(exp(-d/para))或者基于它們的擴(kuò)展如S=pow(exp(-d/para),2)。
然后,在步驟125,根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分。具體地,可以通過累加非線性變換后的各個節(jié)點(diǎn)距離來獲得匹配得分。
接著,在步驟130,判斷上述DTW匹配得分是否小于上述說話人模板中設(shè)定的分辨閾值。如果是,則在步驟135認(rèn)定是同一說話人說出的相同的密碼,驗證成功;如果否,則在步驟140認(rèn)定驗證失敗。
通過以上描述可知,如果采用本實施例的說話人認(rèn)證的驗證方法,通過非線性變換可以在計算整體匹配距離時著重強(qiáng)調(diào)較小的節(jié)點(diǎn)距離,所以它對參數(shù)不敏感。即使對所有的模板使用一個固定的參數(shù),這個變換仍然是有效的。另外,如果使用了依賴于模板的參數(shù),該變換具有比上述的兩個方法更好的性能。不僅如此,還可以使用依賴于幀的參數(shù),通過使用這種依賴于幀的參數(shù),系統(tǒng)性能可以得到進(jìn)一步提高。
在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖2所示,本實施例的說話人認(rèn)證的驗證裝置200包括語音輸入單元(utterance input unit)201,用于輸入說話人說出的包含密碼語音;聲學(xué)特征向量序列提取單元(acoustic feature vector sequence extractor)202,用于從上述輸入的語音提取聲學(xué)特征向量序列;DTW匹配單元(DTW-matching unit)203,用于對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;節(jié)點(diǎn)距離計算單元(localdistance calculator)204,用于計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;節(jié)點(diǎn)距離非線性變換單元(local distancenonlinear-transform unit)205,用于對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;匹配得分計算單元(matching score calculator)206,用于根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較單元(compare unit)207,用于比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
在本實施例中,上述說話人模板是利用說話人認(rèn)證的注冊方法生成的說話人模板,包含說話人在注冊過程中使用的密碼語音的聲學(xué)特征以及分辨閾值。本實施例的說話人認(rèn)證的驗證裝置200被設(shè)計為在比較單元207進(jìn)行比較,如果由匹配得分計算單元206計算出的DTW匹配得分小于預(yù)先定義的分辨閾值,則判斷輸入的語音是上述注冊說話人說出的包含密碼的語音,否則,判斷為驗證失敗。
本實施例的說話人認(rèn)證的驗證裝置200及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的說話人認(rèn)證的驗證裝置200,操作上可以實現(xiàn)前面結(jié)合圖1描述的實施例的說話人認(rèn)證的驗證方法。
在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖5所示,本實施例的說話人認(rèn)證系統(tǒng)包括注冊裝置300,其可以為說話人認(rèn)證的注冊裝置300;以及驗證裝置200,其可以為前面實施例描述的說話人認(rèn)證的驗證裝置200。由注冊裝置300生成的說話人模板通過任意的通信方式,例如,網(wǎng)絡(luò)、內(nèi)部信道、磁盤等記錄媒體等,傳遞給驗證裝置200。
這樣,如果采用本實施例的說話人認(rèn)證系統(tǒng),經(jīng)變換后求得的匹配得分將比傳統(tǒng)方法更具有分辨力,從而顯著提供系統(tǒng)的性能。此外,如果使用依賴于幀的參數(shù)將比以往僅僅依賴于模板的參數(shù)獲得更好的性能。
以上雖然通過一些示例性的實施例對本發(fā)明的說話人認(rèn)證的驗證方法和裝置以及說話人認(rèn)證系統(tǒng)進(jìn)行了詳細(xì)的描述,但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種說話人認(rèn)證的驗證方法,包括輸入說話人說出的包含密碼的語音;從上述輸入的語音提取聲學(xué)特征向量序列;對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
2.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的驗證方法,其中,通過三階導(dǎo)數(shù)在(0,∞)區(qū)間內(nèi)為負(fù)值的函數(shù)進(jìn)行非線性變換。
3.根據(jù)權(quán)利要求2所述的說話人認(rèn)證的驗證方法,其中,所述函數(shù)包括選自如下的一種exp(-d/para)、ln(d/para)、arctan(d/para)、d/para以及它們的組合,其中d為節(jié)點(diǎn)距離,para為參數(shù)。
4.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的驗證方法,其中,所述參數(shù)是常數(shù)。
5.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的驗證方法,其中,所述參數(shù)是依賴于上述說話人模板的參數(shù)。
6.根據(jù)權(quán)利要求5所述的說話人認(rèn)證的驗證方法,其中,所述依賴于上述說話人模板的參數(shù)是所述分辨閾值。
7.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的驗證方法,其中,所述參數(shù)是依賴于幀的參數(shù)。
8.根據(jù)權(quán)利要求7所述的說話人認(rèn)證的驗證方法,其中,通過在注冊過程中對每個幀距離獨(dú)立進(jìn)行統(tǒng)計獲得所述依賴于幀的參數(shù)。
9.一種說話人認(rèn)證的驗證裝置,包括語音輸入單元(utterance input unit),用于輸入說話人說出的包含密碼語音;聲學(xué)特征向量序列提取單元(acoustic feature vector sequenceextractor),用于從上述輸入的語音提取聲學(xué)特征向量序列;DTW匹配單元(DTW-matching unit),用于對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;節(jié)點(diǎn)距離計算單元(local distance calculator),用于計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;節(jié)點(diǎn)距離非線性變換單元(local distance nonlinear-transform unit),用于對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;匹配得分計算單元(matching score calculator),用于根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較單元(compare unit),用于比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
10.一種說話人認(rèn)證系統(tǒng),包括根據(jù)權(quán)利要求9所述的說話人認(rèn)證的驗證裝置。
全文摘要
本發(fā)明提供了說話人認(rèn)證的驗證方法和裝置以及說話人認(rèn)證系統(tǒng)。本發(fā)明的說話人認(rèn)證的驗證方法包括輸入說話人說出的包含密碼的語音;從上述輸入的語音提取聲學(xué)特征向量序列;對上述提取出的聲學(xué)特征向量序列與注冊說話人注冊的說話人模板進(jìn)行DTW匹配;計算DTW匹配后的聲學(xué)特征向量序列與說話人模板之間的各個節(jié)點(diǎn)距離;對上述計算所得的各個節(jié)點(diǎn)距離進(jìn)行非線性變換,以使對較小的節(jié)點(diǎn)距離給予較大的權(quán)重;根據(jù)上述非線性變換后的各個節(jié)點(diǎn)距離,計算DTW匹配得分;以及比較上述匹配得分和預(yù)先定義的分辨閾值,以確定上述輸入的語音是否為上述注冊說話人說出的包含密碼的語音。
文檔編號G10L15/06GK101051463SQ20061007314
公開日2007年10月10日 申請日期2006年4月6日 優(yōu)先權(quán)日2006年4月6日
發(fā)明者欒劍, 郝杰 申請人:株式會社東芝