一種大規(guī)模聲紋認(rèn)證方法及其系統(tǒng)的制作方法

文檔序號：2823937閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種大規(guī)模聲紋認(rèn)證方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種大規(guī)模聲紋認(rèn)證方法，本發(fā)明還涉及一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。
背景技術(shù)：
聲紋認(rèn)證是生物識別技術(shù)的一種，它通過提取語音波形中能夠反映說話人生理和行為特征的語音參數(shù)，識別出說話人。在所有的識別任務(wù)中，訓(xùn)練環(huán)境和測試環(huán)境的差異是影響系統(tǒng)性能的決定性因素。由于現(xiàn)實環(huán)境的復(fù)雜性，大規(guī)模的聲紋認(rèn)證系統(tǒng)通常需要考慮很多影響因素，例如語種差異、信道差異、語音錄制麥克風(fēng)差異等等，因此，處理的任務(wù)非常復(fù)雜，同時，目前大多數(shù)的聲紋認(rèn)證算法都是采用概率統(tǒng)計的方法，這些算法以及技術(shù)解決方案普遍存在著復(fù)雜度高、處理時間長、對存儲和運算要求偏高的問題，例如，中國第CN200510061953. X號發(fā)明專利所公開的一種“基于內(nèi)嵌GMM核的支持向量機模型的說話人識別方法”，該方法產(chǎn)生的向量大約為幾千甚至上萬維，且需要通過支持向量機的模式識別工具，尤其沒有針對環(huán)境差異的信道補償技術(shù)，因此，在存儲、效率和性能上都存在較大的缺陷，尤其是在對復(fù)雜環(huán)境的處理方面，該方法的缺陷更加明顯。由于上述問題的存在，限制了聲紋認(rèn)證技術(shù)應(yīng)用的范圍和規(guī)模。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種大規(guī)模聲紋認(rèn)證方法，它可以提高聲紋認(rèn)證的效率和在復(fù)雜環(huán)境下的認(rèn)證效果。為解決上述技術(shù)問題，本發(fā)明的大規(guī)模聲紋認(rèn)證方法，包括以下步驟1)對原始語音信號進行預(yù)處理；2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù)；3)在大量語音數(shù)據(jù)和初始隨機因子空間的基礎(chǔ)上，訓(xùn)練一個低維的全因子空間；4)將步驟幻得到的聲學(xué)特征參數(shù)，通過步驟幻的全因子空間進行映射，生成低維的聲紋碼；5)根據(jù)注冊聲紋碼和測試聲紋碼，判決測試者的身份，該注冊聲紋碼和測試聲紋碼分別按照上述步驟1)至4)生成。所述步驟3)的全因子空間的訓(xùn)練，采用高斯混合模型和最大期望算法，并按照最大似然準(zhǔn)則，通過空間迭代和聚類而完成。較佳的，在進行所述步驟幻之前，先對步驟4)生成的聲紋碼進行信道補償處理，生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。本發(fā)明要解決的另一技術(shù)問題是提供一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)，它認(rèn)證效率高，需要的模型存儲空間少，且在復(fù)雜環(huán)境下具有較好的性能。為解決上述技術(shù)問題，本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng)，包括
語音預(yù)處理模塊，用于對原始的語音信號進行預(yù)處理；聲學(xué)特征提取模塊，用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù)；低維聲紋碼生成模塊，用于在大量語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上，訓(xùn)練一個低維的全因子空間，將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進行降維映射，生成低維的聲紋碼；判決模塊，用于根據(jù)測試語音和注冊語音的低維聲紋碼，判決測試者的身份。較佳的，該系統(tǒng)還包括有信道補償模塊，用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素，并進一步降低該低維聲紋碼的維數(shù)。本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng)及方法，利用模式識別和統(tǒng)計學(xué)習(xí)的方法，將所有待處理的語音全部轉(zhuǎn)化為一個低維聲紋碼，然后在低維空間通過簡單的運算操作實現(xiàn)聲紋的認(rèn)證，從而極大地提高了認(rèn)證的效率，節(jié)約了存儲的空間，而在此基礎(chǔ)上進行的信道補償技術(shù)，進一步消除了環(huán)境差異對系統(tǒng)性能的影響。

下面結(jié)合附圖與具體實施方式
對本發(fā)明作進一步詳細(xì)的說明圖1是本發(fā)明的聲紋認(rèn)證系統(tǒng)結(jié)構(gòu)示意圖；圖2是本發(fā)明生成低維聲紋碼的流程圖；圖3是本發(fā)明的聲紋認(rèn)證方法示意圖。
具體實施例方式為對本發(fā)明的技術(shù)內(nèi)容、特點與功效有更具體的了解，現(xiàn)結(jié)合附圖和具體實施例，詳述如下如圖1所示，本發(fā)明較佳實施例的大規(guī)模聲紋認(rèn)證系統(tǒng)，包括有語音預(yù)處理模塊，用于對原始的語音信號進行預(yù)處理。聲學(xué)特征提取模塊，用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出能夠表征說話人信息的聲學(xué)特征參數(shù)。低維聲紋碼生成模塊，用于在大量經(jīng)過預(yù)處理的語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上，訓(xùn)練一個低維的全因子空間，將聲學(xué)特征提取模塊提取的大量高維聲學(xué)特征參數(shù)在該全因子空間中進行降維映射，生成低維的聲紋碼。信道補償模塊，用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素，并對該低維聲紋碼進行再次降維，生成一個與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。判決模塊，包括有余弦距離計算模塊，該判決模塊用于根據(jù)由信道補償模塊生成的注冊聲紋碼和測試聲紋碼，計算余弦距離，與系統(tǒng)門限進行確認(rèn)判決。利用上述系統(tǒng)進行大規(guī)模聲紋認(rèn)證的方法請參閱圖2和3所示，具體包括以下步驟第一步語音預(yù)處理及聲學(xué)特征提取對說話人2分鐘的原始語音波形進行分析，提取出能夠表征說話人信息的底層聲學(xué)特征參數(shù)。本實施例采用的是39維的梅爾倒譜系數(shù)(MFCC)，提取的步驟是首先，對語音信號進行去直流、預(yù)加重等預(yù)處理；然后，按照每10毫秒一幀，對語音信號進行分幀及加窗處理；抽取0 12維MFCC參數(shù)，即共13維靜態(tài)特征，再通過一階差分和二階差分，總計構(gòu)成39維特征向量。這樣，2分鐘的語音需要用大約468000維的向量進行表示。第二步低維聲紋碼的生成采用最大期望算法(Expectation-MaximizationAlgorithm,EM)訓(xùn)練一個通用背景模型，得到高斯混合模型(Gaussian Mixture Model,GMM)的一組均值方差(認(rèn)為其與說話人和信道均無關(guān))；隨機產(chǎn)生一個39936X400的全因子空間初始矩陣(假設(shè)高斯數(shù)目為 1024，特征維數(shù)為39，全因子空間維度為400)；這兩部分初始值共同構(gòu)成本實施例的GMM模型總的參數(shù)初始值。E步驟(Expectation，期望步驟)對每段語音數(shù)據(jù)的每一幀計算相對通用背景模型中每個高斯的狀態(tài)占有率，每一幀數(shù)據(jù)直接分配其狀態(tài)占有率最大的高斯，得到零階、一階和二階統(tǒng)計量；對所有數(shù)據(jù)進行處理，根據(jù)全因子空間模型參數(shù)的初始值(或上一次迭代結(jié)果)和訓(xùn)練數(shù)據(jù)，估計出每一段語音的全因子向量的一階和二階統(tǒng)計量。M步驟(Maximization，最大化步驟)采用EM算法，對似然輔助函數(shù)式相應(yīng)的模型參數(shù)求微分，得到模型參數(shù)的更新公式；將E步驟得到的全因子相關(guān)統(tǒng)計量代入上述更新公式，得到更新的全因子空間。將上述更新得到的全因子空間矩陣作為E步驟中的參數(shù)初始值，按照最大似然準(zhǔn)則(Maximum Likelihood htimation，MLE)，進行空間迭代直至收斂，以擬合聲學(xué)特征在高維空間的概率密度分布，并聚類到預(yù)先規(guī)定的類數(shù)(本實施例為400類)，最后形成一個對這些大量數(shù)據(jù)的低維的全因子向量空間描述，由于該全因子向量空間是對前述集合中大量數(shù)據(jù)的整體描述，從而可推廣到所有的語音數(shù)據(jù)。將第一步中提取出的高維MFCC參數(shù)，通過上述全因子向量空間進行降維映射，將其投影到低維的全因子向量空間，得到一個低維聲紋碼(本實施例即為400維)。如此，就可以用一個400維的低維全因子向量來表示原始的468000維的高維特征向量。上述映射采用的具體方法請參閱Front-End Factor AnalysisFor Speaker Verification, Dehak, N.等，IEEE Transcations on Audio, Speechand Language Processing, November 2009( “說話人認(rèn)證中的前端因子分析”，作者戴哈克等，《IEEE音頻與語言處理匯刊》，2009 年11月)。第三步信道補償處理在第二步形成的低維全因子向量空間的基礎(chǔ)上，依次訓(xùn)練好類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣。對上述低維全因子空間依次采用類內(nèi)方差規(guī)整變換(消除信道或環(huán)境影響)和線性區(qū)分性分析(降維，同時消除信道或環(huán)境影響)，生成一個與信道環(huán)境無關(guān)的250維的聲紋碼。在訓(xùn)練階段，按照上述第一步至第三步的步驟，對每一段注冊語音生成一個250 維的聲紋碼，所有注冊語音的聲紋碼構(gòu)成了一個模型庫。在測試階段，待測說話人提供測試語音并表明身份，系統(tǒng)按照上述第一步至第三步的步驟提取測試語音的250維的聲紋碼，并調(diào)用模型庫中所聲明說話人的模型，然后進行以下第四步，認(rèn)證待測說話人是否是其所聲明的說話人。第四步余弦距離計算對注冊聲紋碼和測試聲紋碼進行余弦距離計算，計算公式為
權(quán)利要求
1.一種大規(guī)模聲紋認(rèn)證方法，包括步驟1)對原始語音信號進行預(yù)處理；其特征在于，還包括以下步驟2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù)；3)在大量語音數(shù)據(jù)和初始隨機因子空間的基礎(chǔ)上，訓(xùn)練一個低維的全因子空間；4)將步驟幻得到的聲學(xué)特征參數(shù)，通過步驟幻的全因子空間進行映射，生成低維的聲紋碼；5)根據(jù)注冊聲紋碼和測試聲紋碼，判決測試者的身份，該注冊聲紋碼和測試聲紋碼分別按照上述步驟1)至4)生成。
2.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法，其特征在于所述預(yù)處理包括對原始語音信號進行去直流、預(yù)加重、分幀和加窗處理。
3.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法，其特征在于所述步驟幻中的聲學(xué)特征參數(shù)為梅爾倒譜系數(shù)。
4.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法，其特征在于所述步驟3)的全因子空間的訓(xùn)練，采用高斯混合模型和最大期望算法，并按照最大似然準(zhǔn)則，通過空間迭代和聚類而完成。
5.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法，其特征在于，所述步驟幻之前，還包括步驟對步驟4)生成的聲紋碼進行信道補償處理，生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。
6.如權(quán)利要求5所述的大規(guī)模聲紋認(rèn)證方法，其特征在于，所述信道補償處理的步驟包括依次訓(xùn)練類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣；對步驟4)生成的低維聲紋碼依次進行內(nèi)方差規(guī)整變換和線性區(qū)分性分析。
7.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法，其特征在于，所述步驟幻進一步包括以下步驟 51)根據(jù)公式
8.一種實現(xiàn)權(quán)利要求1所述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)，包括有語音預(yù)處理模塊，用于對原始的語音信號進行預(yù)處理，其特征在于，還包括有聲學(xué)特征提取模塊，用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù)；低維聲紋碼生成模塊，用于在大量語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上，訓(xùn)練一個低維的全因子空間，將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進行降維映射，生成低維的聲紋碼；判決模塊，用于根據(jù)測試語音和注冊語音的低維聲紋碼，判決測試者的身份。
9.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng)，其特征在于還包括有信道補償模塊，用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素，并進一步降低該低維聲紋碼的維數(shù)。
10.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng)，其特征在于所述判決模塊包括有余弦距離計算模塊，用于根據(jù)測試聲紋碼和注冊聲紋碼，計算余弦距離。
全文摘要
本發(fā)明公開了一種大規(guī)模聲紋認(rèn)證方法，主要包括語音信號預(yù)處理、聲學(xué)特征參數(shù)提取、低維聲紋碼生成以及確認(rèn)判決等步驟。本發(fā)明還公開了一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。該認(rèn)證方法及其系統(tǒng)不僅具有較高的認(rèn)證效率，而且需要的模型存儲空間較少。認(rèn)證時，將全部待處理語音轉(zhuǎn)化為低維聲紋碼，通過在低維空間進行簡單的計算，并將計算得分與系統(tǒng)門限進行比較，實現(xiàn)聲紋碼的認(rèn)證，如此，不僅可提高認(rèn)證的效率，還可節(jié)約模型存儲的空間。
文檔編號G10L17/00GK102479511SQ20101055548
公開日2012年5月30日申請日期2010年11月23日優(yōu)先權(quán)日2010年11月23日
發(fā)明者李軼杰, 許東星, 黃偉申請人:盛樂信息技術(shù)(上海)有限公司

完整全部詳細(xì)技術(shù)資料下載