專利名稱:一種大規(guī)模聲紋認(rèn)證方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種大規(guī)模聲紋認(rèn)證方法,本發(fā)明還涉及一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。
背景技術(shù):
聲紋認(rèn)證是生物識別技術(shù)的一種,它通過提取語音波形中能夠反映說話人生理和行為特征的語音參數(shù),識別出說話人。在所有的識別任務(wù)中,訓(xùn)練環(huán)境和測試環(huán)境的差異是影響系統(tǒng)性能的決定性因素。由于現(xiàn)實環(huán)境的復(fù)雜性,大規(guī)模的聲紋認(rèn)證系統(tǒng)通常需要考慮很多影響因素,例如語種差異、信道差異、語音錄制麥克風(fēng)差異等等,因此,處理的任務(wù)非常復(fù)雜,同時,目前大多數(shù)的聲紋認(rèn)證算法都是采用概率統(tǒng)計的方法,這些算法以及技術(shù)解決方案普遍存在著復(fù)雜度高、處理時間長、對存儲和運算要求偏高的問題,例如,中國第CN200510061953. X號發(fā)明專利所公開的一種“基于內(nèi)嵌GMM核的支持向量機模型的說話人識別方法”,該方法產(chǎn)生的向量大約為幾千甚至上萬維,且需要通過支持向量機的模式識別工具,尤其沒有針對環(huán)境差異的信道補償技術(shù),因此,在存儲、效率和性能上都存在較大的缺陷,尤其是在對復(fù)雜環(huán)境的處理方面,該方法的缺陷更加明顯。由于上述問題的存在,限制了聲紋認(rèn)證技術(shù)應(yīng)用的范圍和規(guī)模。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種大規(guī)模聲紋認(rèn)證方法,它可以提高聲紋認(rèn)證的效率和在復(fù)雜環(huán)境下的認(rèn)證效果。為解決上述技術(shù)問題,本發(fā)明的大規(guī)模聲紋認(rèn)證方法,包括以下步驟1)對原始語音信號進行預(yù)處理;2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù);3)在大量語音數(shù)據(jù)和初始隨機因子空間的基礎(chǔ)上,訓(xùn)練一個低維的全因子空間;4)將步驟幻得到的聲學(xué)特征參數(shù),通過步驟幻的全因子空間進行映射,生成低維的聲紋碼;5)根據(jù)注冊聲紋碼和測試聲紋碼,判決測試者的身份,該注冊聲紋碼和測試聲紋碼分別按照上述步驟1)至4)生成。所述步驟3)的全因子空間的訓(xùn)練,采用高斯混合模型和最大期望算法,并按照最大似然準(zhǔn)則,通過空間迭代和聚類而完成。較佳的,在進行所述步驟幻之前,先對步驟4)生成的聲紋碼進行信道補償處理, 生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。本發(fā)明要解決的另一技術(shù)問題是提供一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng), 它認(rèn)證效率高,需要的模型存儲空間少,且在復(fù)雜環(huán)境下具有較好的性能。為解決上述技術(shù)問題,本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng),包括
語音預(yù)處理模塊,用于對原始的語音信號進行預(yù)處理;聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù);低維聲紋碼生成模塊,用于在大量語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上,訓(xùn)練一個低維的全因子空間,將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進行降維映射,生成低維的聲紋碼;判決模塊,用于根據(jù)測試語音和注冊語音的低維聲紋碼,判決測試者的身份。較佳的,該系統(tǒng)還包括有信道補償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并進一步降低該低維聲紋碼的維數(shù)。本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng)及方法,利用模式識別和統(tǒng)計學(xué)習(xí)的方法,將所有待處理的語音全部轉(zhuǎn)化為一個低維聲紋碼,然后在低維空間通過簡單的運算操作實現(xiàn)聲紋的認(rèn)證,從而極大地提高了認(rèn)證的效率,節(jié)約了存儲的空間,而在此基礎(chǔ)上進行的信道補償技術(shù),進一步消除了環(huán)境差異對系統(tǒng)性能的影響。
下面結(jié)合附圖與具體實施方式
對本發(fā)明作進一步詳細(xì)的說明圖1是本發(fā)明的聲紋認(rèn)證系統(tǒng)結(jié)構(gòu)示意圖;圖2是本發(fā)明生成低維聲紋碼的流程圖;圖3是本發(fā)明的聲紋認(rèn)證方法示意圖。
具體實施例方式為對本發(fā)明的技術(shù)內(nèi)容、特點與功效有更具體的了解,現(xiàn)結(jié)合附圖和具體實施例, 詳述如下如圖1所示,本發(fā)明較佳實施例的大規(guī)模聲紋認(rèn)證系統(tǒng),包括有語音預(yù)處理模塊,用于對原始的語音信號進行預(yù)處理。聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出能夠表征說話人信息的聲學(xué)特征參數(shù)。低維聲紋碼生成模塊,用于在大量經(jīng)過預(yù)處理的語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上,訓(xùn)練一個低維的全因子空間,將聲學(xué)特征提取模塊提取的大量高維聲學(xué)特征參數(shù)在該全因子空間中進行降維映射,生成低維的聲紋碼。信道補償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并對該低維聲紋碼進行再次降維,生成一個與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。判決模塊,包括有余弦距離計算模塊,該判決模塊用于根據(jù)由信道補償模塊生成的注冊聲紋碼和測試聲紋碼,計算余弦距離,與系統(tǒng)門限進行確認(rèn)判決。利用上述系統(tǒng)進行大規(guī)模聲紋認(rèn)證的方法請參閱圖2和3所示,具體包括以下步驟第一步語音預(yù)處理及聲學(xué)特征提取對說話人2分鐘的原始語音波形進行分析,提取出能夠表征說話人信息的底層聲學(xué)特征參數(shù)。本實施例采用的是39維的梅爾倒譜系數(shù)(MFCC),提取的步驟是首先,對語音信號進行去直流、預(yù)加重等預(yù)處理;然后,按照每10毫秒一幀,對語音信號進行分幀及加窗處理;抽取0 12維MFCC參數(shù),即共13維靜態(tài)特征,再通過一階差分和二階差分,總計構(gòu)成39維特征向量。這樣,2分鐘的語音需要用大約468000維的向量進行表示。第二步低維聲紋碼的生成采用最大期望算法(Expectation-MaximizationAlgorithm,EM)訓(xùn)練一個通用背景模型,得到高斯混合模型(Gaussian Mixture Model,GMM)的一組均值方差(認(rèn)為其與說話人和信道均無關(guān));隨機產(chǎn)生一個39936X400的全因子空間初始矩陣(假設(shè)高斯數(shù)目為 1024,特征維數(shù)為39,全因子空間維度為400);這兩部分初始值共同構(gòu)成本實施例的GMM模型總的參數(shù)初始值。E步驟(Expectation,期望步驟)對每段語音數(shù)據(jù)的每一幀計算相對通用背景模型中每個高斯的狀態(tài)占有率,每一幀數(shù)據(jù)直接分配其狀態(tài)占有率最大的高斯,得到零階、一階和二階統(tǒng)計量;對所有數(shù)據(jù)進行處理,根據(jù)全因子空間模型參數(shù)的初始值(或上一次迭代結(jié)果)和訓(xùn)練數(shù)據(jù),估計出每一段語音的全因子向量的一階和二階統(tǒng)計量。M步驟(Maximization,最大化步驟)采用EM算法,對似然輔助函數(shù)式相應(yīng)的模型參數(shù)求微分,得到模型參數(shù)的更新公式;將E步驟得到的全因子相關(guān)統(tǒng)計量代入上述更新公式,得到更新的全因子空間。將上述更新得到的全因子空間矩陣作為E步驟中的參數(shù)初始值,按照最大似然準(zhǔn)則(Maximum Likelihood htimation,MLE),進行空間迭代直至收斂,以擬合聲學(xué)特征在高維空間的概率密度分布,并聚類到預(yù)先規(guī)定的類數(shù)(本實施例為400類),最后形成一個對這些大量數(shù)據(jù)的低維的全因子向量空間描述,由于該全因子向量空間是對前述集合中大量數(shù)據(jù)的整體描述,從而可推廣到所有的語音數(shù)據(jù)。將第一步中提取出的高維MFCC參數(shù),通過上述全因子向量空間進行降維映射,將其投影到低維的全因子向量空間,得到一個低維聲紋碼(本實施例即為400維)。如此, 就可以用一個400維的低維全因子向量來表示原始的468000維的高維特征向量。上述映射采用的具體方法請參閱Front-End Factor AnalysisFor Speaker Verification, Dehak, N.等,IEEE Transcations on Audio, Speechand Language Processing, November 2009( “說話人認(rèn)證中的前端因子分析”,作者戴哈克等,《IEEE音頻與語言處理匯刊》,2009 年11月)。第三步信道補償處理在第二步形成的低維全因子向量空間的基礎(chǔ)上,依次訓(xùn)練好類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣。對上述低維全因子空間依次采用類內(nèi)方差規(guī)整變換(消除信道或環(huán)境影響)和線性區(qū)分性分析(降維,同時消除信道或環(huán)境影響),生成一個與信道環(huán)境無關(guān)的250維的聲紋碼。在訓(xùn)練階段,按照上述第一步至第三步的步驟,對每一段注冊語音生成一個250 維的聲紋碼,所有注冊語音的聲紋碼構(gòu)成了一個模型庫。在測試階段,待測說話人提供測試語音并表明身份,系統(tǒng)按照上述第一步至第三步的步驟提取測試語音的250維的聲紋碼,并調(diào)用模型庫中所聲明說話人的模型,然后進行以下第四步,認(rèn)證待測說話人是否是其所聲明的說話人。第四步余弦距離計算對注冊聲紋碼和測試聲紋碼進行余弦距離計算,計算公式為
權(quán)利要求
1.一種大規(guī)模聲紋認(rèn)證方法,包括步驟1)對原始語音信號進行預(yù)處理;其特征在于, 還包括以下步驟2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù);3)在大量語音數(shù)據(jù)和初始隨機因子空間的基礎(chǔ)上,訓(xùn)練一個低維的全因子空間;4)將步驟幻得到的聲學(xué)特征參數(shù),通過步驟幻的全因子空間進行映射,生成低維的聲紋碼;5)根據(jù)注冊聲紋碼和測試聲紋碼,判決測試者的身份,該注冊聲紋碼和測試聲紋碼分別按照上述步驟1)至4)生成。
2.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述預(yù)處理包括對原始語音信號進行去直流、預(yù)加重、分幀和加窗處理。
3.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述步驟幻中的聲學(xué)特征參數(shù)為梅爾倒譜系數(shù)。
4.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述步驟3)的全因子空間的訓(xùn)練,采用高斯混合模型和最大期望算法,并按照最大似然準(zhǔn)則,通過空間迭代和聚類而完成。
5.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述步驟幻之前,還包括步驟對步驟4)生成的聲紋碼進行信道補償處理,生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。
6.如權(quán)利要求5所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述信道補償處理的步驟包括依次訓(xùn)練類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣;對步驟4)生成的低維聲紋碼依次進行內(nèi)方差規(guī)整變換和線性區(qū)分性分析。
7.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述步驟幻進一步包括以下步驟 51)根據(jù)公式
8.一種實現(xiàn)權(quán)利要求1所述方法的大規(guī)模聲紋認(rèn)證系統(tǒng),包括有語音預(yù)處理模塊,用于對原始的語音信號進行預(yù)處理,其特征在于,還包括有聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù);低維聲紋碼生成模塊,用于在大量語音數(shù)據(jù)及初始隨機因子空間的基礎(chǔ)上,訓(xùn)練一個低維的全因子空間,將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進行降維映射,生成低維的聲紋碼;判決模塊,用于根據(jù)測試語音和注冊語音的低維聲紋碼,判決測試者的身份。
9.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng),其特征在于還包括有信道補償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并進一步降低該低維聲紋碼的維數(shù)。
10.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng),其特征在于所述判決模塊包括有余弦距離計算模塊,用于根據(jù)測試聲紋碼和注冊聲紋碼,計算余弦距離。
全文摘要
本發(fā)明公開了一種大規(guī)模聲紋認(rèn)證方法,主要包括語音信號預(yù)處理、聲學(xué)特征參數(shù)提取、低維聲紋碼生成以及確認(rèn)判決等步驟。本發(fā)明還公開了一種實現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。該認(rèn)證方法及其系統(tǒng)不僅具有較高的認(rèn)證效率,而且需要的模型存儲空間較少。認(rèn)證時,將全部待處理語音轉(zhuǎn)化為低維聲紋碼,通過在低維空間進行簡單的計算,并將計算得分與系統(tǒng)門限進行比較,實現(xiàn)聲紋碼的認(rèn)證,如此,不僅可提高認(rèn)證的效率,還可節(jié)約模型存儲的空間。
文檔編號G10L17/00GK102479511SQ20101055548
公開日2012年5月30日 申請日期2010年11月23日 優(yōu)先權(quán)日2010年11月23日
發(fā)明者李軼杰, 許東星, 黃偉 申請人:盛樂信息技術(shù)(上海)有限公司