本發(fā)明涉及一個基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng),屬于人機語音交互
技術領域:
。
背景技術:
:聲紋識別技術屬于生物驗證技術的一種,采用語音對說話人身份進行驗證,即確認某段語音是否是指定的某個人說的。這種技術具有較好的便捷性和安全性,在銀行、社保、公安、智能家居、移動支付等領域都有巨大應用前景。但在實際應用中,傳統(tǒng)的聲紋識別系統(tǒng)面臨著信道失配的問題,即說話人注冊和測試時使用不同的移動設備,導致聲紋識別系統(tǒng)的性能下降,識別準確率下降。因此,為解決移動設備環(huán)境下的信道失配問題,本發(fā)明提出基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)。本發(fā)明采用深度置信網(wǎng)絡(DBN)提取說話人特征。現(xiàn)存的很多聲紋識別系統(tǒng)仍然采用著語音識別中的特征如MFCC特征、PLP特征等,這些底層聲學特征中主要的信息是發(fā)音文本特征,說話人信息很容易受到文本信息、信道和噪聲信息的干擾,這些特征不能很好的體現(xiàn)說話人的特點,同時在信道失配條件下,系統(tǒng)的識別性能下降,從而制約了聲紋識別技術的應用。信道失配指的是訓練與測試時采集語音的信道不同,圍繞這一問題,Kenny提出了聯(lián)合因子分析(JointFactorAnalysis,JFA)技術為信道失配環(huán)境下的聲紋識別研究開辟了新思路,其主要思想是將說話人高斯均值超矢量所在空間劃分為三個組成部分:本征信道(Eigenchannel)空間、本征音(Eigenvoice)空間和殘差(DiagonalResidual)空間,通過移除說話人均值超矢量在本征信道空間的影響,來達到抗信道失配的目的。然而,在各種信道下訓練數(shù)據(jù)不均衡時,JFA技術存在明顯不足。之后Dehak提出基于i-vector技術,這一建模方法的動機來源于JFA建模后的信道因子不僅包含了信道效應也夾雜了說話人信息。I-vector方法采用一個全局差異空間(TotalVariabilitySpace)來代替這兩個空間,它既包含了說話人之間的差異也包含了信道之間的差異?;趇-vector技術的聲紋識別系統(tǒng)能較好的反映說話人特性,是聲紋識別的主流技術之一,但其在信道失配條件下性能一般。深度學習作為近幾年新興的機器學習技術,在多種特定的模式識別任務上取得了顯著的效果。深度神經(jīng)網(wǎng)絡的一個常見應用是特征提取,相比傳統(tǒng)手工提取的特征,深度神經(jīng)網(wǎng)絡提取的特征能更好地表征高層次抽象信息。深度置信網(wǎng)絡(DeepBeliefNetwork,DBN)由GeoffreyHinton在2006年提出,是一種生成模型,通過訓練神經(jīng)元之間的權重,可讓整個神經(jīng)網(wǎng)絡按照最大概率來生成訓練數(shù)據(jù)。深度置信網(wǎng)絡(DBN)由多層受限玻爾茲曼機(RBMs)堆疊而成。通常,深度置信網(wǎng)絡(DBN)主要用于對一維數(shù)據(jù)的建模比較有效,例如語音。受深度學習中深度置信網(wǎng)絡在語音識別成功應用的啟發(fā),本發(fā)明通過利用大量不同信道的語音數(shù)據(jù)和相對應的說話人身份編號對深度置信網(wǎng)絡(DBN)進行有監(jiān)督的訓練,通過訓練好的深度置信網(wǎng)絡(DBN)對說話人語音特征進行提取。為了測量神經(jīng)網(wǎng)絡不同隱含層輸出的區(qū)分度,提出了一個判別比值來選擇區(qū)分度最好的輸出用于構成信道魯棒的說話人特征矢量。同時采用3個中文語音數(shù)據(jù)庫驗證了相比傳統(tǒng)的i-vector系統(tǒng),基于深度置信信念網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)具有更強的信道魯棒特性。技術實現(xiàn)要素:基于對上述現(xiàn)有技術的分析,本發(fā)明的目的是基于中文的面向移動設備的聲紋識別,構造在實際應用中基于深度學習的、對信道魯棒的面向移動設備的聲紋識別系統(tǒng),本系統(tǒng)采用深度置信網(wǎng)絡(DBN)提取說話人語音特征,并提出了一個判別比值Rp用于測量神經(jīng)網(wǎng)絡不同隱含層輸出的區(qū)分度并選擇區(qū)分度最好的特征,從而提高了聲紋識別系統(tǒng)的信道魯棒性。系統(tǒng)包括如下模塊:語音采集及預處理模塊,用于采集所述說話人的語音信號,并對語音信號進行預處理;原始譜特征提取模塊,用于對預處理后的語音進行原始譜特征MFCC提?。簧疃戎眯啪W(wǎng)絡訓練模塊,用于有監(jiān)督訓練一個信道魯棒的特征矢量提取器;說話人聲紋特征矢量提取模塊,利用所述訓練好的深度置信網(wǎng)絡進行信道魯棒的說話人聲紋特征矢量提取;說話人聲學模型生成模塊,根據(jù)提取的所述說話人聲紋特征矢量,對所述說話人進行聲學建模;說話人身份鑒定模塊,將待測試說話人的所述聲學模型與注冊說話人的所述聲學模型進行比較評分,確定待測試說話人的身份。進一步地,所述語音采集及預處理模塊用于對采集的語音信號進行放大、增益控制、濾波及采樣等預處理。進一步地,所述原始譜特征提取模塊包括:對預處理后的語音進行分幀、預加重、加窗、快速傅里葉變換,最后進行梅爾倒譜系數(shù)MFCC的提取。進一步地,所述深度置信網(wǎng)絡訓練模塊,以通過大量不同信道下的語料提取出的MFCC特征作為輸入,以相應的說話人身份編號(ID)作為輸出,對深度置信網(wǎng)絡進行有監(jiān)督的訓練,并保存訓練好的深度置信網(wǎng)絡各層參數(shù)。進一步地,所述說話人聲紋特征矢量提取模塊,將深度置信網(wǎng)絡看做一個特征矢量提取器,以MFCC作為深度置信網(wǎng)絡的輸入,深度置信網(wǎng)絡的隱含層輸出可以看成是對原始MFCC特征的高層表示(深度特征),這些特征矢量具有信道魯棒的特點。進一步地,提出了一種神經(jīng)網(wǎng)絡不同隱含層所提取深度特征的區(qū)分度測量方法,定義判別比值Rp=det(Sbp)/det(Swp),作為深度特征區(qū)分度的度量,其中Sbp是訓練數(shù)據(jù)類間散度矩陣,Swp是訓練數(shù)據(jù)類內散度矩陣,其定義如下:其中smj是MFCC特征,fp(·)是深度置信網(wǎng)絡對MFCC輸入到第p個隱含層輸出的映射,Gpm是訓練數(shù)據(jù)類均值向量,Gp是所有訓練數(shù)據(jù)的均值向量,數(shù)學表示如下:類間距離大和類內距離最小有利于所提取的特征矢量的可區(qū)分性。因此,判別比值Rp最大的隱含層特征矢量最具區(qū)分性,即確定滿足k=argmaxpRp的隱含層的輸出作為最佳深度特征。利用所述說話人的深度置信網(wǎng)絡第k層深度特征fk(smj),則可以得到特征矢量kth-DBN-vector,其定義為其中m是說話人身份編號,cm是每句話提取出MFCC的幀長,Np是深度置信網(wǎng)絡第p個隱含層的維數(shù)。進一步地,所述說話人聲學建模模塊,利用所述說話人的特征矢量kth-DBN-vector進行概率線性判別分析(PLDA)建模,并保存PLDA模型參數(shù)。進一步地,所述說話人身份鑒定模塊,根據(jù)訓練好的深度置信網(wǎng)絡,可以首先提取出注冊人和測試人的kth-DBN-vector。然后基于訓練好的PLDA模型,得到對數(shù)似然比值得分s,最后將得分與給定的閾值s0進行比較,若s≥s0,則認為測試人是注冊人,否則不是。本發(fā)明的有益效果在于:隨著移動設備的普及,用戶會在不同的移動設備間利用聲紋識別進行身份驗證,這就帶來了注冊語音和測試語音的信道失配問題,而傳統(tǒng)的基于i-vector技術的聲紋識別系統(tǒng)在信道失配情況下系統(tǒng)性能一般。深度置信網(wǎng)絡作為一種深度網(wǎng)絡,具有很強的學習能力,在語音識別等領域具有廣泛的應用。通過利用大量不同信道的語音數(shù)據(jù)對深度置信網(wǎng)絡進行訓練,訓練好的深度置信網(wǎng)絡可以提取出對信道魯棒的說話人特征,從而減小信道失配的影響。因此,基于深度置信網(wǎng)絡(DBN)的聲紋識別系統(tǒng)能對信道失配有較好的魯棒性,能夠跨設備、跨平臺部署,在保證系統(tǒng)驗證準確性的同時,為用戶在不同移動設備使用聲紋識別服務提供便利。附圖說明圖1是本發(fā)明實施例所述的基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)的結構示意圖;圖2.是本發(fā)明實施例所述的深度置信網(wǎng)絡(DBN)結構示意圖。具體實施方式以下結合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明所述的基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng),考慮利用大量不同信道的語料和對應的說話人身份編號(ID),對深度置信網(wǎng)絡進行有監(jiān)督的訓練,因此利用訓練好的深度置信網(wǎng)絡提取出的特征矢量具有對信道魯棒的特點,從而提高聲紋識別系統(tǒng)在信道失配情況下的準確率。具體步驟如下,并且結合附圖1的本發(fā)明系統(tǒng)的結構示意圖:S01:語音采集及預處理模塊;首先獲取語音數(shù)據(jù),并對語音信號進行放大、增益控制、濾波及采樣等預處理。S02:原始譜特征提取模塊;其中包括對預處理后的語音進行分幀、預加重、加窗、快速傅里葉變換,最后進行梅爾倒譜系數(shù)MFCC的提取。S03:深度置信網(wǎng)絡訓練模塊;假設說話人每句話提取出的MFCC特征表示為m(1≤m≤M)是說話人身份編號,L是每幀MFCC的長度,cm是幀數(shù)。以MFCC作為輸入,對應的說話人身份編號作為輸出,可以利用訓練數(shù)據(jù){smj,m,j=1,2,…,cm,m=1,2,…,M}對深度置信網(wǎng)絡進行有監(jiān)督的訓練,并保存訓練好的深度置信網(wǎng)絡各層參數(shù)。其中深度置信網(wǎng)絡的結構示意圖如附圖2所示。S04:說話人聲紋特征矢量提取模塊;將深度置信網(wǎng)絡看做一個特征矢量提取器,以MFCC作為深度置信網(wǎng)絡的輸入,深度置信網(wǎng)絡的隱含層輸出可以看成是對原始MFCC特征的高層表示(特征矢量)。定義函數(shù)為深度置信網(wǎng)絡從輸入到第p個隱含層輸出的映射,則可以得到特深度特征:{fp(smj),p=1,2,…,P}。為了測量神經(jīng)網(wǎng)絡不同隱含層所提取特征矢量的區(qū)分度,定義判別比值Rp=det(Sbp)/det(Swp),作為深度特征區(qū)分度的度量,其中Sbp是訓練數(shù)據(jù)類間散度矩陣,Swp是訓練數(shù)據(jù)類內散度矩陣,其定義如下:其中smj是MFCC特征,fp(·)是深度置信網(wǎng)絡對MFCC輸入到第p個隱含層輸出的映射,Gpm是訓練數(shù)據(jù)類均值向量,Gp是所有訓練數(shù)據(jù)的均值向量,數(shù)學表示如下:類間距離大和類內距離最小有利于所提取的特征矢量的可區(qū)分性。因此,判別比值Rp最大的隱含層特征矢量最具區(qū)分性,即確定滿足k=argmaxpRp的隱含層的輸出作為最佳深度特征。S05:說話人聲學模型生成模塊;利用所述說話人的深度置信網(wǎng)絡第k層深度特征fk(smj),則可以得到特征矢量kth-DBN-vector,其定義為其中m是說話人身份編號,cm是每句話提取出MFCC的幀長,Np是深度置信網(wǎng)絡第p個隱含層的維數(shù)。最后利用特征矢量kth-DBN-vector進行概率線性判別分析(PLDA)建模,并保存PLDA模型參數(shù)。S06:說話人身份鑒定模塊;具體步驟為:(1)首先對注冊人的語音進行采集及預處理,并提取原始譜MFCC特征,再利用訓練好的深度置信網(wǎng)絡提取出注冊人的特征矢量kth-DBN-vector;(2)對測試人的語音進行采集及預處理,并提取原始譜MFCC特征,再利用訓練好的深度置信網(wǎng)絡提取出注冊人的特征矢量kth-DBN-vector;(3)利用注冊人和說話人的kth-DBN-vector,基于訓練好的PLDA模型可以得到對數(shù)似然比值得分s,最后將得分與給定的閾值s0進行比較,若s≥s0,則認為測試人是注冊人,否則不是。表一選用數(shù)據(jù)庫詳細信息表二數(shù)據(jù)庫分配表三實驗參數(shù)設置在實際實驗過程中,首先選用實驗數(shù)據(jù)庫,數(shù)據(jù)庫均為中文語料,其詳細信息如表一所示。其中MTDSR2015數(shù)據(jù)庫由北京大學現(xiàn)代信號與數(shù)據(jù)處理實驗室錄制,THCHS-30數(shù)據(jù)庫由清華大學錄制,King-ASR-L-018數(shù)據(jù)庫由海天瑞聲公司發(fā)布。實驗中對上述數(shù)據(jù)庫的分配如表二所示,其中bkg數(shù)據(jù)用于全局背景模型(UBM)、全局差異矩陣T,PLDA模型的訓練,bkg數(shù)據(jù)和dev中的PartI數(shù)據(jù)用于深度置信網(wǎng)絡的訓練,dev中的PartII數(shù)據(jù)用于注冊,eva數(shù)據(jù)用于測試。然后設置實驗參數(shù),如表三所示,本發(fā)明的基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)為DBN-vector,基線算法選用的是i-vector,算法性能評價指標是等錯誤率(EER)和最小檢測代價函數(shù)(minDCF)。最終的實驗結果和分析:利用bkg數(shù)據(jù)和dev中PartI數(shù)據(jù),可以訓練得到一個深度置信網(wǎng)絡。通過對深度置信網(wǎng)絡各個隱含層輸出進行分析,可以得到各個隱含層的判別比值,如表四所示。從表四種可以發(fā)現(xiàn),深度置信網(wǎng)絡第4個隱含層的判別比值最大,說明第四個隱含層的深度特征f4(smj)具有最好的區(qū)分性,從而選取f4(smj)最為最佳深度特征。隱含層索引p=1p=2p=3p=4判別比值Rp0.470.721.031.34表四深度置信網(wǎng)絡不同隱含層的判別比值表五不同信道失配情況下i-vector系統(tǒng)和4th-DBN-vector系統(tǒng)性能比較考慮信道失配情況下的系統(tǒng)性能,表五給出了不同信道失配情況下我們發(fā)明的系統(tǒng)以及i-vector系統(tǒng)的性能表現(xiàn),其中a代表HUAWEImate7,b代表XM4,c代表SamsungNote3,d代表iPhone5C。以a-b為例,a-b表示注冊階段使用HUAWEImate7信道進行語音信號采集,測試階段使用XM4信號進行語音信號采集。根據(jù)表四,我們選擇深度置信網(wǎng)絡第四個隱含層的特征矢量4th-DBN-vector。從表五中可以看出,在每種信道失配情況下,基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)(4th-DBN-vector)不管從等錯誤率EER或者最小檢測代價函數(shù)minDCF都要遠小于傳統(tǒng)的i-vector系統(tǒng),且4th-DBN-vector系統(tǒng)的等錯誤率EER均小于0.9%,最小檢測代價函數(shù)均小于0.8,說明了基于深度置信網(wǎng)絡特征矢量的信道魯棒聲紋識別系統(tǒng)在信道失配情況下對說話人身份鑒定的準確率要好于i-vector系統(tǒng)。以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,故凡是未脫離本發(fā)明技術方案內容,依據(jù)本發(fā)明的技術實質對以上實施例所作的任何修改、等同變化與修飾,均仍屬于本發(fā)明技術方案的范圍內。當前第1頁1 2 3