一種說話人識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音數(shù)據(jù)中說話人信息的識(shí)別方法,更具體地說,本發(fā)明涉及一種基 于局部線性鑒別分析的說話人識(shí)別方法。
【背景技術(shù)】
[0002] 隨著現(xiàn)代社會(huì)信息的全球化,說話人識(shí)別已經(jīng)成為語音識(shí)別技術(shù)研究熱點(diǎn)之一。 說話人識(shí)別技術(shù)是身份驗(yàn)證技術(shù)一生物特征識(shí)別技術(shù)的一種,與其他身份驗(yàn)證技術(shù)相 t匕,說話人識(shí)別更加方便、自然,且具有比較低的用戶侵犯性。說話人識(shí)別任務(wù)根據(jù)實(shí)際應(yīng) 用的類型不同,可以分為說話人辨認(rèn)和說話人確認(rèn)。其中,說話人辨認(rèn)在全部目標(biāo)說話人的 范圍內(nèi)進(jìn)行,其性能與目標(biāo)人數(shù)目有關(guān),隨著人數(shù)的增加性能逐步下降。與此同時(shí),在實(shí)際 應(yīng)用中往往需要處理大量的語音數(shù)據(jù),速度成為需要考慮的因素之一。如何利用有限的訓(xùn) 練數(shù)據(jù),訓(xùn)練具有說話人鑒別性的模型,并快速準(zhǔn)確地識(shí)別出語音中說話人信息的說話人 識(shí)別技術(shù)成為一個(gè)研究重點(diǎn)。
[0003] 文獻(xiàn)[1] (D. A. Reynolds, T. F. Quatieri, R. B. Dunn. Speaker verification using adapted gaussian mixture models.Digital Signal Processing, 2000, 10(1 - 3) : 19-41.)指出,對(duì)于各語種各信道下語音數(shù)據(jù)的聲學(xué)譜特征, 通過采用高斯混合-通用模型進(jìn)行建模,然后針對(duì)每一句語音計(jì)算在其上面的后驗(yàn)統(tǒng)計(jì) 量,通過自適應(yīng)得到一個(gè)說話人相關(guān)的高斯混合-通用模型,該模型可以有效識(shí)別語音數(shù) 據(jù)中的說話人信息。基于高斯混合-通用模型可以計(jì)算出語音數(shù)據(jù)的總變化因子。
[0004] 目前,總變化因子技術(shù)已廣泛的應(yīng)用于說話人識(shí)別技術(shù)中。然而,由于信道,背景, 語言,感情,年齡,健康等因素的影響,總變化因子的分布常常表現(xiàn)出多模態(tài)特性,甚至可能 出現(xiàn)異常值。文獻(xiàn)[2] (N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, P. Ouellet. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech and Language Processing,2011,19(4) :788-798.)提出:對(duì)總變化因子使用類內(nèi)協(xié)方差規(guī)整技 術(shù)和線性鑒別分析降維技術(shù)可以有效的補(bǔ)償信道損失并加入鑒別性信息。但線性鑒別分析 技術(shù)對(duì)總變化因子的信道損失補(bǔ)償是有限的,無法有效地處理上述問題。
[0005] 文獻(xiàn)[3](Kim,Tae-Kyun and Kittlerj Josef. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image. IEEE Transactions on Pattern Analysis and Machine intelligen ce,2005, 27 (3) :318-327.)提出了局部線性鑒別分析技術(shù)(線性鑒別分析技術(shù)是高斯數(shù)目 為1時(shí)的特例),這個(gè)技術(shù)已成功有效地應(yīng)用在人臉識(shí)別上。在傳統(tǒng)的說話人識(shí)別系統(tǒng)中, 由于語音數(shù)據(jù)的維度很高,導(dǎo)致計(jì)算量加大,內(nèi)存的需求急劇上升,導(dǎo)致局部線性鑒別分析 技術(shù)無法應(yīng)用到說話人識(shí)別中。
[0006] 由于總變化因子技術(shù)的出現(xiàn),一段語音可以用低維的特征矢量表示(通常在 400-600維),這為局部線性鑒別分析技術(shù)應(yīng)用在說話人識(shí)別上提供了幫助。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于克服現(xiàn)有說話人識(shí)別方法中總變化因子存在整體分布上表現(xiàn) 為多模態(tài);且受信道、語言等影響可能出現(xiàn)異常值的缺陷,從而提供一種可以有效提升說話 人識(shí)別系統(tǒng)的識(shí)別性能和速度的方法。
[0008] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于局部線性鑒別分析的說話人識(shí)別方法。 首先生成說話人識(shí)別模型,說話人識(shí)別模型生成方法包括如下步驟:
[0009] 步驟1-1),采集一定數(shù)量的目標(biāo)說話人語音數(shù)據(jù)和大量背景語音數(shù)據(jù),提取語音 聲學(xué)譜特征;
[0010] 步驟1-2),利用一部分背景語音的聲學(xué)譜特征訓(xùn)練第一高斯混合-通用背景模 型;
[0011] 步驟1-3),在第一高斯混合-通用背景模型上計(jì)算出背景語音和目標(biāo)說話人語音 的聲學(xué)譜特征所對(duì)應(yīng)的后驗(yàn)統(tǒng)計(jì)量;
[0012] 步驟1-4),利用背景語音的后驗(yàn)統(tǒng)計(jì)量訓(xùn)練得到一個(gè)總變化因子空間,在該空間 上將背景語音和目標(biāo)說話人語音的后驗(yàn)統(tǒng)計(jì)量映射為一個(gè)總變化因子;
[0013] 步驟1-5),在總變化因子空間訓(xùn)練得到第二高斯混合-通用背景模型,然后計(jì)算 出目標(biāo)說話人語音的總變化因子在各個(gè)高斯分量上的后驗(yàn)概率;
[0014] 若某條語音數(shù)據(jù)對(duì)應(yīng)的總變化因子為X,假設(shè)其維數(shù)為d,那么用于計(jì)算其似然函 數(shù)的高斯混合-通用背景模型定義為公式:
[0016] 該密度函數(shù)由M個(gè)單高斯密度函數(shù)P1 (X)加權(quán)得到,每一個(gè)高斯分量由d維的均 值μ i和dX d維的協(xié)方差Σ i構(gòu)成,如公式:
[0018] 其中混合權(quán)重Wi滿力
λ為模型參數(shù)的集合λ = {Wi, μ ;,Σ; I i = 1,…,Μ},該模型通過期望最大化(EM)迭代訓(xùn)練得到。
[0019] 對(duì)于一個(gè)總變化因子X,其后驗(yàn)概率計(jì)算如下公式:
[0021] 步驟1-6),利用步驟1-4)得到的總變化因子以及步驟1-5)得到的對(duì)應(yīng)的后驗(yàn)概 率,訓(xùn)練一個(gè)局部線性轉(zhuǎn)換矩陣,由此生成局部線性鑒別分析模型;
[0022] 假設(shè)有總變化因子數(shù)據(jù)集合X = Ix1, x2, ...,xn}分別屬于C個(gè)目標(biāo)說話人 (X1, X2, ...,XJ,定義如下局部線性變換:
[0024] 其中,μ k表示第k個(gè)聚類中心的均值:
[0026] 局部線性轉(zhuǎn)換矩陣Uk = [ukl,uk2,…ukl](其中I < d)滿足目標(biāo)函懲
取 最大值。其中,g和r分別表示在局部線性變換空間中的類間協(xié)方差和類內(nèi)協(xié)方差矩陣。 所有總變化因子的全局均值為:
[0028] 第c個(gè)說話人包含η。個(gè)總變化因子,η。是第c個(gè)目標(biāo)說話人的語句個(gè)數(shù),其均值 定義為:
[0031] 根據(jù)公式(6)、(7)和(8),類間協(xié)方差矩陣表示如:
[0041] 學(xué)習(xí)算法流程如下:
[0042] 隨機(jī)初始化M個(gè)矩陣U1,…,Um ;
[0043] 令P為索引,依次從1到1學(xué)習(xí) ukp, k = 1,"·,Μ
[0044] ①計(jì)算目標(biāo)函數(shù)對(duì)各個(gè)變量Ukp的梯度:
[0046] ②更新映射矩陣,η表征學(xué)習(xí)的速率
[0052] 重復(fù)步驟①~④,至算法收斂到一個(gè)穩(wěn)定點(diǎn),令ρ: = ρ+1返回步驟①執(zhí)行。
[0053] 步驟1-7),生成說話人識(shí)別模型,包括:第一高斯混合-通用背景模型、總變化因 子空間、第二高斯混合-通用背景模型,局部線性鑒別分析模型。
[0054] 本發(fā)明提供的一種說話人識(shí)別方法,該方法基于上述技術(shù)方案生成的說話人識(shí)別 模型,包括如下步驟:
[0055] 步驟2-1),提取待識(shí)別語音的聲學(xué)譜特征;
[0056] 步驟2-2),在步驟1-2)訓(xùn)練得到的高斯混合-通用背景模型上計(jì)算出待識(shí)別語音 聲學(xué)譜特征的后驗(yàn)統(tǒng)計(jì)量,
[0057] 步驟2-3),在步驟1-4)訓(xùn)練得到的總變化因子空間上將后驗(yàn)統(tǒng)計(jì)量映射為一個(gè) 總變化因子;
[0058] 步驟2-4),在步驟1-5)訓(xùn)練得到的高斯混合-通用背景模型上計(jì)算出總變化因子 在各個(gè)高斯分量上的后驗(yàn)概率,
[0059] 步驟2-5),在步驟1-6)得到的局部線性鑒別分析模型上將待識(shí)別語音的總變化 因子進(jìn)行變換,得到維數(shù)更低的矢量,輸入后端識(shí)別器輸出識(shí)別結(jié)果。
[0060] 本發(fā)明的優(yōu)點(diǎn)在于:
[0061] 1、該方法優(yōu)于基于傳統(tǒng)的線性鑒別分析的說話人識(shí)別方法;
[0062] 2、在僅依靠少量訓(xùn)練數(shù)據(jù)前提下,提高說話人識(shí)別系統(tǒng)的識(shí)別性能;
[0063] 3、提高說話人識(shí)別系統(tǒng)的識(shí)別速度;
【附圖說明】
[0064] 圖1是一種說話人識(shí)別模型生成方法的流程框圖;
[0065] 圖2是一種說話人識(shí)別方法的實(shí)施流程框圖。
【具體實(shí)施方式】
[0066] 現(xiàn)結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)描述:
[0067] 參考圖1,一種說話人識(shí)別模型生成方法的流程包括:
[0068] 步驟1-1),采集一定數(shù)量的背景語音數(shù)據(jù)和目標(biāo)說話人語音數(shù)據(jù)作為訓(xùn)練語音數(shù) 據(jù),從所述訓(xùn)練語音數(shù)據(jù)中提取聲學(xué)譜特征;該步驟包括:
[0069] 對(duì)所述步驟1-1)的訓(xùn)練語音數(shù)據(jù)做前端處理,所述訓(xùn)練語音數(shù)據(jù)前端處理包括 對(duì)訓(xùn)練數(shù)據(jù)切除靜音、音樂等無效語音,保留有效語音;然后從經(jīng)過前端處理的訓(xùn)練語音數(shù) 據(jù)中提取通用的美爾倒譜特征(MFCC),并對(duì)該特征進(jìn)行動(dòng)態(tài)擴(kuò)展得到二階差分倒譜特征, 由此訓(xùn)練語音數(shù)據(jù)的每一幀包括60維特征向量,這些特征向量就是訓(xùn)練語音數(shù)據(jù)的聲學(xué) 譜特征。
[0070] 步驟1-2),利用一部分背景語音的聲學(xué)譜特征訓(xùn)練第一高斯混合-通用背景模 型。
[0071] 訓(xùn)練高斯混合-通用背景模型時(shí)可采用最大似然估計(jì),目標(biāo)函數(shù)L為所有背景數(shù) 據(jù)對(duì)數(shù)似然之和。高斯混合-通用背景模型的協(xié)方差為對(duì)角協(xié)方差,高斯數(shù)為256 :
[0073] Ff表示第f幀特征,λ表示模型參數(shù)。
[0074] 步驟1-3),在第一高斯混合-通用背景模型上計(jì)算出背景語音和目標(biāo)說話人語音 的聲學(xué)譜