一種基于隨機映射直方圖模型的文本無關(guān)說話人鑒別裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種基于隨機映射直方圖模型的文本無關(guān)說話人鑒別方法。該方法包括如下步驟:特征提取步驟:將非歸一化遞增的線譜頻率特征變換歸一化的差分線譜頻率特征并將相鄰幀的差分線譜頻率特征進行組合生成復(fù)合差分線譜頻率特征以表達信號的動態(tài)特性。模型訓(xùn)練步驟:根據(jù)復(fù)合差分線譜頻率特征的分布特點設(shè)計隨機映射參數(shù),對訓(xùn)練數(shù)據(jù)集進行隨機映射并通過計算平均直方圖來構(gòu)建概率模型。鑒別步驟:對待鑒別人的語音信號按照步驟一提取特征后輸入到步驟二訓(xùn)練得到的模型中,計算針對每個概率模型的似然值,獲取最大似然值,確認說話人編號。利用本發(fā)明實施例,能夠提高文本無關(guān)的說話人鑒別率,具有很大的實用價值。
【專利說明】一種基于隨機映射直方圖模型的文本無關(guān)說話人鑒別裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于音頻處理領(lǐng)域著重描述了一種基于隨機映射直方圖模型的文本無關(guān)說話人鑒別裝置。
【背景技術(shù)】
[0002]說話人識別是計算機利用語音片段中所包含的能夠反映說話人特征的信息來鑒定說話人身份的技術(shù),該技術(shù)在信息安全,遠程身份認證等領(lǐng)域具有非常重要的研究及應(yīng)用價值。
[0003]根據(jù)識別對象的不同,可以將說話人鑒別分為文本有關(guān)和文本無關(guān)兩類。其中文本有關(guān)的說話人鑒別技術(shù),要求利用說話人發(fā)音的關(guān)鍵詞和關(guān)鍵句子作為訓(xùn)練樣本,辨別時利用相同的內(nèi)容發(fā)音進行鑒定,這種系統(tǒng)使用不便且關(guān)鍵內(nèi)容容易被竊錄。文本無關(guān)的說話人辨認技術(shù),在訓(xùn)練時和辨認時都不規(guī)定說話內(nèi)容,識別對象是自由的語音信號,需要在自由的語音信號中找到能表征說話人的信息的特征和方法,因此建立說話人模型相對困難,但該技術(shù)使用方便安全。本發(fā)明所描述的是文本無關(guān)的鑒別裝置。
[0004]說話人鑒別通常包含3個組成部分(I)從訓(xùn)練語音數(shù)據(jù)集中提取能夠表達說話人特點的特征;(2)為說話人訓(xùn)練一個能夠反映其語音特征分布規(guī)律的模型;(3)通過計算輸入語音的特征與已獲取的訓(xùn)練模型的契合程度來進行做出最終決策。
[0005]常用的說話人鑒別系統(tǒng)在特征提取部分中采用MFCC(Mel_frequency CepstralCoefficients,梅爾倒譜系數(shù))或者LSF (Line Spectral Frequencies,線譜頻率)作為基本特征,在模型訓(xùn)練部分中采用GMM(Gaussian Mixture Model,高斯混合模型)或者統(tǒng)計直方圖作為概率模型。
[0006]傳統(tǒng)的特征易于受到噪聲干擾且難以表達動態(tài)信息,GMM模型只適用對于分布范圍較廣的特征進行建模,統(tǒng)計直方圖模型雖然可以對任意分布的特征信號進行建模,但當訓(xùn)練樣本不足或特征維度過高時,建立的模型中存在大量的零點,導(dǎo)致結(jié)果不連續(xù)。本發(fā)明所描述的文本無關(guān)的說話人識別方法可以大大的解決上述的問題。
【發(fā)明內(nèi)容】
[0007]為了解決上述技術(shù)所存在的缺陷并提高文本無關(guān)的說話人鑒別率,本發(fā)明提供一種基于復(fù)合差分線譜頻率特征與隨機變換直方圖模型的文本無關(guān)說話人鑒別方法,包括以下步驟:
[0008]一.特征提取步驟:
[0009]A、差分線譜頻率特征提取步驟:將從語音線性預(yù)測編碼模型中獲取的K維非歸一化遞增的線譜頻率特征變換為K+1維歸一化的差分線譜頻率特征。
[0010]B、生成復(fù)合差分線譜頻率特征的步驟:將相鄰的3幀差分線譜頻率特征進行組合生成復(fù)合差分線譜頻率特征以表達信號的動態(tài)特性。
[0011]二.隨機映射直方圖模型訓(xùn)練步驟:對于每個說話人的訓(xùn)練語音按照步驟一的描述提取T幀復(fù)合差分線譜頻率特征作為I組訓(xùn)練數(shù)據(jù)集。采用隨機映射的方法對該訓(xùn)練數(shù)據(jù)集進行H次隨機變換得到H組訓(xùn)練特征。對每組特征進行直方圖統(tǒng)計,并利用H組訓(xùn)練特征的平均直方圖作為該說話人的概率模型。最終每個說話人都會訓(xùn)練得到一個屬于自己的模型。
[0012]三.鑒別匹配步驟:輸入一段語音后,采用步驟一的方法生成I組特征并將該特征輸入步驟二中訓(xùn)練得到的各個說話人的模型中,計算這組特征針對每一個模型的似然值,取其中最大似然值來確認說話人的編號。
[0013]根據(jù)本發(fā)明的一個實施方式的一種與文本無關(guān)的說話人鑒別方法,步驟A所描述
的歸一化的差分線譜頻率特征提取方式如下:
[0014]
【權(quán)利要求】
1.一種基于隨機映射直方圖模型的文本無關(guān)說話人鑒別裝置,其特征在于,包括以下步驟: 一.特征提取步驟: A、差分線譜頻率特征提取:將從語音線性預(yù)測編碼模型中獲取的K維非歸一化遞增的線譜頻率特征變換為K+1維歸一化的差分線譜頻率特征; B、生成復(fù)合差分線譜頻率特征:將相鄰的3幀差分線譜頻率特征進行組合生成復(fù)合差分線譜頻率特征以表達信號的動態(tài)特性。 二.隨機映射直方圖模型訓(xùn)練步驟:對于每個說話人的訓(xùn)練語音按照步驟一的描述提取T幀復(fù)合差分線譜頻率特征作為I組訓(xùn)練數(shù)據(jù)集。采用隨機映射的方法對該訓(xùn)練數(shù)據(jù)集進行H次隨機變換得到H組訓(xùn)練特征。對每組特征進行直方圖統(tǒng)計,并利用H組訓(xùn)練特征的平均直方圖作為該說話人的概率模型。最終每個說話人都會訓(xùn)練得到一個屬于自己的模型。 三.鑒別匹配步驟:輸入一段語音后,采用步驟一的方法生成I組特征并將該特征輸入步驟二中訓(xùn)練得到的各個說話人的模型中,計算這組特征針對每一個模型的似然值,取其中最大似然值來確認說話人的編號。
2.根據(jù)權(quán)利要求1所述的說話人識別方法中步驟一A的特征在于,差分線譜頻率特征提取時,將傳統(tǒng)的線譜頻率特征向量除η歸一化后,向量中各個相鄰元素相減,獲取差分特征向量,并增加一個正則元素來保證獲取的差分向量I范數(shù)為I。
3.根據(jù)權(quán)利要求1所述的說話人識別方法中步驟一B的特征在于,復(fù)合差分線譜頻率特征獲取時將相鄰的3幀差分線譜頻率特征進行組合,相鄰幀的間距為I。
4.根據(jù)權(quán)利要求1所述的說話人識別方法中步驟二的特征在于,隨機變換方式為I=Ax+b,其中A為隨機旋轉(zhuǎn)縮放矩陣,b為隨機平移向量。
5.根據(jù)權(quán)利要求4中所述的隨機平移向量b其特征在于,b中的每一個元素,應(yīng)當滿足O~I之間的均勻分布。
6.根據(jù)權(quán)利要4中所述的隨機旋轉(zhuǎn)縮放矩陣A其特征在于,A為單位正交單位矩陣U與對角矩陣Λ的乘積。
7.根據(jù)權(quán)利要求6中所述的單位正交矩陣U其特征在于,U由一個所有元素都滿足0-1之間的均勻分布的方陣V生成,對V進行QR分解,并根據(jù)分解得到的Q矩陣的行列式值是否為I對其左上角元素進行修正來獲取U。
8.根據(jù)權(quán)利要求6中所述的對角矩陣Λ其特征在于,Λ的對角線元素取值為
9.根據(jù)權(quán)利要求1所述的說話人識別方法中步驟二的特征在于,說話人的概率模型定義為
10.根據(jù)權(quán)利要求9所述的零點位置的先驗概率P (X I ZeroDens)其特征在于,該先驗應(yīng)當利用復(fù)合狄利克雷分布進行估計。
【文檔編號】G10L17/04GK103985384SQ201410232526
【公開日】2014年8月13日 申請日期:2014年5月28日 優(yōu)先權(quán)日:2014年5月28日
【發(fā)明者】于泓, 馬占宇, 郭軍 申請人:北京郵電大學(xué)