專利名稱:一種說話人識別方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于語音識別技術領域,具體地說,本發(fā)明涉及一種說話人識別方法及系統(tǒng)。
背景技術:
說話人識別技術,簡單來說,就是根據(jù)語音來自動對說話人進行區(qū)分,從而進行說話人身份鑒別與認證的技術。說話人識別在國家安全方面一直有著重要的意義。另外,隨著通信以及互聯(lián)網(wǎng)技術的發(fā)展,說話人識別技術在多媒體信息處理及檢索方面也開始得到應用。當前在實驗室環(huán)境中,由于語音的傳輸信道比較單一、信噪比較高,在這種情況下,說話人識別系統(tǒng)可以取得良好的識別性能。但是在實際應用中,語音環(huán)境的復雜多變,例如環(huán)境噪聲以及信道調(diào)制的干擾等,使系統(tǒng)的識別性能急劇下降,這對說話人識別系統(tǒng)的魯棒性提出了很大的挑戰(zhàn)。因此,如何有效地減弱或去除環(huán)境噪聲以及信道干擾等對系統(tǒng)的負面影響,從而提高說話人識別系統(tǒng)的魯棒性,成為了該領域研究的熱點及重點之一。近年來,復雜信道下基于高斯混合模型GMM-通用背景模型UBM的總變化因子分析方法得到了廣泛的應用。總變化因子分析技術在建模過程中用一個單獨的總變化空間來代替說話人空間和信道空間,即不區(qū)分GMM超向量空間中說話人的影響以及信道的影響。但是,總變化因子分析技術存在一定的不足,一方面在總變化空間的訓練過程中沒有考慮訓練數(shù)據(jù)中說話人的標注信息;另一方面總變化因子技術實質(zhì)是主成分分析的一種,只能夠反映數(shù)據(jù)的整體結(jié)構(gòu)。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明實施例提出一種說話人識別方法及系統(tǒng)。在第一方面,本發(fā)明實施例提出一種說話人識別方法,所述方法包括通過訓練得到鄰域保持嵌入空間矩陣(Neighborhood-Preserving Embedding, NPE);基于所述鄰域保持嵌入空間矩陣進行說話人識別;所述基于所述鄰域保持嵌入空間矩陣進行說話人識別,包括對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量w ;使用所述鄰域保持嵌入空間矩陣對于每一個所述向量w進行映射得到向量w’ ;將經(jīng)過映射得到的所述向量w’作為支持向量機SVM的輸入特征進行后端分類建模;借助支持向量機SVM打分,根據(jù)打分結(jié)果識別說話人。在第二方面,本發(fā)明實施例提出一種說話人識別系統(tǒng),所述系統(tǒng)包括空間矩陣生成模塊,用于通過訓練得到鄰域保持嵌入空間矩陣;識別模塊,用于基于所述鄰域保持嵌入空間矩陣進行說話人識別;其中,所述基于所述鄰域保持嵌入空間矩陣進行說話人識別,包括對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量w ;使用所述鄰域保持嵌入空間矩陣對于每一個所述向量w進行映射得到向量w’ ;將經(jīng)過映射得到的所述向量w’作為支持向量機SVM的輸入特征進行后端分類建模;借助支持向量機SVM打分,根據(jù)打分結(jié)果識別說話人。本發(fā)明實施例采用一種新型的基于鄰域保持嵌入NPE的因子分析技術,能夠有效地克服現(xiàn)有總變化因子分析技術存在的不足,可以進一步提高說話人識別性能。
以下,結(jié)合附圖來詳細說明本發(fā)明實施例,其中:圖1是基于鄰域保持嵌入因子分析的說話人識別算法框圖;圖2是基于鄰域保持嵌入因子分析一種實施例的說話人識別詳細流程圖;圖3是本發(fā)明實施例的說話人識別方法示意圖;圖4是本發(fā)明實施例的說話人識別系統(tǒng)示意圖。
具體實施例方式圖1是基于鄰域保持嵌入因子分析的說話人識別算法框圖,它描述了基于鄰域保持嵌入因子分析說話人識別算法的核心組成成分,主要由幾個部分構(gòu)成:GMM均值超向量、主成分分析(PCA)、鄰域保持嵌入(NPE)因子分析、支持向量機(SVM)建模和打分。圖2是基于鄰域保持嵌入因子分析一種實施例的說話人識別詳細流程圖。下面結(jié)合圖1以及圖2對本發(fā)明實施例的具體實施方式
做進一步詳細描述:鄰域保持嵌入空間矩陣的訓練過程包括如下步驟:I)對主成分分析和空間矩陣的訓練語音數(shù)據(jù)進行特征提取,并通過最大后驗概率(Maximum a posteriori, MAP)說話人自適應得到對應的GMM超向量
權利要求
1.一種說話人識別方法,其特征在于,所述方法包括: 通過訓練得到鄰域保持嵌入空間矩陣; 基于所述鄰域保持嵌入空間矩陣進行說話人識別; 所述基于所述鄰域保持嵌入空間矩陣進行說話人識別,包括: 對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量W ; 使用所述鄰域保持嵌入空間矩陣對于每一個所述向量w進行映射得到向量w’ ; 將經(jīng)過映射得到的所述向量w’作為支持向量機SVM的輸入特征進行后端分類建模; 借助支持向量機SVM打分,根據(jù)打分結(jié)果識別說話人。
2.如權利要求1所述的說話人識別方法,其特征在于,所述通過訓練得到鄰域保持嵌入空間矩陣具體為: 選擇多句包含說話人標注信息的訓練語句,生成對應于每一訓練語句的向量,并根據(jù)所述對應于訓練語句的向量得到訓練數(shù)據(jù)集W ; 根據(jù)所述對應于訓練語句的向量構(gòu)建鄰接圖,為不同的向量設置不同的頂點,不同頂點之間設置邊; 計算鄰接圖邊的權重,得到權值矩陣E ; 根據(jù)所述訓練數(shù)據(jù)集和所述權值矩陣構(gòu)建特征矩陣,求解所述特征矩陣的特征值,以及多個最大特征值對應的特征向量,根據(jù)所述特征向量得到所述的鄰域保持嵌入空間矩陣。
3.如權利要求2所述的說話人識別方法,其特征在于,所述計算鄰接圖邊的權重,包括:將來自同一說話人的不同向量對應的頂點之間的邊的權重設置為1,將來自不同說話人的不同向量對應的頂點之間的邊的權重設置為O。
4.如權利要求2所述的說話人識別方法,其特征在于,所述根據(jù)所述訓練數(shù)據(jù)集和所述權值矩陣構(gòu)建特征矩陣,求解所述特征矩陣的特征值,以及多個最大特征值對應的特征向量,根據(jù)所述特征向量得到所述的鄰域保持嵌入空間矩陣,具體為: 根據(jù)所述訓練數(shù)據(jù)集W和所述權值矩陣E構(gòu)建特征矩陣WNWTa, 其中,N = (1-E)T(1-E),I為對角元素均為1、其余元素均為O的對角矩陣,根據(jù)WNWTa =AffffTa,求解特征值λ以及特征向量a,根據(jù)前K個最大特征值對應的特征向量ai,a2,...aK得到鄰域保持嵌入空間矩陣Anpe = (a1; a2,...aK)T。
5.如權利要求1所述的說話人識別方法,其特征在于,所述對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量W,具體為:根據(jù)主成分分析PCA矩陣對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量W。
6.一種說話人識別系統(tǒng),其特征在于,所述系統(tǒng)包括: 空間矩陣生成模塊,用于通過訓練得到鄰域保持嵌入空間矩陣; 識別模塊,用于基于所述鄰域保持嵌入空間矩陣進行說話人識別; 其中,所述基于所述鄰域保持嵌入空間矩陣進行說話人識別,包括: 對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量w ; 使用所述鄰域保持嵌入空間矩陣對于每一個所述向量w進行映射得到向量w’ ; 將經(jīng)過映射得到的所述向量w’作為支持向量機SVM的輸入特征進行后端分類建模; 借助支持向量機SVM打分,根據(jù)打分結(jié)果識別說話人。
7.如權利要求6所述的說話人識別系統(tǒng),其特征在于,所述通過訓練得到鄰域保持嵌入空間矩陣具體為: 選擇多句包含說話人標注信息的訓練語句,生成對應于每一訓練語句的向量,并根據(jù)所述對應于訓練語句的向量得到訓練數(shù)據(jù)集W ; 根據(jù)所述對應于訓練語句的向量構(gòu)建鄰接圖,為不同的向量設置不同的頂點,不同頂點之間設置邊; 計算鄰接圖邊的權重,得到權值矩陣E ; 根據(jù)所述訓練數(shù)據(jù)集和所述權值矩陣構(gòu)建特征矩陣,求解所述特征矩陣的特征值,以及多個最大特征值對應的特征向量,根據(jù)所述特征向量得到所述的鄰域保持嵌入空間矩陣。
8.如權利要求7所述的說話人識別系統(tǒng),其特征在于,所述計算鄰接圖邊的權重,包括:將來自同一說話人的不同向量對應的頂點之間的邊的權重設置為1,將來自不同說話人的不同向量對應的頂點之間的邊的權重設置為O。
9.如權利要求7所述的說話人識別系統(tǒng),其特征在于,所述根據(jù)所述訓練數(shù)據(jù)集和所述權值矩陣構(gòu)建特征矩陣,求解所述特征矩陣的特征值,以及多個最大特征值對應的特征向量,根據(jù)所述特征向量得到所述的鄰域保持嵌入空間矩陣,具體為: 根據(jù)所述訓練數(shù)據(jù)集W和所述權值矩陣E構(gòu)建特征矩陣WNWTa, 其中,N = (1-E)T(1-E),I為對角元素均為1、其余元素均為O的對角矩陣,根據(jù)WNWTa =AffffTa,求解特征值λ以及特征向量a,根據(jù)前K個最大特征值對應的特征向量ai,a2,...aK得到鄰域保持嵌入空間矩陣Anpe = (a1; a2,...aK)T。
10.如權利要求6所述的說話人識別系統(tǒng),其特征在于,所述對于每一個高斯混合模型GMM均值超向量X進行主成分 分析PCA降維得到向量W,具體為:根據(jù)主成分分析PCA矩陣對于每一個高斯混合模型GMM均值超向量X進行主成分分析PCA降維得到向量W。
全文摘要
本發(fā)明涉及一種說話人識別方法,所述方法包括通過訓練得到鄰域保持嵌入空間矩陣;基于所述鄰域保持嵌入空間矩陣進行說話人識別;所述基于所述鄰域保持嵌入空間矩陣進行說話人識別,包括對于每一個高斯混合模型GMM均值超向量x進行主成分分析PCA降維得到向量w;使用所述鄰域保持嵌入空間矩陣對于每一個所述向量w進行映射得到向量w’;將經(jīng)過映射得到的所述向量w’作為支持向量機SVM的輸入特征進行后端分類建模;借助支持向量機SVM打分,根據(jù)打分結(jié)果識別說話人。本發(fā)明實施例采用一種新型的基于鄰域保持嵌入NPE的因子分析技術,能夠有效地克服現(xiàn)有總變化因子分析技術存在的不足,進一步提高說話人識別性能。
文檔編號G10L17/12GK103077720SQ20121055515
公開日2013年5月1日 申請日期2012年12月19日 優(yōu)先權日2012年12月19日
發(fā)明者周若華, 顏永紅, 梁春燕, 楊琳 申請人:中國科學院聲學研究所, 北京中科信利技術有限公司