專利名稱:一種基于多因素頻率位移不變特征的魯棒說話人辨別方法
技術領域:
本發(fā)明涉及一種用于提高說話人身份辨別性能的特征提取方法,屬于語音信號處 理技術領域。
背景技術:
隨著計算機和人工智能技術的不斷發(fā)展,各種各樣的智能機器參與到人類的生產(chǎn) 活動和社會活動當中,因此如何改善人們與這些機器之間的關系,使人對機器的操縱更加 便利就顯得越來越重要,而語言是人與機器進行交流的最好方式。語音信號處理是語言學和數(shù)字信號處理技術相結合的交叉學科,是計算機智能接 口與人機交互的重要手段之一,而說話人辨別是一種高效的的人機交互手段,其特點是信 號采集方便,系統(tǒng)設備成本低,可以廣泛應用于身份辨別、公安司法鑒定、語音信號檢索、軍 事、電子商務等領域。說話人辨別一般包括特征提取、參考模型生成和判別分類三部分組成。常用的說話人辨別特征提取方法主要包括語音信號倒譜系數(shù)、特征補償和正則化 技術等。大量的實踐表明,語音幀能量、基頻、短時譜、線性預測系數(shù)、倒譜稀疏特征等能夠 表征說話人個性特征。線性預測倒譜系數(shù)(LPCC)利用線性預測對聲道轉(zhuǎn)移函數(shù)進行建模, 獲取聲道和激勵源的時間變化特性,具有計算復雜度小,便于實現(xiàn)等特點,但是魯棒性較 差。美爾頻率倒譜系數(shù)(MFCC)考慮人耳的聽覺特性,對頻譜進行濾波,變換到具有非線性 特性的美爾頻譜域,利用倒譜分析語音特征,具有較好的魯棒性。感知加權線性預測系數(shù) (PLP)是重要的說話人信號特征參數(shù),它利用自回歸全極點模型近似聽覺譜,在純凈和噪聲 環(huán)境下取得了較好的識別結果。很多情況下,各種環(huán)境噪聲和信道失真造成識別性能下降,如果在特征提取過程 中去掉這些穩(wěn)定和變換緩慢的噪聲,可以提高識別的魯棒性和性能。譜均值減(CMS)是一種 簡單而有效的特征補償方法,用于去除卷積噪聲。RASTA濾波技術是CMS方法的一種推廣, 主要用于解決緩慢時變的線性信道帶來的失真問題,消除了較低和較高的調(diào)制頻率成分。說話人辨別中參考模型的建立通常采用隱馬爾科夫模型(HMM)、高斯混合模型 (GMM)和GMM-UBM等完成,一般HMM模型是針對文本相關的說話人辨別任務,而GMM模型是 針對文本無關的說話人辨別,這些模型都屬于概率統(tǒng)計模型。此外還有一些其他的參考模 型建立方法,比如人工神經(jīng)網(wǎng)絡(ANN),支持向量機(SVM)等,這些都是屬于模式識別的分 類模型。如
圖1所示,傳統(tǒng)的基于PLP和GMM的說話人辨別方法通常采用以下步驟1)對輸入語音信號信號進行短時傅立葉變換,獲得信號的短時能量譜;2)進行臨界頻帶分析,利用Bark尺度的頻率Q進行Bark_Hertz頻帶變換,將卷 曲之后的能量譜與臨界頻帶遮掩曲線v (Q)進行卷積,得到臨界頻帶能量譜0 (Q);3)經(jīng)過下采樣之后,對e (Q)進行等響度曲線預加重來模擬等響度曲線,得到處理結果 (Q),然后進行響度壓縮;4)經(jīng)過對頻譜進行修正之后,利用全極點譜建模的自相關方法對 (Q)進行近 似,獲得對應階數(shù)的自相關系數(shù);5)通過離散余弦變換(DCT)對自相關系數(shù)計算倒譜,計算一階和二階差分系數(shù);6)利用高斯混合模型(GMM)對已有說話人數(shù)據(jù)進行訓練,獲得不同說話人的模 型;7)根據(jù)訓練得到的說話人模型,對測試數(shù)據(jù)進行識別,得到說話人辨別的準確率。目前文本無關說話人辨別系統(tǒng)中信號的特征系數(shù),在相對安靜的環(huán)境下,可以得 到較好的識別準確率,但是當周圍環(huán)境復雜,干擾和噪聲比較多的情況下,會造成說話人辨 別性能的下降,其主要原因是單一因素特征(如頻譜)的魯棒性較差,說話人模型的訓練模 型與測試數(shù)據(jù)不匹配。因此如何提高特征的魯棒性,考慮多種因素的特征組合,使得訓練模 型與測試數(shù)據(jù)的特征盡量匹配,是提高說話人辨別系統(tǒng)性能的關鍵。
發(fā)明內(nèi)容
在噪聲環(huán)境下,傳統(tǒng)文本無關說話人辨別系統(tǒng)的魯棒性較差,一般只提取時頻特 征,未考慮頻率的位移不變特性,特征的可分性不高。本發(fā)明提出一種考慮語音中多因素 的頻率位移不變特征提取方法,利用卷積型非負張量分解方法提取頻率的位移不變稀疏特 征,降低噪聲成分的干擾,用于復雜環(huán)境下文本無關的說話人辨別,提高了識別的準確率。本發(fā)明的考慮語音中多因素的頻率位移不變特征提取方法,是利用人腦聽覺系統(tǒng)中語音信號的處理機制,考慮頻率、時間、尺度和相位多因素特 征,通過二維復數(shù)小波變換進行多因素的表征,考慮頻率的位移不變特性,利用卷積非負張 量分解的方法進行特征提取,求解頻率位移不變特征投影矩陣,計算多因素的魯棒特征,通 過離散余弦變換計算倒譜系數(shù),最后獲得具有較好魯棒性的一階和二階差分特征參數(shù)用于 說話人辨別。具體包括以下步驟( 1)通過采集設備得到語音信號x (t),并進行加窗和預加重,利用短時傅里葉變換 計算x (t)的能量譜S (f, t);(2)利用不同尺度和相位的二維復數(shù)小波變換對能量譜S(f,t)進行濾波,得到語 音信號的張量多因素表征^ ;利用美爾尺度變換對!的頻率階濾波得到一個4階張量多因素 表征S ;(3)采用張量分解的方法對得到的張量多因素表征S進行處理,估計移位投影矩 陣H(1)和不同階上的投影矩陣A(i),i = 2,3,4,采用以下卷積非負張量分解的模型
權利要求
1.一種考慮語音中多因素的頻率位移不變特征提取方法,其特征是 考慮語音信號中包括時間、頻率、尺度和相位信息的多重因素,利用卷積型非負張量分解方法計算頻率階上的特征投影,提取頻率的位移不變稀疏特征,降低噪聲成分的干擾,經(jīng)過離散余弦變換對特征去相關,計算特征的一階和二階差分系數(shù),用于復雜環(huán)境下文本無關的說話人辨別,具體包括以下步驟 (1)通過采集設備得到語音信號X(t),并進行加窗和預加重,利用短時傅里葉變換計算x(t)的能量譜S(f,t); (2)利用不同尺度和相位的二維復數(shù)小波變換對能量譜S(f,t)進行濾波,得到語音信號的張量多因素表征!;利用美爾尺度變換對^的頻率階濾波得到一個4階張量多因素表征S; (3 )采用張量分解的方法對得到的張量多因素表征S進行處理,估計移位投影矩陣H(1)和不同階上的投影矩陣A(i),i = 2,3,4,采用以下卷積非負張量分解的模型
2.根據(jù)權利要求I所述的考慮語音中多因素的頻率位移不變特征提取方法,其特征是所述步驟(3)中卷積型非負張量分解方法計算移位投影矩陣H(1)和投影矩陣A(i),i =2,…,I的具體過程如下,其中1=4: ①引入中間矩陣A(1),使得分解
全文摘要
本發(fā)明公開了一種考慮語音中多因素的頻率位移不變特征提取方法,用于復雜環(huán)境下的文本無關說話人辨別,該方法考慮了語音的時間、頻率、尺度和相位信息,通過不同尺度和相位的二維復數(shù)小波變換對語音信號能量譜進行多因素表征,考慮頻率的位移不變特性,利用卷積型非負張量分解方法,計算頻率階上的位移不變特征投影矩陣,得到多因素的稀疏特征,通過離散余弦變換對特征去相關,計算特征的一階和二階差分系數(shù),最終獲得具有較好魯棒性的說話人特征。本發(fā)明考慮語音信號多因素頻率位移不變特征提取方法,利用卷積型非負張量分解方法計算具有魯棒性的多因素頻率位移不變特征,用于噪聲環(huán)境下的文本無關說話人辨別,具有較好的識別準確率。
文檔編號G10L17/00GK102664010SQ20121013735
公開日2012年9月12日 申請日期2012年5月4日 優(yōu)先權日2012年5月4日
發(fā)明者劉琚, 吳強, 孫建德 申請人:山東大學