两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法

文檔序號:2827669閱讀:323來源:國知局
基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法
【專利摘要】本發(fā)明公開了基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,該方法首先對用于訓(xùn)練的語音信號集合進(jìn)行預(yù)處理和特征提取,接著在訓(xùn)練過程中采用加權(quán)貝葉斯混合模型來描述訓(xùn)練集合,通過訓(xùn)練分別估計出加權(quán)貝葉斯混合模型中的參數(shù)值以及隨機(jī)變量分布,從而得到與每一說話人相對應(yīng)的加權(quán)貝葉斯混合模型;在識別時,將經(jīng)過預(yù)處理和特征提取的帶識別的語音,計算其關(guān)于訓(xùn)練好的每一說話人相對應(yīng)的加權(quán)貝葉斯混合模型的邊緣似然值,將最大邊緣似然值對應(yīng)的說話人作為識別結(jié)果。本發(fā)明能有效地提高與文本相關(guān)說話人識別系統(tǒng)的識別正確率,避免傳統(tǒng)方法中容易出現(xiàn)的過擬合和欠擬合問題,并且使得先驗信息和訓(xùn)練數(shù)據(jù)的相對權(quán)重更容易和靈活地控制。
【專利說明】基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,屬于語音信號處理【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002]在門禁、信用卡交易和法庭證據(jù)等方面,說話人識別起著越來越重要的作用,它的目標(biāo)是把待識別語音正確地判定為屬于語音庫中多個參考人之中的某一個。
[0003]目前,在與文本無關(guān)的說話人識別方法中,基于高斯混合模型(即:GMM)的方法應(yīng)用最為廣泛。由于它具有識別率高,訓(xùn)練簡單,訓(xùn)練數(shù)據(jù)量要求不大等優(yōu)點,已經(jīng)成為目前與文本無關(guān)的說話人識別的主流方法。由于GMM具有很好的表示數(shù)據(jù)的分布的能力,只要有足夠多的狀態(tài),足夠多的訓(xùn)練數(shù)據(jù),GMM就能夠逼近任何與時間序列相關(guān)的分布模型。但是,實際中將GMM應(yīng)用于與文本無關(guān)的說話人識別時存在幾個問題。首先,傳統(tǒng)的GMM訓(xùn)練過程基于最大似然準(zhǔn)則,容易對訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合或欠擬合現(xiàn)象。其次,傳統(tǒng)的基于GMM的與文本無關(guān)的說話人識別僅僅考慮觀測數(shù)據(jù),沒有將先驗信息引入。上述問題常常使得基于傳統(tǒng)的GMM的與文本無關(guān)的說話人識別系統(tǒng)的識別正確率較低。因此如何有效地引入先驗信息并將其與訓(xùn)練數(shù)據(jù)有效融合十分重要;另外,在融合了先驗信息之后,如何進(jìn)一步地平衡先驗信息和訓(xùn)練數(shù)據(jù)兩者的權(quán)重,采用相對簡單的方式控制觀測數(shù)據(jù)的相對權(quán)重,也是一個尚未解決但十分重要的問題。而本發(fā)明能夠很好地解決上面的問題。


【發(fā)明內(nèi)容】

[0004]本發(fā)明目的在于解決了上述現(xiàn)有技術(shù)的缺陷,設(shè)計了一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法。
[0005]本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,該方法包括以下步驟:
[0006]步驟1:對語音信號進(jìn)行預(yù)處理:包括采樣與量化、預(yù)加重、分幀與加窗;
[0007]步驟2:語音幀上的特征提取:對每一語音幀,計算D階線性預(yù)測倒譜系數(shù),將其作為該幀的D維特征矢量;
[0008]步驟3:對于每一說話人所對應(yīng)的訓(xùn)練集合X= IxJn = I^,其中N為該說話人用于訓(xùn)練的D維特征矢量Xn的個數(shù);用加權(quán)貝葉斯混合模型(即來建模X,通過訓(xùn)練估計出WBMM中的參數(shù)值以及隨機(jī)變量的分布;如在該識別系統(tǒng)中需要識別G個說話人,則重復(fù)訓(xùn)練過程G次,分別得到WBMM1,…,WBMMg,...,WBMMg ;
[0009]步驟4:對于待識別的語音,首先進(jìn)行預(yù)處理以及特征提取,得到相應(yīng)的D維特征矢量X’ ;計算X’關(guān)于每一個說話人對應(yīng)的模型WBMM1,…,WBMMg,…,WBMMe的邊緣似然值(MLIKg(x' )}g = 1,...,e,最終的識別結(jié)果為最大的MLIKg(X’)所對應(yīng)的說話人speaker,即:
[0010]speaker (jc') = arg Jiiax^Li MLIK?(x')?,
[0011]本發(fā)明所述的基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法中,對步驟3中所述的通過訓(xùn)練估計出WBMM中的參數(shù)值以及隨機(jī)變量的分布的步驟如下:
[0012]步驟3-1:設(shè)定 WBMM 中的超參數(shù){λ。,m。,β。,ν 0,V。}的值,其中,λ。= 0.01,m0 =O (O為D維零矢量),β。= 1,V。= D,V。= 400.1(1為(DXD)的單位矩陣);
[0013]步驟3-2:設(shè)定α的值,α取-8~-1之間的任意整數(shù);
[0014]步驟3-3:產(chǎn)生N個服從[1,K]區(qū)間上均勻分布的隨機(jī)整數(shù),其中K為WBMM的混合成分?jǐn)?shù),可以取16~32中的任意整數(shù),統(tǒng)計該區(qū)間上各整數(shù)出現(xiàn)的概率;即,如果產(chǎn)生了Ni個整數(shù)i,那么Qi =隊/N ;對于每個xn,對應(yīng)的隱變量Zn的初始分布為

【權(quán)利要求】
1.基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,其特征在于,所述方法包括如下步驟: 步驟1:對語音信號進(jìn)行預(yù)處理:包括采樣與量化、預(yù)加重、分幀與加窗; 步驟2:語音幀上的特征提取:對每一語音幀,計算D階線性預(yù)測倒譜系數(shù),將其作為該幀的D維特征矢量; 步驟3:對于每一說話人所對應(yīng)的訓(xùn)練集合X= IxJn = U,其中N為該說話人用于訓(xùn)練的D維特征矢量Xn的個數(shù);用加權(quán)貝葉斯混合模型,即WBMM來建模X,通過訓(xùn)練估計出WBMM中的參數(shù)值以及隨機(jī)變量的分布;如在該識別系統(tǒng)中需要識別G個說話人,則重復(fù)訓(xùn)練過程G次,分別得到WBMM1,…,WBMMg,...,WBMMg ; 步驟4:對于待識別的語音,首先進(jìn)行預(yù)處理以及特征提取,得到相應(yīng)的D維特征矢量X’ ;計算X’關(guān)于每一個說話人對應(yīng)的模型WBMM1,…,WBMMg,…,WBMMe的邊緣似然值(MLIKg(x' )}g = 1,...,e,最終的識別結(jié)果為最大的MLIKg(X’)所對應(yīng)的說話人speaker,即:
2.根據(jù)權(quán)利 要求1所述的一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,其特征在于,所述方法步驟3所述的通過訓(xùn)練估計出WBMM中的參數(shù)值以及隨機(jī)變量的分布的步驟如下:
步驟 3-1:設(shè)定 WBMM 中的超參數(shù){ λ 0, m0, β 0,v 0, V0I 的值,其中,A0 = 0.01,m0 = 0(0為D維零矢量),β。= 1,V。= D,V。= 400.I (I為(DXD)的單位矩陣); 步驟3-2:設(shè)定α的值,α取-8~-1之間的任意整數(shù); 步驟3-3:產(chǎn)生N個服從[1,Κ]區(qū)間上均勻分布的隨機(jī)整數(shù),其中K為WBMM的混合成分?jǐn)?shù),可以取16~32中的任意整數(shù),統(tǒng)計該區(qū)間上各整數(shù)出現(xiàn)的概率;即,如果產(chǎn)生了 Ni個整數(shù)i,那么Qi = R^N;對于每個{xn}n= n,對應(yīng)的隱變量{zn}n = 1,...,N的初始分布為
此外,設(shè)定迭代次數(shù)計數(shù)變量t = I,開始迭代循環(huán); 步驟3-4:計算三個中間變量:
步驟3-5:更新WBMM中的隨機(jī)變量1> J...,κ的分布,其表示第i個混合成分的比重,它服從Dirichlet分布,即,qO ) = DirO J^i),相應(yīng)的超參數(shù){ λ J i =的更新公式如下:
步驟3-6:更新WBMM中隨機(jī)變量{>” Tji = 1,,κ的分布,其分別表示第i個成分的均值和逆協(xié)方差矩陣,它們服從聯(lián)合Gaussian-Wishart分布,即q( μ i, T )=N(yi|mi, (HDWKTJ Vi, Vi),相應(yīng)的超參數(shù){叫,β i; v。Vj i = 1; ,κ 的更新如下:
步驟3-7:更新隱變量{ζη}η = i,...,Ν的分布,如下:
在上式中,各項期望〈.>的計算公式如下:
上面公式中Ψ (.)為標(biāo)準(zhǔn)的digamma函數(shù)(Gamma函數(shù) (.)的對數(shù)的導(dǎo)數(shù),即Ψ (.)
步驟3-8:計算當(dāng)前迭代后的邊緣似然值MLIKt,t為當(dāng)前的迭代次數(shù):
步驟3-9:計算當(dāng)前迭代后與上一次迭代后的邊緣似然值的差值A(chǔ)MLIK =MLIKt-MLIKw ;如果AMLIK≤δ,那么通過訓(xùn)練估計出WBMM中的參數(shù)值以及隨機(jī)變量的分布的過程結(jié)束,否則轉(zhuǎn)到上述步驟3-4,t的值增加1,進(jìn)行下一次迭代;閾值δ的取值范圍為Kr5~10'
3.根據(jù)權(quán)利要求1所述的一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,其特征在于,所述方法步驟4中所述的在識別過程中計算X’關(guān)于每一個說話人有關(guān)的模型WBMM1,……,WBMMg,……WBMMe的邊緣似然值{MLIKg(x’)} g = 1;...的公式如下:
其中,〈.>和q(zni = I)為經(jīng)過訓(xùn)練之后的WBMMg中的期望和概率。
4.根據(jù)權(quán)利要求1所述的一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,其特征在于:所述方法是在貝葉斯框架下,將先驗信息引入并和訓(xùn)練數(shù)據(jù)進(jìn)行融合。
5.根據(jù)權(quán)利要求1所述的一種基于加權(quán)貝葉斯混合模型的與文本無關(guān)的說話人識別方法,其特征在于:所述方法是用一個附加參數(shù)α來控制數(shù)據(jù)在訓(xùn)練中的權(quán)重。
【文檔編號】G10L17/04GK104183239SQ201410361706
【公開日】2014年12月3日 申請日期:2014年7月25日 優(yōu)先權(quán)日:2014年7月25日
【發(fā)明者】魏昕, 周亮, 趙力, 陳建新 申請人:南京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
玉环县| 柳州市| 建阳市| 肇东市| 许昌市| 嵊州市| 丹巴县| 揭阳市| 东明县| 子洲县| 弥渡县| 海城市| 上虞市| 东方市| 当雄县| 武强县| 六安市| 甘洛县| 含山县| 洪雅县| 林芝县| 日照市| 布尔津县| 澜沧| 泗水县| 呼图壁县| 双鸭山市| 治县。| 堆龙德庆县| 荆州市| 麻城市| 卢湾区| 万盛区| 屯门区| 罗山县| 阳高县| 伊川县| 深水埗区| 栾川县| 台北市| 东城区|