两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法

文檔序號:2837510閱讀:637來源:國知局
專利名稱:基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音合成中說話人轉(zhuǎn)換的方法,具體涉及在模型自適應(yīng)訓(xùn)練過程 中,將最小化自適應(yīng)數(shù)據(jù)對應(yīng)生成參數(shù)的聽感誤差作為自適應(yīng)訓(xùn)練的準(zhǔn)則,以滿 足語音合成的實(shí)際要求,提高說話人轉(zhuǎn)換效果的方法。
背景技術(shù)
隨著語音合成技術(shù)的飛速發(fā)展,合成語音的音質(zhì)和自然度都有了很大的提 高,人們已經(jīng)不再滿足一個語音合成系統(tǒng)僅可合成單一音色、單一風(fēng)格的語音的 情形。為了使語音合成系統(tǒng)可以合成出多種音色、多種風(fēng)格的語音,如果使用傳 統(tǒng)的語音合成技術(shù),則需要錄制多個說話人的不同發(fā)音風(fēng)格的音庫,然而音庫的 錄制是一個成本非常大且需要很長的時間才能完成的工作。為了實(shí)現(xiàn)具有多表現(xiàn) 力的語音合成系統(tǒng),同時又不至于錄制更多更大的音庫,說話人轉(zhuǎn)換技術(shù)被提出 和廣泛研究。
目前應(yīng)用較為廣泛的說話人轉(zhuǎn)換方法有基于碼本映射(Codebook Mapping) 的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。碼本映射和基 于混合高斯模型的說話人轉(zhuǎn)換方法,一般都需要目標(biāo)說話人的語音數(shù)據(jù)和原始說 話人的語音數(shù)據(jù)在文本上相對應(yīng),這樣就可以利用原始說話人與目標(biāo)說話人的聲 學(xué)參數(shù)之間的對應(yīng)關(guān)系,在參數(shù)空間建立起由原始說話人到目標(biāo)說話人之間的一 對一的映射。不過,要求文本和目標(biāo)說話人語音對應(yīng)增加了實(shí)際系統(tǒng)的使用難度。 同時,采用這兩種方法轉(zhuǎn)換得到的目標(biāo)說話人的合成語音中,往往普遍的存在頻 譜不連續(xù)的現(xiàn)象,造成了合成語音音質(zhì)的降低?;陔[馬爾可夫模型(Hidden Markov Model)的方法也是一種較為廣泛應(yīng)用的說話人轉(zhuǎn)換方法?;陔[馬爾可 夫模型的說話人轉(zhuǎn)換方法,在進(jìn)行參數(shù)生成的時候充分考慮了語音參數(shù)的動態(tài)特 征,可以生成較為平滑的語音頻譜,很好的解決合成語音中的不連續(xù)現(xiàn)象。但一 般的基于隱馬爾可夫模型的說話人轉(zhuǎn)換方法,在模型自適應(yīng)訓(xùn)練過程中是以最大
似然準(zhǔn)則來估計原始說話人模型到目標(biāo)說話人模型轉(zhuǎn)換矩陣的,但是,這和語音 合成的實(shí)際要求并不相同。在語音合成中更希望的是,能夠生成和自然語音最為 接近的聲學(xué)參數(shù),以保證合成語音的自然度與音質(zhì)。
發(fā)明的內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的缺陷,其目的就是為了提供一種用于說話人轉(zhuǎn)換的基 于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,以提高說話人轉(zhuǎn)換效果。 本發(fā)明的技術(shù)方案如下
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的方法包括有以下步 驟實(shí)現(xiàn)
(1) 利用原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩 陣生成對自適應(yīng)數(shù)據(jù)的文本進(jìn)行合成時使用的聲學(xué)參數(shù);
(2) 利用原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩 陣估計自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù);根據(jù)自適應(yīng)數(shù)據(jù)對應(yīng)的文本以及相關(guān)的上下文信 息以及原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣, 估計與自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)各幀相對應(yīng)的用于合成語音的估計的聲學(xué)參數(shù);
(3) 綜合出自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)與估計的聲學(xué)參數(shù)之間的聽感誤差計算公式;
(4) 以聽感誤差計算公式計算由自適應(yīng)數(shù)據(jù)文本依據(jù)原始說話人的聲學(xué)模型和
原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣估計生成的聲學(xué)參數(shù)與自適應(yīng)數(shù) 據(jù)聲學(xué)參數(shù)之間的聽感誤差;
(5) 以最大似然線性回歸算法得到的轉(zhuǎn)換矩陣為初值,利用梯度下降算法,通 過逐次迭代的方法,更新原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣,以保證 每次迭代后自適應(yīng)數(shù)據(jù)對應(yīng)的生成參數(shù)聽感誤差的逐漸降低;得到最小化聽感誤 差;
(6) 最終將得到的轉(zhuǎn)換矩陣應(yīng)用于原始說話人的聲學(xué)模型,實(shí)現(xiàn)基于生成參數(shù) 聽感誤差最小化的模型自適應(yīng)過程。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的上述步驟(1)中 是利用自適應(yīng)數(shù)據(jù),計算原始說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的原始說話人到目標(biāo)
說話人的轉(zhuǎn)換矩陣,由最大似然線性回歸模型自適應(yīng)算法計算得出。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的上述步驟(2)中
自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù),采用下式得出
其中c為自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù),r為總幀數(shù);所述的步驟(2)中估計的聲學(xué)
參數(shù),采用下式得出
其中( (;i,M)為估計的聲學(xué)參數(shù),r為總幀數(shù)。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的建模采用的聲學(xué)參
數(shù)為線譜頻率參數(shù),艮p:
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的自適應(yīng)數(shù)據(jù)聲學(xué)參
數(shù)c與估計的聲學(xué)參數(shù)e(;i, M)之間的聽感誤差由以下公式來計算
d(C(;i,m))=
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,所述的步驟(5)中利用 梯度下降算法是利用下式計算
其中"為迭代次數(shù),e"為每一步的迭代步長,M(n)表示第"次迭代后的轉(zhuǎn)換矩 陣參數(shù)。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,使用隱馬爾可夫模型作為 聲學(xué)模型。
本發(fā)明利用以上算法進(jìn)行了模型自適應(yīng)訓(xùn)練與語音合成實(shí)驗,選擇的頻譜參 數(shù)為40階的線譜頻率參數(shù);為了實(shí)現(xiàn)對聽感誤差的有效度量,在計算兩組線譜 頻率之間的距離時,利用階間差分倒數(shù)對各階線譜頻率的歐氏距離進(jìn)行了加權(quán); 使用隱馬爾可夫模型作為聲學(xué)參數(shù)模型;在自適應(yīng)過程中,使用基于最大似然線
c(a,m)= ^,52,…,5〗
6 :[械,1,…,械,JV]
-《p)2 /min(/《p -械,》
性回歸模型自適應(yīng)算法估計得到的原始說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣作為初 始值,再利用最小化生成參數(shù)聽感誤差方法對轉(zhuǎn)換矩陣參數(shù)進(jìn)行迭代調(diào)整。從合 成語音的效果來看,使用該算法后,合成語音在音質(zhì)以及與目標(biāo)說話人的相似度 上都有一定程度的提高;在對合成語音的傾向性主觀測聽中,認(rèn)為使用該算法的 說話人轉(zhuǎn)換的合成語音質(zhì)量要高于基于最大似然的模型自適應(yīng)結(jié)果的比例占了 60%左右。
實(shí)驗結(jié)果表明,利用以上算法經(jīng)過10 20次迭代后,生成參數(shù)聽感誤差會 得到收斂;對于集外數(shù)據(jù)的測試表明,使用基于最小化生成參數(shù)聽感誤差模型自 適應(yīng)算法,經(jīng)過自適應(yīng)的模型可以取得相對基于最大似然的模型自適應(yīng)算法10% 左右的聽感誤差減小。 術(shù)語解釋
語音合成(Text-To-Speech):又稱為文語轉(zhuǎn)化。它涉及聲學(xué)、語言學(xué)、數(shù) 字信號處理、多媒體等多種學(xué)科,是中文信息處理領(lǐng)域的一項前沿技術(shù)。語音合 成技術(shù)解決的主要問題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音 信息。近代語音合成技術(shù)是隨著計算機(jī)技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起 來的,目的是讓計算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
說話人轉(zhuǎn)換(Voice Conversion):它是近年來語音合成領(lǐng)域中的一個研究 熱點(diǎn),主要是對一個人(原始說話人)的語音進(jìn)行處理,使它聽起來像另一個人 (目標(biāo)說話人)說出來的一樣。它可以應(yīng)用商業(yè)、軍事、娛樂等多個領(lǐng)域。
最大似然估計(Maximum Likelihood Estimation):假設(shè)隨機(jī)變量X的分
布函數(shù)為F(X,0,密度函數(shù)為/7(Z"), ^為參數(shù),e =(《,.."m)e€), A,…,J^ 來源于分布族(F(X"):ee0),定義似然函數(shù)丄= [1:是
0 =(《,...。的函數(shù),若g是丄W)的唯一最大值點(diǎn),則稱《為0的最大似然估計。
梯度下降算法(Gradient Descent Algorithm): —種用于求解函數(shù)無約束 極值問題的基本算法,它選擇函數(shù)的負(fù)梯度方向(最速下降方向)作為迭代時的 搜索方向。


附圖為模型自適應(yīng)流程框圖。
具體實(shí)施例方式
參見附圖所示。
基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其方法包括以下步驟
(1) . 利用自適應(yīng)數(shù)據(jù),由最大似然線性回歸模型自適應(yīng)算法,計算原始 說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣M 。
(2) . 計算自適應(yīng)數(shù)據(jù)的文本信息對應(yīng)的生成參數(shù)聽感誤差
a)利用原始說話人的聲學(xué)模型;i和原始說話人模型到目標(biāo)說話人
模型的轉(zhuǎn)換矩陣M估計自適應(yīng)數(shù)據(jù)對應(yīng)的聲學(xué)參數(shù),根據(jù)自適 應(yīng)數(shù)據(jù)對應(yīng)的文本以及相關(guān)的上下文信息以及原始說話人的聲 學(xué)模型義和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣M, 估計與自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)C各幀相對應(yīng)的用于合成語音的
聲學(xué)參數(shù)( (;i,m),其中
Ci , C , ,
r為總幀數(shù),使用隱馬爾可夫模型作為聲學(xué)模型和基于最大似然的
參數(shù)生成方法,建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù),艮P:
c《
其中W為線譜頻率參數(shù)的階數(shù),W為40; b)計算聲學(xué)參數(shù)之間的聽感誤差
由于使用線譜頻率參數(shù)進(jìn)行聲學(xué)參數(shù)建模,因此由以下公式來計算 自適應(yīng)數(shù)據(jù)聲學(xué)參數(shù)C與生成參數(shù)( (zl, M)之間的聽感誤差(3) . 以最小化聽感誤差為目標(biāo),調(diào)整原始說話人模型到目標(biāo)說話人模型 的轉(zhuǎn)換矩陣M。為了求解聽感誤差最小時,所對應(yīng)的原始說話人模型到 目標(biāo)說話人模型的轉(zhuǎn)換矩陣M ,采用梯度下降的方法來對轉(zhuǎn)換矩陣中的 各參數(shù)進(jìn)行逐步的調(diào)整,艮P:
M(n + 1) = M(n) — e ,,) | ( )
具體的參數(shù)更新方法可以由上式結(jié)合聽感誤差計算公式進(jìn)行推導(dǎo)確 定,其中"為迭代次數(shù),^為每一步的迭代步長,M(7i)表示第"次
迭代后的轉(zhuǎn)換矩陣參數(shù)。
(4) . 對步驟(2)和(3)進(jìn)行反復(fù)迭代,直至生成參數(shù)聽感誤差收斂, 則完成了原始說話人模型到目標(biāo)說話人模型轉(zhuǎn)換矩陣的更新。
(5) . 使用原始說話人的聲學(xué)模型2和經(jīng)過迭代更新的原始說話人模型到
目標(biāo)說話人模型的轉(zhuǎn)換矩陣^,計算得到目標(biāo)說話人的聲學(xué)模型",則
最終完成了基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)過程。 本發(fā)明利用以上算法進(jìn)行了模型自適應(yīng)訓(xùn)練與語音合成實(shí)驗,選擇的頻譜參 數(shù)為40階的線譜頻率參數(shù);為了實(shí)現(xiàn)對聽感誤差的有效度量,在計算兩組線譜 頻率之間的距離時,利用階間差分倒數(shù)對各階線譜頻率的歐氏距離進(jìn)行了加權(quán); 使用隱馬爾可夫模型作為聲學(xué)參數(shù)模型;在自適應(yīng)過程中,使用基于最大似然線 性回歸模型自適應(yīng)算法估計得到的原始說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣作為初 始值,再利用最小化生成參數(shù)聽感誤差方法對轉(zhuǎn)換矩陣參數(shù)進(jìn)行迭代調(diào)整。
實(shí)驗結(jié)果表明,利用以上算法經(jīng)過10 20次迭代后,生成參數(shù)聽感誤差會 得到收斂;對于集外數(shù)據(jù)的測試表明,使用基于最小化生成參數(shù)聽感誤差模型自 適應(yīng)算法,經(jīng)過自適應(yīng)的模型可以取得相對基于最大似然的模型自適應(yīng)算法10% 左右的聽感誤差減小。
權(quán)利要求
1、基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其特征在于所述的方法包括有以下步驟實(shí)現(xiàn)(1)利用原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣生成對自適應(yīng)數(shù)據(jù)的文本進(jìn)行合成時使用的聲學(xué)參數(shù);(2)利用原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣估計自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù);根據(jù)自適應(yīng)數(shù)據(jù)對應(yīng)的文本以及相關(guān)的上下文信息以及原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣,估計與自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)各幀相對應(yīng)的用于合成語音的估計的聲學(xué)參數(shù);(3)綜合出自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù)與估計的聲學(xué)參數(shù)之間的聽感誤差計算公式;(4)以聽感誤差計算公式計算由自適應(yīng)數(shù)據(jù)文本依據(jù)原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣估計生成的聲學(xué)參數(shù)與自適應(yīng)數(shù)據(jù)聲學(xué)參數(shù)之間的聽感誤差;(5)以最大似然線性回歸算法得到的轉(zhuǎn)換矩陣為初值,利用梯度下降算法,通過逐次迭代的方法,更新原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣,以保證每次迭代后自適應(yīng)數(shù)據(jù)對應(yīng)的生成參數(shù)聽感誤差的逐漸降低;得到最小化聽感誤差;(6)最終將得到的轉(zhuǎn)換矩陣應(yīng)用于原始說話人的聲學(xué)模型,實(shí)現(xiàn)基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)過程。
2、 根據(jù)權(quán)利要求l所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于所述的步驟(1)中是利用自適應(yīng)數(shù)據(jù),計算原始說話人到目標(biāo)說話人 的轉(zhuǎn)換矩陣。
3、 根據(jù)權(quán)利要求2所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于所述的原始說話人到目標(biāo)說話人的轉(zhuǎn)換矩陣,由最大似然線性回歸模型 自適應(yīng)算法計算得出。
4、 根據(jù)權(quán)利要求l所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于所述的步驟(2)中自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù),采用下式得出c =其中c為自適應(yīng)數(shù)據(jù)的聲學(xué)參數(shù),r為總幀數(shù);所述的步驟(2)中估計的聲學(xué)參數(shù),采用下式得出:<formula>formula see original document page 3</formula>其中e(義,M)為估計的聲學(xué)參數(shù),r為總幀數(shù)。
5、 根據(jù)權(quán)利要求4所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于所述的建模采用的聲學(xué)參數(shù)為線譜頻率參數(shù),艮口<formula>formula see original document page 3</formula>
6、 根據(jù)權(quán)利要求4所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其特征在于所述的自適應(yīng)數(shù)據(jù)聲學(xué)參數(shù)c與估計的聲學(xué)參數(shù)e(;i,M)之間的聽感誤差由以下公式來計算<formula>formula see original document page 3</formula>
7、 根據(jù)權(quán)利要求l所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于所述的步驟(5)中利用梯度下降算法是利用下式計算<formula>formula see original document page 3</formula>其中"為迭代次數(shù),e"為每一步的迭代步長,M(n)表示第"次迭代后的轉(zhuǎn)換矩 陣參數(shù)。
8、 根據(jù)權(quán)利要求l所述的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其 特征在于使用隱馬爾可夫模型作為聲學(xué)模型。
全文摘要
本發(fā)明涉及基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,其方法包括結(jié)合聽感實(shí)驗確定合理的聲學(xué)參數(shù)聽感距離計算方式;依據(jù)原始說話人的聲學(xué)模型和原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣估計的聲學(xué)參數(shù),計算其相對于自適應(yīng)數(shù)據(jù)聲學(xué)參數(shù)的聽感距離;基于聽感誤差最小化對原始說話人模型到目標(biāo)說話人模型的轉(zhuǎn)換矩陣進(jìn)行逐次的迭代調(diào)整至最佳轉(zhuǎn)換效果。本發(fā)明針對現(xiàn)有技術(shù)的缺陷,其目的就是為了提供一種用于說話人轉(zhuǎn)換的基于生成參數(shù)聽感誤差最小化的模型自適應(yīng)方法,減小聽感誤差,以提高說話人轉(zhuǎn)換效果。
文檔編號G10L13/02GK101178895SQ20071019107
公開日2008年5月14日 申請日期2007年12月6日 優(yōu)先權(quán)日2007年12月6日
發(fā)明者凌震華, 劉慶峰, 吳曉如, 王仁華, 龍 秦, 郁 胡, 胡國平 申請人:安徽科大訊飛信息科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
安国市| 晋江市| 桂阳县| 木里| 邵阳市| 秦安县| 定安县| 郓城县| 宜都市| 淮南市| 湟源县| 宝兴县| 云阳县| 广丰县| 神池县| 磐石市| 博野县| 铁岭县| 江西省| 普安县| 陇川县| 阳新县| 娄底市| 咸丰县| 岱山县| 灌云县| 宿州市| 乐山市| 黄骅市| 金阳县| 桂阳县| 临沂市| 乐业县| 隆尧县| 沭阳县| 禹州市| 吉林省| 莱州市| 榆社县| 扎鲁特旗| 屏南县|