專利名稱:文本到語音轉(zhuǎn)換中基于統(tǒng)計技術(shù)的距離定義方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本到語音轉(zhuǎn)換(text-to-speechTTS)領(lǐng)域。更具體地說,本發(fā)明涉及用于文本到語音轉(zhuǎn)換中基于統(tǒng)計技術(shù)的距離定義的系統(tǒng)和方法。
背景技術(shù):
所謂文本到語音轉(zhuǎn)換(TTS),是指在計算機(jī)的支持下,通過復(fù)雜的自然語言處理算法的設(shè)計,把文字智能地轉(zhuǎn)化為自然語音流的技術(shù),該技術(shù)可以使用戶方便地與計算機(jī)進(jìn)行交流,從而大大提高應(yīng)用系統(tǒng)的靈活性。
如圖1所示,一個典型的TTS系統(tǒng)100通常包括三個組件文本分析單元101,韻律預(yù)測單元102以及語音合成單元103。其中,文本分析單元101負(fù)責(zé)將輸入的純文本分析為具有描述性韻律注釋(例如,發(fā)音、重音、短語邊界和停頓)的帶標(biāo)記文本。韻律預(yù)測單元102負(fù)責(zé)根據(jù)文本分析的結(jié)果預(yù)測韻律的發(fā)音表示,例如,音調(diào)值,每個合成段的持續(xù)時間和能量。而語音合成單元103負(fù)責(zé)生成可理解的語音,作為純文本中隱含的語義和韻律信息的表示的物理結(jié)果。
例如,將文本“這是一個專利申請”進(jìn)行文本到語音轉(zhuǎn)換,將會有下列結(jié)果。
首先,將該文本輸入文本分析單元101,于是每個字的發(fā)音以及短語邊界等信息被辨別出來這|是|一個|專利申請。
zhe4 shi4 yi2 ge4 zhuan1 li4 shen1 qing3
在進(jìn)行了上述文本分析后,韻律預(yù)測單元102會對文本中的字進(jìn)行發(fā)音預(yù)測。
在對文本進(jìn)行了上述預(yù)測后,所述語音合成單元103會根據(jù)預(yù)測的韻律信息生成該段文本的相應(yīng)語音。
在目前的TTS中,使用基于統(tǒng)計的方法是一種重要的趨勢。在這些方法中,從大型的有標(biāo)記的語料庫(labeled corpus)中訓(xùn)練韻律預(yù)測模型,并且語音合成總是基于每個合成段的多個侯選的選擇。圖2示出了通用的基于語料庫的TTS的框架結(jié)構(gòu)。
在基于統(tǒng)計的方法中,特別是在韻律預(yù)測和基于庫(inventory)的選擇中,很多問題歸根到底都是樣本和給定類之間的距離定義的問題。這種距離定義不是很容易實現(xiàn),因為即使類數(shù)據(jù)有復(fù)雜的上下文,但數(shù)據(jù)分散問題在幾乎每個類中還都會嚴(yán)重,并且類之間的重疊也很嚴(yán)重,以致難以評估樣本是否屬于給定的類。
在目前的TTS中有一些經(jīng)典的基于統(tǒng)計的距離定義方式,如加權(quán)Euclid距離和Mahalanobis距離。但是,它們分別都存在一些問題。對于Euclid距離而言,由于其使用各樣本的平均值作為樣本點,因而通常不能選擇最適當(dāng)?shù)哪莻€值來作為樣本點,且不同維度(dimension)間的關(guān)系被忽略或通過預(yù)先給定的知識被很差地建模。而Mahalanobis距離的不足之處在于其不能模擬復(fù)雜分布。
圖3示出了一個直方圖,其表示在一個TTS語料庫的一個類中某個樣本的持續(xù)時間分布為對數(shù)分布時的情形。在圖3所示的情形中,數(shù)據(jù)比較分散,因此采用Euclid距離定義的取平均值的方式根本無法模擬其分布,又由于該分布不是正態(tài)分布,也難以采用Mahalanobis距離定義對其進(jìn)行精細(xì)模擬。
發(fā)明內(nèi)容
為了克服如上所述的問題,本發(fā)明提出將高斯混合模型(Gaussian Mixture ModelGMM)應(yīng)用于TTS的距離定義。具體而言,本發(fā)明提出了一種用于文本到語音轉(zhuǎn)換的統(tǒng)計技術(shù)的全新距離定義方式。在根據(jù)本發(fā)明的距離定義中,通過GMM來引入概率分布。由于概率分布的使用,與前述加權(quán)Euclid距離定義和Mahalanobis距離定義相比,能夠很好地解決TTS統(tǒng)計技術(shù)中的諸如數(shù)據(jù)稀疏和數(shù)據(jù)分散這樣的疑難問題。GMM是用于通過具有用于每個高斯模型的簡單參數(shù)的高斯類屬來描述某些復(fù)雜分布的通用算法。例如,圖3的分布可由GMM組合兩個高斯模型來模擬,圖4是模擬的示意圖。但是,本領(lǐng)域技術(shù)人員能夠理解,用2個高斯分布來模擬圖3的分布只是示例性的,也可以根據(jù)情形需要用其他數(shù)量的高斯分布進(jìn)行模擬。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面,提供了一種在TTS系統(tǒng)中進(jìn)行距離定義的方法,包括如下步驟對要進(jìn)行TTS的文本進(jìn)行分析,以獲得帶有描述性韻律注釋的文本;針對所獲得的文本中的樣本進(jìn)行分類;以及為每個分類產(chǎn)生GMM模型,確定樣本與其相應(yīng)GMM模型的距離。
根據(jù)本發(fā)明的第二方面,提供了一種在TTS系統(tǒng)中進(jìn)行距離定義的系統(tǒng),包括文本分析單元,用于對要進(jìn)行TTS的文本進(jìn)行分析,以獲得帶有描述性韻律注釋的文本;韻律預(yù)測單元,用于針對從文本分析單元獲得的文本中的樣本進(jìn)行分類,以為所述分類產(chǎn)生GMM模型;以及GMM模型庫,與所述韻律預(yù)測單元相連,用于存儲所產(chǎn)生的GMM模型。
本發(fā)明的第一和第二方面涉及利用語料庫對GMM模型進(jìn)行訓(xùn)練。
根據(jù)本發(fā)明的第三方面,提供了一種在TTS系統(tǒng)中進(jìn)行語音合成的方法,包括如下步驟為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型;計算該類屬中的各個待選樣本與確定的GMM模型間的距離;取出具有最小距離的那個樣本,以用于語音合成。
根據(jù)本發(fā)明的第四方面,提供了一種在TTS系統(tǒng)中進(jìn)行語音合成的系統(tǒng),包括類屬決定單元,用于為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型;距離計算單元,用于計算該類屬中的各個待選樣本與確定的GMM模型間的距離;以及優(yōu)化單元,用于取出具有最小距離的那個樣本,以用于語音合成。
本發(fā)明的第三和第四方面涉及利用GMM模型進(jìn)行語音合成。
圖1是典型TTS系統(tǒng)的框圖;圖2是通用的基于語料庫的TTS的框圖;圖3表示在一個TTS語料庫的一個類中某個樣本的持續(xù)時間分布為對數(shù)分布時的情形;圖4表示用GMM組合兩個高斯模型來模擬圖2中分布的示意圖;圖5是根據(jù)本發(fā)明的方法在訓(xùn)練過程中的流程圖;圖6是根據(jù)本發(fā)明的用于對樣本進(jìn)行分類的決策樹;圖7是根據(jù)本發(fā)明的系統(tǒng)在訓(xùn)練部分的框圖;圖8是根據(jù)本發(fā)明的方法在合成過程中的流程圖;圖9表示根據(jù)本發(fā)明的動態(tài)規(guī)劃的示意圖;圖10是根據(jù)本發(fā)明的系統(tǒng)在合成部分的框圖;圖11和圖12是類屬決定單元、距離計算單元及優(yōu)化單元1003的示意框圖;圖13表示音調(diào)樹中一個樹葉中的所有數(shù)據(jù);以及圖14表示相鄰單元之間出現(xiàn)不合理跳躍時的情形。
具體實施例方式
以下將參照附圖對本發(fā)明的優(yōu)選實施方式進(jìn)行說明。應(yīng)當(dāng)指出,盡管將以簡體中文為例對本發(fā)明的距離定義方式進(jìn)行說明,但是本領(lǐng)域技術(shù)人員能夠理解,本發(fā)明的實施與其所使用的語言無關(guān),本發(fā)明同等地適用于任何語言。
GMM刻畫了當(dāng)前類中樣本的分布情況。分布密集的位置,其輸出概率偏大,反之輸出概率偏小。單元與GMM模型的距離描述的是該單元與模型所在的類的近似度。GMM作為該類的抽象表示,單元與GMM模型的距離可以用單元在該模型中的概率輸出來表示,概率大的距離小,概率小的距離大。
G代表GMM模型,單元X在G中的概率輸出為P(X|G)。單元X與G的距離定義為D(X,G)。若存在兩個單元X1和X2,如果P(X1|G)>P(X2|G),則D(X1,G)<D(X2,G);如果P(X1|G)<P(X2|G),則D(X1,G)>D(X2,G);如果P(X1|G)=P(X2|G),則D(X1,G)=D(X2,G)。
首先參見圖5,圖5示出了根據(jù)本發(fā)明的方法在訓(xùn)練階段的流程圖。根據(jù)本發(fā)明的方法在步驟S510開始,然后進(jìn)入步驟S520。
步驟S520用于對要進(jìn)行TTS的文本進(jìn)行分析,以獲得帶描述性韻律注釋的文本。然后,根據(jù)本發(fā)明的方法進(jìn)入步驟S530,在這里對文本中的樣本進(jìn)行分類,如本領(lǐng)域技術(shù)人員所知,“樣本”可以表示建模所依據(jù)的條件,例如,若針對持續(xù)時間建立模型,則該持續(xù)時間本身即為樣本。在對樣本進(jìn)行了分類之后,該方法進(jìn)入步驟S540,其中會對每個分類產(chǎn)生GMM模型。在產(chǎn)生了GMM模型后,根據(jù)本發(fā)明的方法的訓(xùn)練過程在步驟S550中結(jié)束。
如此產(chǎn)生的GMM模型將被用于后續(xù)的語音合成過程,如下文所述。
以下將對具體的分類方式進(jìn)行詳細(xì)說明。如本領(lǐng)域技術(shù)人員所知,可以采用多種方式對樣本進(jìn)行分類。例如,可以依據(jù)維度對樣本進(jìn)行分類;也可以依據(jù)例如“持續(xù)時間”這樣的條件對樣本分類。
然而,根據(jù)本發(fā)明的一種優(yōu)選實施方式,通過采用決策樹來對樣本進(jìn)行分類。與其他分類方式相比,決策樹是一種數(shù)據(jù)驅(qū)動的自動分類方法,它通過數(shù)據(jù)來決定分類,從而不需要使用者具備有關(guān)分類的很多知識。在TTS中,決策樹被普遍用于與上下文相關(guān)的分類或預(yù)測。決策樹可以有多種類型,圖6示例性地給出了決策樹的典型表示。
在樹的父節(jié)點中的所有數(shù)據(jù)由來自預(yù)定義的問題集的優(yōu)化問題分成兩個子節(jié)點。遵循預(yù)定的準(zhǔn)則,任何子節(jié)點中的距離都小,而兩個子節(jié)點之間的距離大。在每個分離過程后,可以實現(xiàn)可選的功能,以在所有樹葉間合并類似的節(jié)點。分離、停止分離和合并均由預(yù)定的準(zhǔn)則優(yōu)化。
如圖6所示,假定條件1表示是否為句首,條件2表示是否為4聲,條件3表示是否后跟輕聲。在一個樣本經(jīng)過了決策樹中足夠多的節(jié)點(這里為3個)而足以得到一個適當(dāng)?shù)姆诸悤r,則為該分類生成GMM模型。由于對分類生成GMM模型的各種方式對于本領(lǐng)域技術(shù)人員而言是公知的,因此這里不再贅述。
此外,如果決策樹中的兩個分類之間的距離足夠接近,可以將這兩個分類合并,以用于決策樹中的后續(xù)分類。如圖6所示,該決策樹的條件1和條件2的“否”分支在距離上接近(即,彼此相似),因此它們被合并后在條件4處用于進(jìn)一步的分類。如本領(lǐng)域技術(shù)人員所知,根據(jù)本發(fā)明的距離定義系統(tǒng)可以包括一個合并單元,用于執(zhí)行上述決策樹中的分支合并操作。
有關(guān)生成GMM模型的更多信息,可參見例如N.Kambhatla,“Local Models and Gaussian Mixture Models for Statistical DataProcessing”PhD thesis,Oregon Graduate Institute of Science andTechnology,1996年1月。
以下將參照圖7對本發(fā)明的訓(xùn)練系統(tǒng)進(jìn)行描述。如圖7所示,根據(jù)本發(fā)明的訓(xùn)練系統(tǒng)700包括的文本分析單元701,韻律預(yù)測單元702以及一個與韻律預(yù)測單元702相連的GMM模型存儲單元703,用于存儲為每個分類產(chǎn)生的GMM模型。
根據(jù)本發(fā)明的優(yōu)選實施方式,所述訓(xùn)練系統(tǒng)700還可包括用于存儲一系列優(yōu)化問題的單元(未示出)、針對所述各優(yōu)化問題進(jìn)行判斷的單元(未示出)以及對適當(dāng)?shù)姆诸愡M(jìn)行合并的單元(未示出),以實現(xiàn)前述決策樹。
以下將討論根據(jù)本發(fā)明的合成方法與系統(tǒng)。
圖8示出了根據(jù)本發(fā)明的合成方法的流程圖。
根據(jù)本發(fā)明的合成方法在步驟S810開始并隨后進(jìn)入步驟S820。在步驟S820中,決定需要合成的單元(例如,可以是文本中包含的字)的類屬,以確定該類的GMM模型。例如,可通過決策樹中的一系列問題來決定所述類屬,以在GMM模型庫中找到與之對應(yīng)的GMM模型。接著,在步驟S830中,針對該類屬中的各個待選樣本,計算這些樣本與找到的GMM模型間的距離。有關(guān)計算該距離的具體方式將在下文中詳細(xì)描述。在計算了每個樣本的距離之后,在步驟S840中取出具有最小距離的那個樣本作為最優(yōu)的樣本,以用于合成。隨后,根據(jù)本發(fā)明的方法在步驟S850中結(jié)束。
以下將對步驟S830進(jìn)行詳細(xì)描述。如前所述,根據(jù)本發(fā)明的方法需要計算每個需要合成的單元與其GMM模型間的距離,且距離最小的最優(yōu)。所述距離又稱為目標(biāo)代價(target cost)。當(dāng)針對每個需要合成的單元都進(jìn)行了上述計算后,將所得到的所有距離最小的需要合成單元相加,即可得到最終的合成語音。
在本發(fā)明中,采用動態(tài)規(guī)劃(dynamic programming)來計算代價(cost)。即,通過本地的優(yōu)化代價函數(shù)估計來找出全局優(yōu)化路徑。
根據(jù)本發(fā)明的一種優(yōu)選實施方式,除計算上述目標(biāo)代價之外,還可計算轉(zhuǎn)換代價。目標(biāo)代價指一個需要合成單元與其GMM模型之間的距離。連續(xù)的兩個合成單元的語音參數(shù)需要滿足一定的轉(zhuǎn)換關(guān)系,只有匹配的單元才能得到較高的合成自然度,轉(zhuǎn)換模型從模型的角度刻畫這種轉(zhuǎn)換關(guān)系。
連續(xù)的兩個合成單元的語音參數(shù)的轉(zhuǎn)換特性在當(dāng)前轉(zhuǎn)換模型中的評價,即該轉(zhuǎn)換特性與當(dāng)前轉(zhuǎn)換模型之間的距離稱為轉(zhuǎn)換代價。該距離也可用GMM模型距離來表示。
如圖9中的粗實線所顯示的路徑所示。通過累計每個節(jié)點的目標(biāo)代價和轉(zhuǎn)換代價,可以獲得每個可能路徑的代價。在評估了所有可能的路徑后,以最小的代價生成全局優(yōu)化的路徑。
如圖9所示,假定C(1,x)代表前述文本中的“這”,C(2,x)代表前述文本中的“是”,C(1,x)代表前述文本中的“一”,等等。根據(jù)本發(fā)明的一種方式,可以只選出每個需要合成單元的最小目標(biāo)代價,并直接將這些目標(biāo)代價最小的單元合成起來進(jìn)行語音輸出。然而,根據(jù)本發(fā)明的另一種優(yōu)選實施方式,可以同時考慮路徑的轉(zhuǎn)換代價。在圖9中認(rèn)為C(1,2)-C(2,m2)-C(3,1)被認(rèn)為是目標(biāo)代價加轉(zhuǎn)換代價最小的路徑。
本發(fā)明的合成過程可通過如圖10所示的合成系統(tǒng)1000實現(xiàn)。根據(jù)本發(fā)明的合成系統(tǒng)1000包括類屬決定單元1001,用于決定需要合成的單元的類屬以從GMM模型庫中確定對應(yīng)的GMM模型。在確定了GMM模型后,由距離計算單元1002針對各待選樣本計算這些樣本與找到的GMM模型間的距離。接下來,由優(yōu)化單元1003對計算得到的距離進(jìn)行評估,以得到距離最小的合成單元。然后,所述距離最小的需要合成的單元被輸出到合成單元1004,以形成物理聲音。
此外,所述距離計算單元1002還可進(jìn)一步包括目標(biāo)代價計算單元以及轉(zhuǎn)換代價計算單元(未示出)。
以上描述了基于GMM的距離定義。有兩種典型的情況來使用所述距離定義。一種是評估給定樣本與給定分類之間的距離,這是基于單元選擇(unit-selection)的方法的任務(wù),另一種是通過在給定概率分布的空間中進(jìn)行搜索來預(yù)測明確的發(fā)音參數(shù)。
將所述距離定義應(yīng)用于TTS系統(tǒng)中的單元選擇的步驟如下(在訓(xùn)練過程中)1.從帶標(biāo)記的語料庫中提取發(fā)音參數(shù)及其上下文信息;2.基于發(fā)音參數(shù)的上下文信息對其進(jìn)行分類,并由基于GMM的距離定義給出發(fā)音參數(shù)之間的距離;3.生成GMM模型來描述在步驟2中生成的每個分類的概率分布。
(在合成過程中)4.從文本分析單元的結(jié)果獲取每個發(fā)音段(即,要合成單元)的上下文信息;5.查找每個段的上下文等同類屬,所述類屬對應(yīng)于一個GMM模型;6.通過基于GMM的距離定義評估段的所有候選;7.基于步驟6中給出的距離以及總體優(yōu)化準(zhǔn)則(例如,動態(tài)規(guī)劃)找出總體優(yōu)化侯選序列;8.進(jìn)行語音合成以生成物理語音。
將所述距離定義用于明確預(yù)測的步驟如下1.從帶標(biāo)記的語料庫中提取發(fā)音參數(shù)及其上下文信息;2.基于發(fā)音參數(shù)的上下文信息對其進(jìn)行分類,并由基于GMM的距離定義給出發(fā)音參數(shù)之間的距離;3.生成GMM模型來描述在步驟2中生成的每個分類的概率分布。
(在合成過程中)4.從文本分析單元的結(jié)果獲取每個發(fā)音段(即,要合成單元)的上下文信息;5.查找每個段的上下文等同類屬,所述類屬對應(yīng)于一個GMM模型;6.在GMM混合模型序列的空間中,基于距離定義以及總體優(yōu)化準(zhǔn)則搜索最佳值,最佳值序列被認(rèn)為是明確預(yù)測;7.根據(jù)步驟6中的明確預(yù)測進(jìn)行合成。
為實現(xiàn)上述操作,所述類屬決定單元1001可進(jìn)一步包括用于獲取每個需要合成的單元的描述性韻律注釋信息的韻律注釋信息獲取裝置;用于查找每個需要合成單元的類屬的查找裝置,所述類屬對應(yīng)于一個GMM模型;以及用于在GMM混合模型序列的空間中,基于距離定義以及總體優(yōu)化準(zhǔn)則搜索最佳值,從而最佳值序列被作為GMM模型的明確預(yù)測的最佳值搜索裝置。
相應(yīng)地,所述距離計算單元1002可進(jìn)一步包括用于獲取每個需要合成單元的描述性韻律注釋信息的韻律注釋信息獲取裝置;用于查找每個需要合成單元的屬,所述類屬對應(yīng)于一個GMM模型的查找裝置;以及用于通過基于GMM的距離定義評估需要合成單元的所有侯選的候選評估裝置;以及而所述優(yōu)化單元1003可進(jìn)一步包括用于基于評估步驟中給出的距離以及總體優(yōu)化準(zhǔn)則找出總體優(yōu)化候選序列,以進(jìn)行語音合成的總體優(yōu)化候選序列獲得裝置。
圖11、12示意地給出了類屬決定單元1001、距離計算單元1002及優(yōu)化單元1003的例證構(gòu)成。
應(yīng)當(dāng)指出,上述各可以有多種實現(xiàn)方式,例如采用計算機(jī)程序代碼單元,或電子邏輯電路,這是本領(lǐng)域技術(shù)人員能夠理解的,因此不再詳述。
基于GMM的距離定義的本質(zhì)是精確地模擬在TTS數(shù)據(jù)中定義的類屬的概率分布,然后給出孤立的樣本和類屬之間的距離,這對于基于單元選擇的方法是非常關(guān)鍵的。
基于GMM的距離定義的另一個優(yōu)點在于可以在TTS的統(tǒng)計技術(shù)中順利的部署諸如容錯、適應(yīng)之類的某些成熟算法。
在根據(jù)本發(fā)明的TTS訓(xùn)練與合成過程中,一種優(yōu)選的實施方式是將決策樹、GMM和動態(tài)規(guī)劃三者組合起來,成為一種基于單元選擇的TSS。其中,GMM被用于描述合成序列中每個節(jié)點的目標(biāo)的預(yù)測,以及相鄰節(jié)點間的轉(zhuǎn)換預(yù)測。
這種組合的要點在于·首先,使用基于決策樹的分類算法將語料庫中的所有韻律矢量或段分成合理的類。類的數(shù)量取決于預(yù)定義的準(zhǔn)則以及語料庫中的數(shù)據(jù)量。
·對于每個類,基于該類中的數(shù)據(jù)對GMM進(jìn)行訓(xùn)練。
·動態(tài)規(guī)劃中的代價函數(shù)被改變?yōu)閘og概率分布,這意味著全局優(yōu)化路徑是具有最大累計log概率值的路徑。它可以被看作是代價函數(shù)的負(fù)操作。
·每個節(jié)點的韻律目標(biāo)的GMM生成目標(biāo)log概率函數(shù)。目標(biāo)預(yù)測是某些TTS系統(tǒng)中的普遍方法。并且兩個相鄰節(jié)點的韻律轉(zhuǎn)換的GMM會生成轉(zhuǎn)換log概率分布。
以下將對韻律轉(zhuǎn)換進(jìn)行詳細(xì)說明。
如前所述,目標(biāo)韻律被廣泛使用。它是預(yù)測每個段的期望和基于預(yù)測進(jìn)行選擇的自然方式。但最大的問題是數(shù)據(jù)分散問題。例如,圖13是音調(diào)樹中一個樹葉中所有數(shù)據(jù)的圖形表示。范圍看起來很大,而且分布看起來平均。盡管容易通過GMM模型給出目標(biāo)概率預(yù)測,難以期望只有目標(biāo)模型就能得到好的選擇結(jié)果。
有人試圖通過平滑準(zhǔn)則來解決這一問題。但是,這只能解決一些問題,而不是全部,而且最重要的問題是,有時,簡單的平滑準(zhǔn)則會使情形更差。
圖14詳細(xì)表示了這一現(xiàn)象。相鄰單元之間的兩個參數(shù)可能存在合理的跳躍或不合理的跳躍。跳躍的幅度值是與上下文相關(guān)的。
因此,提出轉(zhuǎn)換韻律的概率模型,以對兩個相鄰段之間的變化進(jìn)行建模。有多種與轉(zhuǎn)換相關(guān)的韻律參數(shù),例如,兩個段之間的log音調(diào)差、log持續(xù)時間和音量值。很自然,轉(zhuǎn)換模型在動態(tài)規(guī)劃搜索方案中生成轉(zhuǎn)換概率輸出。
根據(jù)本發(fā)明的一種優(yōu)選方式,將全新的轉(zhuǎn)換韻律概率模型集成到?jīng)Q策樹、GMM和動態(tài)規(guī)劃的組合中。一方面,語庫中的所有段都可用于訓(xùn)練目標(biāo)概率預(yù)測樹和單個轉(zhuǎn)換概率樹,這意味著在概率模型建立中不存在數(shù)據(jù)稀疏問題。由于有了轉(zhuǎn)換模型,即使仍然存在數(shù)據(jù)分散問題,其影響也被部分消除,因而使得預(yù)測的韻律更穩(wěn)定、更合理。
以上對本發(fā)明的優(yōu)選實施方式進(jìn)行了說明,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明給出的各優(yōu)選實施方式只是為了說明的目的,不應(yīng)理解為對本發(fā)明的任何限制。本發(fā)明可以采用軟件、硬件或二者結(jié)合的形式實現(xiàn)。本領(lǐng)域技術(shù)人員可以根據(jù)上述描述獲得有關(guān)本發(fā)明的任何變形和改進(jìn),但這些變形和改進(jìn)都包括在隨附權(quán)利要求書中所限定的本發(fā)明的范圍和精神內(nèi)。
權(quán)利要求
1.一種在TTS系統(tǒng)中進(jìn)行距離定義的方法,包括如下步驟對要進(jìn)行TTS的文本進(jìn)行分析,以獲得帶有描述性韻律注釋的文本;針對所獲得的文本中的樣本進(jìn)行分類;以及為每個分類產(chǎn)生GMM模型,確定樣本與其相應(yīng)GMM模型的距離。
2.根據(jù)權(quán)利要求1所述的方法,其中分類步驟包括采用決策樹進(jìn)行分類。
3.根據(jù)權(quán)利要求2所述的方法,還包括在決策樹中的兩個分支相似時,將這兩個分支合并的步驟。
4.一種在TTS系統(tǒng)中進(jìn)行距離定義的系統(tǒng),包括文本分析單元,用于對要進(jìn)行TTS的文本進(jìn)行分析,以獲得帶有描述性韻律注釋的文本;韻律預(yù)測單元,用于針對從文本分析單元獲得的文本中的樣本進(jìn)行分類,以為所述分類產(chǎn)生GMM模型;以及GMM模型庫,與所述韻律預(yù)測單元相連,用于存儲所產(chǎn)生的GMM模型。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述韻律預(yù)測單元采用決策樹來對從文本分析單元獲得的文本中的樣本進(jìn)行分類。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),還包括合并單元,用于對韻律預(yù)測單元所使用的決策樹中的相似分支進(jìn)行合并。
7.一種在TTS系統(tǒng)中進(jìn)行語音合成的方法,包括如下步驟為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型;計算該類屬中的各個待選樣本與確定的GMM模型間的距離;取出具有最小距離的那個樣本,以用于語音合成。
8.根據(jù)權(quán)利要求7所述的方法,其中所述計算距離的步驟包括計算目標(biāo)代價和轉(zhuǎn)換代價。
9.根據(jù)權(quán)利要求7或8所述的方法,其中取出具有最小距離的樣本的步驟包括取出目標(biāo)代價最小的樣本的步驟。
10.根據(jù)權(quán)利要求7-9中任意一項所述的方法,其中取出具有最小距離的樣本的步驟包括取出目標(biāo)代價加轉(zhuǎn)換代價最小的樣本的步驟。
11.根據(jù)權(quán)利要求7所述的方法,其中為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型的步驟包括獲取每個需要合成的單元的描述性韻律注釋信息;查找每個需要合成單元的類屬,所述類屬對應(yīng)于一個GMM模型;在GMM混合模型序列的空間中,基于距離定義以及總體優(yōu)化準(zhǔn)則搜索最佳值,從而最佳值序列被作為GMM模型的明確預(yù)測。
12.根據(jù)權(quán)利要求7所述的方法,其中計算該類屬中的各個待選樣本與確定的GMM模型間的距離以及取出具有最小距離的那個樣本以用于語音合成的步驟包括獲取每個需要合成單元的描述性韻律注釋信息;查找每個需要合成單元的屬,所述類屬對應(yīng)于一個GMM模型;通過基于GMM的距離定義評估需要合成單元的所有侯選;以及基于評估步驟中給出的距離以及總體優(yōu)化準(zhǔn)則找出總體優(yōu)化侯選序列,以進(jìn)行語音合成。
13.一種在TTS系統(tǒng)中進(jìn)行語音合成的系統(tǒng),包括類屬決定單元,用于為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型;距離計算單元,用于計算該類屬中的各個待選樣本與確定的GMM模型間的距離;優(yōu)化單元,用于取出具有最小距離的那個樣本,以用于語音合成。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述距離計算單元還包括目標(biāo)代價計算單元和轉(zhuǎn)換代價計算單元。
15.根據(jù)權(quán)利要求13或14所述的系統(tǒng),其中優(yōu)化單元從目標(biāo)代價計算單元取出目標(biāo)代價最小的樣本。
16.根據(jù)權(quán)利要求13-15中任意一項所述的系統(tǒng),其中優(yōu)化單元從目標(biāo)代價計算單元和轉(zhuǎn)換代價計算單元二者中分別取出目標(biāo)代價加轉(zhuǎn)換代價最小的樣本。
17.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述類屬決定單元包括用于獲取每個需要合成的單元的描述性韻律注釋信息的裝置;用于查找每個需要合成單元的類屬的裝置,所述類屬對應(yīng)于一個GMM模型;用于在GMM混合模型序列的空間中,基于距離定義以及總體優(yōu)化準(zhǔn)則搜索最佳值,從而最佳值序列被作為GMM模型的明確預(yù)測的裝置。
18.根據(jù)權(quán)利要求13所述的系統(tǒng),其中距離計算單元包括用于獲取每個需要合成單元的描述性韻律注釋信息的裝置;用于查找每個需要合成單元的屬,所述類屬對應(yīng)于一個GMM模型的裝置;以及用于通過基于GMM的距離定義評估需要合成單元的所有侯選的裝置;以及優(yōu)化單元還包括用于基于評估步驟中給出的距離以及總體優(yōu)化準(zhǔn)則找出總體優(yōu)化侯選序列,以進(jìn)行語音合成的裝置。
全文摘要
本發(fā)明提供一種在TTS系統(tǒng)中進(jìn)行距離定義的方法。該方法將高斯混合模型GMM應(yīng)用于TTS的距離定義中,以解決現(xiàn)有TTS技術(shù)中的諸如數(shù)據(jù)稀疏和數(shù)據(jù)分散這樣的疑難問題。該方法在合成過程中包括如下步驟為需要進(jìn)行TTS語音合成的單元決定其類屬,由此確定該類屬的GMM模型;計算該類屬中的各個待選樣本與確定的GMM模型間的距離;取出具有最小距離的那個樣本,以用于語音合成。
文檔編號G10L13/00GK1755796SQ20041008518
公開日2006年4月5日 申請日期2004年9月30日 優(yōu)先權(quán)日2004年9月30日
發(fā)明者張維, 馬??? 金凌, 柴海新 申請人:國際商業(yè)機(jī)器公司