一種語音合成的方法和裝置的制造方法_5

文檔序號：9201449閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種語音合成的方法和裝置的制造方法

子模塊，具體可以包括：
[0163] 音芐基頻候選確定單元，用于對所述待合成文本中的每個音節(jié)，確定多個音芐基頻候選模型；
[0164] 走勢線生成單元，用于依據(jù)所述多個音芐基頻候選模型在二維空間按最小二乘準(zhǔn) 則擬合出一條直線，所述直線即為走勢線。
[0165] 優(yōu)選地，所述連續(xù)濁音段模型生成子模塊，具體可以包括：
[0166] 合并單元，用于將所述各音節(jié)的最優(yōu)音芐基頻模型依次按連續(xù)濁音段為單位進(jìn)行合并；
[0167] 生成單元，用于將各連續(xù)濁音段對應(yīng)的高斯模型依據(jù)時長加權(quán)平均得到連續(xù)濁音段基頻模型。
[0168] 優(yōu)選地，所述裝置還可以包括：
[0169] 語調(diào)控制模塊，用于依據(jù)走勢線控制語音合成的語調(diào)。
[0170] 裝置實(shí)施例二
[0171] 參照圖13,示出了本發(fā)明的一種音芐基頻模型的訓(xùn)練裝置結(jié)構(gòu)框圖，所述裝置具體可以包括：
[0172] 聲學(xué)參數(shù)提取模塊1310,用于對語音樣本提取聲學(xué)參數(shù)；所述聲學(xué)參數(shù)包括基頻參數(shù)和譜參數(shù)；
[0173] 音節(jié)參數(shù)生成模塊1320,用于依據(jù)所述基頻參數(shù)生成音芐基頻均值參數(shù)；以及
[0174] 音芐基頻模型訓(xùn)練模塊1330,用于依據(jù)所述音芐基頻均值參數(shù)，訓(xùn)練出多套音節(jié) 基頻模型。
[0175] 優(yōu)選地，所述音節(jié)參數(shù)生成模塊1320,具體可以包括：
[0176] 音節(jié)參數(shù)生成子模塊，用于針對所述基頻參數(shù)以音節(jié)為單位提取特征，逐音節(jié)統(tǒng) 計均值生成音芐基頻均值參數(shù)。
[0177] 優(yōu)選地，所述音芐基頻模型訓(xùn)練模塊1330,具體可以包括：
[0178] 語境信息生成子模塊，用于根據(jù)音庫中的各類標(biāo)注對所述語音樣本分別生成逐音段上下文語境信息和逐音節(jié)上下文語境信息；
[0179] 音芐基頻模型訓(xùn)練子模塊，用于針對所述音芐基頻均值參數(shù)，結(jié)合音節(jié)上下文語境信息訓(xùn)練出多套音芐基頻模型。
[0180] 對于裝置實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡單，相關(guān) 之處參見方法實(shí)施例的部分說明即可。
[0181] 本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述，每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個實(shí)施例之間相同相似的部分互相參見即可。
[0182] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計算機(jī)程序產(chǎn)品。因此，本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本發(fā)明實(shí)施例可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)（包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等）上實(shí)施的計算機(jī)程序產(chǎn)品的形式。
[0183] 本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備（系統(tǒng)）、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商?供這些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個機(jī)器，使得通過計算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0184] 這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計算機(jī)可讀存儲器中，使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0185] 這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上，使得在計算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實(shí)現(xiàn)的處理，從而在計算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0186] 盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對這些實(shí)施例做出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
[0187] 最后，還需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下，由語句"包括一個……"限定的要素，并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
[0188] 以上對本發(fā)明所提供的一種語音合成的方法和裝置以及一種基頻模型的訓(xùn)練方法和裝置，進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1. 一種語音合成的方法，其特征在于，所述方法包括：對待合成文本中的各音段進(jìn)行音段模型決策，確定所述各音段對應(yīng)的基線HTS基頻模型；對所述待合成文本中的各音節(jié)進(jìn)行音節(jié)模型決策，確定所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型；依據(jù)所述各音段對應(yīng)的基線HTS基頻模型與所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型，按照多層融合算法聯(lián)合生成融合基頻參數(shù)；依據(jù)所述融合基頻參數(shù)以及對應(yīng)的譜參數(shù)合成語音。2. 如權(quán)利要求1所述的方法，其特征在于，所述對所述待合成文本中的各音節(jié)進(jìn)行音節(jié)模型決策，確定所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型的步驟，包括：對所述待合成文本中的各音節(jié)進(jìn)行音芐基頻模型預(yù)測；基于走勢線擬合的多路優(yōu)選方法確定所述各音節(jié)的最優(yōu)音芐基頻模型；依據(jù)所述各音節(jié)的最優(yōu)音芐基頻模型生成連續(xù)濁音段基頻模型。3. 如權(quán)利要求2所述的方法，其特征在于，所述走勢線生成的步驟，包括：對所述待合成文本中的每個音節(jié)，確定多個音芐基頻候選模型；依據(jù)所述多個音芐基頻候選模型在二維空間按最小二乘準(zhǔn)則擬合出一條直線，所述直線即為走勢線。4. 如權(quán)利要求2所述的方法，其特征在于，所述依據(jù)所述各音節(jié)的最優(yōu)音芐基頻模型生成連續(xù)濁音段基頻模型，包括：將所述各音節(jié)的最優(yōu)音芐基頻模型依次按連續(xù)濁音段為單位進(jìn)行合并；將各連續(xù)濁音段對應(yīng)的高斯模型依據(jù)時長加權(quán)平均得到連續(xù)濁音段基頻模型。5. 如權(quán)利要求2所述的方法，其特征在于，所述方法還包括：依據(jù)走勢線控制語音合成的語調(diào)。6. 如權(quán)利要求1所述的方法，其特征在于，所述多層融合算法為聯(lián)合狀態(tài)層模型的參數(shù)集和連續(xù)濁音段模型的參數(shù)集，按照狀態(tài)層與所述連續(xù)濁音段層各自的最優(yōu)準(zhǔn)則進(jìn)行綜合計算。7. -種音芐基頻模型的訓(xùn)練方法，其特征在于，所述方法包括：對語音樣本提取聲學(xué)參數(shù)；所述聲學(xué)參數(shù)包括基頻參數(shù)；依據(jù)所述基頻參數(shù)生成音芐基頻均值參數(shù)；依據(jù)所述音芐基頻均值參數(shù)，訓(xùn)練出多套音芐基頻模型。8. 如權(quán)利要求7所述的方法，其特征在于，所述依據(jù)所述基頻參數(shù)生成音芐基頻均值參數(shù)，包括：針對所述基頻參數(shù)以音節(jié)為單位提取特征，逐音節(jié)統(tǒng)計均值生成音芐基頻均值參數(shù)。9. 一種語音合成的裝置，其特征在于，所述裝置包括：音段模型決策模塊，用于對待合成文本中的各音段進(jìn)行音段模型決策，確定所述各音段對應(yīng)的基線HTS基頻模型；音節(jié)模型決策模塊，用于對所述待合成文本中的各音節(jié)進(jìn)行音節(jié)模型決策，確定所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型；融合參數(shù)生成模塊，用于依據(jù)所述各音段對應(yīng)的基線HTS基頻模型與所述各音節(jié)對應(yīng) 的連續(xù)濁音段基頻模型，按照多層融合算法聯(lián)合生成融合基頻參數(shù)；以及語音合成模塊，用于依據(jù)所述融合基頻參數(shù)以及對應(yīng)的譜參數(shù)合成語音。10. -種音芐基頻模型的訓(xùn)練裝置，其特征在于，所述裝置包括：聲學(xué)參數(shù)提取模塊，用于對語音樣本提取聲學(xué)參數(shù)；所述聲學(xué)參數(shù)包括基頻參數(shù)；音節(jié)參數(shù)生成模塊，用于依據(jù)所述基頻參數(shù)生成音芐基頻均值參數(shù)；以及音芐基頻模型訓(xùn)練模塊，用于依據(jù)所述音芐基頻均值參數(shù)，訓(xùn)練出多套音芐基頻模型。
【專利摘要】本發(fā)明實(shí)施例提供了一種語音合成的方法和裝置以及一種基頻模型的訓(xùn)練方法和裝置，其中，語音合成的方法包括：對待合成文本中的各音段進(jìn)行音段模型決策，確定所述各音段對應(yīng)的基線HTS基頻模型；對所述待合成文本中的各音節(jié)進(jìn)行音節(jié)模型決策，確定所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型；依據(jù)所述各音段對應(yīng)的基線HTS基頻模型與所述各音節(jié)對應(yīng)的連續(xù)濁音段基頻模型，按照多層融合算法聯(lián)合生成融合基頻參數(shù)；依據(jù)所述融合基頻參數(shù)以及對應(yīng)的譜參數(shù)合成語音。本發(fā)明實(shí)施例能夠提高音高的準(zhǔn)確度，從而使韻律更接近真實(shí)語音。
【IPC分類】G10L15/06, G10L25/93, G10L13/08, G10L15/183
【公開號】CN104916282
【申請?zhí)枴緾N201510142395
【發(fā)明人】王愈, 李健, 張連毅, 武衛(wèi)東
【申請人】北京捷通華聲語音技術(shù)有限公司
【公開日】2015年9月16日
【申請日】2015年3月27日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第5頁1 2 3 4 5

相關(guān)技術(shù)