一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

文檔序號：40635142發(fā)布日期：2025-01-10 18:41閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及計(jì)算機(jī)，尤其涉及人工智能領(lǐng)域，具體涉及一種語音處理方法、一種語音處理裝置、一種計(jì)算機(jī)設(shè)備、一種計(jì)算機(jī)可讀存儲介質(zhì)及一種計(jì)算機(jī)程序產(chǎn)品。

背景技術(shù)：

1、文本轉(zhuǎn)語音技術(shù)是以文本和參考語音作為輸入，輸出以參考語音為風(fēng)格對文本進(jìn)行朗讀的文本朗讀語音的技術(shù)。

2、目前，文本轉(zhuǎn)語音技術(shù)是基于離散語音標(biāo)記器對參考語音進(jìn)行離散標(biāo)記，來實(shí)現(xiàn)針對參考語音的聲學(xué)細(xì)節(jié)的提取。然而，離散語音標(biāo)記器是將輸入的參考語音離散為單一的數(shù)值，這會損失參考語音的大量聲學(xué)細(xì)節(jié)，從而導(dǎo)致文本轉(zhuǎn)語音過程中針對參考語音的語音特征提取存在損失，降低文本轉(zhuǎn)語音的轉(zhuǎn)換效果。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品，能夠在文本轉(zhuǎn)語音過程中最大幅度地保留參考語音的聲學(xué)細(xì)節(jié)，從而提升文本轉(zhuǎn)語音的轉(zhuǎn)換效果。

2、一方面，本技術(shù)實(shí)施例提供了一種語音處理方法，該方法包括：

3、獲取待轉(zhuǎn)換的文本和參考語音；

4、對文本進(jìn)行特征提取處理，得到文本嵌入向量，文本嵌入向量用于表征文本的語義；

5、對參考語音進(jìn)行連續(xù)語音標(biāo)記處理，得到多維語音嵌入向量；多維語音嵌入向量用于表征參考語音的聲學(xué)特征；

6、基于多維語音嵌入向量和文本嵌入向量，對文本進(jìn)行語音預(yù)測處理，得到預(yù)測語音序列；預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息；

7、對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理，生成文本朗讀語音，文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征相匹配。

8、另一方面，本技術(shù)實(shí)施例提供了一種語音處理裝置，該裝置包括：

9、獲取單元，用于獲取待轉(zhuǎn)換的文本和參考語音；

10、處理單元，用于對文本進(jìn)行特征提取處理，得到文本嵌入向量，文本嵌入向量用于表征文本的語義；

11、處理單元，還用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理，得到多維語音嵌入向量；多維語音嵌入向量用于表征參考語音的聲學(xué)特征；

12、處理單元，還用于基于多維語音嵌入向量和文本嵌入向量，對文本進(jìn)行語音預(yù)測處理，得到預(yù)測語音序列；預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息；

13、處理單元，還用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理，生成文本朗讀語音，文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征相匹配。

14、在一種實(shí)現(xiàn)方式中，處理單元，用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理，得到多維語音嵌入向量時(shí)，具體用于：

15、對參考語音進(jìn)行分段處理，得到至少一個(gè)語音片段；

16、對每個(gè)語音片段進(jìn)行連續(xù)語音標(biāo)記處理，得到每個(gè)語音片段的連續(xù)語音標(biāo)記；語音片段的連續(xù)語音標(biāo)記表現(xiàn)為多維向量，連續(xù)語音標(biāo)記中包括多個(gè)連續(xù)值，多個(gè)連續(xù)值能夠按照語音片段的時(shí)間步的先后順序，連續(xù)表征語音片段的聲學(xué)特征；聲學(xué)特征包括以下至少一種：音高、音強(qiáng)、音色和音長；

17、按照至少一個(gè)語音片段在參考語音中的播放位置，對至少一個(gè)語音片段的連續(xù)語音標(biāo)記進(jìn)行組合，得到多維語音嵌入向量；多維語音嵌入向量的向量維度和至少一個(gè)語音片段的連續(xù)語音標(biāo)記所包括連續(xù)值的數(shù)量總和相同。

18、在一種實(shí)現(xiàn)方式中，處理單元，用于對每個(gè)語音片段進(jìn)行連續(xù)語音標(biāo)記處理，得到每個(gè)語音片段的連續(xù)語音標(biāo)記時(shí)，具體用于：

19、對每個(gè)語音片段進(jìn)行重采樣處理，得到重采樣后的每個(gè)語音片段；

20、對重采樣后的每個(gè)語音片段進(jìn)行多層次的特征提取處理，得到重采樣后的每個(gè)語音片段的連續(xù)語音標(biāo)記。

21、在一種實(shí)現(xiàn)方式中，文本朗讀語音被朗讀時(shí)是按照時(shí)間步的先后順序依次朗讀的，時(shí)間步表示為t，t為非負(fù)的整數(shù)；處理單元，用于基于多維語音嵌入向量和文本嵌入向量，對文本進(jìn)行語音預(yù)測處理，得到預(yù)測語音序列時(shí)，具體用于：

22、當(dāng)時(shí)間步t＝0時(shí)，將多維語音嵌入向量和文本嵌入向量進(jìn)行語音預(yù)測處理，得到時(shí)間步0的預(yù)測語音信息；

23、當(dāng)時(shí)間步t>0時(shí)，將多維語音嵌入向量，文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行語音預(yù)測處理，得到時(shí)間步t的預(yù)測語音信息；

24、直至?xí)r間步t達(dá)到文本朗讀語音被播放所需的預(yù)測時(shí)間長度；

25、其中，每個(gè)時(shí)間步t的預(yù)測語音信息組成預(yù)測語音序列。

26、在一種實(shí)現(xiàn)方式中，處理單元，用于將多維語音嵌入向量，文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行語音預(yù)測處理，得到時(shí)間步t的預(yù)測語音信息時(shí)，具體用于：

27、將多維語音嵌入向量，文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行向量連接，得到連接后向量；

28、對連接后向量進(jìn)行回歸處理，生成時(shí)間步t的預(yù)測語音信息。

29、在一種實(shí)現(xiàn)方式中，處理單元，用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理，生成文本對應(yīng)的文本朗讀語音時(shí)，具體用于：

30、對預(yù)測語音序列中每個(gè)預(yù)測語音信息進(jìn)行卷積處理，得到每個(gè)預(yù)測語音信息對應(yīng)的關(guān)鍵語音特征；

31、基于每個(gè)預(yù)測語音信息對應(yīng)的關(guān)鍵語音特征，生成每個(gè)預(yù)測語音信息對應(yīng)的預(yù)測語音；

32、將每個(gè)預(yù)測語音按照時(shí)間步先后順序進(jìn)行連接，生成文本對應(yīng)的文本朗讀語音。

33、在一種實(shí)現(xiàn)方式中，語音處理方法是通過文本轉(zhuǎn)語音模型實(shí)現(xiàn)的，文本轉(zhuǎn)語音模型中包括目標(biāo)文本標(biāo)記模塊、目標(biāo)連續(xù)語音標(biāo)記模塊、目標(biāo)語音預(yù)測模塊和目標(biāo)語音解碼模塊；

34、目標(biāo)文本標(biāo)記模塊用于對文本進(jìn)行特征提取處理，得到文本嵌入向量；

35、目標(biāo)連續(xù)語音標(biāo)記模塊用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理，得到多維語音嵌入向量；

36、目標(biāo)語音預(yù)測模塊用于基于多維語音嵌入向量和文本嵌入向量，對文本進(jìn)行語音預(yù)測處理，得到預(yù)測語音序列；

37、目標(biāo)語音解碼模塊用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理，生成文本對應(yīng)的文本朗讀語音。

38、在一種實(shí)現(xiàn)方式中，目標(biāo)文本標(biāo)記模塊的參數(shù)是預(yù)設(shè)的；文本轉(zhuǎn)語音模型的訓(xùn)練過程，包括：

39、獲取第一數(shù)據(jù)集，第一數(shù)據(jù)集中包括訓(xùn)練數(shù)據(jù)音頻和對應(yīng)的文本標(biāo)簽；文本標(biāo)簽是將對應(yīng)的訓(xùn)練數(shù)據(jù)音頻轉(zhuǎn)換為文本得到的；

40、使用第一數(shù)據(jù)集對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化，得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊；

41、獲取第二數(shù)據(jù)集，第二數(shù)據(jù)集中包括訓(xùn)練文本對應(yīng)的訓(xùn)練文本嵌入向量，訓(xùn)練語音對應(yīng)的訓(xùn)練多維語音嵌入向量，以及訓(xùn)練語音對應(yīng)的音頻標(biāo)簽；訓(xùn)練多維語音嵌入向量是使用目標(biāo)連續(xù)語音標(biāo)記模塊進(jìn)行連續(xù)語音標(biāo)記處理得到的；

42、使用第二數(shù)據(jù)集對初始語音預(yù)測模塊進(jìn)行優(yōu)化，得到目標(biāo)語音預(yù)測模塊。

43、在一種實(shí)現(xiàn)方式中，處理單元，用于使用第一數(shù)據(jù)集對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化，得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊時(shí)，具體用于：

44、使用初始連續(xù)語音標(biāo)記模塊對訓(xùn)練數(shù)據(jù)音頻進(jìn)行連續(xù)語音標(biāo)記處理，得到訓(xùn)練多維語音嵌入向量；

45、使用初始語音解碼模塊對訓(xùn)練多維語音嵌入向量進(jìn)行轉(zhuǎn)換處理，生成訓(xùn)練數(shù)據(jù)音頻對應(yīng)的預(yù)測文本朗讀語音；

46、將預(yù)測文本朗讀語音轉(zhuǎn)換為文本形式的預(yù)測文本信息；

47、按照減小預(yù)測文本信息和訓(xùn)練數(shù)據(jù)音頻對應(yīng)的文本標(biāo)簽之間差異的方向，對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化，得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊。

48、在一種實(shí)現(xiàn)方式中，處理單元，用于使用第二數(shù)據(jù)集對初始語音預(yù)測模塊進(jìn)行優(yōu)化，得到目標(biāo)語音預(yù)測模塊時(shí)，具體用于：

49、使用初始語音預(yù)測模塊基于訓(xùn)練文本嵌入向量和訓(xùn)練多維語音嵌入向量，對訓(xùn)練文本進(jìn)行語音預(yù)測處理，得到訓(xùn)練預(yù)測語音序列；

50、將音頻標(biāo)簽編碼為預(yù)測語音序列標(biāo)簽；預(yù)測語音序列標(biāo)簽中包括訓(xùn)練語音被編碼后每個(gè)時(shí)間步的真實(shí)語音信息；

51、按照減小訓(xùn)練預(yù)測語音序列和預(yù)測語音序列標(biāo)簽之間差異的方向，對初始語音預(yù)測模塊進(jìn)行優(yōu)化，得到目標(biāo)語音預(yù)測模塊。

52、在一種實(shí)現(xiàn)方式中，訓(xùn)練預(yù)測語音序列中包括每個(gè)時(shí)間步的訓(xùn)練預(yù)測語音信息；時(shí)間步表示為t，當(dāng)t為大于零的整數(shù)時(shí)，處理單元，用于使用初始語音預(yù)測模塊基于訓(xùn)練文本嵌入向量和訓(xùn)練多維語音嵌入向量，對訓(xùn)練文本進(jìn)行語音預(yù)測處理，得到訓(xùn)練預(yù)測語音序列時(shí)，具體用于：

53、將訓(xùn)練語音嵌入向量，訓(xùn)練文本嵌入向量，和預(yù)測語音序列標(biāo)簽中位于時(shí)間步t之前的每個(gè)時(shí)間步的真實(shí)語音信息進(jìn)行向量連接，得到訓(xùn)練連接后向量；

54、使用初始語音預(yù)測模塊對訓(xùn)練連接后向量進(jìn)行回歸處理，得到時(shí)間步t的訓(xùn)練預(yù)測語音信息。

55、另一方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)設(shè)備，該設(shè)備包括：

56、處理器，用于加載并執(zhí)行計(jì)算機(jī)程序；

57、計(jì)算機(jī)可讀存儲介質(zhì)，該計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述語音處理方法。

58、另一方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序，該計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述語音處理方法。

59、另一方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令，計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的語音處理方法。

60、在本技術(shù)實(shí)施例中，獲取待轉(zhuǎn)換的文本和參考語音后，對文本進(jìn)行特征提取處理，得到用于表征文本的語義的文本嵌入向量；同時(shí)，對參考語音進(jìn)行連續(xù)語音標(biāo)記，得到多維語音嵌入向量；由于針對參考語音采用的是連續(xù)語音標(biāo)記方式，該連續(xù)語音標(biāo)記方式能夠通過多維向量的形式對參考語音按照語音播放順序進(jìn)行語音信息的連續(xù)標(biāo)記，從而最大幅度地保留參考語音的語音信息(或聲學(xué)特征)。這樣，基于連續(xù)標(biāo)記得到的參考語音的多維語音嵌入向量，和文本的文本嵌入向量，對文本進(jìn)行語音預(yù)測處理，可以得到預(yù)測語音序列，該預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息；考慮到多維語音嵌入向量中通過多個(gè)連續(xù)值保留了參考語音的大量的聲學(xué)特征，因而基于該多維語音嵌入向量得到的預(yù)測語音序列中也保留了參考語音的大量聲學(xué)特征。如此，對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理，就可以生成文本對應(yīng)的文本朗讀語音，且能夠確保該文本朗讀語音的聲學(xué)特征是和參考語音的聲學(xué)特征相匹配的，通俗來講，文本朗讀語音的語音風(fēng)格和參考語音的語音風(fēng)格是相匹配的，如從聽覺效果來看，文本朗讀語音和參考語音像是同一對象(如人或動(dòng)物)發(fā)出的語音信號。通過上述方面描述，本技術(shù)實(shí)施例支持對參考語音進(jìn)行連續(xù)語音表征，具體是對參考語音進(jìn)行語音特征提取過程中按照語音播放順序表征參考語音的連續(xù)聲學(xué)特征，并將連續(xù)聲學(xué)特征表示為多維語音嵌入向量的形式，從而實(shí)現(xiàn)最大幅度地保留參考語音的語音信息；相比于離散語音標(biāo)記僅將參考語音的聲學(xué)特征離散為單一數(shù)值來表示而言，可以減少文本轉(zhuǎn)語音技術(shù)中參考語音的語音信息損失。這樣，基于豐富聲學(xué)特征的多維語音嵌入向量進(jìn)行文本轉(zhuǎn)語音，能夠確保生成的文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征是相匹配的(如文本朗讀語音的風(fēng)格和音色接近于參考語音)，從而在文本轉(zhuǎn)語音技術(shù)中達(dá)到更優(yōu)的轉(zhuǎn)換效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李熠星,謝若冰,孫興武,成宇,康戰(zhàn)輝
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種市政道路安全交通輔助燈的制作方法
上一篇：一種汽車座椅骨架靠背網(wǎng)格的膠套內(nèi)推裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程