本技術(shù)涉及計(jì)算機(jī),尤其涉及人工智能領(lǐng)域,具體涉及一種語音處理方法、一種語音處理裝置、一種計(jì)算機(jī)設(shè)備、一種計(jì)算機(jī)可讀存儲介質(zhì)及一種計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、文本轉(zhuǎn)語音技術(shù)是以文本和參考語音作為輸入,輸出以參考語音為風(fēng)格對文本進(jìn)行朗讀的文本朗讀語音的技術(shù)。
2、目前,文本轉(zhuǎn)語音技術(shù)是基于離散語音標(biāo)記器對參考語音進(jìn)行離散標(biāo)記,來實(shí)現(xiàn)針對參考語音的聲學(xué)細(xì)節(jié)的提取。然而,離散語音標(biāo)記器是將輸入的參考語音離散為單一的數(shù)值,這會損失參考語音的大量聲學(xué)細(xì)節(jié),從而導(dǎo)致文本轉(zhuǎn)語音過程中針對參考語音的語音特征提取存在損失,降低文本轉(zhuǎn)語音的轉(zhuǎn)換效果。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種語音處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,能夠在文本轉(zhuǎn)語音過程中最大幅度地保留參考語音的聲學(xué)細(xì)節(jié),從而提升文本轉(zhuǎn)語音的轉(zhuǎn)換效果。
2、一方面,本技術(shù)實(shí)施例提供了一種語音處理方法,該方法包括:
3、獲取待轉(zhuǎn)換的文本和參考語音;
4、對文本進(jìn)行特征提取處理,得到文本嵌入向量,文本嵌入向量用于表征文本的語義;
5、對參考語音進(jìn)行連續(xù)語音標(biāo)記處理,得到多維語音嵌入向量;多維語音嵌入向量用于表征參考語音的聲學(xué)特征;
6、基于多維語音嵌入向量和文本嵌入向量,對文本進(jìn)行語音預(yù)測處理,得到預(yù)測語音序列;預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息;
7、對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理,生成文本朗讀語音,文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征相匹配。
8、另一方面,本技術(shù)實(shí)施例提供了一種語音處理裝置,該裝置包括:
9、獲取單元,用于獲取待轉(zhuǎn)換的文本和參考語音;
10、處理單元,用于對文本進(jìn)行特征提取處理,得到文本嵌入向量,文本嵌入向量用于表征文本的語義;
11、處理單元,還用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理,得到多維語音嵌入向量;多維語音嵌入向量用于表征參考語音的聲學(xué)特征;
12、處理單元,還用于基于多維語音嵌入向量和文本嵌入向量,對文本進(jìn)行語音預(yù)測處理,得到預(yù)測語音序列;預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息;
13、處理單元,還用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理,生成文本朗讀語音,文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征相匹配。
14、在一種實(shí)現(xiàn)方式中,處理單元,用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理,得到多維語音嵌入向量時(shí),具體用于:
15、對參考語音進(jìn)行分段處理,得到至少一個(gè)語音片段;
16、對每個(gè)語音片段進(jìn)行連續(xù)語音標(biāo)記處理,得到每個(gè)語音片段的連續(xù)語音標(biāo)記;語音片段的連續(xù)語音標(biāo)記表現(xiàn)為多維向量,連續(xù)語音標(biāo)記中包括多個(gè)連續(xù)值,多個(gè)連續(xù)值能夠按照語音片段的時(shí)間步的先后順序,連續(xù)表征語音片段的聲學(xué)特征;聲學(xué)特征包括以下至少一種:音高、音強(qiáng)、音色和音長;
17、按照至少一個(gè)語音片段在參考語音中的播放位置,對至少一個(gè)語音片段的連續(xù)語音標(biāo)記進(jìn)行組合,得到多維語音嵌入向量;多維語音嵌入向量的向量維度和至少一個(gè)語音片段的連續(xù)語音標(biāo)記所包括連續(xù)值的數(shù)量總和相同。
18、在一種實(shí)現(xiàn)方式中,處理單元,用于對每個(gè)語音片段進(jìn)行連續(xù)語音標(biāo)記處理,得到每個(gè)語音片段的連續(xù)語音標(biāo)記時(shí),具體用于:
19、對每個(gè)語音片段進(jìn)行重采樣處理,得到重采樣后的每個(gè)語音片段;
20、對重采樣后的每個(gè)語音片段進(jìn)行多層次的特征提取處理,得到重采樣后的每個(gè)語音片段的連續(xù)語音標(biāo)記。
21、在一種實(shí)現(xiàn)方式中,文本朗讀語音被朗讀時(shí)是按照時(shí)間步的先后順序依次朗讀的,時(shí)間步表示為t,t為非負(fù)的整數(shù);處理單元,用于基于多維語音嵌入向量和文本嵌入向量,對文本進(jìn)行語音預(yù)測處理,得到預(yù)測語音序列時(shí),具體用于:
22、當(dāng)時(shí)間步t=0時(shí),將多維語音嵌入向量和文本嵌入向量進(jìn)行語音預(yù)測處理,得到時(shí)間步0的預(yù)測語音信息;
23、當(dāng)時(shí)間步t>0時(shí),將多維語音嵌入向量,文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行語音預(yù)測處理,得到時(shí)間步t的預(yù)測語音信息;
24、直至?xí)r間步t達(dá)到文本朗讀語音被播放所需的預(yù)測時(shí)間長度;
25、其中,每個(gè)時(shí)間步t的預(yù)測語音信息組成預(yù)測語音序列。
26、在一種實(shí)現(xiàn)方式中,處理單元,用于將多維語音嵌入向量,文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行語音預(yù)測處理,得到時(shí)間步t的預(yù)測語音信息時(shí),具體用于:
27、將多維語音嵌入向量,文本嵌入向量和位于時(shí)間步t之前的每個(gè)時(shí)間步的預(yù)測語音信息進(jìn)行向量連接,得到連接后向量;
28、對連接后向量進(jìn)行回歸處理,生成時(shí)間步t的預(yù)測語音信息。
29、在一種實(shí)現(xiàn)方式中,處理單元,用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理,生成文本對應(yīng)的文本朗讀語音時(shí),具體用于:
30、對預(yù)測語音序列中每個(gè)預(yù)測語音信息進(jìn)行卷積處理,得到每個(gè)預(yù)測語音信息對應(yīng)的關(guān)鍵語音特征;
31、基于每個(gè)預(yù)測語音信息對應(yīng)的關(guān)鍵語音特征,生成每個(gè)預(yù)測語音信息對應(yīng)的預(yù)測語音;
32、將每個(gè)預(yù)測語音按照時(shí)間步先后順序進(jìn)行連接,生成文本對應(yīng)的文本朗讀語音。
33、在一種實(shí)現(xiàn)方式中,語音處理方法是通過文本轉(zhuǎn)語音模型實(shí)現(xiàn)的,文本轉(zhuǎn)語音模型中包括目標(biāo)文本標(biāo)記模塊、目標(biāo)連續(xù)語音標(biāo)記模塊、目標(biāo)語音預(yù)測模塊和目標(biāo)語音解碼模塊;
34、目標(biāo)文本標(biāo)記模塊用于對文本進(jìn)行特征提取處理,得到文本嵌入向量;
35、目標(biāo)連續(xù)語音標(biāo)記模塊用于對參考語音進(jìn)行連續(xù)語音標(biāo)記處理,得到多維語音嵌入向量;
36、目標(biāo)語音預(yù)測模塊用于基于多維語音嵌入向量和文本嵌入向量,對文本進(jìn)行語音預(yù)測處理,得到預(yù)測語音序列;
37、目標(biāo)語音解碼模塊用于對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理,生成文本對應(yīng)的文本朗讀語音。
38、在一種實(shí)現(xiàn)方式中,目標(biāo)文本標(biāo)記模塊的參數(shù)是預(yù)設(shè)的;文本轉(zhuǎn)語音模型的訓(xùn)練過程,包括:
39、獲取第一數(shù)據(jù)集,第一數(shù)據(jù)集中包括訓(xùn)練數(shù)據(jù)音頻和對應(yīng)的文本標(biāo)簽;文本標(biāo)簽是將對應(yīng)的訓(xùn)練數(shù)據(jù)音頻轉(zhuǎn)換為文本得到的;
40、使用第一數(shù)據(jù)集對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化,得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊;
41、獲取第二數(shù)據(jù)集,第二數(shù)據(jù)集中包括訓(xùn)練文本對應(yīng)的訓(xùn)練文本嵌入向量,訓(xùn)練語音對應(yīng)的訓(xùn)練多維語音嵌入向量,以及訓(xùn)練語音對應(yīng)的音頻標(biāo)簽;訓(xùn)練多維語音嵌入向量是使用目標(biāo)連續(xù)語音標(biāo)記模塊進(jìn)行連續(xù)語音標(biāo)記處理得到的;
42、使用第二數(shù)據(jù)集對初始語音預(yù)測模塊進(jìn)行優(yōu)化,得到目標(biāo)語音預(yù)測模塊。
43、在一種實(shí)現(xiàn)方式中,處理單元,用于使用第一數(shù)據(jù)集對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化,得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊時(shí),具體用于:
44、使用初始連續(xù)語音標(biāo)記模塊對訓(xùn)練數(shù)據(jù)音頻進(jìn)行連續(xù)語音標(biāo)記處理,得到訓(xùn)練多維語音嵌入向量;
45、使用初始語音解碼模塊對訓(xùn)練多維語音嵌入向量進(jìn)行轉(zhuǎn)換處理,生成訓(xùn)練數(shù)據(jù)音頻對應(yīng)的預(yù)測文本朗讀語音;
46、將預(yù)測文本朗讀語音轉(zhuǎn)換為文本形式的預(yù)測文本信息;
47、按照減小預(yù)測文本信息和訓(xùn)練數(shù)據(jù)音頻對應(yīng)的文本標(biāo)簽之間差異的方向,對初始連續(xù)語音標(biāo)記模塊和初始語音解碼模塊進(jìn)行優(yōu)化,得到目標(biāo)連續(xù)語音標(biāo)記模塊和目標(biāo)語音解碼模塊。
48、在一種實(shí)現(xiàn)方式中,處理單元,用于使用第二數(shù)據(jù)集對初始語音預(yù)測模塊進(jìn)行優(yōu)化,得到目標(biāo)語音預(yù)測模塊時(shí),具體用于:
49、使用初始語音預(yù)測模塊基于訓(xùn)練文本嵌入向量和訓(xùn)練多維語音嵌入向量,對訓(xùn)練文本進(jìn)行語音預(yù)測處理,得到訓(xùn)練預(yù)測語音序列;
50、將音頻標(biāo)簽編碼為預(yù)測語音序列標(biāo)簽;預(yù)測語音序列標(biāo)簽中包括訓(xùn)練語音被編碼后每個(gè)時(shí)間步的真實(shí)語音信息;
51、按照減小訓(xùn)練預(yù)測語音序列和預(yù)測語音序列標(biāo)簽之間差異的方向,對初始語音預(yù)測模塊進(jìn)行優(yōu)化,得到目標(biāo)語音預(yù)測模塊。
52、在一種實(shí)現(xiàn)方式中,訓(xùn)練預(yù)測語音序列中包括每個(gè)時(shí)間步的訓(xùn)練預(yù)測語音信息;時(shí)間步表示為t,當(dāng)t為大于零的整數(shù)時(shí),處理單元,用于使用初始語音預(yù)測模塊基于訓(xùn)練文本嵌入向量和訓(xùn)練多維語音嵌入向量,對訓(xùn)練文本進(jìn)行語音預(yù)測處理,得到訓(xùn)練預(yù)測語音序列時(shí),具體用于:
53、將訓(xùn)練語音嵌入向量,訓(xùn)練文本嵌入向量,和預(yù)測語音序列標(biāo)簽中位于時(shí)間步t之前的每個(gè)時(shí)間步的真實(shí)語音信息進(jìn)行向量連接,得到訓(xùn)練連接后向量;
54、使用初始語音預(yù)測模塊對訓(xùn)練連接后向量進(jìn)行回歸處理,得到時(shí)間步t的訓(xùn)練預(yù)測語音信息。
55、另一方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)設(shè)備,該設(shè)備包括:
56、處理器,用于加載并執(zhí)行計(jì)算機(jī)程序;
57、計(jì)算機(jī)可讀存儲介質(zhì),該計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述語音處理方法。
58、另一方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述語音處理方法。
59、另一方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的語音處理方法。
60、在本技術(shù)實(shí)施例中,獲取待轉(zhuǎn)換的文本和參考語音后,對文本進(jìn)行特征提取處理,得到用于表征文本的語義的文本嵌入向量;同時(shí),對參考語音進(jìn)行連續(xù)語音標(biāo)記,得到多維語音嵌入向量;由于針對參考語音采用的是連續(xù)語音標(biāo)記方式,該連續(xù)語音標(biāo)記方式能夠通過多維向量的形式對參考語音按照語音播放順序進(jìn)行語音信息的連續(xù)標(biāo)記,從而最大幅度地保留參考語音的語音信息(或聲學(xué)特征)。這樣,基于連續(xù)標(biāo)記得到的參考語音的多維語音嵌入向量,和文本的文本嵌入向量,對文本進(jìn)行語音預(yù)測處理,可以得到預(yù)測語音序列,該預(yù)測語音序列中包括文本對應(yīng)的文本朗讀語音被朗讀時(shí)所參考的多個(gè)預(yù)測語音信息;考慮到多維語音嵌入向量中通過多個(gè)連續(xù)值保留了參考語音的大量的聲學(xué)特征,因而基于該多維語音嵌入向量得到的預(yù)測語音序列中也保留了參考語音的大量聲學(xué)特征。如此,對預(yù)測語音序列進(jìn)行轉(zhuǎn)換處理,就可以生成文本對應(yīng)的文本朗讀語音,且能夠確保該文本朗讀語音的聲學(xué)特征是和參考語音的聲學(xué)特征相匹配的,通俗來講,文本朗讀語音的語音風(fēng)格和參考語音的語音風(fēng)格是相匹配的,如從聽覺效果來看,文本朗讀語音和參考語音像是同一對象(如人或動(dòng)物)發(fā)出的語音信號。通過上述方面描述,本技術(shù)實(shí)施例支持對參考語音進(jìn)行連續(xù)語音表征,具體是對參考語音進(jìn)行語音特征提取過程中按照語音播放順序表征參考語音的連續(xù)聲學(xué)特征,并將連續(xù)聲學(xué)特征表示為多維語音嵌入向量的形式,從而實(shí)現(xiàn)最大幅度地保留參考語音的語音信息;相比于離散語音標(biāo)記僅將參考語音的聲學(xué)特征離散為單一數(shù)值來表示而言,可以減少文本轉(zhuǎn)語音技術(shù)中參考語音的語音信息損失。這樣,基于豐富聲學(xué)特征的多維語音嵌入向量進(jìn)行文本轉(zhuǎn)語音,能夠確保生成的文本朗讀語音的聲學(xué)特征和參考語音的聲學(xué)特征是相匹配的(如文本朗讀語音的風(fēng)格和音色接近于參考語音),從而在文本轉(zhuǎn)語音技術(shù)中達(dá)到更優(yōu)的轉(zhuǎn)換效果。