本技術涉及語音處理,應用于語音自動化生成場景中,尤其涉及一種語音生成方法、裝置、設備及其存儲介質(zhì)。
背景技術:
1、語音生成技術,指的是將指定文本合成出目標說話人的發(fā)音內(nèi)容。當前,語音生成技術得到了迅速的發(fā)展,端到端的模型和語音大模型大大推動了這個領域的發(fā)展。
2、然而,實際應用中端到端的語音生成方式,存在以下幾個挑戰(zhàn):模型過于龐大,所設置的編解碼參數(shù)量過多,傳統(tǒng)的解碼方式往往采用上采樣卷積方式,導致了模型的推理速度慢,限制了語音生成效率。
技術實現(xiàn)思路
1、本技術實施例的目的在于提出一種語音生成方法、裝置、設備及其存儲介質(zhì),以解決現(xiàn)有進行語音生成時,端到端的生成模式所設置的編解碼參數(shù)量過多,解碼時導致模型推理速度慢,限制語音生成效率的問題。
2、為了解決上述技術問題,本技術實施例提供語音生成方法,采用了如下所述的技術方案:
3、一種語音生成方法,包括下述步驟:
4、獲取待進行語音生成的文本數(shù)據(jù);
5、將所述文本數(shù)據(jù)輸入到改進型文本編碼器進行文本編碼處理,獲得文本編碼信息;
6、將所述文本編碼信息輸入到預設的時長預測器,預測所述文本數(shù)據(jù)所對應的生成語音時長;
7、將所述文本編碼信息和所述生成語音時長對齊處理后一并輸入到預設的音頻生成流模型,獲得音頻編碼信息;
8、對所述音頻編碼信息進行隱變量添加處理,將添加了隱變量的音頻編碼信息輸入到改進型解碼器中,獲得所述改進型解碼器輸出的語音,其中,所述隱變量中包括音色特征。
9、進一步的,所述改進型文本編碼器由transformer結(jié)構中初始編碼器改造而成,所述編碼器中包含n層編碼層,在執(zhí)行所述將所述文本數(shù)據(jù)輸入到改進型文本編碼器進行文本編碼處理,獲得文本編碼信息的步驟之前,所述方法還包括:
10、根據(jù)預設的參數(shù)設置文檔,設置所述初始編碼器中第一層編碼層的編碼參數(shù);
11、采用參數(shù)共享策略,將所述第一層編碼層的編碼參數(shù)逐層分配給所述初始編碼器中其余n-1層編碼層,獲得所述改進型文本編碼器。
12、進一步的,在執(zhí)行所述將所述文本編碼信息輸入到預設的時長預測器,預測所述文本數(shù)據(jù)所對應的生成語音時長的步驟之前,所述方法還包括:
13、獲取批量的真實參考語音;
14、對所述真實參考語音進行語音特征提取,提取出語音特征;
15、將所述語音特征輸入到預設的后驗編碼器中,獲得隱變量的后驗分布參數(shù);
16、根據(jù)所述隱變量的后驗分布參數(shù)進行采樣處理,獲得語音特征中的音色特征;
17、對所述真實參考語音進行轉(zhuǎn)文本化處理,獲得文本數(shù)據(jù);
18、將所述文本數(shù)據(jù)輸入到所述改進型文本編碼器中,獲得文本編碼特征;
19、將所述文本編碼特征和所述音色特征輸入到對齊估計組件,確定所述文本數(shù)據(jù)中每個文本與音素的對應關系;
20、將所述每個文本與音素的對應關系作為預測知識部署到所述時長預測器中。
21、進一步的,所述預設的時長預測器中包含了可進行選定的至少一個真實語音對象的說話語速信息,所述將所述文本編碼信息輸入到預設的時長預測器,預測所述文本數(shù)據(jù)所對應的生成語音時長的步驟,具體包括:
22、識別預先選定的真實語音對象;
23、從所述時長預測器中篩選出所述真實語音對象所對應的說話語速信息,其中,所述說話語速信息包括所述真實語音對象說話時每個文本與音素的對應關系;
24、根據(jù)所述文本編碼信息和所述真實語音對象所對應的說話語速信息,預測出所述文本數(shù)據(jù)所對應的生成語音時長。
25、進一步的,在執(zhí)行所述獲得所述改進型解碼器輸出的語音的步驟之后,所述方法還包括:
26、獲取所述真實語音對象根據(jù)所述文本數(shù)據(jù)所錄制的真實語音;
27、將所述真實語音和所述改進型解碼器輸出的語音輸入到預設的驗證模型中,驗證所述改進型解碼器輸出的語音相較于所述真實語音的真實度,其中,所述驗證模型包括wavl?m模型;
28、若所述真實度未超過預設的真實度閾值,則采用對抗學習訓練方式分別優(yōu)化所述后驗編碼器和所述改進型文本編碼器的編碼參數(shù),直到所述真實度超過了預設的真實度閾值,完成優(yōu)化;
29、若所述真實度超過了預設的真實度閾值,則將所述改進型解碼器輸出的語音經(jīng)預設的語音輸出設備輸出。
30、進一步的,在執(zhí)行所述采用對抗學習訓練方式分別優(yōu)化所述后驗編碼器和所述改進型文本編碼器的編碼參數(shù),直到所述真實度超過了預設的真實度閾值,完成優(yōu)化的步驟之后,所述方法還包括:
31、獲取優(yōu)化后的所述改進型文本編碼器的編碼參數(shù);
32、采用參數(shù)共享策略,將所述改進型文本編碼器的編碼參數(shù)逐層分配給所述改進型文本編碼器中所有編碼層;
33、獲取優(yōu)化后的所述后驗編碼器的編碼參數(shù);
34、采用參數(shù)共享策略,將所述后驗編碼器的編碼參數(shù)逐層分配給所述后驗編碼器中所有編碼層。
35、進一步的,所述改進型解碼器由transformer結(jié)構中初始解碼器改造而成,在執(zhí)行所述將添加了隱變量的音頻編碼信息輸入到改進型解碼器中的步驟之前,所述方法還包括:
36、設置所述初始解碼器中卷積層的卷積方式為分組卷積和普通卷積相混合的混合卷積方式,獲得所述改進型解碼器。
37、為了解決上述技術問題,本技術實施例還提供語音生成裝置,采用了如下所述的技術方案:
38、一種語音生成裝置,包括:
39、文本數(shù)據(jù)獲取模塊,用于獲取待進行語音生成的文本數(shù)據(jù);
40、文本編碼模塊,用于將所述文本數(shù)據(jù)輸入到改進型文本編碼器進行文本編碼處理,獲得文本編碼信息;
41、語音時長預測模塊,用于將所述文本編碼信息輸入到預設的時長預測器,預測所述文本數(shù)據(jù)所對應的生成語音時長;
42、音頻流生成模塊,用于將所述文本編碼信息和所述生成語音時長對齊處理后一并輸入到預設的音頻生成流模型,獲得音頻編碼信息;
43、音頻流解碼模塊,用于對所述音頻編碼信息進行隱變量添加處理,將添加了隱變量的音頻編碼信息輸入到改進型解碼器中,獲得所述改進型解碼器輸出的語音,其中,所述隱變量中包括音色特征。
44、為了解決上述技術問題,本技術實施例還提供一種計算機設備,采用了如下所述的技術方案:
45、一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)上述所述的語音生成方法的步驟。
46、為了解決上述技術問題,本技術實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術方案:
47、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上述所述的語音生成方法的步驟。
48、與現(xiàn)有技術相比,本技術實施例主要有以下有益效果:
49、本技術實施例所述語音生成方法,通過獲取待進行語音生成的文本數(shù)據(jù);將所述文本數(shù)據(jù)輸入到改進型文本編碼器進行文本編碼處理,獲得文本編碼信息;將所述文本編碼信息輸入到預設的時長預測器,預測所述文本數(shù)據(jù)所對應的生成語音時長;將所述文本編碼信息和所述生成語音時長對齊處理后一并輸入到預設的音頻生成流模型,獲得音頻編碼信息;對所述音頻編碼信息進行隱變量添加處理,將添加了隱變量的音頻編碼信息輸入到改進型解碼器中,獲得所述改進型解碼器輸出的語音。本技術所述的語音生成方法,通過對端對端的編解碼器分別進行改進,既降低了人工進行模型參數(shù)設置的設置量,也提高了模型推理速度,從而提高了語音生成效率。