本發(fā)明涉及音頻信號處理,尤其涉及一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、語音編解碼,旨在將語音信號轉(zhuǎn)換為緊湊的離散表示,并在需要時重建原始音頻。語音編解碼在語音通信、語音存儲和語音合成等領(lǐng)域具有廣泛的應用。在基于大語言模型的語音合成(llm-tts)系統(tǒng)中,語音編解碼器負責將語音信號轉(zhuǎn)換為離散表示(token),使得大語言模型能夠像處理文本一樣處理語音,并將大語言模型生成的離散表示重建為高質(zhì)量的語音波形。
2、目前,業(yè)內(nèi)主流的語音編解碼器多采用多碼本結(jié)構(gòu),語言模型需要預測多個離散序列,嚴重影響了編解碼器的工作效率和魯棒性。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲介質(zhì),以解決現(xiàn)有技術(shù)中的語音編解碼器采用多碼本結(jié)構(gòu),語言模型需要預測多個離散序列,影響編解碼器的工作效率和魯棒性的技術(shù)問題。
2、第一方面,提供了一種基于解耦vq-vae的語音合成方法,包括:
3、從待合成語音信號的梅爾頻譜圖中隨機選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時不變特征,得到與時變特征分離的語音信息全局表示;
4、從所述待合成語音信號的梅爾頻譜圖中隨機選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時不變特征且富含語音信息的離散序列;
5、通過解碼器對所述離散序列進行解碼,獲取待合成語音信號的語音細節(jié)信息,并將所述語音細節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;
6、通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。
7、第二方面,提供了一種基于解耦vq-vae的語音合成裝置,包括:
8、參考編碼模塊:用于從待合成語音信號的梅爾頻譜圖中隨機選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時不變特征,得到與時變特征分離的語音信息全局表示;
9、音頻編碼模塊:用于從所述待合成語音信號的梅爾頻譜圖中隨機選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將第二幀片段解耦為時不變特征且富含語音信息的離散序列;
10、音頻解碼模塊:用于通過解碼器對所述離散序列進行解碼,獲取待合成語音信號的語音細節(jié)信息,并將所述語音細節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;
11、語音合成模塊:用于通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。
12、第三方面,提供了一種計算機設(shè)備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。
13、第四方面,提供了一種計算機可讀存儲存儲介質(zhì),計算機可讀存儲存儲介質(zhì)存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。
14、上述基于解耦vq-vae的語音合成方法、裝置、計算機設(shè)備及存儲存儲介質(zhì)所實現(xiàn)的方案中,通過在編解碼之前引入全局參考編碼器從語音信號中解耦時不變特征,將語音信全局表示與時變內(nèi)容信息分離,使得語音編解碼器在編解碼時能夠嵌入更多的語音內(nèi)容信息。并采用基于解耦vq-vae的單碼本語音編解碼器將語音信號解耦為時不變特征且富含語音信息的離散序列,僅使用單碼本對離散序列進行量化,從而避免了多序列預測的問題,提高了語音編解碼器的工作效率和魯棒性,在更低的帶寬下,能夠?qū)崿F(xiàn)比多碼本編解碼器更好的語音重建質(zhì)量。
1.一種基于解耦vq-vae的語音合成方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過所述全局參考編碼器從參考幀片段中解耦時不變特征,得到與時變特征分離的語音信息全局表示,包括:
3.如權(quán)利要求2所述的基于解耦vq-vae的語音合成方法,其特征在于,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時不變特征且富含語音信息的離散序列,包括:
4.如權(quán)利要求3所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對所述離散序列進行解碼,獲取待合成語音信號的語音細節(jié)信息,并將所述語音細節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖,包括:
5.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述從待合成語音信號的梅爾頻譜圖中隨機選取第一幀片段作為參考幀片段之前,還包括:
6.如權(quán)利要求1-5任一項所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對所述離散序列進行解碼,獲取待合成語音信號的語音細節(jié)信息,并將所述語音細節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖之后,還包括:
7.如權(quán)利要求6所述的基于解耦vq-vae的語音合成方法,其特征在于,所述對判別器進行對抗訓練的總損失函數(shù)為:
8.一種基于解耦vq-vae的語音合成裝置,其特征在于,包括:
9.一種計算機設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7任一項所述基于解耦vq-vae的語音合成方法的步驟。
10.一種計算機可讀存儲存儲介質(zhì),所述計算機可讀存儲存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述基于解耦vq-vae的語音合成方法的步驟。