两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40648071發(fā)布日期:2025-01-10 18:54閱讀:5來(lái)源:國(guó)知局
一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及語(yǔ)音處理,應(yīng)用于根據(jù)聲學(xué)特征進(jìn)行語(yǔ)音重建場(chǎng)景中,尤其涉及一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)。


背景技術(shù):

1、語(yǔ)音重建技術(shù),指的是采用聲碼器對(duì)聲學(xué)特征進(jìn)行重構(gòu)或者重建,得到語(yǔ)音信號(hào)。當(dāng)前,語(yǔ)音重建技術(shù)得到了迅速的發(fā)展,目前主流的聲碼器分為這幾類(lèi):第一種是利用音頻特征上采樣和逆傅里葉變換相結(jié)合的聲碼器、第二種是單獨(dú)基于逆傅里葉變換的聲碼器。

2、然而,涉及到上采樣和逆傅里葉變換的聲碼器,上采樣和逆傅里葉變換時(shí)都會(huì)涉及到較大的計(jì)算量,導(dǎo)致了聲碼器的處理速度較慢,降低了語(yǔ)音重建效率。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的目的在于提出一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì),以解決現(xiàn)有進(jìn)行語(yǔ)音重建時(shí),主流的聲碼器存在處理速度較慢,降低語(yǔ)音重建效率的問(wèn)題。

2、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例提供語(yǔ)音重建方法,采用了如下所述的技術(shù)方案:

3、一種語(yǔ)音重建方法,包括下述步驟:

4、獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;

5、將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;

6、將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;

7、將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。

8、進(jìn)一步的,所述預(yù)設(shè)的第一卷積處理結(jié)構(gòu)中包括第一常規(guī)卷積層和n個(gè)卷積塊,所述將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示的步驟,具體包括:

9、將所述原始音頻波形輸入到所述第一常規(guī)卷積層,進(jìn)行音頻特征提取,獲得第一音頻特征矩陣;

10、將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后,獲得全局歸一化的音頻特征表示,其中,n為正整數(shù)。

11、進(jìn)一步的,每個(gè)所述卷積塊按照先后處理關(guān)系依次疊設(shè)有深度分層卷積層、線(xiàn)性歸一化層、第二常規(guī)卷積層、gelu激活層、第三常規(guī)卷積層和全局歸一化層,所述將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后,獲得全局歸一化的音頻特征表示的步驟,具體包括:

12、采用所述深度分層卷積層對(duì)所述第一音頻特征矩陣中所包含的音頻特征依次進(jìn)行低維音頻特征、局部音頻特征和全局音頻特征提取;

13、結(jié)合所述線(xiàn)性歸一化層對(duì)提取的低維音頻特征、局部音頻特征和全局音頻特征分別進(jìn)行歸一化處理,獲得歸一化處理結(jié)果;

14、根據(jù)所述第二常規(guī)卷積層和所述gelu激活層,對(duì)所述歸一化處理結(jié)果進(jìn)行常規(guī)卷積和非線(xiàn)性引入操作,獲得激活表示結(jié)果;

15、采用所述第三常規(guī)卷積層對(duì)所述激活表示結(jié)果再次進(jìn)行常規(guī)卷積操作,并將卷積操作結(jié)果引入到所述全局歸一化層進(jìn)行全局歸一化處理,獲得所述全局歸一化的音頻特征表示。

16、進(jìn)一步的,所述預(yù)設(shè)的第二卷積處理結(jié)構(gòu)中包括第四常規(guī)卷積層和多頻子帶卷積層,所述將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示的步驟,具體包括:

17、將所述全局歸一化的音頻特征表示輸入到所述第四常規(guī)卷積層,經(jīng)所述第四常規(guī)卷積層卷積處理后,獲得第二音頻特征矩陣;

18、將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中,通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解,獲得多個(gè)頻率子帶的音頻特征表示。

19、進(jìn)一步的,所述多頻子帶卷積層中包括m個(gè)不同頻率子帶的卷積層,所述將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中,通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解,獲得多個(gè)頻率子帶的音頻特征表示的步驟,具體包括:

20、采用所述m個(gè)不同頻率子帶的卷積層分別對(duì)所述第二音頻特征矩陣進(jìn)行卷積操作,獲得所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果,其中,m為正整數(shù);

21、將所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果作為對(duì)所述第二音頻特征矩陣進(jìn)行分解處理所獲得多個(gè)頻率子帶的音頻特征表示。

22、進(jìn)一步的,所述預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)包括常規(guī)線(xiàn)性層和重構(gòu)線(xiàn)性層,所述將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音的步驟,具體包括:

23、使用所述常規(guī)線(xiàn)性層對(duì)所述多個(gè)頻率子帶的音頻特征表示進(jìn)行常規(guī)性線(xiàn)性變換處理,獲得線(xiàn)性變換處理結(jié)果;

24、采用所述重構(gòu)線(xiàn)性層對(duì)所述線(xiàn)性變換處理結(jié)果進(jìn)行重構(gòu)化線(xiàn)性變換處理,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音信號(hào),其中,所述重構(gòu)線(xiàn)性層的重構(gòu)目的在于:

25、將依據(jù)所述聲學(xué)特征所獲得的音頻特征與期望生成的目標(biāo)重建語(yǔ)音進(jìn)行信號(hào)長(zhǎng)度對(duì)齊。

26、進(jìn)一步的,所有卷積層在進(jìn)行卷積操作時(shí)都采用非上采樣方式,且所有卷積層都具有獨(dú)立的卷積核。

27、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供語(yǔ)音重建裝置,采用了如下所述的技術(shù)方案:

28、一種語(yǔ)音重建裝置,包括:

29、聲學(xué)特征獲取模塊,用于獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;

30、第一卷積處理模塊,用于將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;

31、第二卷積處理模塊,用于將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;

32、線(xiàn)性處理重建模塊,用于將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。

33、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:

34、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)上述所述的語(yǔ)音重建方法的步驟。

35、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:

36、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的語(yǔ)音重建方法的步驟。

37、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例主要有以下有益效果:

38、本技術(shù)實(shí)施例所述語(yǔ)音重建方法,通過(guò)獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。本技術(shù)所述的語(yǔ)音重建方法,通過(guò)對(duì)現(xiàn)有常規(guī)的卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)果進(jìn)行改進(jìn),采用改進(jìn)后的第一卷積處理結(jié)構(gòu)、第二卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)構(gòu),進(jìn)行語(yǔ)音重建,既減少語(yǔ)音重建計(jì)算量,也提升語(yǔ)音重建效率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
民乐县| 涪陵区| 革吉县| 随州市| 裕民县| 罗源县| 榕江县| 岐山县| 莱芜市| 伊吾县| 黄梅县| 日照市| 普格县| 涿鹿县| 霍林郭勒市| 高雄县| 临澧县| 胶州市| 体育| 集安市| 雅安市| 曲麻莱县| 贵溪市| 遂平县| 庆阳市| 静海县| 江永县| 东乌珠穆沁旗| 于都县| 浦东新区| 施甸县| 土默特右旗| 香港 | 丹东市| 兰溪市| 新野县| 祁门县| 科技| 胶南市| 台北市| 东莞市|