一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40648071發(fā)布日期：2025-01-10 18:54閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及語(yǔ)音處理，應(yīng)用于根據(jù)聲學(xué)特征進(jìn)行語(yǔ)音重建場(chǎng)景中，尤其涉及一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、語(yǔ)音重建技術(shù)，指的是采用聲碼器對(duì)聲學(xué)特征進(jìn)行重構(gòu)或者重建，得到語(yǔ)音信號(hào)。當(dāng)前，語(yǔ)音重建技術(shù)得到了迅速的發(fā)展，目前主流的聲碼器分為這幾類(lèi)：第一種是利用音頻特征上采樣和逆傅里葉變換相結(jié)合的聲碼器、第二種是單獨(dú)基于逆傅里葉變換的聲碼器。

2、然而，涉及到上采樣和逆傅里葉變換的聲碼器，上采樣和逆傅里葉變換時(shí)都會(huì)涉及到較大的計(jì)算量，導(dǎo)致了聲碼器的處理速度較慢，降低了語(yǔ)音重建效率。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的目的在于提出一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)，以解決現(xiàn)有進(jìn)行語(yǔ)音重建時(shí)，主流的聲碼器存在處理速度較慢，降低語(yǔ)音重建效率的問(wèn)題。

2、為了解決上述技術(shù)問(wèn)題，本技術(shù)實(shí)施例提供語(yǔ)音重建方法，采用了如下所述的技術(shù)方案：

3、一種語(yǔ)音重建方法，包括下述步驟：

4、獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征，其中，所述聲學(xué)特征包括原始音頻波形；

5、將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu)，獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示；

6、將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu)，獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示；

7、將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后，生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。

8、進(jìn)一步的，所述預(yù)設(shè)的第一卷積處理結(jié)構(gòu)中包括第一常規(guī)卷積層和n個(gè)卷積塊，所述將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu)，獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示的步驟，具體包括：

9、將所述原始音頻波形輸入到所述第一常規(guī)卷積層，進(jìn)行音頻特征提取，獲得第一音頻特征矩陣；

10、將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后，獲得全局歸一化的音頻特征表示，其中，n為正整數(shù)。

11、進(jìn)一步的，每個(gè)所述卷積塊按照先后處理關(guān)系依次疊設(shè)有深度分層卷積層、線(xiàn)性歸一化層、第二常規(guī)卷積層、gelu激活層、第三常規(guī)卷積層和全局歸一化層，所述將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后，獲得全局歸一化的音頻特征表示的步驟，具體包括：

12、采用所述深度分層卷積層對(duì)所述第一音頻特征矩陣中所包含的音頻特征依次進(jìn)行低維音頻特征、局部音頻特征和全局音頻特征提取；

13、結(jié)合所述線(xiàn)性歸一化層對(duì)提取的低維音頻特征、局部音頻特征和全局音頻特征分別進(jìn)行歸一化處理，獲得歸一化處理結(jié)果；

14、根據(jù)所述第二常規(guī)卷積層和所述gelu激活層，對(duì)所述歸一化處理結(jié)果進(jìn)行常規(guī)卷積和非線(xiàn)性引入操作，獲得激活表示結(jié)果；

15、采用所述第三常規(guī)卷積層對(duì)所述激活表示結(jié)果再次進(jìn)行常規(guī)卷積操作，并將卷積操作結(jié)果引入到所述全局歸一化層進(jìn)行全局歸一化處理，獲得所述全局歸一化的音頻特征表示。

16、進(jìn)一步的，所述預(yù)設(shè)的第二卷積處理結(jié)構(gòu)中包括第四常規(guī)卷積層和多頻子帶卷積層，所述將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu)，獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示的步驟，具體包括：

17、將所述全局歸一化的音頻特征表示輸入到所述第四常規(guī)卷積層，經(jīng)所述第四常規(guī)卷積層卷積處理后，獲得第二音頻特征矩陣；

18、將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中，通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解，獲得多個(gè)頻率子帶的音頻特征表示。

19、進(jìn)一步的，所述多頻子帶卷積層中包括m個(gè)不同頻率子帶的卷積層，所述將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中，通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解，獲得多個(gè)頻率子帶的音頻特征表示的步驟，具體包括：

20、采用所述m個(gè)不同頻率子帶的卷積層分別對(duì)所述第二音頻特征矩陣進(jìn)行卷積操作，獲得所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果，其中，m為正整數(shù)；

21、將所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果作為對(duì)所述第二音頻特征矩陣進(jìn)行分解處理所獲得多個(gè)頻率子帶的音頻特征表示。

22、進(jìn)一步的，所述預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)包括常規(guī)線(xiàn)性層和重構(gòu)線(xiàn)性層，所述將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后，生成目標(biāo)長(zhǎng)度的重建語(yǔ)音的步驟，具體包括：

23、使用所述常規(guī)線(xiàn)性層對(duì)所述多個(gè)頻率子帶的音頻特征表示進(jìn)行常規(guī)性線(xiàn)性變換處理，獲得線(xiàn)性變換處理結(jié)果；

24、采用所述重構(gòu)線(xiàn)性層對(duì)所述線(xiàn)性變換處理結(jié)果進(jìn)行重構(gòu)化線(xiàn)性變換處理，生成目標(biāo)長(zhǎng)度的重建語(yǔ)音信號(hào)，其中，所述重構(gòu)線(xiàn)性層的重構(gòu)目的在于：

25、將依據(jù)所述聲學(xué)特征所獲得的音頻特征與期望生成的目標(biāo)重建語(yǔ)音進(jìn)行信號(hào)長(zhǎng)度對(duì)齊。

26、進(jìn)一步的，所有卷積層在進(jìn)行卷積操作時(shí)都采用非上采樣方式，且所有卷積層都具有獨(dú)立的卷積核。

27、為了解決上述技術(shù)問(wèn)題，本技術(shù)實(shí)施例還提供語(yǔ)音重建裝置，采用了如下所述的技術(shù)方案：

28、一種語(yǔ)音重建裝置，包括：

29、聲學(xué)特征獲取模塊，用于獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征，其中，所述聲學(xué)特征包括原始音頻波形；

30、第一卷積處理模塊，用于將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu)，獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示；

31、第二卷積處理模塊，用于將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu)，獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示；

32、線(xiàn)性處理重建模塊，用于將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后，生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。

33、為了解決上述技術(shù)問(wèn)題，本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備，采用了如下所述的技術(shù)方案：

34、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令，所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)上述所述的語(yǔ)音重建方法的步驟。

35、為了解決上述技術(shù)問(wèn)題，本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，采用了如下所述的技術(shù)方案：

36、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的語(yǔ)音重建方法的步驟。

37、與現(xiàn)有技術(shù)相比，本技術(shù)實(shí)施例主要有以下有益效果：

38、本技術(shù)實(shí)施例所述語(yǔ)音重建方法，通過(guò)獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征，其中，所述聲學(xué)特征包括原始音頻波形；將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu)，獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示；將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu)，獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示；將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后，生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。本技術(shù)所述的語(yǔ)音重建方法，通過(guò)對(duì)現(xiàn)有常規(guī)的卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)果進(jìn)行改進(jìn)，采用改進(jìn)后的第一卷積處理結(jié)構(gòu)、第二卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)構(gòu)，進(jìn)行語(yǔ)音重建，既減少語(yǔ)音重建計(jì)算量，也提升語(yǔ)音重建效率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石巖,陳閩川,王少軍
技術(shù)所有人：平安科技（深圳）有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：夾鉗單元制動(dòng)缸裝配產(chǎn)線(xiàn)的制作方法
上一篇：圖像傳感器輻照試驗(yàn)裝置及測(cè)試方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程

一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)與流程