本技術(shù)涉及語(yǔ)音處理,應(yīng)用于根據(jù)聲學(xué)特征進(jìn)行語(yǔ)音重建場(chǎng)景中,尤其涉及一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語(yǔ)音重建技術(shù),指的是采用聲碼器對(duì)聲學(xué)特征進(jìn)行重構(gòu)或者重建,得到語(yǔ)音信號(hào)。當(dāng)前,語(yǔ)音重建技術(shù)得到了迅速的發(fā)展,目前主流的聲碼器分為這幾類(lèi):第一種是利用音頻特征上采樣和逆傅里葉變換相結(jié)合的聲碼器、第二種是單獨(dú)基于逆傅里葉變換的聲碼器。
2、然而,涉及到上采樣和逆傅里葉變換的聲碼器,上采樣和逆傅里葉變換時(shí)都會(huì)涉及到較大的計(jì)算量,導(dǎo)致了聲碼器的處理速度較慢,降低了語(yǔ)音重建效率。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的在于提出一種語(yǔ)音重建方法、裝置、設(shè)備及其存儲(chǔ)介質(zhì),以解決現(xiàn)有進(jìn)行語(yǔ)音重建時(shí),主流的聲碼器存在處理速度較慢,降低語(yǔ)音重建效率的問(wèn)題。
2、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例提供語(yǔ)音重建方法,采用了如下所述的技術(shù)方案:
3、一種語(yǔ)音重建方法,包括下述步驟:
4、獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;
5、將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;
6、將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;
7、將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。
8、進(jìn)一步的,所述預(yù)設(shè)的第一卷積處理結(jié)構(gòu)中包括第一常規(guī)卷積層和n個(gè)卷積塊,所述將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示的步驟,具體包括:
9、將所述原始音頻波形輸入到所述第一常規(guī)卷積層,進(jìn)行音頻特征提取,獲得第一音頻特征矩陣;
10、將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后,獲得全局歸一化的音頻特征表示,其中,n為正整數(shù)。
11、進(jìn)一步的,每個(gè)所述卷積塊按照先后處理關(guān)系依次疊設(shè)有深度分層卷積層、線(xiàn)性歸一化層、第二常規(guī)卷積層、gelu激活層、第三常規(guī)卷積層和全局歸一化層,所述將所述第一音頻特征矩陣經(jīng)n層卷積塊處理后,獲得全局歸一化的音頻特征表示的步驟,具體包括:
12、采用所述深度分層卷積層對(duì)所述第一音頻特征矩陣中所包含的音頻特征依次進(jìn)行低維音頻特征、局部音頻特征和全局音頻特征提取;
13、結(jié)合所述線(xiàn)性歸一化層對(duì)提取的低維音頻特征、局部音頻特征和全局音頻特征分別進(jìn)行歸一化處理,獲得歸一化處理結(jié)果;
14、根據(jù)所述第二常規(guī)卷積層和所述gelu激活層,對(duì)所述歸一化處理結(jié)果進(jìn)行常規(guī)卷積和非線(xiàn)性引入操作,獲得激活表示結(jié)果;
15、采用所述第三常規(guī)卷積層對(duì)所述激活表示結(jié)果再次進(jìn)行常規(guī)卷積操作,并將卷積操作結(jié)果引入到所述全局歸一化層進(jìn)行全局歸一化處理,獲得所述全局歸一化的音頻特征表示。
16、進(jìn)一步的,所述預(yù)設(shè)的第二卷積處理結(jié)構(gòu)中包括第四常規(guī)卷積層和多頻子帶卷積層,所述將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示的步驟,具體包括:
17、將所述全局歸一化的音頻特征表示輸入到所述第四常規(guī)卷積層,經(jīng)所述第四常規(guī)卷積層卷積處理后,獲得第二音頻特征矩陣;
18、將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中,通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解,獲得多個(gè)頻率子帶的音頻特征表示。
19、進(jìn)一步的,所述多頻子帶卷積層中包括m個(gè)不同頻率子帶的卷積層,所述將所述第二音頻特征矩陣輸入到所述多頻子帶卷積層中,通過(guò)所述多頻子帶卷積層對(duì)所述第二音頻特征矩陣進(jìn)行分解,獲得多個(gè)頻率子帶的音頻特征表示的步驟,具體包括:
20、采用所述m個(gè)不同頻率子帶的卷積層分別對(duì)所述第二音頻特征矩陣進(jìn)行卷積操作,獲得所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果,其中,m為正整數(shù);
21、將所述m個(gè)不同頻率子帶的卷積層分別對(duì)應(yīng)的音頻特征卷積結(jié)果作為對(duì)所述第二音頻特征矩陣進(jìn)行分解處理所獲得多個(gè)頻率子帶的音頻特征表示。
22、進(jìn)一步的,所述預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)包括常規(guī)線(xiàn)性層和重構(gòu)線(xiàn)性層,所述將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音的步驟,具體包括:
23、使用所述常規(guī)線(xiàn)性層對(duì)所述多個(gè)頻率子帶的音頻特征表示進(jìn)行常規(guī)性線(xiàn)性變換處理,獲得線(xiàn)性變換處理結(jié)果;
24、采用所述重構(gòu)線(xiàn)性層對(duì)所述線(xiàn)性變換處理結(jié)果進(jìn)行重構(gòu)化線(xiàn)性變換處理,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音信號(hào),其中,所述重構(gòu)線(xiàn)性層的重構(gòu)目的在于:
25、將依據(jù)所述聲學(xué)特征所獲得的音頻特征與期望生成的目標(biāo)重建語(yǔ)音進(jìn)行信號(hào)長(zhǎng)度對(duì)齊。
26、進(jìn)一步的,所有卷積層在進(jìn)行卷積操作時(shí)都采用非上采樣方式,且所有卷積層都具有獨(dú)立的卷積核。
27、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供語(yǔ)音重建裝置,采用了如下所述的技術(shù)方案:
28、一種語(yǔ)音重建裝置,包括:
29、聲學(xué)特征獲取模塊,用于獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;
30、第一卷積處理模塊,用于將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;
31、第二卷積處理模塊,用于將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;
32、線(xiàn)性處理重建模塊,用于將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。
33、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
34、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)上述所述的語(yǔ)音重建方法的步驟。
35、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
36、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的語(yǔ)音重建方法的步驟。
37、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例主要有以下有益效果:
38、本技術(shù)實(shí)施例所述語(yǔ)音重建方法,通過(guò)獲取待進(jìn)行語(yǔ)音信號(hào)重建的聲學(xué)特征,其中,所述聲學(xué)特征包括原始音頻波形;將所述原始音頻波形輸入到預(yù)設(shè)的第一卷積處理結(jié)構(gòu),獲得經(jīng)所述第一卷積處理結(jié)構(gòu)處理后所輸出的全局歸一化的音頻特征表示;將所述全局歸一化的音頻特征表示輸入到預(yù)設(shè)的第二卷積處理結(jié)構(gòu),獲得經(jīng)所述第二卷積處理結(jié)構(gòu)處理后所輸出的多個(gè)頻率子帶的音頻特征表示;將所述多個(gè)頻率子帶的音頻特征表示經(jīng)過(guò)預(yù)設(shè)的線(xiàn)性處理結(jié)構(gòu)線(xiàn)性變換處理后,生成目標(biāo)長(zhǎng)度的重建語(yǔ)音。本技術(shù)所述的語(yǔ)音重建方法,通過(guò)對(duì)現(xiàn)有常規(guī)的卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)果進(jìn)行改進(jìn),采用改進(jìn)后的第一卷積處理結(jié)構(gòu)、第二卷積處理結(jié)構(gòu)和線(xiàn)性處理結(jié)構(gòu),進(jìn)行語(yǔ)音重建,既減少語(yǔ)音重建計(jì)算量,也提升語(yǔ)音重建效率。