基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的制作方法

文檔序號(hào)：2825172閱讀：230來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種混合激勵(lì)模型聲碼器，具體涉及基于逆濾波的諧波噪聲激勵(lì)模型聲碼器。
背景技術(shù)：
和諧人機(jī)交互技術(shù)一直都是人們關(guān)注的對(duì)象，聲碼器技術(shù)是其重要組成部分，它能夠?qū)σ粋€(gè)人的聲音進(jìn)行處理，使之能夠產(chǎn)生接近自然人發(fā)音的語音，其研究成果對(duì)參數(shù)語音合成技術(shù)、語音編碼技術(shù)、個(gè)性化語音合成技術(shù)等的發(fā)展具有重要的意義。而目前的大多數(shù)聲碼器技術(shù)采用脈沖加白噪聲激勵(lì)模型，這種激勵(lì)模型在濁音段用脈沖串構(gòu)建激勵(lì)信號(hào)，由于脈沖串周期性過強(qiáng)，采用這種激勵(lì)模型合成語音音質(zhì)不高，有很嚴(yán)重的機(jī)器聲。殘差信號(hào)是語音信號(hào)經(jīng)過逆濾波去除譜信息后的殘留信號(hào)，是激勵(lì)建模的目標(biāo)信號(hào)。脈沖加白噪聲激勵(lì)模型在高頻段不能很好的模擬殘差信號(hào)。與之相比，直接對(duì)殘差信號(hào)進(jìn)行建模的諧波噪聲激勵(lì)模型能夠很好的解決這個(gè)問題。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)問題，本發(fā)明的目的是提出一種技術(shù)，可以對(duì)逆濾波后的殘差信號(hào)進(jìn)行建模，使生成的激勵(lì)信號(hào)具有較高的準(zhǔn)確性；根據(jù)濁音殘差信號(hào)的頻譜具有低頻諧波和高頻噪聲的特性，求取最大濁音頻率將濁音殘差信號(hào)的頻譜劃分為高頻段和低頻段，分別采用一組正弦函數(shù)和高通濾波的高斯白噪聲來構(gòu)建，為此，本發(fā)明構(gòu)建一種基于逆濾波的諧波噪聲激勵(lì)模型聲碼器。為實(shí)現(xiàn)上述目的，本發(fā)明的基于逆濾波的諧波噪聲激勵(lì)模型聲碼器，利用電腦終端，分析語音數(shù)據(jù)的頻譜、基頻和最大濁音頻率，用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵(lì)模型來復(fù)現(xiàn)逆濾波后的殘差信號(hào)，在激勵(lì)建模過程中，對(duì)任何輸入語音進(jìn)行激勵(lì)建模，所述諧波噪聲激勵(lì)模型聲碼器中具有一參數(shù)提取模塊，輸入端接收待分析語音數(shù)據(jù)，加窗分幀，計(jì)算基頻參數(shù)和頻譜參數(shù)；具有一輸出端輸出基頻參數(shù)和頻譜參數(shù)；具有一逆濾波模塊，輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù)，根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波；具有一輸出端輸出逆濾波后的殘差信號(hào)；具有一最大濁音頻率估計(jì)模塊，輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào)；具有一輸出端輸出計(jì)算出的最大濁音頻率；具有一濁音激勵(lì)生成模塊，輸入端接收基頻參數(shù)和最大濁音頻率，分低頻段和高頻段分別生成濁音激勵(lì)信號(hào)；具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào)；具有一清音激勵(lì)生成模塊，用高斯白噪聲作為清音激勵(lì)；具有一輸出端按幀輸出清音激勵(lì)信號(hào)；具有一參數(shù)語音合成器模塊，輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用語音合成器合成語音；具有一輸出端輸出語音合成結(jié)果；
優(yōu)選地，所述最大濁音頻率估計(jì)模塊具有一頻譜計(jì)算模塊，輸入端接收逆濾波后的殘差信號(hào)，加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值；具有一子帶劃分模塊，輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值，對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果；具有一 K-均值聚類模塊，輸入端接收每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果，定義子帶之間的距離度量方法，采用K-均值聚類方法將子帶劃分為兩類，將聚類結(jié)果一類視為諧波，一類視為噪聲；具有一輸出端輸出每個(gè)子帶的聚類結(jié)果；具有一 Viterbi搜索模塊，輸入端接收每個(gè)子帶的聚類結(jié)果，通過計(jì)算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號(hào)可能的諧波/噪聲轉(zhuǎn)換點(diǎn)，定義相鄰子帶的諧波之間的拼接代價(jià)，運(yùn)用Viterbi算法通過搜索最大拼接代價(jià)來得到最大濁音頻率的最優(yōu)路徑；具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。優(yōu)選地，濁音激勵(lì)生成模塊具有一低頻段諧波模塊，輸入端接收基頻參數(shù)和最大濁音頻率，采用一組正弦波構(gòu)建低頻段諧波；具有一輸出端輸出濁音激勵(lì)低頻段諧波信號(hào)；具有一高頻段噪聲模塊，輸入端接收最大濁音頻率，設(shè)計(jì)截止頻率為最大濁音頻率的理想高通濾波器對(duì)高斯白噪聲進(jìn)行濾波得到濁音激勵(lì)高頻段噪聲信號(hào)；具有一輸出端輸出濁音激勵(lì)高頻段噪聲信號(hào)。優(yōu)選地，參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型，輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用語音合成器合成語音；具有一輸出端輸出語音合成結(jié)果。本發(fā)明的有益效果本發(fā)明的第一方面，在最大濁音頻率估計(jì)階段，利用K-均值聚類和Viterbi搜索的方法。傳統(tǒng)的基于頻譜的最大濁音頻率計(jì)算方法，往往需要定義一個(gè)諧波的度量方法，同時(shí)確定一個(gè)閾值來對(duì)候選的諧波成分進(jìn)行判斷。這種方法的準(zhǔn)確性很大程度上取決于定義的諧波度量方法和采用的閾值大小，這樣往往需要耗費(fèi)大量的人力做實(shí)驗(yàn)來選擇諧波度量方法和確定所采用的閾值，在不同情況下的語音又需要重新通過實(shí)驗(yàn)調(diào)整閾值。但是在本方法是通過K-均值聚類來確定可能的諧波/噪聲轉(zhuǎn)換點(diǎn)，通過 Viterbi算法來搜索最大濁音頻率的最優(yōu)路徑，不需要任何手工標(biāo)注信息，從而大大降低了系統(tǒng)實(shí)現(xiàn)的復(fù)雜度和人工參與程度。本發(fā)明的第二方面，在計(jì)算子帶之間的距離時(shí)采用夾角度量方法。傳統(tǒng)的基于歐式距離的度量方法，定義的是歐式空間的真實(shí)距離。由于子帶之間的歐式距離較小，影響 K-均值聚類。但是采用夾角度量方法，能夠?qū)⒆訋еg的距離經(jīng)過一個(gè)非線性變換放大，使聚類結(jié)果更加準(zhǔn)確。本發(fā)明的第三方面，在濁音激勵(lì)建模階段，采用一組正弦波構(gòu)成的低頻段和高通濾波的高斯白噪聲構(gòu)成的高頻段組成。傳統(tǒng)基于脈沖串的濁音激勵(lì)，周期性太強(qiáng)，合成語音有嚴(yán)重的機(jī)器聲，脈沖串頻譜的零頻段存在半個(gè)諧波與殘差信號(hào)的頻譜不符。但是本方法采用低頻段和高頻段對(duì)濁音激勵(lì)分兩段建模，能夠有效去除合成語音的機(jī)器聲，同時(shí)去除零頻段半個(gè)諧波的干擾。

圖1是本發(fā)明所提出的基于逆濾波的諧波噪聲模型聲碼器的總體框圖。
5
圖2是本發(fā)明的最大濁音頻率估計(jì)的框圖。圖3是本發(fā)明的構(gòu)建濁音語音激勵(lì)模型的框圖。圖4是本發(fā)明的參數(shù)語音合成器的框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明進(jìn)一步說明，通過結(jié)合附圖對(duì)系統(tǒng)各組成部件的詳細(xì)說明將會(huì)更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出，所描述的實(shí)例僅僅視為說明的目的，而不是對(duì)本發(fā)明的限制。圖1是本發(fā)明基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的系統(tǒng)示意圖，系統(tǒng)以 matIab語言編寫，在windows平臺(tái)下和在Iinux平臺(tái)下均可使用Matlab程序編程運(yùn)行。在附圖1本發(fā)明的優(yōu)選實(shí)施方案中，本系統(tǒng)被分為六部分參數(shù)提取模塊1、逆濾波模塊2、最大濁音頻率估計(jì)模塊3、濁音激勵(lì)生成模塊4、清音激勵(lì)生成模塊5和參數(shù)語音合成器模塊 6組成。其中，輸入的語音數(shù)據(jù)與參數(shù)提取模塊1相連，逆濾波模塊2與參數(shù)提取模塊1相連，最大濁音頻率估計(jì)模塊3與逆濾波模塊2相連，濁音激勵(lì)生成模塊4和清音激勵(lì)生成模塊5與最大濁音頻率估計(jì)模塊相連，參數(shù)語音合成器模塊與濁音激勵(lì)生成模塊4和清音激勵(lì)生成模塊5選擇相連。具有一參數(shù)提取模塊1，其輸入端接收待分析語音數(shù)據(jù)，加窗分幀，計(jì)算基頻參數(shù)和頻譜參數(shù)；具有一輸出端輸出基頻參數(shù)和頻譜參數(shù)。具有一逆濾波模塊2，其輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù)，根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波；具有一輸出端輸出逆濾波后的殘差信號(hào)。具有一最大濁音頻率估計(jì)模塊3，其輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào)；具有一輸出端輸出計(jì)算出的最大濁音頻率。具有一濁音激勵(lì)生成模塊4，其輸入端接收基頻參數(shù)和最大濁音頻率，分低頻段和高頻段分別生成濁音激勵(lì)信號(hào)；具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào)。具有一清音激勵(lì)生成模塊5，用高斯白噪聲作為清音激勵(lì)；具有一輸出端按幀輸出清音激勵(lì)信號(hào)。具有一參數(shù)語音合成器模塊6，其輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用語音合成器合成語音；具有一輸出端輸出語音合成結(jié)果。如圖2最大濁音頻率估計(jì)模塊的框圖所示最大濁音頻率估計(jì)模塊3由頻譜計(jì)算模塊10、子帶劃分模塊20、K-均值聚類模塊30和Viterbi算法模塊40。頻譜計(jì)算模塊10的輸入端接收逆濾波后的殘差信號(hào)，加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值；在進(jìn)行傅里葉分析時(shí)采用的長(zhǎng)度為4096，這樣能夠確保接下來子帶劃分模塊20劃分出的子帶具有較高的準(zhǔn)確度。子帶劃分模塊20的輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值，對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶，每個(gè)子帶用一維向量表示；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果；子帶長(zhǎng)度和子帶個(gè)數(shù)可以通過基頻和采樣率確定，使用公式為
權(quán)利要求
1.一種基于逆濾波的諧波噪聲激勵(lì)模型聲碼器，利用電腦終端，分析語音數(shù)據(jù)的頻譜、基頻和最大濁音頻率，用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵(lì)模型來復(fù)現(xiàn)逆濾波后的殘差信號(hào)，在激勵(lì)建模過程中，對(duì)任何輸入語音進(jìn)行激勵(lì)建模，其特征在于所述諧波噪聲激勵(lì)模型聲碼器中具有一參數(shù)提取模塊，輸入端接收待分析語音數(shù)據(jù)，加窗分幀，計(jì)算基頻參數(shù)和頻譜參數(shù)；具有一輸出端輸出基頻參數(shù)和頻譜參數(shù)；具有一逆濾波模塊，輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù)，根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波；具有一輸出端輸出逆濾波后的殘差信號(hào)；具有一最大濁音頻率估計(jì)模塊，輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào)；具有一輸出端輸出計(jì)算出的最大濁音頻率；具有一濁音激勵(lì)生成模塊，輸入端接收基頻參數(shù)和最大濁音頻率，分低頻段和高頻段分別生成濁音激勵(lì)信號(hào)；具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào)；具有一清音激勵(lì)生成模塊，用高斯白噪聲作為清音激勵(lì)；具有一輸出端按幀輸出清音激勵(lì)信號(hào)；具有一參數(shù)語音合成器模塊，輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用語音合成器合成語音；具有一輸出端輸出語音合成結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵(lì)模型建模方法，其特征在于所述最大濁音頻率估計(jì)模塊中具有一頻譜計(jì)算模塊，輸入端接收逆濾波后的殘差信號(hào)，加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值；具有一子帶劃分模塊，輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值，對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶；具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果；具有一 K-均值聚類模塊，輸入端接收每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果，定義子帶之間的距離度量方法，采用K-均值聚類方法將子帶劃分為兩類，將聚類結(jié)果一類視為諧波，一類視為噪聲；具有一輸出端輸出每個(gè)子帶的聚類結(jié)果；具有一 Viterbi搜索模塊，輸入端接收每個(gè)子帶的聚類結(jié)果，通過計(jì)算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號(hào)可能的諧波/噪聲轉(zhuǎn)換點(diǎn)，定義相鄰子帶的諧波之間的拼接代價(jià)，運(yùn)用Viterbi算法通過搜索最大拼接代價(jià)來得到最大濁音頻率的最優(yōu)路徑；具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。
3.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵(lì)模型建模方法，其特征在于濁音激勵(lì)生成模塊中具有一低頻段諧波模塊，輸入端接收基頻參數(shù)和最大濁音頻率，采用一組正弦波構(gòu)建低頻段諧波；具有一輸出端輸出濁音激勵(lì)低頻段諧波信號(hào)；具有一高頻段噪聲模塊，輸入端接收最大濁音頻率，設(shè)計(jì)截止頻率為最大濁音頻率的理想高通濾波器對(duì)高斯白噪聲進(jìn)行濾波得到濁音激勵(lì)高頻段噪聲信號(hào)；具有一輸出端輸出濁音激勵(lì)高頻段噪聲信號(hào)。
4.根據(jù)權(quán)利要求1所述的基于逆濾波后殘差信號(hào)的諧波噪聲激勵(lì)模型建模方法，其特征在于參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型，輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用語音合成器合成語音；具有一輸出端輸出語音合成結(jié)果。
全文摘要
本發(fā)明基于逆濾波的諧波噪聲激勵(lì)模型聲碼器，聲碼器包含有參數(shù)提取模塊接收語音數(shù)據(jù)，分析基頻參數(shù)和頻譜參數(shù)；逆濾波模塊接收頻譜參數(shù)設(shè)計(jì)逆濾波器，得到去除譜信息的殘差信號(hào)；最大濁音頻率估計(jì)模塊接收基頻參數(shù)和逆濾波后的殘差信號(hào)，計(jì)算最大濁音頻率將殘差信號(hào)的頻譜劃分為低頻段的諧波和高頻段的噪聲；濁音激勵(lì)生成模塊接收基頻參數(shù)和最大濁音頻率，分別用一組正弦波和高通濾波的高斯白噪聲來構(gòu)建激勵(lì)模型中的低頻諧波和高頻噪聲；清音激勵(lì)生成模塊用高斯白噪聲；參數(shù)語音合成器模塊接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào)，調(diào)用合成器輸出語音。依據(jù)本發(fā)明實(shí)現(xiàn)對(duì)逆濾波后的殘差信號(hào)建模，合成語音具有較好的自然度和清晰度。
文檔編號(hào)G10L11/06GK102201240SQ201110140269
公開日2011年9月28日申請(qǐng)日期2011年5月27日優(yōu)先權(quán)日2011年5月27日
發(fā)明者溫正棋, 陶建華申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載