两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的制作方法

文檔序號(hào):2825172閱讀:230來源:國(guó)知局
專利名稱:基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種混合激勵(lì)模型聲碼器,具體涉及基于逆濾波的諧波噪聲激勵(lì)模型聲碼器。
背景技術(shù)
和諧人機(jī)交互技術(shù)一直都是人們關(guān)注的對(duì)象,聲碼器技術(shù)是其重要組成部分,它能夠?qū)σ粋€(gè)人的聲音進(jìn)行處理,使之能夠產(chǎn)生接近自然人發(fā)音的語音,其研究成果對(duì)參數(shù)語音合成技術(shù)、語音編碼技術(shù)、個(gè)性化語音合成技術(shù)等的發(fā)展具有重要的意義。而目前的大多數(shù)聲碼器技術(shù)采用脈沖加白噪聲激勵(lì)模型,這種激勵(lì)模型在濁音段用脈沖串構(gòu)建激勵(lì)信號(hào),由于脈沖串周期性過強(qiáng),采用這種激勵(lì)模型合成語音音質(zhì)不高,有很嚴(yán)重的機(jī)器聲。殘差信號(hào)是語音信號(hào)經(jīng)過逆濾波去除譜信息后的殘留信號(hào),是激勵(lì)建模的目標(biāo)信號(hào)。脈沖加白噪聲激勵(lì)模型在高頻段不能很好的模擬殘差信號(hào)。與之相比,直接對(duì)殘差信號(hào)進(jìn)行建模的諧波噪聲激勵(lì)模型能夠很好的解決這個(gè)問題。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)問題,本發(fā)明的目的是提出一種技術(shù),可以對(duì)逆濾波后的殘差信號(hào)進(jìn)行建模,使生成的激勵(lì)信號(hào)具有較高的準(zhǔn)確性;根據(jù)濁音殘差信號(hào)的頻譜具有低頻諧波和高頻噪聲的特性,求取最大濁音頻率將濁音殘差信號(hào)的頻譜劃分為高頻段和低頻段,分別采用一組正弦函數(shù)和高通濾波的高斯白噪聲來構(gòu)建,為此,本發(fā)明構(gòu)建一種基于逆濾波的諧波噪聲激勵(lì)模型聲碼器。為實(shí)現(xiàn)上述目的,本發(fā)明的基于逆濾波的諧波噪聲激勵(lì)模型聲碼器,利用電腦終端,分析語音數(shù)據(jù)的頻譜、基頻和最大濁音頻率,用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵(lì)模型來復(fù)現(xiàn)逆濾波后的殘差信號(hào),在激勵(lì)建模過程中,對(duì)任何輸入語音進(jìn)行激勵(lì)建模,所述諧波噪聲激勵(lì)模型聲碼器中具有一參數(shù)提取模塊,輸入端接收待分析語音數(shù)據(jù),加窗分幀,計(jì)算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù);具有一逆濾波模塊,輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號(hào);具有一最大濁音頻率估計(jì)模塊,輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào);具有一輸出端輸出計(jì)算出的最大濁音頻率;具有一濁音激勵(lì)生成模塊,輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵(lì)信號(hào);具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào);具有一清音激勵(lì)生成模塊,用高斯白噪聲作為清音激勵(lì);具有一輸出端按幀輸出清音激勵(lì)信號(hào);具有一參數(shù)語音合成器模塊,輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào),調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果;
優(yōu)選地,所述最大濁音頻率估計(jì)模塊具有一頻譜計(jì)算模塊,輸入端接收逆濾波后的殘差信號(hào),加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值;具有一子帶劃分模塊,輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值,對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果;具有一 K-均值聚類模塊,輸入端接收每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果,定義子帶之間的距離度量方法,采用K-均值聚類方法將子帶劃分為兩類,將聚類結(jié)果一類視為諧波,一類視為噪聲;具有一輸出端輸出每個(gè)子帶的聚類結(jié)果;具有一 Viterbi搜索模塊,輸入端接收每個(gè)子帶的聚類結(jié)果,通過計(jì)算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號(hào)可能的諧波/噪聲轉(zhuǎn)換點(diǎn),定義相鄰子帶的諧波之間的拼接代價(jià),運(yùn)用Viterbi算法通過搜索最大拼接代價(jià)來得到最大濁音頻率的最優(yōu)路徑;具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。優(yōu)選地,濁音激勵(lì)生成模塊具有一低頻段諧波模塊,輸入端接收基頻參數(shù)和最大濁音頻率,采用一組正弦波構(gòu)建低頻段諧波;具有一輸出端輸出濁音激勵(lì)低頻段諧波信號(hào); 具有一高頻段噪聲模塊,輸入端接收最大濁音頻率,設(shè)計(jì)截止頻率為最大濁音頻率的理想高通濾波器對(duì)高斯白噪聲進(jìn)行濾波得到濁音激勵(lì)高頻段噪聲信號(hào);具有一輸出端輸出濁音激勵(lì)高頻段噪聲信號(hào)。優(yōu)選地,參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型,輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào),調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。本發(fā)明的有益效果本發(fā)明的第一方面,在最大濁音頻率估計(jì)階段,利用K-均值聚類和Viterbi搜索的方法。傳統(tǒng)的基于頻譜的最大濁音頻率計(jì)算方法,往往需要定義一個(gè)諧波的度量方法,同時(shí)確定一個(gè)閾值來對(duì)候選的諧波成分進(jìn)行判斷。這種方法的準(zhǔn)確性很大程度上取決于定義的諧波度量方法和采用的閾值大小,這樣往往需要耗費(fèi)大量的人力做實(shí)驗(yàn)來選擇諧波度量方法和確定所采用的閾值,在不同情況下的語音又需要重新通過實(shí)驗(yàn)調(diào)整閾值。但是在本方法是通過K-均值聚類來確定可能的諧波/噪聲轉(zhuǎn)換點(diǎn),通過 Viterbi算法來搜索最大濁音頻率的最優(yōu)路徑,不需要任何手工標(biāo)注信息,從而大大降低了系統(tǒng)實(shí)現(xiàn)的復(fù)雜度和人工參與程度。本發(fā)明的第二方面,在計(jì)算子帶之間的距離時(shí)采用夾角度量方法。傳統(tǒng)的基于歐式距離的度量方法,定義的是歐式空間的真實(shí)距離。由于子帶之間的歐式距離較小,影響 K-均值聚類。但是采用夾角度量方法,能夠?qū)⒆訋еg的距離經(jīng)過一個(gè)非線性變換放大,使聚類結(jié)果更加準(zhǔn)確。本發(fā)明的第三方面,在濁音激勵(lì)建模階段,采用一組正弦波構(gòu)成的低頻段和高通濾波的高斯白噪聲構(gòu)成的高頻段組成。傳統(tǒng)基于脈沖串的濁音激勵(lì),周期性太強(qiáng),合成語音有嚴(yán)重的機(jī)器聲,脈沖串頻譜的零頻段存在半個(gè)諧波與殘差信號(hào)的頻譜不符。但是本方法采用低頻段和高頻段對(duì)濁音激勵(lì)分兩段建模,能夠有效去除合成語音的機(jī)器聲,同時(shí)去除零頻段半個(gè)諧波的干擾。


圖1是本發(fā)明所提出的基于逆濾波的諧波噪聲模型聲碼器的總體框圖。
5
圖2是本發(fā)明的最大濁音頻率估計(jì)的框圖。圖3是本發(fā)明的構(gòu)建濁音語音激勵(lì)模型的框圖。圖4是本發(fā)明的參數(shù)語音合成器的框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明進(jìn)一步說明,通過結(jié)合附圖對(duì)系統(tǒng)各組成部件的詳細(xì)說明將會(huì)更好地描述實(shí)現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出,所描述的實(shí)例僅僅視為說明的目的,而不是對(duì)本發(fā)明的限制。圖1是本發(fā)明基于逆濾波的諧波噪聲激勵(lì)模型聲碼器的系統(tǒng)示意圖,系統(tǒng)以 matIab語言編寫,在windows平臺(tái)下和在Iinux平臺(tái)下均可使用Matlab程序編程運(yùn)行。在附圖1本發(fā)明的優(yōu)選實(shí)施方案中,本系統(tǒng)被分為六部分參數(shù)提取模塊1、逆濾波模塊2、最大濁音頻率估計(jì)模塊3、濁音激勵(lì)生成模塊4、清音激勵(lì)生成模塊5和參數(shù)語音合成器模塊 6組成。其中,輸入的語音數(shù)據(jù)與參數(shù)提取模塊1相連,逆濾波模塊2與參數(shù)提取模塊1相連,最大濁音頻率估計(jì)模塊3與逆濾波模塊2相連,濁音激勵(lì)生成模塊4和清音激勵(lì)生成模塊5與最大濁音頻率估計(jì)模塊相連,參數(shù)語音合成器模塊與濁音激勵(lì)生成模塊4和清音激勵(lì)生成模塊5選擇相連。具有一參數(shù)提取模塊1,其輸入端接收待分析語音數(shù)據(jù),加窗分幀,計(jì)算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù)。具有一逆濾波模塊2,其輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號(hào)。具有一最大濁音頻率估計(jì)模塊3,其輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào); 具有一輸出端輸出計(jì)算出的最大濁音頻率。具有一濁音激勵(lì)生成模塊4,其輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵(lì)信號(hào);具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào)。具有一清音激勵(lì)生成模塊5,用高斯白噪聲作為清音激勵(lì);具有一輸出端按幀輸出清音激勵(lì)信號(hào)。具有一參數(shù)語音合成器模塊6,其輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào),調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。如圖2最大濁音頻率估計(jì)模塊的框圖所示最大濁音頻率估計(jì)模塊3由頻譜計(jì)算模塊10、子帶劃分模塊20、K-均值聚類模塊30和Viterbi算法模塊40。頻譜計(jì)算模塊10的輸入端接收逆濾波后的殘差信號(hào),加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值; 在進(jìn)行傅里葉分析時(shí)采用的長(zhǎng)度為4096,這樣能夠確保接下來子帶劃分模塊20劃分出的子帶具有較高的準(zhǔn)確度。子帶劃分模塊20的輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值,對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶,每個(gè)子帶用一維向量表示;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果;子帶長(zhǎng)度和子帶個(gè)數(shù)可以通過基頻和采樣率確定,使用公式為
權(quán)利要求
1.一種基于逆濾波的諧波噪聲激勵(lì)模型聲碼器,利用電腦終端,分析語音數(shù)據(jù)的頻譜、 基頻和最大濁音頻率,用低頻段的諧波和高頻段的噪聲構(gòu)建諧波噪聲激勵(lì)模型來復(fù)現(xiàn)逆濾波后的殘差信號(hào),在激勵(lì)建模過程中,對(duì)任何輸入語音進(jìn)行激勵(lì)建模,其特征在于所述諧波噪聲激勵(lì)模型聲碼器中具有一參數(shù)提取模塊,輸入端接收待分析語音數(shù)據(jù),加窗分幀,計(jì)算基頻參數(shù)和頻譜參數(shù);具有一輸出端輸出基頻參數(shù)和頻譜參數(shù);具有一逆濾波模塊,輸入端接收頻譜參數(shù)和待分析語音數(shù)據(jù),根據(jù)頻譜參數(shù)設(shè)計(jì)逆濾波器對(duì)語音數(shù)據(jù)逆濾波;具有一輸出端輸出逆濾波后的殘差信號(hào);具有一最大濁音頻率估計(jì)模塊,輸入端接收基頻參數(shù)和逆濾波后的殘差信號(hào);具有一輸出端輸出計(jì)算出的最大濁音頻率;具有一濁音激勵(lì)生成模塊,輸入端接收基頻參數(shù)和最大濁音頻率,分低頻段和高頻段分別生成濁音激勵(lì)信號(hào);具有一輸出端按幀輸出生成濁音激勵(lì)信號(hào);具有一清音激勵(lì)生成模塊,用高斯白噪聲作為清音激勵(lì);具有一輸出端按幀輸出清音激勵(lì)信號(hào);具有一參數(shù)語音合成器模塊,輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào), 調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵(lì)模型建模方法,其特征在于所述最大濁音頻率估計(jì)模塊中具有一頻譜計(jì)算模塊,輸入端接收逆濾波后的殘差信號(hào),加窗分幀后進(jìn)行短時(shí)傅里葉分析計(jì)算每幀殘差信號(hào)的頻譜幅度值;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值;具有一子帶劃分模塊,輸入端接收基頻參數(shù)和每幀殘差信號(hào)的頻譜幅度值,對(duì)殘差信號(hào)的頻譜幅度值的正頻率部分按照基頻劃分為多個(gè)子帶;具有一輸出端輸出每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果;具有一 K-均值聚類模塊,輸入端接收每幀殘差信號(hào)的頻譜幅度值的子帶劃分結(jié)果,定義子帶之間的距離度量方法,采用K-均值聚類方法將子帶劃分為兩類,將聚類結(jié)果一類視為諧波,一類視為噪聲;具有一輸出端輸出每個(gè)子帶的聚類結(jié)果;具有一 Viterbi搜索模塊,輸入端接收每個(gè)子帶的聚類結(jié)果,通過計(jì)算子帶的K-均值聚類結(jié)果的斜率定義一幀殘差信號(hào)可能的諧波/噪聲轉(zhuǎn)換點(diǎn),定義相鄰子帶的諧波之間的拼接代價(jià),運(yùn)用Viterbi算法通過搜索最大拼接代價(jià)來得到最大濁音頻率的最優(yōu)路徑;具有一輸出端輸出最大濁音頻率的最優(yōu)路徑。
3.根據(jù)權(quán)利要求1所述的基于逆濾波的諧波噪聲激勵(lì)模型建模方法,其特征在于濁音激勵(lì)生成模塊中具有一低頻段諧波模塊,輸入端接收基頻參數(shù)和最大濁音頻率,采用一組正弦波構(gòu)建低頻段諧波;具有一輸出端輸出濁音激勵(lì)低頻段諧波信號(hào);具有一高頻段噪聲模塊,輸入端接收最大濁音頻率,設(shè)計(jì)截止頻率為最大濁音頻率的理想高通濾波器對(duì)高斯白噪聲進(jìn)行濾波得到濁音激勵(lì)高頻段噪聲信號(hào);具有一輸出端輸出濁音激勵(lì)高頻段噪聲信號(hào)。
4.根據(jù)權(quán)利要求1所述的基于逆濾波后殘差信號(hào)的諧波噪聲激勵(lì)模型建模方法,其特征在于參數(shù)語音合成器模塊具有一語音參數(shù)合成器模型,輸入端接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào),調(diào)用語音合成器合成語音;具有一輸出端輸出語音合成結(jié)果。
全文摘要
本發(fā)明基于逆濾波的諧波噪聲激勵(lì)模型聲碼器,聲碼器包含有參數(shù)提取模塊接收語音數(shù)據(jù),分析基頻參數(shù)和頻譜參數(shù);逆濾波模塊接收頻譜參數(shù)設(shè)計(jì)逆濾波器,得到去除譜信息的殘差信號(hào);最大濁音頻率估計(jì)模塊接收基頻參數(shù)和逆濾波后的殘差信號(hào),計(jì)算最大濁音頻率將殘差信號(hào)的頻譜劃分為低頻段的諧波和高頻段的噪聲;濁音激勵(lì)生成模塊接收基頻參數(shù)和最大濁音頻率,分別用一組正弦波和高通濾波的高斯白噪聲來構(gòu)建激勵(lì)模型中的低頻諧波和高頻噪聲;清音激勵(lì)生成模塊用高斯白噪聲;參數(shù)語音合成器模塊接收頻譜參數(shù)和清音激勵(lì)信號(hào)或濁音激勵(lì)信號(hào),調(diào)用合成器輸出語音。依據(jù)本發(fā)明實(shí)現(xiàn)對(duì)逆濾波后的殘差信號(hào)建模,合成語音具有較好的自然度和清晰度。
文檔編號(hào)G10L11/06GK102201240SQ201110140269
公開日2011年9月28日 申請(qǐng)日期2011年5月27日 優(yōu)先權(quán)日2011年5月27日
發(fā)明者溫正棋, 陶建華 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宝兴县| 根河市| 安福县| 田阳县| 武威市| 柘荣县| 沽源县| 大埔县| 大庆市| 五华县| 孝昌县| 大同县| 仪陇县| 武清区| 沙坪坝区| 绥阳县| 兰考县| 浙江省| 通榆县| 晋中市| 衡南县| 延吉市| 兰考县| 伊宁市| 醴陵市| 东乌| 阿拉善左旗| 衡东县| 金门县| 安新县| 新余市| 库尔勒市| 大埔县| 樟树市| 穆棱市| 高青县| 东乡族自治县| 新民市| 桂林市| 龙胜| 通江县|