两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于dsp的語音識別及優(yōu)化方法

文檔序號:2824579閱讀:900來源:國知局
專利名稱:一種基于dsp的語音識別及優(yōu)化方法
技術(shù)領(lǐng)域
本發(fā)明涉及嵌入式語音識別技術(shù)領(lǐng)域,特別是一種基于TMS320VC5509A芯片的DSP語音交互模塊的語音識別及優(yōu)化方法。
背景技術(shù)
在基于TMS320VC5509A芯片的DSP語音交互模塊上實(shí)現(xiàn)語音識別方法,會受到DSP平臺資源的限制。采用基于整詞建模的DTW匹配方法或其他簡單的匹配方法,雖然能夠在DSP語音交互模塊上實(shí)時(shí)實(shí)現(xiàn),并且能夠取得比較高的語音識別性能,但是其缺點(diǎn)是如果更換詞表,就要求采集大量的數(shù)據(jù)來重新訓(xùn)練模型,導(dǎo)致使用起來很不方便;主流的基于Triphone(三音子)的大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法語音識別率高,能識別的詞匯量大,而且替換詞表不需要重新訓(xùn)練模型,但是方法對硬件平臺資源的要求很高,大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法在DSP語音交互模塊上難以直接實(shí)時(shí)實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于DSP的語音識別及優(yōu)化方法。
一種基于TMS320VC5509A芯片的DSP語音識別方法,語音識別方法以大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法為基礎(chǔ)。
所述的DSP語音識別方法,聲學(xué)模型采用基于SDCHMM(子空間分布聚類隱馬爾可夫模型)Triphone(三音子)模型。
所述的DSP語音識別方法,在提取聲學(xué)特征之前采用一步Wiener濾波方法進(jìn)行抗所述的DSP語音識別方法,語音識別所用特征是39維MFCC系數(shù)。
所述的DSP語音識別方法,語音識別采用Onepass(一遍搜索)方法。所述的DSP語音識別方法,語音識別方法以充分利用TMS320VC5509A硬件資源(如雙核結(jié)構(gòu)、指數(shù)運(yùn)算器等)為原則,對方法進(jìn)行了結(jié)合實(shí)際硬件環(huán)境的優(yōu)化。
為了充分利用基于Triphone(三音子)的大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法在語音識別上語音識別率高、能識別的詞匯量大、替換詞表不需要重新訓(xùn)練模型等優(yōu)點(diǎn),克服基于TMS320VC5509A的DSP語音交互模塊在硬件資源上的不足,本發(fā)明提出一種基于TMS320VC5509A的語音識別方法,該方法以基于Triphone(三音子)的大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法為基礎(chǔ),通過使用簡化的聲學(xué)模型,和優(yōu)化的抗噪聲方法,并結(jié)合具體的DSP硬件環(huán)境對方法進(jìn)行優(yōu)化,在保證方法在DSP語音交互模塊上實(shí)時(shí)實(shí)現(xiàn)的基礎(chǔ)上,使語音識別達(dá)到了很高的性能。
1.基于TMS320VC550的DSP電路模塊裝置DSP語音交互模塊上的硬件資源描述如下(1)采用TMS320VC5509A作為處理器。TMS320VC5509A是典型的高性能、低功耗、16位定點(diǎn)的DSP處理器之一,它有兩個(gè)獨(dú)立的乘加單元(MAC),一個(gè)指數(shù)運(yùn)算器,運(yùn)行速度最高可達(dá)200MIPS。
(2)兩片1M字的16位的FLASH,支持16位BOOTLOADER模式,在DSP語音交互模塊中用來存放程序、聲學(xué)模型、編碼語音數(shù)據(jù)。
(3)外擴(kuò)4M字SRAM,在系統(tǒng)初始化的時(shí)候,把FLASH中的聲學(xué)模型裝載到片外SRAM,這是因?yàn)镈SP訪問片外SRAM的速度比訪問片外FLASH的速度要快得多。
(4)AD/DA采用TI公司的高速模擬接口芯片TLC320AD50,它是16位音頻codec(編解碼器,coder-decoder)芯片,該芯片支持多種采樣率,包括16kHz和8KHz,支持16位精度的采樣,動(dòng)態(tài)范圍為91dB。
2.基于DSP語音交互模塊的語音識別方法2.1語音識別方法引擎簡介圖1給出了語音識別系統(tǒng)的結(jié)構(gòu)圖。
(1)它采用基于SDCHMM(子空間分布聚類隱馬爾可夫模型)的不帶聲調(diào)的上下文相關(guān)的Triphone(三音子)模型,相比傳統(tǒng)的CDHMM(連續(xù)隱馬爾可夫模型)模型而言,SDCHMM(子空間分布聚類隱馬爾可夫模型)可以減少系統(tǒng)計(jì)算聲學(xué)得分的計(jì)算量和節(jié)省存儲空間;而基于Triphone(三音子)聲學(xué)模型相對于Monophone(單音子)模型而言對聲學(xué)模型描述的精度更高,識別率更高。
(2)訓(xùn)練聲學(xué)模型的數(shù)據(jù)由加噪語音經(jīng)過抗噪處理后得到,相對于純凈語音數(shù)據(jù)而言,可以增加系統(tǒng)的抗噪聲性能,其中抗噪處理方法采用ETSI(歐洲電信標(biāo)準(zhǔn)協(xié)會)提出的標(biāo)準(zhǔn)的兩階段Wiener濾波方法(AFE)。
(3)在語音識別前端加上了抗噪方法,抗噪方法采用一步Wiener濾波方法,相對于ETSI(歐洲電信標(biāo)準(zhǔn)協(xié)會)提出的標(biāo)準(zhǔn)的兩步Wiener濾波方法而言,它能夠在幾乎不降低抗噪性能的基礎(chǔ)上,節(jié)省60%左右的計(jì)算量,這對在資源不是很豐富嵌入式平臺實(shí)現(xiàn)是非常有利的。
(4)系統(tǒng)以8KHz的采樣率采樣語音數(shù)據(jù),提取的特征參數(shù)為能量加上12維MFCC及其一階、二階差分共39維特征。
(5)識別方法采用Onepass(一遍搜索)方法。
2.2一步Wiener濾波方法2.2.1一步Wiener濾波方法說明ETSI公布的分布式語音識別(DSR)標(biāo)準(zhǔn)中,其前端抗噪方法(AFE)采用了包含兩步Wiener濾波和盲均衡的方案。第一步濾波的作用是消除白噪聲并且白化有色噪聲。第二步濾波去除殘余的白噪聲。在去除完加性噪聲之后采用盲均衡的自適應(yīng)方法去除乘性噪聲。
這種消除噪聲的方法在實(shí)際應(yīng)用中能夠起到很好的應(yīng)用效果,抗噪聲性能好。但是兩次Wiener濾波運(yùn)算對計(jì)算量的消耗非常大,在嵌入式平臺下實(shí)時(shí)實(shí)現(xiàn)存在一定的難度,為此本發(fā)明提出了一步Wiener濾波方法。
一步Wiener濾波方法在ETSI公布的標(biāo)準(zhǔn)的兩步Wiener濾波方法的基礎(chǔ)上,對含噪語音只進(jìn)行一次Wiener濾波,消除白噪聲并且白化有色噪聲,為了節(jié)省計(jì)算量,不再進(jìn)行第二步Wiener濾波。圖2給出了一步Wiener濾波方法的系統(tǒng)結(jié)構(gòu)圖。實(shí)驗(yàn)證明一步Wiener濾波方法能夠在幾乎不降低抗噪性能的前提條件下,使計(jì)算量減少60%。
2.2.2一步Wiener濾波方法測試為了測試一步Wiener方法抗噪聲性能,我們對方法進(jìn)行了實(shí)驗(yàn)測試。實(shí)驗(yàn)測試環(huán)境描述如下詞表大小為200詞;訓(xùn)練聲學(xué)模型的數(shù)據(jù)通過加噪語音通過抗噪處理之后得到;測試集采用實(shí)驗(yàn)室采集的孤立詞測試集,共2000個(gè)孤立詞,由10個(gè)說話人(5男,5女)采集得到。測試時(shí)把2000個(gè)孤立詞語音分別以5dB、10dB、15dB、20dB的信噪比加入babble、white、leopard、factory四種不同的噪聲,試驗(yàn)結(jié)果取其平均值。測試結(jié)果如表1

表1改進(jìn)Wiener濾波方法性能測試結(jié)果測試結(jié)果表明(1)兩步Wiener濾波和一步Wiener濾波與不加任何抗噪方法相比,特別是在信噪比(SNR)比較低的情況下,對識別率有明顯改善作用。
(2)從試驗(yàn)結(jié)果看一步Wiener濾波的效果要比兩步Wiener濾波效果好,經(jīng)分析這是由于兩步Wiener濾波是以提高語音質(zhì)量為目的的,在以含噪語音訓(xùn)練出來的聲學(xué)模型的語音識別器中,語音質(zhì)量的提高并不一定會帶來語音識別率的提高。經(jīng)過一步Wiener濾波后的語音,對含噪語音訓(xùn)練的聲學(xué)模型匹配效果更好,因此識別率更高。
(3)總體上來看,一步Wiener濾波和兩步Wiener濾波相比在抗噪性能上來講,效果相差不大,但是一步Wiener濾波與兩步Wiener濾波相比計(jì)算量減少了近60%,在計(jì)算速度上更有優(yōu)勢。
2.3.基于平臺自身的優(yōu)化及結(jié)果嵌入式平臺都有自己的特點(diǎn),在嵌入式平臺下提高方法的性能,非但要從方法本身入手,在不損失識別率的前提條件下尋找計(jì)算量更小、更易實(shí)現(xiàn)的方法,還要根據(jù)編譯器和嵌入式平臺自身的特點(diǎn)對方法進(jìn)行優(yōu)化。特別是在DSP平臺下實(shí)現(xiàn)計(jì)算量非常龐大的連續(xù)語音識別的命令詞語音識別引擎更是如此。圖3給出了大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法的基于DSP平臺自身優(yōu)化結(jié)構(gòu)圖。
2.3.1基于編譯器的語音識別方法優(yōu)化編譯器對語音識別方法的影響主要表現(xiàn)在編譯系統(tǒng)把方法代碼轉(zhuǎn)化為機(jī)器代碼時(shí)往往不能充分利用嵌入式平臺自身的特點(diǎn),造成效率很低。
為了測試編譯器對語音識別方法的影響,我們專門用C++、C、C&ASM分別搭建了方法的系統(tǒng)平臺,其中C&ASM平臺是把用C語言構(gòu)建的平臺中的耗時(shí)部分改成匯編語言的系統(tǒng)。對它們執(zhí)行的效率進(jìn)行了測試。測試用的數(shù)據(jù)采用十個(gè)集外詞的平均測試結(jié)果,DSP模塊的運(yùn)行速度為160MIPS。
表2給出了比較結(jié)果(表中數(shù)據(jù)單位是<倍實(shí)時(shí)>)。

表2各種平臺下方法的實(shí)時(shí)性比較測試結(jié)果說明從執(zhí)行速度上來講用C&ASM構(gòu)建的語音識別系統(tǒng)大于C語言系統(tǒng),而C語言系統(tǒng)的執(zhí)行速度又大于C++語言系統(tǒng)。
2.3.2浮點(diǎn)運(yùn)算定點(diǎn)化TMS320VC5509A是典型的高性能、低功耗、16位定點(diǎn)DSP之一。處理器在處理定點(diǎn)運(yùn)算上有得天獨(dú)厚的優(yōu)勢,但是在浮點(diǎn)運(yùn)算上必須進(jìn)行優(yōu)化處理,把浮點(diǎn)運(yùn)算經(jīng)過定標(biāo)之后轉(zhuǎn)化成定點(diǎn)運(yùn)算,才能提高方法的運(yùn)算性能,由TMS320VC5509A提供的指數(shù)運(yùn)算器可以很方便地對浮點(diǎn)數(shù)進(jìn)行定標(biāo)。
表3給出了處理器在160MIPS的條件下,進(jìn)行100次單精度浮點(diǎn)數(shù)的加、減、乘、除運(yùn)算優(yōu)化之前和優(yōu)化之后的實(shí)驗(yàn)結(jié)果

表3浮點(diǎn)運(yùn)算優(yōu)化結(jié)果表測試結(jié)果說明把浮點(diǎn)運(yùn)算轉(zhuǎn)化為定點(diǎn)運(yùn)算可以極大提高方法的運(yùn)行速度,但是在對浮點(diǎn)數(shù)進(jìn)行定標(biāo)的時(shí)候需要根據(jù)實(shí)際情況采用不同的定標(biāo)策略,在速度與精度之間尋找最佳的平衡點(diǎn)。
2.3.3并行處理對語音識別方法進(jìn)行優(yōu)化時(shí)還應(yīng)該充分利用C55X系列DSP的并行處理機(jī)制。并行處理機(jī)制可以使兩條不同的指令在一個(gè)時(shí)鐘周期內(nèi)同時(shí)完成,這是C55X區(qū)別于C54X的最大的地方之一。從理論上來講,采用C55X的并行處理機(jī)制,可以使方法的速度提高一倍。
2.4.系統(tǒng)軟件結(jié)構(gòu)的優(yōu)化從表2的結(jié)果中我們可以看到即使對語音識別方法做了基于平臺自身的優(yōu)化之后,總體耗時(shí)仍為一倍實(shí)時(shí)以上。在DSP語音交互模塊上實(shí)現(xiàn)大詞匯量連續(xù)語音識別的命令詞語音識別系統(tǒng),還需要對語音識別方法的結(jié)構(gòu)進(jìn)行優(yōu)化在錄音的同時(shí)非但進(jìn)行前端處理而且還進(jìn)行部分搜索,等語音完畢之后完成剩余部分的搜索。這樣可以大大節(jié)省等待語音識別結(jié)果的時(shí)間,提高系統(tǒng)的實(shí)時(shí)性。
本發(fā)明的有益效果是在基于TMS320VC5509A芯片的DSP交互模塊上實(shí)時(shí)地實(shí)現(xiàn)了基于大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別引擎,使DSP語音交互模塊上的語音識別除了具有語音識別率高、能識別的詞匯量大、替換詞表方便等優(yōu)點(diǎn)之外,還具有良好的抗噪聲性能。


下面結(jié)合附圖和實(shí)施例對本實(shí)用新型進(jìn)一步說明。
圖1語音識別引擎流程圖。
圖2一步Wiener濾波方法結(jié)構(gòu)圖。
圖3基于平臺自身優(yōu)化結(jié)構(gòu)圖。
具體實(shí)施例方式
圖1為語音識別軟件流程圖,其步驟如下步驟S1-1語音輸入,在軟件系統(tǒng)中采用中斷的方式采集輸入的語音,這樣可以在輸入語音的同時(shí),對已經(jīng)采集到的語音數(shù)據(jù)進(jìn)行噪聲消除、特征提取和進(jìn)行部分搜索,這樣可以節(jié)省用戶等待語音識別結(jié)果的時(shí)間;步驟S1-2Wiener濾波,這部分處理主要是為了提高語音識別系統(tǒng)的魯棒性,增加語音識別部分的抗噪聲性能而做出的處理。它采用了一步Wiener濾波方法,在由ETSI(歐洲電信標(biāo)準(zhǔn)協(xié)會)提出的標(biāo)準(zhǔn)的兩步Wiener濾波方法(AFE)的基礎(chǔ)上,只進(jìn)行一步Wiener濾波,消除白噪聲并白化有色噪聲,為了節(jié)省計(jì)算量不在進(jìn)行第二步Wiener濾波;步驟S1-3聲學(xué)特征提取,語音識別系統(tǒng)所提取的聲學(xué)特征為能量加上12維MFCC及其一階、二階差分共39維特征;步驟S1-4聲學(xué)模型。語音識別引擎采用基于SDCHMM(子空間分布聚類隱馬爾可夫模型)的不帶聲調(diào)的上下文相關(guān)的Triphone(三音子)模型,訓(xùn)練聲學(xué)模型的數(shù)據(jù)由加噪語音經(jīng)過抗噪處理后得到,相對于純凈語音數(shù)據(jù)而言,可以增加系統(tǒng)的抗噪聲性能,其中抗噪處理方法采用ETSI(歐洲電信標(biāo)準(zhǔn)協(xié)會)提出的標(biāo)準(zhǔn)的兩階段Wiener濾波方法(AFE);步驟S1-5解碼搜索,語音識別系統(tǒng)所采用的解碼搜索方法為OnePass(一遍搜索)方法;步驟S1-6結(jié)果輸出。把語音識別引擎得到的語音識別的結(jié)果輸出。
圖2為一步Wiener濾波方法的結(jié)構(gòu)圖,其步驟如下步驟S2-1語音輸入;步驟S2-2Wiener濾波,對未進(jìn)行任何處理的聲音信號進(jìn)行Wiener濾波處理;步驟S2-3消除直流偏移,對Wiener濾波的結(jié)果進(jìn)行直流偏移噪聲的消除;步驟S2-4語音輸出。
圖3為基于平臺自身優(yōu)化結(jié)構(gòu)圖,其步驟如下步驟S3-1基于編譯器的優(yōu)化,編譯器對C++語言編譯的效率最低,C語言次之,ASM(匯編)語言效率最高,因此對方法耗時(shí)的部分采用ASM(匯編)語言進(jìn)行優(yōu)化;步驟S3-2浮點(diǎn)運(yùn)算定點(diǎn)化,處理器處理定點(diǎn)運(yùn)算的能力強(qiáng),處理浮點(diǎn)運(yùn)算的能力差,采用把浮點(diǎn)運(yùn)算經(jīng)過定標(biāo)之后轉(zhuǎn)成定點(diǎn)運(yùn)算,可以在保證一定精度的范圍內(nèi),極大地提高運(yùn)算速度;步驟S3-3并行處理,并行處理是C55X區(qū)別C54X的最大的不同之處,充分利用TMS320VC5509A的并行處理機(jī)制可以提高方法的運(yùn)算速度。
權(quán)利要求
1.一種基于TMS320VC5509A芯片的DSP語音識別方法,其特征是語音識別方法以大詞匯量連續(xù)語音識別LVCSR的命令詞語音識別方法為基礎(chǔ)。
2.根據(jù)權(quán)利要求1所述的DSP語音識別方法,其特征是聲學(xué)模型采用基于SDCHMM子空間分布聚類隱馬爾可夫模型Triphone三音子模型。
3.根據(jù)權(quán)利要求1所述的DSP語音識別方法,其特征是在提取聲學(xué)特征之前采用一步Wiener濾波方法進(jìn)行抗噪聲處理。
4.根據(jù)權(quán)利要求1所述的DSP語音識別方法,其特征是語音識別所用特征是39維MFCC系數(shù)。
5.根據(jù)權(quán)利要求1所述的DSP語音識別方法,其特征是語音識別采用Onepass一遍搜索方法。
6.根據(jù)權(quán)利要求1所述的DSP語音識別方法,其特征是語音識別方法以充分利用TMS320VC5509A硬件資源為原則,對方法進(jìn)行了結(jié)合實(shí)際硬件環(huán)境的優(yōu)化。
7.一種基于DSP的語音識別方法,其步驟如下步驟S1-1語音輸入,在軟件系統(tǒng)中采用中斷的方式采集輸入的語音,可以在輸入語音的同時(shí),對已經(jīng)采集到的語音數(shù)據(jù)進(jìn)行噪聲消除、特征提取和進(jìn)行部分搜索;步驟S1-2Wiener濾波,采用一步Wiener濾波方法,在由ETSI歐洲電信標(biāo)準(zhǔn)協(xié)會提出的標(biāo)準(zhǔn)的兩步Wiener濾波方法AFE的基礎(chǔ)上,只進(jìn)行一步Wiener濾波;步驟S1-3聲學(xué)特征提取,語音識別系統(tǒng)所提取的聲學(xué)特征為能量加上12維MFCC及其一階、二階差分共39維特征;步驟S1-4聲學(xué)模型,語音識別引擎采用基于SDCHMM子空間分布聚類隱馬爾可夫模型的不帶聲調(diào)的上下文相關(guān)的Triphone三音子模型,訓(xùn)練聲學(xué)模型的數(shù)據(jù)由加噪語音經(jīng)過抗噪處理后得到,其中抗噪處理方法采用ETSI歐洲電信標(biāo)準(zhǔn)協(xié)會提出的標(biāo)準(zhǔn)的兩階段Wiener濾波方法AFE;步驟S1-5解碼搜索,語音識別系統(tǒng)所采用的解碼搜索方法為OnePass一遍搜索方法;步驟S1-6結(jié)果輸出,把語音識別引擎得到的語音識別的結(jié)果輸出。
8.根據(jù)權(quán)利要求7所述的基于DSP的語音識別方法,其特征在于,一步Wiener濾波方法,其步驟如下步驟S2-1語音輸入;步驟S2-2Wiener濾波,對未進(jìn)行任何處理的聲音信號進(jìn)行Wiener濾波處理;步驟S2-3消除直流偏移,對Wiener濾波的結(jié)果進(jìn)行直流偏移噪聲的消除;步驟S2-4語音輸出。
9.一種基于DSP的語音優(yōu)化方法,其步驟如下基于平臺自身優(yōu)化,其步驟如下步驟S3-1基于編譯器的優(yōu)化,編譯器對C++語言編譯的效率最低,C語言次之,ASM匯編語言效率最高,因此對方法耗時(shí)的部分采用ASM匯編語言進(jìn)行優(yōu)化;步驟S3-2浮點(diǎn)運(yùn)算定點(diǎn)化,處理器處理定點(diǎn)運(yùn)算的能力強(qiáng),處理浮點(diǎn)運(yùn)算的能力差,采用把浮點(diǎn)運(yùn)算經(jīng)過定標(biāo)之后轉(zhuǎn)成定點(diǎn)運(yùn)算;步驟S3-3并行處理,并行處理是C55X區(qū)別C54X的最大的不同之處,充分利用TMS320VC5509A的并行處理機(jī)制可以提高方法的運(yùn)算速度。
全文摘要
本發(fā)明涉及嵌入式語音識別技術(shù)及應(yīng)用領(lǐng)域,特別是一種基于TMS320VC5509A芯片的DSP語音交互模塊的語音識別方法,該方法以大詞匯量連續(xù)語音識別(LVCSR)的命令詞語音識別方法為基礎(chǔ),在不降低語音識別率的前提下,采用了簡化的聲學(xué)模型,在不降低抗噪聲性能的前提下,采用優(yōu)化的抗噪聲方法,并結(jié)合DSP語音交互模塊的實(shí)際的硬件環(huán)境,對方法進(jìn)行了優(yōu)化,使DSP語音交互模塊上的語音識別達(dá)到了良好的性能。
文檔編號G10L15/02GK1983388SQ20051012649
公開日2007年6月20日 申請日期2005年12月14日 優(yōu)先權(quán)日2005年12月14日
發(fā)明者李成榮, 岳紅強(qiáng) 申請人:中國科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
东丽区| 兖州市| 益阳市| 尼勒克县| 瑞昌市| 苏尼特左旗| 台东市| 连云港市| 乌苏市| 敦化市| 乐至县| 苗栗市| 乌审旗| 垦利县| 太湖县| 桂林市| 尉氏县| 罗甸县| 长海县| 铜鼓县| 新蔡县| 察隅县| 英德市| 叙永县| 泾阳县| 邳州市| 郑州市| 赞皇县| 遂川县| 封开县| 六枝特区| 宾川县| 察隅县| 绩溪县| 科技| 武川县| 寻乌县| 双辽市| 会东县| 昂仁县| 文登市|