两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語音喚醒模塊的實(shí)現(xiàn)方法及應(yīng)用的制作方法

文檔序號(hào):2829091閱讀:3543來源:國知局
專利名稱:一種語音喚醒模塊的實(shí)現(xiàn)方法及應(yīng)用的制作方法
一種語音喚醒模塊的實(shí)現(xiàn)方法及應(yīng)用技術(shù)領(lǐng)域
本發(fā)明公開了一種語音喚醒模塊的實(shí)現(xiàn)方法及應(yīng)用,具體涉及一種通過用戶說預(yù) 定的語音喚醒詞來觸發(fā)系統(tǒng)執(zhí)行用戶下一步操作,可以應(yīng)用與需要實(shí)現(xiàn)語音喚醒的車載及 家電等領(lǐng)域。
背景技術(shù)
本發(fā)明涉及到一項(xiàng)已申請(qǐng)公開的發(fā)明專利,公開號(hào)為CN102645977A,申請(qǐng)日為 2012. 03. 26,發(fā)明人是殷建紅、王忠、周彥煌,名稱為“一種車載語音喚醒人機(jī)交互系統(tǒng)及 方法”,在此將其引為參考文獻(xiàn)。該發(fā)明的車載語音喚醒實(shí)現(xiàn)原理是在預(yù)先設(shè)置的flash 存儲(chǔ)器中存放語音庫、車載噪音庫、語音引擎等信息,通過麥克風(fēng)輸入的語音指令經(jīng)由主控 制器MCU與存儲(chǔ)器存儲(chǔ)的語音指令相關(guān)信息進(jìn)行比對(duì)進(jìn)行語音識(shí)別,并將比對(duì)識(shí)別后確定 的語音指令相關(guān)信息作為執(zhí)行指令控制車載控制功能單元模塊,實(shí)現(xiàn)其相應(yīng)的功能。該發(fā) 明中所涉及到的flash存放的都是固定的數(shù)據(jù),而車載環(huán)境下,由于行車速度、路況、天氣、 是否開空調(diào)開窗戶都會(huì)導(dǎo)致發(fā)動(dòng)機(jī)噪聲和輪胎噪聲等車載噪聲庫變化,車內(nèi)播放的音樂不 同,發(fā)音人的不同會(huì)導(dǎo)致所參考的語音庫發(fā)生變化,所以該發(fā)明僅適用于固定的場(chǎng)景下實(shí) 現(xiàn)語音喚醒功能。而本發(fā)明通過采集各類場(chǎng)景下不同發(fā)音人錄音數(shù)據(jù),訓(xùn)練出一種聲學(xué)模 型,同時(shí)通過構(gòu)建喚醒詞檢測(cè)網(wǎng)絡(luò)及確認(rèn)網(wǎng)絡(luò),使得本發(fā)明適應(yīng)場(chǎng)景更廣泛,同時(shí)語音喚醒 效果好。發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)的不足,提供一種語音喚醒系統(tǒng)的實(shí)現(xiàn)方法, 即使在嘈雜環(huán)境下不論是否有播放音樂,都可以通過語音喚醒詞開啟語音喚醒功能,同時(shí) 語音喚醒效果好;此外本發(fā)明還提供語音喚醒系統(tǒng)的應(yīng)用,包括應(yīng)用于車載及家電相關(guān)領(lǐng) 域的應(yīng)用。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的一種語音喚醒模塊的實(shí)現(xiàn)方法包括語音輸 入1、語音喚醒算法2和喚醒執(zhí)行3步驟,語音喚醒算法2獲取語音輸入I的語音信號(hào),進(jìn)行 語音喚醒處理后,將結(jié)果輸出給喚醒執(zhí)行3,從而完成喚醒操作;
所述語音喚醒算法2通過聲學(xué)特征提取4、喚醒詞檢測(cè)5、喚醒詞確認(rèn)6、構(gòu)建喚醒 詞檢測(cè)網(wǎng)絡(luò)7、訓(xùn)練聲學(xué)模型8和構(gòu)建喚醒詞確認(rèn)網(wǎng)絡(luò)9來實(shí)現(xiàn),具體實(shí)現(xiàn)過程如下
第一步,聲學(xué)特征提取4 :通過語音輸入I獲取語音信號(hào)輸入,提取具有區(qū)分性的、 并且是基于人耳聽覺特性提取的特征,通常選取語音識(shí)別中用到的MFCCWel-Frequency Cepstrum Coeff icient,美爾頻率倒譜系數(shù))特征作為聲學(xué)特征;
第二步,喚醒詞檢測(cè)5 :將提取得到的聲學(xué)特征,采用訓(xùn)練的聲學(xué)模型8在喚醒詞 檢測(cè)網(wǎng)絡(luò)7上計(jì)算聲學(xué)得分,如果得分最優(yōu)的路徑中包含要檢測(cè)的喚醒詞,則確定已檢出 喚醒詞,進(jìn)入第三步操作,否則回到第一步重新進(jìn)行提取聲學(xué)特征4步驟;
第三步,喚醒詞確認(rèn)6 :將提取得到的聲學(xué)特征,采用訓(xùn)練的聲學(xué)模型8在喚醒詞確認(rèn)網(wǎng)絡(luò)9上進(jìn)行喚醒詞確認(rèn),得到最終確認(rèn)得分;判斷該檢出的喚醒詞是否為真實(shí)的喚醒詞,即將該喚醒詞的最終確認(rèn)得分和預(yù)先設(shè)定的門限進(jìn)行比較,如果最終確認(rèn)得分大于等于門限,則認(rèn)為該喚醒詞是真實(shí)的喚醒詞,語音喚醒成功,將結(jié)果輸出給喚醒執(zhí)行3,從而完成語音喚醒操作;如果最終確認(rèn)得分小于門限,則認(rèn)為該喚醒詞為虛假的喚醒詞,重新回到第一步重新進(jìn)行聲學(xué)特征提取4步驟。所述聲學(xué)模型8的訓(xùn)練分為兩部分,分別為音素聲學(xué)模型和廢料模型(即Garbage模型);音素聲學(xué)模型采用傳統(tǒng)的語音識(shí)別中的聲學(xué)模型訓(xùn)練方法,選取數(shù)據(jù)庫,利用基于MLE(Maximum Likelihood Estimation,最大似然估計(jì))和MPE(Minimum Phone Error,最小音素錯(cuò)誤)區(qū)分性訓(xùn)練準(zhǔn)則下得到garbage模型用于吸收除喚醒詞之外的無關(guān)語音,使用和訓(xùn)練音素模型同樣的數(shù)據(jù)庫,通過計(jì)算各音素模型之間的相似性,將各音素分為20類,使用每類音素對(duì)應(yīng)的所有訓(xùn)練數(shù)據(jù)融合起來,采用MLE準(zhǔn)則訓(xùn)練對(duì)應(yīng)的Garbage模型,便得到20類Garbage模型。所述喚醒詞檢測(cè)網(wǎng)絡(luò)7的實(shí)現(xiàn)方法是采用最優(yōu)得分路徑計(jì)算得出,所述最優(yōu)得分路徑的計(jì)算公式是
權(quán)利要求
1.一種語音喚醒模塊的實(shí)現(xiàn)方法,其特征在于包括語音輸入(I)、語音喚醒算法(2)和喚醒執(zhí)行(3)步驟,語音喚醒算法(2)獲取語音輸入(I)的語音信號(hào),進(jìn)行語音喚醒處理后,將結(jié)果輸出給喚醒執(zhí)行(3),從而完成喚醒操作;所述語音喚醒算法(2)通過聲學(xué)特征提取(4)、喚醒詞檢測(cè)(5)、喚醒詞確認(rèn)¢)、構(gòu)建喚醒詞檢測(cè)網(wǎng)絡(luò)(7)、訓(xùn)練聲學(xué)模型(8)和構(gòu)建喚醒詞確認(rèn)網(wǎng)絡(luò)(9)來實(shí)現(xiàn),具體實(shí)現(xiàn)過程如下第一步,聲學(xué)特征提取(4):通過語音輸入(I)獲取語音信號(hào)輸入,提取具有區(qū)分性的、并且是基于人耳聽覺特性提取的特征,通常選取語音識(shí)別中用到的MFCCWel-FrequencyCepstrum Coeff icient,美爾頻率倒譜系數(shù))特征作為聲學(xué)特征;第二步,喚醒詞檢測(cè)(5):將提取得到的聲學(xué)特征,采用訓(xùn)練的聲學(xué)模型(8)在喚醒詞檢測(cè)網(wǎng)絡(luò)(7)上計(jì)算聲學(xué)得分,如果聲學(xué)得分最優(yōu)的路徑中包含要檢測(cè)的喚醒詞,則確定已檢出喚醒詞,進(jìn)入第三步操作,否則回到第一步重新進(jìn)行提取聲學(xué)特征(4)步驟;第三步,喚醒詞確認(rèn)¢):將提取得到的聲學(xué)特征,采用訓(xùn)練的聲學(xué)模型(8)在喚醒詞確認(rèn)網(wǎng)絡(luò)(9)上進(jìn)行喚醒詞確認(rèn),得到最終確認(rèn)得分;判斷該檢出的喚醒詞是否為真實(shí)的喚醒詞,即將該喚醒詞的最終確認(rèn)得分和預(yù)先設(shè)定的門限,如果最終確認(rèn)得分大于等于門限,則認(rèn)為該喚醒詞是真實(shí)的喚醒詞,語音喚醒成功,將結(jié)果輸出給喚醒執(zhí)行(3),從而完成語音喚醒操作;如果最終確認(rèn)得分小于門限,則認(rèn)為該喚醒詞為虛假的喚醒詞,重新回到第一步重新進(jìn)行聲學(xué)特征提取(4)步驟。
2.根據(jù)權(quán)利要求1所述的語音喚醒模塊的實(shí)現(xiàn)方法,其特征在于所述聲學(xué)模型(8)的訓(xùn)練分為兩部分,分別為音素聲學(xué)模型和廢料模型(即Garbage模型);音素聲學(xué)模型采用傳統(tǒng)的語音識(shí)別中的聲學(xué)模型訓(xùn)練方法,選取數(shù)據(jù)庫,利用基于MLE(MaximumLikelihood Estimation,最大似然估計(jì))和 MPE (Minimum Phone Error,最小音素錯(cuò)誤)區(qū)分性訓(xùn)練準(zhǔn)則下得到garbage模型用于吸收除喚醒詞之外的無關(guān)語音,使用和訓(xùn)練音素模型同樣的數(shù)據(jù)庫,通過計(jì)算各音素模型之間的相似性,將各音素分為20類,使用每類音素對(duì)應(yīng)的所有訓(xùn)練數(shù)據(jù)融合起來,采用MLE準(zhǔn)則訓(xùn)練對(duì)應(yīng)的Garbage模型,便得到20類Garbage 模型。
3.根據(jù)權(quán)利要求1所述的語音喚醒模塊的實(shí)現(xiàn)方法,其特征在于所述喚醒詞檢測(cè)網(wǎng)絡(luò)(7)的實(shí)現(xiàn)方法是采用最優(yōu)得分路徑計(jì)算得出,所述最優(yōu)得分路徑的計(jì)算公式是W = ^χηΛ^Ρ(}ν)Ρ{Χ\Ψ)W其中X代表從輸入語音中提取的聲學(xué)特征向量,W代表得分最大的最優(yōu)詞序列;條件概率P(Xlw)為聲學(xué)模型得分,通過訓(xùn)練好的聲學(xué)模型(8)計(jì)算得到;先驗(yàn)概率P(W)為語言模型得分,即為對(duì)不同的聲學(xué)模型所加的PenaltyP(X)為全概率,當(dāng)聲學(xué)模型和喚醒詞檢測(cè)網(wǎng)絡(luò)確定下來后即是定值。
4.根據(jù)權(quán)利要求1所述的語音喚醒模塊的實(shí)現(xiàn)方法,其特征在于所述喚醒詞確認(rèn)網(wǎng)絡(luò)(9)實(shí)現(xiàn)方法是a.將檢出的喚醒詞解碼到音素一級(jí),并記錄所有的得分(Scoreptoml, Scorephone2,…,ScorephmJ,其中N為喚醒詞中總的音素個(gè)數(shù),Scoreptoml, Scorephone2,…,Scoreph_N分別表示該喚醒詞中所有音素的是解碼得分,其中下標(biāo)表示音素的N個(gè)音素的標(biāo)識(shí);b.使用和喚醒詞檢測(cè)同樣的特征,得到相應(yīng)的聲學(xué)得分,并精確到幀一級(jí)(Scoreframel, Scoreframe2,…,Scoreframeltl),其中M為該句特征總的時(shí)長(zhǎng),以巾貞為單位;c.計(jì)算得到喚醒詞每個(gè)音素的確認(rèn)得分,計(jì)算方式如下
5.根據(jù)權(quán)利要求1所述的一種語音喚醒模塊的實(shí)現(xiàn)方法,其特征在于所述方法能夠被移植到ARM或DSP通用處理器上運(yùn)行,應(yīng)用于車載及家電相關(guān)領(lǐng)域。
6.一種車載語音喚醒系統(tǒng),其特征在于包括微處理器、權(quán)利要求1所述語音喚醒模塊、音頻轉(zhuǎn)換裝置、錄音裝置、音頻處理裝置、播音裝置,所述語音喚醒模塊運(yùn)行在微處理器中,具體實(shí)現(xiàn)過程如下第一步,微處理器與音頻處理裝置互連,控制音頻處理裝置輸出音頻信息,而音頻處理裝置與播音裝置互連,將所需要播放音頻信息進(jìn)行功率放大推動(dòng)喇叭放音,完成音頻播放操作;第二步,錄音裝置與音頻轉(zhuǎn)換裝置互連,當(dāng)用戶說出語音喚醒詞時(shí),通過錄音裝置進(jìn)行語音錄入并傳給音頻轉(zhuǎn)換裝置轉(zhuǎn)換,完成語音采集操作;第三步,音頻轉(zhuǎn)換裝置對(duì)錄音裝置錄入的語音信息進(jìn)行數(shù)據(jù)轉(zhuǎn)換,同時(shí)將轉(zhuǎn)換后的數(shù)據(jù)傳給微處理器進(jìn)行語音喚醒模塊的運(yùn)算,完成音頻數(shù)據(jù)轉(zhuǎn)換操作;第四步,微處理器與音頻轉(zhuǎn)換裝置互連,對(duì)音頻轉(zhuǎn)換裝置輸入的語音信息進(jìn)行語音喚醒模塊的運(yùn)算,若正確識(shí)別出語音喚醒信息,則控制音頻處理裝置播放語音提示音,完成車載語音喚醒及提示音播放操作;若識(shí)別出錯(cuò),則繼續(xù)進(jìn)行第二步語音采集操作。
全文摘要
一種語音喚醒模塊的實(shí)現(xiàn)方法及應(yīng)用,包括語音輸入(1)、語音喚醒算法(2)和喚醒執(zhí)行(3);語音喚醒算法(2)實(shí)現(xiàn)主要通過聲學(xué)特征提取(4)、喚醒詞檢測(cè)(5)、喚醒詞確認(rèn)(6)、構(gòu)建喚醒詞檢測(cè)網(wǎng)絡(luò)(7)、訓(xùn)練聲學(xué)模型(8)和構(gòu)建喚醒詞確認(rèn)網(wǎng)絡(luò)(9)等實(shí)現(xiàn)。本發(fā)明即使在嘈雜環(huán)境下不論是否有播放音樂,都可以通過語音喚醒詞開啟語音喚醒功能,識(shí)別喚醒效果好;本發(fā)明的實(shí)現(xiàn)方法能夠被移植到ARM或DSP通用處理器上運(yùn)行,應(yīng)用于車載及家電相關(guān)領(lǐng)域。
文檔編號(hào)G10L15/22GK102999161SQ20121045517
公開日2013年3月27日 申請(qǐng)日期2012年11月13日 優(yōu)先權(quán)日2012年11月13日
發(fā)明者操文祥, 王海坤, 康懷茂, 錢勇, 謝信珍, 黃海兵 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
比如县| 团风县| 电白县| 乐平市| 桐梓县| 涿鹿县| 大连市| 武城县| 灵台县| 玛纳斯县| 湖口县| 夹江县| 克拉玛依市| 邵东县| 沈阳市| 肥东县| 蓬溪县| 田阳县| 丽江市| 措勤县| 曲靖市| 达日县| 陇南市| 罗江县| 西华县| 临清市| 灌南县| 阳高县| 黄骅市| 陕西省| 榕江县| 蒙阴县| 会昌县| 侯马市| 奈曼旗| 武川县| 岑巩县| 丹东市| 甘德县| 天祝| 三亚市|