語音交互控制的導(dǎo)覽系統(tǒng)及其方法

文檔序號：2833620閱讀：503來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音交互控制的導(dǎo)覽系統(tǒng)及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別、語音交互、導(dǎo)覽技術(shù)和數(shù)字媒體等領(lǐng)域。公開了基于語音交互控制導(dǎo)覽的實現(xiàn)方法，采用微軟語音識別引擎，并通過最小均方誤差為準則的自適應(yīng)濾波器濾波和自適應(yīng)識別的方法，提高語音的識別率和實時性。
背景技術(shù)：
隨著數(shù)字媒體和網(wǎng)路技術(shù)的不斷成熟和普及，數(shù)字化導(dǎo)覽系統(tǒng)的應(yīng)用更加廣泛，智慧城市體驗館的展示、智能家居的虛擬展示、智慧旅游的景點展示、公共產(chǎn)所的導(dǎo)引系統(tǒng) 等，都具備導(dǎo)覽功能。
目前，大部分導(dǎo)覽系統(tǒng)的交互方式一般采用鼠標、鍵盤的交互、圖形文字相結(jié)合的觸摸交互等。這些交互方式不能滿足不同層次和不同群體的需要。在語音交互控制的導(dǎo)覽系統(tǒng)中，當用戶發(fā)出語音命令時，系統(tǒng)根據(jù)語音命令執(zhí)行相應(yīng)導(dǎo)覽功能。這種導(dǎo)覽系統(tǒng)不僅可以滿足普通用戶的需求，同時可以滿足一些特殊群體的要求，例如盲人、或是不識字的小孩和成人，只要他們能發(fā)出要求的語音，就可以自由導(dǎo)覽，使系統(tǒng)更加人性化。發(fā)明內(nèi)容
本發(fā)明的目的是實現(xiàn)語音交互控制的導(dǎo)覽系統(tǒng)，使導(dǎo)覽系統(tǒng)能夠滿足多種群體的需求。
按照本發(fā)明提供的技術(shù)方案，語音交互控制的導(dǎo)覽系統(tǒng)及其方法包含以下步驟
1、在語音交互控制的導(dǎo)覽系統(tǒng)及其方法中，利用麥克風(fēng)來得到外界語音輸入。
2、外界語音讀入后，采用最小均方誤差為準則的自適應(yīng)濾波器對外界輸入語音進行濾波降噪，消除環(huán)境噪音，使得在環(huán)境噪音很大的情況下，也能得到良好的效果。
3、利用自適應(yīng)識別語音方法進一步提高識別率，實現(xiàn)步驟為
(I)建立導(dǎo)覽詞匯庫和模糊詞匯庫。
(2)利用基于智能搜索的改進隱馬爾可夫模型，解決語音識別的模糊性和提高識別速度。
4、把步驟3處理的語音結(jié)果作為輸入，利用微軟語音識別引擎進行語音識別和匹配，進而觸發(fā)相應(yīng)的導(dǎo)航功能實現(xiàn)導(dǎo)覽系統(tǒng)的導(dǎo)覽功能。
本發(fā)明與已有導(dǎo)覽系統(tǒng)相比，實現(xiàn)了利用語音交互控制導(dǎo)覽系統(tǒng)的導(dǎo)航，滿足多種群體的操作要求，在微軟語音識別引擎識別之前增加了最小均方誤差為準則的自適應(yīng)濾波器去除環(huán)境噪聲，并通過改進隱馬爾可夫模型的自適應(yīng)識別方法，提高識別率和識別速度，使系統(tǒng)適用的場合更加廣泛。

圖1算法執(zhí)行流程圖具體實施方式
下面本發(fā)明將結(jié)合附圖對本發(fā)明的實施方式做進一步的介紹。
1、導(dǎo)覽系統(tǒng)語音提示用戶利用麥克風(fēng)進行語音輸入，以便易于區(qū)別有效的輸入語音和外界環(huán)境音。
2、讀入外界輸入語音，利用最小均方誤差為準則設(shè)計的自適應(yīng)濾波器進行濾波，去除環(huán)境噪聲。
3、自適應(yīng)語音識別方法實現(xiàn)如下
(I)根據(jù)導(dǎo)覽系統(tǒng)的特點，建立相關(guān)的詞匯數(shù)據(jù)庫，數(shù)據(jù)庫包含導(dǎo)覽系統(tǒng)的控制命令詞匯庫以及控制命令詞匯的模糊相關(guān)詞匯庫，其中模糊相關(guān)詞匯庫中存放控制導(dǎo)覽執(zhí)行的詞匯的近義詞和讀音相近的詞匯，提高語音模糊性的識別率，達到自適應(yīng)識別的效果。
(2)改進隱馬爾可夫模型是在隱馬爾可夫模型的基礎(chǔ)上增加智能搜索方法，隱馬爾可夫模型算法是一種統(tǒng)計模型，具有良好的識別能力和抗噪聲能力，但是統(tǒng)計模型的建立造成一個很大的數(shù)據(jù)庫，使得識別匹配的速度減慢，本發(fā)明提出利用智能搜索和模糊數(shù) 據(jù)庫相結(jié)合的方法，提高識別速度和自適應(yīng)能力。
4、把自適應(yīng)識別的結(jié)果作為微軟語音識別引擎的輸入數(shù)據(jù)，驅(qū)動微軟語音識別引擎，判斷語音是否有效，如果有效，引擎將會發(fā)出響應(yīng)消息，系統(tǒng)得到響應(yīng)消息，就會驅(qū)動對應(yīng)的導(dǎo)覽功能。如果識別結(jié)果無效，系統(tǒng)啟發(fā)式語音提示重新輸入導(dǎo)覽目的命令，并等待再次輸入，啟發(fā)提示超過3次，系統(tǒng)將進行語音模糊匹配，并進行回應(yīng)反問式提問，此時用戶只需回答是與否，回答“是”進入相應(yīng)導(dǎo)覽，回答“否”進入推薦路線導(dǎo)覽。
5、語音交互控制的導(dǎo)覽系統(tǒng)除了具備語音交互控制，仍然保持傳統(tǒng)的交互控制，根據(jù)終端設(shè)備的不同，具備觸摸交互控制、鼠標和鍵盤控制等。
權(quán)利要求
1.語音交互控制的導(dǎo)覽系統(tǒng)及其方法，其特征是采用基于微軟語音識別引擎，針對微軟語音識別引擎在環(huán)境噪聲和語音模糊性上的缺點，設(shè)置了前期的濾波降噪和自適應(yīng)識別，提高導(dǎo)覽系統(tǒng)的語音交互的準確性和魯棒性。
2.根據(jù)權(quán)利要求1所述的語音交互控制的導(dǎo)覽系統(tǒng)及其方法，其特征在于采用最小均方誤差為準則的自適應(yīng)濾波器對外界輸入語音進行濾波降噪，消除環(huán)境噪音，使得在環(huán)境噪音很大的情況下，也能得到良好的效果。
3.根據(jù)權(quán)利要求1所述的語音交互控制的導(dǎo)覽系統(tǒng)及其方法，其特征在于自適應(yīng)識別方法的實現(xiàn)步驟為(1)建立導(dǎo)覽詞匯庫和模糊詞匯庫。(2)利用基于智能搜索的改進隱馬爾可夫模型，解決語音識別的模糊性和提高識別速度。
4.語音交互控制的導(dǎo)覽系統(tǒng)及其方法，其特征是利用麥克風(fēng)來得到外界語音輸入。
5.語音交互控制的導(dǎo)覽系統(tǒng)及其方法，其特征是利用語音交互和傳統(tǒng)交互并用控制導(dǎo)覽系統(tǒng)的執(zhí)行和實現(xiàn)導(dǎo)覽功能。
全文摘要
語音交互控制的導(dǎo)覽系統(tǒng)及其方法是一種利用語音交互的方式實現(xiàn)導(dǎo)覽系統(tǒng)的導(dǎo)覽功能。目前的導(dǎo)覽系統(tǒng)的交互方式一般采用鼠標、鍵盤、圖形文字相結(jié)合的觸摸交互等。這些交互方式無法滿足不同層次和不同群體的需要，例如盲人、不識字的小孩。語音交互控制的導(dǎo)覽系統(tǒng)根據(jù)語音命令執(zhí)行相應(yīng)導(dǎo)覽功能。系統(tǒng)采用自適應(yīng)語音識別和啟發(fā)提示方法。根據(jù)導(dǎo)覽系統(tǒng)的性質(zhì)，系統(tǒng)把導(dǎo)覽常用相關(guān)詞匯按照不同功能存放在后臺數(shù)據(jù)庫中，這樣當用戶發(fā)語音命令的時候，系統(tǒng)會在對應(yīng)的庫中搜索，提高匹配速度。如果沒有找到對應(yīng)的匹配詞句，系統(tǒng)采用語音回應(yīng)反問是否要做對應(yīng)操作，此時用戶只需回答“是”與“否”，系統(tǒng)進入下一步導(dǎo)覽。實現(xiàn)人性化的導(dǎo)覽功能。
文檔編號G10L21/0208GK103065628SQ201210475130
公開日2013年4月24日申請日期2012年11月20日優(yōu)先權(quán)日2012年11月20日
發(fā)明者陳麗芳, 劉淵, 黃秋儒, 陸菁, 劉一鳴, 杜欣宇, 王君竹申請人:江南大學(xué)

完整全部詳細技術(shù)資料下載