專利名稱:語音識別與交互系統(tǒng)及方法
語音識別與交互 系統(tǒng)及方法
技術領域:
本發(fā)明涉及一種語音識別技術,尤其涉及一種語音詞庫的保存和擴展的方法,以 及通過語音進行交互的系統(tǒng)。
背景技術:
讓機器聽懂人的語言一直是人類的夢想,讓機器聽懂中國話更是中國人的夢 想。世界上眾多的從事信息產(chǎn)業(yè)的公司都展示了各自的語音識別技術,盡管實現(xiàn)方式各 不相同,但有一點卻是大家相同的,那就是全都是基于言語產(chǎn)生模型(Speech Generation Model)的。如各種模板匹配(LPC,復倒譜等),多模板聚類,隱含馬爾可夫鏈,神經(jīng)網(wǎng)絡模 型等等。但恰恰正是基于言語產(chǎn)生模型的語音識別技術,囿于模型本身的缺陷,而沒有可能 取得最終的成功。因為,既然是基于言語產(chǎn)生模型,那么每個人的語音就必然具有各自獨特 的聲學特征和參數(shù),甚至在不同語境下同一人的話音,其聲學特征也會產(chǎn)生明顯的變化。因 此,基于言語產(chǎn)生模型的語音識別技術天生是“認人的”,使用前的訓練必不可少,而且仍不 能保證有很高的正確識別率。這離語音識別技術“不認人”的要求相去甚遠。不過,在目前 尚沒有揭示言語模式感知模型(Speech PatterPerception Model)的機制之前,運用言語 產(chǎn)生模型亦實屬權宜之計和無奈之舉。國外雖然有許多語音識別技術,但經(jīng)過研究實測,運 用到中文語音識別效果都不是很好。因此,有必要提供一種新的語音識別的方法,來更高效地進行語音識別,并可以進 一步發(fā)展基于語音識別的語音交互系統(tǒng)。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種能夠高效識別語音的語音識別方法。本發(fā)明的另一目的在于提供一種用于語音識別的語音詞庫記錄方法,其占用的存 儲空間小,可無限擴展。本發(fā)明的另一目的在于提供一種不需要預先錄制語音命令的語音交互系統(tǒng)的設 計方法。本發(fā)明的另一目的在于提供一種能夠應用于PC機、筆記本、手機、PDA、家用電器 等各種終端設備上的語音識別與交互系統(tǒng)。本發(fā)明的再一目的在于提供一種通過語音執(zhí)行軟件操作的方法。為達成前述目的,本發(fā)明一種語音識別方法,其包括如下步驟對語音波形特征進行分析,提取出所述語音對應的音素信息,將所述語音的音素信息轉(zhuǎn)換為拼音或音標信息,通過匹配算法在語音詞庫中查找與所述拼音或音標信息匹配的文字,完成語音識 別的過程。進一步地,所述方法可應用于識別普通話、方言、英語以及其他語種。進一步地,所述語音詞庫儲存的為漢字的拼音信息或英文的音標信息,所述拼音信息或音標信息可以是未編碼的字符信息,也可以是編碼處理過的二進制信息,所述編碼 也可以包含壓縮過程,其中所述語音詞庫可以無限擴展。為達成前述目的,本發(fā)明一種用于語音識別的語音詞庫記錄方法,其特征在于所 述詞庫中記錄的信息為漢字的拼音信息或英文的音標信息。進一步地,所述音標信息可以是未編碼的字符信息,也可以是編碼處理過的二進 制信息,所述編碼也可以包含壓縮過程。為達成前述目的,本發(fā)明一種語音交互系統(tǒng)的設計方法,其包括提供一個交互設計界面; 提供若干交互要素,其中每一所述交互要素對應一個語音交互單元,其中所述語 音交互單元是通過前述權利要求1所述的方法識別語音;在所述交互設計界面通過推拽所述交互要素形成語音交互啟動器能夠識別的交 互腳本。為達成前述目的,本發(fā)明一種語音交互系統(tǒng),其包括交互設計器、交互執(zhí)行器、平 臺抽象庫、交互插件以及平臺應用程序編程接口(API)核心庫;所述交互設計器用于設計 交互腳本,所述交互執(zhí)行器用來解釋執(zhí)行前述交互腳本,完成語音交互的過程;交互插件用 來擴充和改進語音交互系統(tǒng)的功能,實現(xiàn)附加功能;平臺抽象庫用來實現(xiàn)對整個平臺接口 和功能的封裝,實現(xiàn)多平臺的可移植性和與具體平臺的獨立性。在不同操作系統(tǒng)下,具體的 實現(xiàn)將調(diào)用平臺API核心庫;平臺API核心庫用來實現(xiàn)對于特定操作系統(tǒng)的移植和封裝。進一步地,所述平臺API核心庫是用于封裝具體平臺操作系統(tǒng)的應用程序編程接 口(API)。為達成前述目的,本發(fā)明一種語音操作軟件的方法,其包括通過操作系統(tǒng)提供的應用程序編程接口(API)遍歷系統(tǒng)中軟件的窗口、菜單或按 鈕,獲得所有可操作的命令;通過前述語音交互系統(tǒng)設計方法建立與所述命令對應的語音識別命令;通過前述語音識別方法進行語音識別,并判斷所識別的語音是否是與所述命令對 應的語音識別命令相同,若是,則系統(tǒng)調(diào)用操作系統(tǒng)提供的對應應用程序編程接口(API) 來模擬一般操作方式的方法來執(zhí)行這些命令。進一步地,所述一般操作方式包括左鍵單擊、左鍵雙擊,右鍵單擊,右鍵雙擊、鍵 盤快捷鍵以及觸摸屏點擊。本發(fā)明的中文語音交互系統(tǒng),不需要用高檔的錄音設備,也不需要安靜的場合,大 部分人都能直接使用、詞匯量超大,而且非特定人都可以連續(xù)進行中文語音交互,本發(fā)明的 語音詞庫大小遠遠小于直接記錄語音波形采樣數(shù)據(jù)的方式,而且本發(fā)明的語音交互設計過 程不同于傳統(tǒng)的需要通過錄制用戶發(fā)音的方式來建立命令,整個過程可以完全不需要用戶 說話,直接用文字就能與命令對應起來。
下面將結(jié)合附圖對本發(fā)明進一步描述圖1是本發(fā)明中語音識別系統(tǒng)的結(jié)構(gòu)框圖;圖2是本發(fā)明中語音識別系統(tǒng)的方法流程圖3是本發(fā)明語音交互系統(tǒng)的結(jié)構(gòu)框圖;圖4是本發(fā)明語音交互系統(tǒng)的交互腳本設計方法流程圖;圖5是本發(fā)明 語音交互設計器的設計界面的示意圖;圖6是本發(fā)明語音交互設計器中用到的的語音交互單元的示意圖;圖7是本發(fā)明語音交互系統(tǒng)的識別交互過程流程圖。
具體實施方式
此處所稱的“一個實施例”或“實施例”是指可包含于本發(fā)明至少一個實現(xiàn)方式中 的特定特征、結(jié)構(gòu)或特性。在本說明書中不同地方出現(xiàn)的“在一個實施例中”并非均指同一 個實施例,也不是單獨的或選擇性的與其他實施例互相排斥的實施例。此外,表示一個或多 個實施例的方法、流程圖或功能框圖中的單元順序并非固定的指代任何特定順序,也不構(gòu) 成對本發(fā)明的限制?,F(xiàn)有的國外的語音識別技術例如IBM的ViaVoice,經(jīng)過研究實測,運用到中文語 音識別效果都不是很好。本發(fā)明人認為“應該按照中國人聽中國話的方式”來進行識別! 我們在聽別人說話時,并不需要完全聽清,但大部分情況本我們還是能明白是什么意思。所 以本發(fā)明人放棄了去建立中文語音模型的,將重心轉(zhuǎn)向模糊神經(jīng)網(wǎng)絡模型來進行中文語音 識別。通過不斷探索研究,本發(fā)明人找到了一套切實可行的識別方法,非常適合中文語音的 特點,甚至很容易擴展來聽懂方言。本發(fā)明人不需要用戶跟著訓練的范本錄制很多聲音文 件(占用很大空間,動輒上G),也不需要用戶將每一個詞語都講得非常清晰,本發(fā)明涉及的 語音識別模塊都能識別出來。上面是本發(fā)明人2005年的一個突破,后來通過不斷改進,在研究中發(fā)現(xiàn)中文的句 式幾乎都能套用一種模式,那就是“定語+主語+狀語+謂語+定語+賓語+狀語+補語”, 而且在中文中往往是某個詞只能做某一類句子成分,這樣通過整理一些句式,并借用統(tǒng)計 學的方式有效歸納組織詞匯,加上進一步優(yōu)化改進后的語音識別模塊就形成了本發(fā)明涉及 的連續(xù)中文語音識別的原型。再后來本發(fā)明人實現(xiàn)了不需要用高檔的錄音設備,也不需要 安靜的場合,大部分人都能直接使用的超大詞匯量非特定人連續(xù)中文語音交互系統(tǒng),真正 實現(xiàn)“動口不動手”。請參閱圖1所示,其顯示本發(fā)明的語音識別系統(tǒng)的結(jié)構(gòu)框圖。如圖1所示,本發(fā)明 的本發(fā)明的語音識別系統(tǒng)100包括語音信號接收單元11、語音波形分析單元12、語音音素 信息提取單元13、語音音素信息轉(zhuǎn)換單元14、語音詞庫存儲單元15、語音文字匹配單元16。語音信號接收單元11用于接收語音信號。語音波形分析單元12用于分析需要識別的語音的波形特征,關于波形特征分析 的具體方法和細節(jié)可以采用現(xiàn)有的各種分析方法,本發(fā)明不再詳細說明。語音音素信息提取單元13用于根據(jù)語音波形分析單元分析的結(jié)果,在內(nèi)部經(jīng)過 例如模糊神經(jīng)網(wǎng)絡等技術處理提取需要識別的語音的各種音素信息。語音音素信息轉(zhuǎn)換單元14是將識別的語音的音素信息轉(zhuǎn)換成文字信息,如果是 中文就轉(zhuǎn)換成漢語拼音,如果是英文則轉(zhuǎn)換成音標信息。語音詞庫存儲單元15,其用于存儲用于語音識別的記錄信息??紤]到一些終端設 備的存儲量和運算速度有限,同時為了更高效地進行匹配識別,我們的語音詞庫和語音匹配庫保存的不是語音的波形,而是經(jīng)過編碼或者沒有編碼的的音素和字符形式。語音波形 的方式和語音音素字符形式的數(shù)據(jù)量大小是截然不同的,如果不經(jīng)壓縮,后者差不多是前 者的千分之一不到,由于目前算法對于字符形式數(shù)據(jù)的壓縮率更高,所以在實際應用的時 候能夠在不到5M的存儲空間里,保存超過1百萬的詞。語音文字匹配 單元16,通過匹配算法在前述語音詞庫存儲單元中找出所述語音對 應的文字、詞組或句子信息。請參閱圖2所示,其顯示本發(fā)明的語音識別系統(tǒng)的方法的流程圖。如圖2所示,本 發(fā)明的語音識別系統(tǒng)包括如下步驟步驟S21 對語音波形特征進行分析,提取出所述語音對應的音素信息。具體的波 形特征分析的方法不再詳細說明。其中提取音素信息的方法例如是根據(jù)語音波形分析單元 分析的結(jié)果,在內(nèi)部經(jīng)過例如模糊神經(jīng)網(wǎng)絡等技術處理提取需要識別的語音的各種音素信 肩、ο步驟S22 將所述語音的音素信息轉(zhuǎn)換為拼音或音標信息。步驟S23 通過匹配算法在語音詞庫中查找與所述拼音或音標信息匹配的文字, 完成文字識別的過程。請參閱圖3所示,其顯示根據(jù)本發(fā)明的語音識別方法所設計的語音交互系統(tǒng)300 的結(jié)構(gòu)框圖。如圖3所示,所述語音交互系統(tǒng)300,其包括交互設計器31、交互執(zhí)行器32、平 臺抽象庫33、交互插件34以及平臺應用程序編程接口(API)核心庫35。交互設計器31用于設計交互腳本,其具體的腳本設計的方法將在后面詳細講述。所述交互執(zhí)行器32用來解釋執(zhí)行前述交互腳本,完成語音交互的過程。交互插件33用來擴充和改進語音交互系統(tǒng)的功能,實現(xiàn)在某些特定應用程序中 更加方便的操作等功能。平臺抽象庫34用來實現(xiàn)對整個平臺接口和功能的封裝,實現(xiàn)多平臺的可移植性 和與具體平臺的獨立性。在不同操作系統(tǒng)下,具體的實現(xiàn)將調(diào)用平臺API核心庫。平臺API核心庫35用來實現(xiàn)對于特定操作系統(tǒng)的移植和封裝,具體為封裝具體平 臺操作系統(tǒng)的應用程序編程接口(API),其可被平臺抽象庫調(diào)用。如圖4所示,前述交互設計器具體的交互腳本的設計方法包括如下步驟步驟S41 提供一個交互設計界面。步驟S42 提供若干交互要素,其中每一所述交互要素對應一個語音交互單元,其 中所述語音交互單元是通過前述語音識別的方法識別語音。步驟S43 在所述交互設計界面通過推拽所述交互要素形成語音交互啟動器能夠 識別的交互腳本。 對于前述步驟S41,如圖5所示,其顯示一個基于Windows平臺的PC機上的語音交 互設計器的界面示意圖。如圖5所示,整個界面劃分為工具欄區(qū)域,交互單元列表區(qū)域,交 互流程圖預覽區(qū)域(主視圖),交互流程腳本預覽區(qū)域和狀態(tài)欄區(qū)域。在工具欄區(qū)域上包含的功能按鈕有新建,保存,插入,修改,刪除,查看,測試,幫 助,關于,退出。分別完成下面命令新建新建一個交互流程。保存保存當前交互設計。
插入插入當前所選交互單元到交互流程圖當前位置。修改修改交互流程圖上當前所選交互單元。刪除刪除交互流程圖上當前所選交互單元。查看查看當前交互設計的語言描述。測試測試當前交互設計。幫助打開設計器用戶手冊。 關于顯示交互設計器名稱、版本等信息。退出退出交互設計器。在狀態(tài)欄區(qū)域上顯示界面提示信息和程序運行狀態(tài)等。對于前述步驟S42,在交互單元列表中,我們將語音交互的過程抽象成圖6中的14 種語音交互單元,各語音交互單元描述如下開始表示一個交互過程的開始。設計時需要用戶輸入一個命令,比如“打開計算 器”等。執(zhí)行時只需要讀出這個命令就會開始這個交互場景。結(jié)束表示一個交互過程的結(jié)束。指定對象設計時拖入這個到主視圖,程序會給出一個向?qū)Ы缑嬷付ㄒ粋€被操作 對象,比如某個程序,某個窗口上的一個按鈕,一個菜單項等等,操作對象也可以是一個系 統(tǒng)設備。操作設計時拖入這個到主視圖,程序會提示指定一個操作,比如啟動設備、關閉 設備、打開、左鍵單擊、左鍵雙擊、右鍵單擊,右鍵雙擊,按下某鍵等等。在執(zhí)行時會自動按照 該設置對指定對象進行指定的操作。手動操作表示一個用戶手工參與的動作,這個動作有的對應一個通過語音來完 成的操作。一般對應一些實時性比較強的操作,比如鼠標移動,多點觸摸等等。預定義操作表示執(zhí)行一個系統(tǒng)預定義的操作,比如停止語音交互,開啟語音交 互,重新啟動計算機等等。Y/N:表示一個確認操作。設計時會選擇是否有數(shù)據(jù)輸入,提示內(nèi)容是什么等。執(zhí) 行時將會顯示提示內(nèi)容,如果有需要輸入的數(shù)據(jù),那么也會顯示出一個輸入交互界面,并要 求用戶確認或者取消。判斷表示一個判斷操作。設計時會讓用戶選擇一個判斷條件,并設置條件成立時 執(zhí)行什么,不成立時執(zhí)行什么。執(zhí)行時會自動按照流程圖朝相應的分支進行執(zhí)行。帶界限循環(huán)表示一個帶有邊界條件的循環(huán)執(zhí)行的操作,當邊界條件未滿足時一 直循環(huán)執(zhí)行,滿足時停止。無限循環(huán)操作表示一個一直循環(huán)執(zhí)行的操作,除非流程從里面結(jié)束,那么該操作 將一直循環(huán)執(zhí)行。文檔表示一些與文件或目錄相關的操作。并行模式表示同步執(zhí)行一些指定的操作,默認都是按照流程圖順序執(zhí)行。推遲表示延遲某段時間再繼續(xù)執(zhí)行。執(zhí)行時會顯示一個倒計時界面,或者直接等
IvTo顯示表示給用戶顯示某一段信息,信息內(nèi)容在設計時可以設定。對于步驟S43,實際執(zhí)行時,用戶通過拖拽上述這些交互單元,并按照一定順序用帶方向箭頭的線連接它們,形成本發(fā)明提到的語音交互腳本。這些腳本可以通過本發(fā)明的 語音交互系統(tǒng)提供的系統(tǒng)工具作為默認自動加載,也可以通過交互執(zhí)行器手工運行。為了 提高性能,對于默認加載的語音交互腳本,系統(tǒng)會默認一開機就自動解釋生成交互場景預 裝緩存到內(nèi)存中,這樣這些自動加載的交互場景對應的命令就可以直接通過語音來激活運 行了。本發(fā)明中的語音交互系統(tǒng)在應用到某一終端上時,首先需要對應的終端有語音采 集相關的硬件和軟件支持,同時將本發(fā)明中的平臺API核心庫相關接口補充完整,在對應 的平臺成功編譯后,就可以啟動本發(fā)明的語音交互系統(tǒng),并使用本發(fā)明的語音交互設計器 來進行系統(tǒng)交互設計。
如圖7所示,其顯示本發(fā)明的語音識別及交互系統(tǒng)的整個流程圖。為了避免一些 誤操作,本發(fā)明的交互系統(tǒng)在開始交互前,都需要說出一個開始關注的命令,就如同喊一個 人名字讓其注意一樣,本發(fā)明在具體實施時默認以“大核”開始。同時如果不是特殊情況, 都要求受話設備都只能采集近距離,對于遠距離的語音信號不能感知且直接過濾。如圖7 所示,本發(fā)明的語音識別及交互系統(tǒng)的整個流程包括步驟S71 首先音頻信號輸入觸發(fā),然后由用戶說出一個語音命令。步驟S72 語音識別系統(tǒng)對聲音預處理。步驟S73 進行音素匹配查詢,其中一個是查詢匹配語音詞庫,另外一個是查詢匹 配語音規(guī)則庫。步驟S74 進行匹配判斷,如果有匹配,則進行下一步步驟S75獲取最匹配文字。如 果無匹配,則交互結(jié)束。步驟S76 獲取最匹配文字之后,判斷是否屬于交互命令,在系統(tǒng)固有交互命令和 自動加載的交互命令詞語中識別該語音命令;步驟S77 如果所述語音對應的文字不是交互命令,則不做任何操作,交互結(jié)束; 如果有對應的,那么就進入步驟S78,執(zhí)行交互腳本,進入相應的交互場景流程,按順序執(zhí)行 交互場景流程。此間可以進行文字或數(shù)據(jù)輸入,也可以按照界面上的提示進行語音交互操作。步驟S78 語音交互場景結(jié)束。下面以一個查找最近的一家成都小吃的實際交互場景為例,對整個語音交互過程 進行說明,整個流程如下1、用戶叫一聲“大核”,系統(tǒng)內(nèi)部自動恢復到語音交互預備狀態(tài);2、用戶說一聲查詢地圖的命令“開始導航”,系統(tǒng)會自動啟動GPS導航軟件,并定 位到當前位置,然后使用TTS(Text To Speech)技術播放語音來詢問用戶,“您想到什么地 方?”3、用戶回答“查找附近最近的成都小吃”,系統(tǒng)自動斷句,提取出關鍵詞“附近最近
成都小吃”,然后開始執(zhí)行查找,查找完成后再次語音提示用戶“您好,已經(jīng)找到......個
結(jié)果,最近的一個是......,您是否需要到這個地方?,,4、用戶回答“是”,系統(tǒng)自動開始規(guī)劃最短路線,開始導航,中間也會通過語音來指 引用戶如何開車。5、如果用戶在第3步時回答“不需要,另選一個”,那么系統(tǒng)會自動循環(huán)讀出所有的結(jié)果信息,大體 格式為“......路附近......米處有一家”,然后再次問用戶“您是否需
要到這個地方? ”,直到結(jié)果全部結(jié)束,或者用戶回答“是”進入第4步。6、對于這個交互場景,按照現(xiàn)有市面上的軟件可能需要單獨做出這個功能,而本 發(fā)明可以方便實現(xiàn)此交互場景,所有操作再本發(fā)明的語音交互設計器中,進行下面幾步就 可以了 1、拖拽一個“開始”單元,鍵盤或者語音輸入“開始導航”;2、拖拽一個“確認”單元,提示信息設置為“您想到什么地方? ”,并指定需要一個 輸入框;3、拖拽一個“判斷”單元,判斷用戶是否回答“關閉”、“取消”、“退出”等取消命令。 并將“是”直接連接到一個“結(jié)束”單元;將“否”連接到一個新的“預定義操作”,里面依次 選擇“啟動導航軟件”,“進行導航交互”。4、操作完成后就可以點擊保存,并選擇導出腳本,設置一個腳本名稱,這個腳本主 要的內(nèi)容將會如下形式1開始("開始導航")2確認(“您想到什么地方? “,TEXT,“查詢內(nèi)容")3判斷([“關閉〃,“取消〃,“退出〃,“返回〃 ],END,4)4預定義操作(2,“啟動導航軟件",“進行導航交互")5 結(jié)束本發(fā)明的語音交互腳本類似于LISP語句語法,但更加簡單直觀。語音交互腳本每 一行對應一個單元編號,每個腳本只允許有一個“開始”和一個“結(jié)束”單元,并分別位于第 一行和最后一行,每一個單元后面參數(shù)后面通過英文的小括號來包含需要的參數(shù)信息。語 音交互腳本中交互單元名稱可以為中文,也可以為英文。一個交互腳本還可以啟動另外一 個交互腳本中的交互場景,實現(xiàn)更為復雜的操作,比如上面通過調(diào)用的預定義操作也是這 個原理實現(xiàn)的。本發(fā)明的語音交互腳本的語法形式不局限于上面范例的形式,可以為其他各種形 式。本發(fā)明具體實施時,也可以自帶一些輔助工具,比如簡繁體轉(zhuǎn)換,漢字轉(zhuǎn)拼音,拼 音轉(zhuǎn)漢字,文章學習訓練,詞庫管理等,藉此來更加方便用戶。本發(fā)明具體實施時,除基于Windows、LinuX或Mac平臺的臺式機和筆記本以外,還 可以應用在各種不同的嵌入式平臺的終端設備上,比如手機、家用電器、平板電腦、上網(wǎng)本 等等,實現(xiàn)對其的語音交互。基于本發(fā)明的語音識別技術,本發(fā)明的語音交互系統(tǒng)對于存儲空間和運行速度的 要求都不高。根據(jù)本發(fā)明的語音識別及交互方法,本發(fā)明也可以應用于通過語音操作Windows、 Android、LinuX、Mac菠廏呌書妃奶旌迂怏,其具體方法為通過操作系統(tǒng)提供的應用程序編程接口(API)遍歷系統(tǒng)中軟件的窗口、菜單或按 鈕,獲得所有可操作的命令;通過前述交互腳本設計中的方法建立與所述命令對應的語音交互單元;通過前述的語音識別方法進行語音識別,并判斷所識別的語音是否是與所述命令對應的語音交互單元相同,若是,則系統(tǒng)調(diào)用操作系統(tǒng)提供的對應應用程序編程接口(API) 來模擬一般操作方式的方法來執(zhí)行這些命令。所述一般操作方式包括左鍵單擊、左鍵雙 擊,右鍵單擊,右鍵雙擊、鍵盤快捷鍵以及觸摸屏點擊等。綜上所述,本發(fā)明的中文語音交互系統(tǒng),不需要用高檔的錄音設備,也不需要安靜 的場合,大部分人都能直接使用、詞匯量超大,而且非特定人都可以連續(xù)進行中文語音交 互,本發(fā)明的語音詞庫大小遠遠小于直接記錄語音波形采樣數(shù)據(jù)的方式,而且本發(fā)明的語 音交互設計過程不同于傳統(tǒng)的需要通過錄制用戶發(fā)音的方式來建立命令,整個過程可以完 全不需要用戶說話,直接用文字就能與命令對應起來 上述說明已經(jīng)充分揭露了本發(fā)明的具體實施方式
。需要指出的是,熟悉該領域的 技術人員對本發(fā)明的具體實施方式
所做的任何改動均不脫離本發(fā)明的權利要求書的范圍。 相應地,本發(fā)明的權利要求的范圍也并不僅僅局限于前述具體實施方式
。
權利要求
1.一種語音識別方法,其特征在于,其包括如下步驟對語音波形特征進行分析,提取出所述語音對應的音素信息,將所述語音的音素信息轉(zhuǎn)換為拼音或音標信息,通過匹配算法在語音詞庫中查找與所述拼音或音標信息匹配的文字,完成語音識別的 過程。
2.如權利要求1所述的方法,其特征在于所述方法可應用于識別普通話、方言、英語 以及其他語種。
3.如權利要求1所述的方法,其特征在于所述語音詞庫儲存的為漢字的拼音信息或 英文的音標信息,所述拼音信息或音標信息可以是未編碼的字符信息,也可以是編碼處理 過的二進制信息,所述編碼也可以包含壓縮過程,其中所述語音詞庫可以無限擴展。
4.一種用于語音識別的語音詞庫記錄方法,其特征在于所述詞庫中記錄的信息為漢 字的拼音信息或英文的音標信息。
5.如權利要求4所述的方法,其特征在于所述音標信息可以是未編碼的字符信息,也 可以是編碼處理過的二進制信息,所述編碼也可以包含壓縮過程。
6.一種語音交互系統(tǒng)的設計方法,其包括提供一個交互設計界面;提供若干交互要素,其中每一所述交互要素對應一個語音交互單元,其中所述語音交 互單元是通過前述權利要求1所述的方法識別語音;在所述交互設計界面通過推拽所述交互要素形成語音交互啟動器能夠識別的交互腳本。
7.一種語音交互系統(tǒng),其包括交互設計器、交互執(zhí)行器、平臺抽象庫、交互插件以及 平臺應用程序編程接口(API)核心庫;所述交互設計器用于設計交互腳本,所述交互執(zhí)行 器用來解釋執(zhí)行前述交互腳本,完成語音交互的過程;交互插件用來擴充和改進語音交互 系統(tǒng)的功能,實現(xiàn)附加功能;平臺抽象庫用來實現(xiàn)對整個平臺接口和功能的封裝,實現(xiàn)多平 臺的可移植性和與具體平臺的獨立性。在不同操作系統(tǒng)下,具體的實現(xiàn)將調(diào)用平臺API核 心庫;平臺API核心庫用來實現(xiàn)對于特定操作系統(tǒng)的移植和封裝。
8.如權利要求7所述的語音交互系統(tǒng),其特征在于所述平臺API核心庫是用于封裝 具體平臺操作系統(tǒng)的應用程序編程接口(API)。
9.一種語音操作軟件的方法,其包括通過操作系統(tǒng)提供的應用程序編程接口(API)遍歷系統(tǒng)中軟件的窗口、菜單或按鈕, 獲得所有可操作的命令;通過權利要求6所述的方法建立與所述命令對應的語音識別命令;通過權利要求1所述的語音識別方法進行語音識別,并判斷所識別的語音是否是與所 述命令對應的語音識別命令相同,若是,則系統(tǒng)調(diào)用操作系統(tǒng)提供的對應應用程序編程接 口(API)來模擬一般操作方式的方法來執(zhí)行這些命令。
10.如權利要求9所述的方法,其特征在于所述一般操作方式包括左鍵單擊、左鍵雙 擊,右鍵單擊,右鍵雙擊、鍵盤快捷鍵以及觸摸屏點擊。
全文摘要
本發(fā)明設計一種新的能廣泛應用在PC、手機、家用電器等各種終端設備上的語音識別與交互系統(tǒng)。其目的在于在現(xiàn)有的用戶交互系統(tǒng)上,添加更加人性化的中文語音交互方式。本發(fā)明在自己超大詞匯量非特定人連續(xù)中文語音基礎上。整個系統(tǒng)包括交互設計器、交互執(zhí)行器、平臺抽象庫、交互插件、平臺API核心庫五個部分交互設計器中提出了一種全新的交互設計方法,通過直觀的操作就可以完成整個交互的設計;交互執(zhí)行器用來解釋執(zhí)行交互腳本;交互插件用于擴展已有交互平臺抽象庫的功能和增加一些特殊應用;平臺抽象庫用于實現(xiàn)多平臺的可移植性和與具體平臺的獨立性;平臺API核心庫通過封裝具體平臺操作系統(tǒng)的API,方便可被平臺抽象庫調(diào)用。
文檔編號G10L15/18GK102148031SQ20111008114
公開日2011年8月10日 申請日期2011年4月1日 優(yōu)先權日2011年4月1日
發(fā)明者劉兆鵬 申請人:劉兆鵬, 無錫大核科技有限公司