適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法和系統(tǒng)與流程

文檔序號：12076694閱讀：638來源：國知局

本發(fā)明涉及計算機虛擬現(xiàn)實游戲
技術領域：
和語音
技術領域：
，具體涉及一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法和系統(tǒng)。
背景技術：
：隨著虛擬現(xiàn)實科技技術的逐步成熟，人們對虛擬現(xiàn)實也寄予了越來越多的關注，其中，虛擬現(xiàn)實游戲正是焦點之一。電子游戲行業(yè)已經(jīng)發(fā)展了數(shù)十年，人們已經(jīng)習慣于使用鼠標和鍵盤進行游戲操控，但在虛擬現(xiàn)實環(huán)境下，受到硬件限制，人們無法通過鼠標和鍵盤來對游戲進行操控。如何在虛擬現(xiàn)實環(huán)境中讓玩家舒適自然地體驗游戲內容，這已成為虛擬現(xiàn)實游戲開發(fā)者們需要解決的一大問題。多年以來，語音技術已經(jīng)有巨大發(fā)展，并已開始從專業(yè)度極高的科研生產(chǎn)領域逐步進入到人們的生活的當中。其中最為大眾所熟知的就是語音識別技術，通過龐大的樣本庫，采用復雜的語音識別算法來識別詞匯，并使用人工神經(jīng)網(wǎng)絡和基于文法規(guī)則的語音處理機制來構成完整語句，這需要龐大的物力和人力基礎，中小型企業(yè)很難承擔相關費用。語音識別由于數(shù)據(jù)庫的龐大和算法的復雜，使得識別速度有較高的延遲，無法滿足人們在使用電子游戲軟件進行娛樂時需要的即時反饋。并且，人類的語言實際上是極其復雜的，這也使得語音識別的準確度與輸入的語音長度成反比。由于以上原因，在計算機游戲領域，目前還沒有公司將語音技術實際應用于游戲系統(tǒng)的操控方面，采用的依然是通過鍵盤和鼠標這類傳統(tǒng)輸入方式對游戲系統(tǒng)進行操控。技術實現(xiàn)要素：針對現(xiàn)有技術中的缺陷，本發(fā)明的目的是提供一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法和系統(tǒng)。根據(jù)本發(fā)明提供的一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法，包括：語音采集步驟：采集用戶的語音輸入指令；語音指令識別步驟：從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，根據(jù)語音輸入單詞匹配得到語音指令；控制命令獲取步驟：獲取與語音指令關聯(lián)的控制命令。優(yōu)選地，所述語音采集步驟，包括：采集時間窗設定步驟：根據(jù)用戶的操作確定語音采集時間窗；語音限時采集步驟：在語音采集時間窗內采集用戶的語音輸入指令；斷句判斷步驟：在采集用戶的語音輸入指令的過程中，將大于等于停頓時間閾值的發(fā)音停頓作為斷句標識。優(yōu)選地，所述采集時間窗設定步驟，包括：時間窗起始時刻設定步驟：在非語音采集時間窗內，將用戶操作輸入設備的時刻作為當前語音采集時間窗的起始時刻；時間窗終止時刻設定步驟：在當前語音采集時間窗持續(xù)時，將用戶操作輸入設備的時刻作為本次語音采集時間窗的終止時刻。優(yōu)選地，所述語音指令識別步驟，包括：拆分單詞步驟：根據(jù)語言模型庫，從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，將所述一個或多個語音輸入單詞構成待識別組；匹配步驟：將待識別組在語言模型庫中進行匹配，得到語言模型庫中與待識別組匹配的語音識別組；其中，語音識別組與語音指令一一對應。優(yōu)選地，所述語言模型庫模塊僅通過語音指令制作得到，包括：語音指令預設步驟：預設一個或多個語音指令，其中，語音指令存儲在語言模型庫中；語音識別組構建步驟：對于單一語音指令，將從語音指令中提取出的一個或多個關鍵詞構建為語音識別組，其中，語音識別組存儲在語言模型庫模塊中；命令關聯(lián)步驟：將語音識別組與控制命令建立一一對應的關聯(lián)關系，其中，關聯(lián)關系存儲在語言模型庫模塊中。根據(jù)本發(fā)明提供的一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)，包括：語音采集模塊：采集用戶的語音輸入指令；語音指令識別模塊：從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，根據(jù)語音輸入單詞匹配得到語音指令；控制命令獲取模塊：獲取與語音指令關聯(lián)的控制命令。優(yōu)選地，所述語音采集模塊，包括：采集時間窗設定模塊：根據(jù)用戶的操作確定語音采集時間窗；語音限時采集模塊：在語音采集時間窗內采集用戶的語音輸入指令；斷句判斷模塊：在采集用戶的語音輸入指令的過程中，將大于等于停頓時間閾值的發(fā)音停頓作為斷句標識。優(yōu)選地，所述采集時間窗設定模塊，包括：時間窗起始時刻設定模塊：在非語音采集時間窗內，將用戶操作輸入設備的時刻作為當前語音采集時間窗的起始時刻；時間窗終止時刻設定模塊：在當前語音采集時間窗持續(xù)時，將用戶操作輸入設備的時刻作為本次語音采集時間窗的終止時刻。優(yōu)選地，所述語音指令識別模塊，包括：拆分單詞模塊：根據(jù)語言模型庫，從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，將所述一個或多個語音輸入單詞構成待識別組；匹配模塊：將待識別組在語言模型庫中進行匹配，得到語言模型庫中與待識別組匹配的語音識別組；其中，語音識別組與語音指令一一對應。優(yōu)選地，包括：語音指令預設模塊：預設一個或多個語音指令，其中，語音指令存儲在語言模型庫中；語音識別組構建模塊：對于單一語音指令，將從語音指令中提取出的一個或多個關鍵詞構建為語音識別組，其中，語音識別組存儲在語言模型庫模塊中；命令關聯(lián)模塊：將語音識別組與控制命令建立一一對應的關聯(lián)關系，其中，關聯(lián)關系存儲在語言模型庫模塊中；其中，所述語言模型庫模塊僅通過語音指令制作得到。與現(xiàn)有技術相比，本發(fā)明具有如下的有益效果：1、彌補和規(guī)避了在虛擬現(xiàn)實游戲環(huán)境下，由于缺少硬件輸入設備(如鼠標和鍵盤)而造成的指令輸入方式極其受限的狀況(如現(xiàn)有的HTCVIVE虛擬游戲輸入設備，用戶在游戲中僅可通過2支手柄控制器在游戲中進行操控，而每個控制機僅有6個按鍵)。2、通過語音指令獲得結果的反饋速度獲得極大提升。通過對語音模型庫的編輯，縮小了語音模型庫的規(guī)模，同時，由于舍棄了基于文法規(guī)則的語音處理機制，而僅對語音單詞自身進行匹配，也大幅降低了語音信息識別的計算量。3、玩家自己控制輸入時間，而不是時刻監(jiān)聽輸入，減少了玩家無意的說話和外界聲音的干擾。設定停頓時間標識，讓玩家控制停頓時間，減少由于自然說話時的短暫停頓造成的斷句錯誤。4、長語句的識別率獲得大幅提升。因為人類語言的復雜性和隨意性，使得計算機基于文法規(guī)則的語音處理機制來構成完整語句十分困難。所以，以往語音識別技術對長的語句識別率較低。而使用本發(fā)明的方法和系統(tǒng)后，采用的是對語音指令中的關鍵單詞進行匹配和篩選，所以語音指令中包含的關鍵單詞越多，越容易被正確匹配，這樣極大地提高了長語句的識別概率。5、極大地降低了架構一套可用的語音控制系統(tǒng)的成本。目前，很多語言都已經(jīng)存在聲學模型，字典，甚至大詞匯量語言模型可供下載，但龐大的模型庫中很大一部分實際上是不被需要的，但是由于受到語音識別算法的限制和軟件內容更新的考慮，又不可直接刪除。同時，絕大多數(shù)企業(yè)也無法承受采集特定語音的成本。使用本發(fā)明的方法和系統(tǒng)后，相關廠商可自行編輯適合自身的語言模型庫以滿足自己游戲軟件的使用需求，不僅能夠保障內容更新所需的語音資源添加，而且不再會被巨大的聲學模型庫采集成本和復雜的語義處理機制所限。從而使相關廠商可以有更多的方法帶給人們快樂，并為社會創(chuàng)造更多的價值。6、更加貼近人們的生活習慣，極低的學習成本。鍵盤和鼠標在人類社會歷史上已經(jīng)出現(xiàn)了幾十年的時間，即便如此，很多特殊人群依然需要較長的時間學習掌握它的使用方法。而語言是每個人習慣掌握的技能，無需再次學習，而且也更容易被人們接受，理解和記憶。7、在虛擬現(xiàn)實環(huán)境中，更好，更自然的進行交互和操控。在生活中，人們習慣通過語言和手勢來進行交互和操控，虛擬現(xiàn)實游戲強調的就是顯著的環(huán)境代入感。通過本發(fā)明的方法和系統(tǒng)，人們將可以從僅限手部操控的局限中擺脫出來，使用語音和手勢相結合這種更自然的方式進行交互和操控。附圖說明通過閱讀參照以下附圖對非限制性實施例所作的詳細描述，本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯：圖1為本發(fā)明的模塊關聯(lián)圖。圖2為本發(fā)明的語音處理原理示意圖。圖3為本發(fā)明的步驟流程圖。具體實施方式下面結合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領域的技術人員進一步理解本發(fā)明，但不以任何形式限制本發(fā)明。應當指出的是，對本領域的普通技術人員來說，在不脫離本發(fā)明構思的前提下，還可以做出若干變化和改進。這些都屬于本發(fā)明的保護范圍。根據(jù)本發(fā)明提供的一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法，包括：語音采集步驟：采集用戶的語音輸入指令；語音指令識別步驟：從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，根據(jù)語音輸入單詞匹配得到語音指令；控制命令獲取步驟：獲取與語音指令關聯(lián)的控制命令。優(yōu)選地，所述語音采集步驟，包括：采集時間窗設定步驟：根據(jù)用戶的操作確定語音采集時間窗；語音限時采集步驟：在語音采集時間窗內采集用戶的語音輸入指令；斷句判斷步驟：在采集用戶的語音輸入指令的過程中，將大于等于停頓時間閾值的發(fā)音停頓作為斷句標識。優(yōu)選地，所述采集時間窗設定步驟，包括：時間窗起始時刻設定步驟：在非語音采集時間窗內，將用戶操作輸入設備的時刻作為當前語音采集時間窗的起始時刻；時間窗終止時刻設定步驟：在當前語音采集時間窗持續(xù)時，將用戶操作輸入設備的時刻作為本次語音采集時間窗的終止時刻。優(yōu)選地，所述語音指令識別步驟，包括：拆分單詞步驟：根據(jù)語言模型庫，從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，將所述一個或多個語音輸入單詞構成待識別組；匹配步驟：將待識別組在語言模型庫中進行匹配，得到語言模型庫中與待識別組匹配的語音識別組；其中，語音識別組與語音指令一一對應。優(yōu)選地，所述語言模型庫模塊僅通過語音指令制作得到，包括：語音指令預設步驟：預設一個或多個語音指令，其中，語音指令存儲在語言模型庫中；語音識別組構建步驟：對于單一語音指令，將從語音指令中提取出的一個或多個關鍵詞構建為語音識別組，其中，語音識別組存儲在語言模型庫模塊中；命令關聯(lián)步驟：將語音識別組與控制命令建立一一對應的關聯(lián)關系，其中，關聯(lián)關系存儲在語言模型庫模塊中。本發(fā)明還提供一種適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)，所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)可以通過所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的方法的步驟流程實現(xiàn)。下面對所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)進行具體說明。所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)，包括：語音指令預設模塊：預設一個或多個語音指令，其中，語音指令存儲在語言模型庫中；語音識別組構建模塊：對于單一語音指令，將從語音指令中提取出的一個或多個關鍵詞構建為語音識別組，其中，語音識別組存儲在語言模型庫模塊中；命令關聯(lián)模塊：將語音識別組與控制命令建立一一對應的關聯(lián)關系，其中，關聯(lián)關系存儲在語言模型庫模塊中；其中，所述語言模型庫模塊僅通過語音指令制作得到。具體地，傳統(tǒng)的語言模型庫模塊(語言模型和字典)包含的是整個語種的單詞發(fā)音、出現(xiàn)概率、單詞組合等龐大的信息。而本發(fā)明僅將在游戲等應用中涉及到的語音指令制作為語言模型和字典，而不是使用整個語種的模型和字典，這大幅的縮小了語言模型和字典的規(guī)模，從而提高了語音識別的精度和速度。其中，在語音識別組構建模塊中，可以將語音指令中的語音單詞分為2個優(yōu)先級：高優(yōu)先級、低優(yōu)先級，然后將高優(yōu)先級的語音單詞作為關鍵詞。語言模型庫模塊包含語言模型和字典。語言模型所存儲的信息是用來約束單詞搜索的,定義了哪些詞能跟在上一個已經(jīng)識別的詞的后面的概率，這樣就可以為匹配過程排除一些不可能的單詞。比如，“我正在”是已識別單詞，后面跟“吃飯”的概率就很高，而“雞蛋”的概率就極低。字典包含了從單詞(words)到音素(phones)之間的映射。每個單詞發(fā)音都是由音素組成的，但因為人們的發(fā)音不同而可能存在多個映射，比如“Fire”的音素包含“FAYER”或者“FAYR”，這樣可以提高識別概率。所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)，還包括：語音采集模塊：采集用戶的語音輸入指令；語音指令識別模塊：從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，根據(jù)語音輸入單詞匹配得到語音指令；控制命令獲取模塊：獲取與語音指令關聯(lián)的控制命令。所述語音采集模塊，包括：采集時間窗設定模塊：根據(jù)用戶的操作確定語音采集時間窗；語音限時采集模塊：在語音采集時間窗內采集用戶的語音輸入指令；斷句判斷模塊：在采集用戶的語音輸入指令的過程中，將大于等于停頓時間閾值的發(fā)音停頓作為斷句標識。所述采集時間窗設定模塊，包括：時間窗起始時刻設定模塊：在非語音采集時間窗內，將用戶操作輸入設備的時刻作為當前語音采集時間窗的起始時刻；時間窗終止時刻設定模塊：在當前語音采集時間窗持續(xù)時，將用戶操作輸入設備的時刻作為本次語音采集時間窗的終止時刻。具體地，輸入設備可以是虛擬設備上的指定按鍵，用戶可以通過激活虛擬設備上的指定按鍵自行控制語音輸入開始和結束的時間，游戲系統(tǒng)無需時刻監(jiān)聽語音輸入。在虛擬設備上的指定按鍵未被激活時，此時不在語音采集時間窗內，用戶發(fā)出的語音輸入指令均視為無效，不會被輸入進游戲系統(tǒng)，這樣就大程度地避免了用戶無意的說話和其他聲音的干擾。同時，我們用持續(xù)一定時間的發(fā)音停頓作為斷句標識(比如持續(xù)1秒的停頓)，當用戶輸入一段連續(xù)的語音信息后，停頓時長達到1秒時，系統(tǒng)會自動將本次指令輸入判斷為已結束。用戶可以通過這種方法自行控制語句之間的停頓，從而避免了自然發(fā)音中短暫停頓造成的斷句錯誤。所述語音指令識別模塊，包括：拆分單詞模塊：根據(jù)語言模型庫，從用戶的語音輸入指令中提取出一個或多個語音輸入單詞，將所述一個或多個語音輸入單詞構成待識別組；匹配模塊：將待識別組在語言模型庫中進行匹配，得到語言模型庫中與待識別組匹配的語音識別組；其中，語音識別組與語音指令一一對應。具體地，將待識別組與語音識別組中的各自所包含的語音輸入單詞與語音單詞分別進行匹配篩選，從中篩選出匹配度最高的語音識別組，并以此結果為索引，查找對應的游戲命令，根據(jù)查找到的游戲命令控制游戲系統(tǒng)。其中，語音輸入單詞與語音單詞均為單詞，從而單詞之間能夠進行匹配。所述適用于虛擬現(xiàn)實環(huán)境中應用語音控制的系統(tǒng)，還包括：游戲控制模塊，其中，游戲控制模塊用于根據(jù)控制命令控制游戲系統(tǒng)。下面對本發(fā)明的優(yōu)選的具體實施方式進行說明。實例1，使用語音指令“showmethemap”在游戲中實現(xiàn)“打開地圖界面”的效果我通過以下步驟實現(xiàn)實例1：步驟1：假如我們有3條語音指令：“showmethemap”,“showmyself”,“firedebris”，并將相關單詞(“show”“me”“the”“map”“myself”“fire”“debris”)構成游戲語言模型庫。步驟2：將語音指令進行拆分，再根據(jù)單詞的識別優(yōu)先級，分別重組，得到各自對應的語音識別組，如下：語音指令拆分重組后的語音識別組showmethemap“show”+“me”+“map”showmyself“show”+“myself”firedebris“fire”+“debris”步驟3：將語音識別組和游戲命令關聯(lián)存儲，以供之后的步驟查詢所用，如下：拆分重組后的語音識別組游戲控制命令“show”+“me”+“map”打開地圖界面“show”+“myself”打開角色界面“fire”+“debris”釋放火球術步驟4：采集用戶輸入的語音輸入指令，并將其轉換為待識別組。比如用戶說出指令“showmeamap”,將其拆分為語音輸入單詞“show”+“me”+“a”+“map”步驟5：將待識別組“show”+“me”+“a”+“map”與已設定的所有語音識別組分別進行匹配，“show”+“me”+“map”的三個關鍵字都在此組中出現(xiàn)，并且順序正確，出現(xiàn)概率為100％。所有結果如下：語音識別組匹配度“show”+“me”+“map”100％“show”+“myself”50％“fire”+“debris”0％根據(jù)匹配結果進行篩選，選擇出匹配度最高的語音識別組“show”+“me”+“map”步驟6：在關聯(lián)存儲模塊中，根據(jù)匹配篩選出的語音識別組尋找到對應的控制命令(參照步驟3)“打開地圖界面”，并將此游戲命令發(fā)送給游戲控制系統(tǒng)；步驟7：游戲控制系統(tǒng)收到“打開地圖界面”的命令后，進行相關的游戲反饋，結束本流程。通過以上實例可知：本發(fā)明可以通過從現(xiàn)有的語言模型庫中僅挑選僅滿足軟件需求的語音數(shù)據(jù)構成具有針對性的小型語言模型庫，從而大幅降低數(shù)據(jù)的體量并節(jié)省原始語音數(shù)據(jù)的采集成本。而且，由于采用的是單詞識別匹配方式，而非語音含義識別方式，使得相關的計算量大幅降低，從而提高了語音指令的反饋速度。另外，由于使用的是語音識別組的匹配方式，識別組中僅包含事先設置的關鍵單詞，同時越多的關鍵單詞，匹配度越精確，這不僅能夠提高長語句的語音指令識別成功率，并且允許用戶在輸入語音指令時有所偏差，方便用戶記憶和使用。以上所述，僅為本發(fā)明的較佳實施舉例而已，并非用于限定本發(fā)明的保護范圍。虛擬現(xiàn)實游戲領域的技術人員可以設計出很多其他的修改，等同替換，和改進的實施方式，包括但不限于如：使用語音指令在游戲中釋放技能，使用語音指令在游戲中操控其他游戲單位等。這些修改和實施方式將落在本申請公開的原則范圍和精神之內，并應包含在本發(fā)明的保護范圍之內。本領域技術人員知道，除了以純計算機可讀程序代碼方式實現(xiàn)本發(fā)明提供的系統(tǒng)及其各個裝置、模塊、單元以外，完全可以通過將方法步驟進行邏輯編程來使得本發(fā)明提供的系統(tǒng)及其各個裝置、模塊、單元以邏輯門、開關、專用集成電路、可編程邏輯控制器以及嵌入式微控制器等的形式來實現(xiàn)相同功能。所以，本發(fā)明提供的系統(tǒng)及其各項裝置、模塊、單元可以被認為是一種硬件部件，而對其內包括的用于實現(xiàn)各種功能的裝置、模塊、單元也可以視為硬件部件內的結構；也可以將用于實現(xiàn)各種功能的裝置、模塊、單元視為既可以是實現(xiàn)方法的軟件模塊又可以是硬件部件內的結構。以上對本發(fā)明的具體實施例進行了描述。需要理解的是，本發(fā)明并不局限于上述特定實施方式，本領域技術人員可以在權利要求的范圍內做出各種變化或修改，這并不影響本發(fā)明的實質內容。在不沖突的情況下，本申請的實施例和實施例中的特征可以任意相互組合。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3