人機互動系統(tǒng)和方法

文檔序號：2835928閱讀：778來源：國知局

專利名稱：人機互動系統(tǒng)和方法
技術領域：
本發(fā)明涉及一種人機互動技術，特別是涉及一種人機互動系統(tǒng)和方法。
背景技術：
人機互動技術已廣泛應用于人們的日常生活和工作中。例如，體感游戲以及電器設備的控制等等。尤其是人機互動技術中的體感游戲由于其兼有健身和娛樂的目的而倍受人們的喜愛。目前現(xiàn)有的人機互動技術通常是基于控制設備來實現(xiàn)的，例如，體感游戲通常是通過計算機和體感控制裝置來實現(xiàn)或者是通過電視機、機頂盒以及體感控制裝置來實現(xiàn)。體感控制裝置如游戲手柄等，體感控制裝置通常會被用戶單手或者雙手握于手中，并進行控制操作。發(fā)明人在實現(xiàn)本發(fā)明過程中發(fā)現(xiàn)人機互動中的控制設備通常是一個物理實體設備，且通常由多個按鍵、搖桿、光源、重力加速度傳感器以及小屏幕等元件組成。然而，目前人機互動技術已經可以不限于物理的實體設備來實現(xiàn)了，而且，現(xiàn)有的人機互動的實現(xiàn)方式有待于進一步的豐富。有鑒于上述現(xiàn)有的人機互動技術存在的需求，本發(fā)明人基于從事此類產品設計制造多年豐富的實務經驗及專業(yè)知識，并配合學理的運用，積極加以研究創(chuàng)新，以期創(chuàng)設一種新的人機互動系統(tǒng)和方法，能夠滿足現(xiàn)有的人機互動技術存在的需求，使其更具有實用性。經過不斷的研究設計，并經過反復試作樣品及改進后，終于創(chuàng)設出確具實用價值的本發(fā)明。

發(fā)明內容
本發(fā)明的目的在于，滿足人機互動技術存在的需求，而提供一種新的人機互動系統(tǒng)和方法，所要解決的技術問題是，使人機互動技術的實現(xiàn)方式多元化，非常適于實用。本發(fā)明的目的以及解決其技術問題可以采用以下的技術方案來實現(xiàn)。依據(jù)本發(fā)明提出的一種人機互動系統(tǒng)，所述人機互動系統(tǒng)包括視頻捕捉裝置、聲音捕捉裝置和控制裝置；所述視頻捕捉裝置，用于實時攝取圖像，并輸出；所述聲音捕捉裝置，用于拾取聲音信號，并輸出；所述控制裝置包括接收模塊，用于接收所述視頻捕捉裝置傳輸來的圖像；手部提取模塊，用于從接收模塊接收到的圖像中提取用戶手部輪廓信息，并根據(jù)所述手部輪廓信息確定用戶的手部姿勢；存儲模塊，用于預先存儲手部姿勢與控制設備的輸入信息的對應關系信息；控制模塊，用于將手部提取模塊確定的手部姿勢在所述存儲模塊中存儲的對應關系信息中進行匹配查找，以確定手部提取模塊確定出的手部姿勢對應的控制裝置的輸入信息；語音識別模塊，用于對所述聲音捕捉裝置拾取的聲音信號進行語音識別處理；關鍵詞模塊，用于從所述語音識別模塊的語音識別處理結果中提取關鍵詞，并輸出所述關鍵詞；執(zhí)行模塊，用于在所述控制模塊確定出的輸入信息與所述關鍵詞相匹配時，根據(jù)所述控制模塊確定出的輸入信息或所述關鍵詞執(zhí)行相應的操作。本發(fā)明的目的以及解決其技術問題還可以采用以下的技術措施來進一步實現(xiàn)。
較佳的，前述的人機互動系統(tǒng)，其中所述視頻捕捉裝置和所述聲音捕捉裝置與所述控制裝置集成設置于同一電子設備中。較佳的，前述的人機互動系統(tǒng)，其中所述電子設備包括計算機、游戲機、移動電話、平板電腦、機頂盒、電視機頂盒一體機或者電視機。較佳的，前述的人機互動系統(tǒng)，其中所述視頻捕捉裝置和/或聲音捕捉裝置與所述控制裝置獨立分離設置。較佳的，前述的人機互動系統(tǒng)，其中所述控制裝置設置于計算機、游戲機、移動電話、平板電腦、機頂盒、電視機頂盒一體機或者電視機中。本發(fā)明還提供一種人機互動方法，所述方法包括實時攝取圖像，并拾取聲音信號；從所述攝取的圖像中提取用戶手部輪廓信息；根據(jù)所述手部輪廓信息確定用戶的手部姿勢；將所述手部姿勢在預先存儲的手部姿勢與控制設備的輸入信息的對應關系信息中匹配查找，以確定所述用戶的手部姿勢對應的控制設備的輸入信息；對所述聲音信號進行語音識別處理；從所述語音識別處理結果中提取關鍵詞；在所述確定出的輸入信息與所述關鍵詞相匹配時，根據(jù)所述確定出的輸入信息或者所述關鍵詞執(zhí)行相應的操作。借由上述技術方案，本發(fā)明的人機互動系統(tǒng)和方法至少具有下列優(yōu)點及有益效果本發(fā)明通過利用視頻捕捉裝置攝取圖像、手部提取模塊確定攝取的圖像中的用戶手部圖像并確定用戶的手部姿勢信息，使控制模塊可以根據(jù)該手部姿勢信息和存儲模塊中存儲的對應關系確定出控制裝置的輸入信息,而且,在該確定出的輸入信息與米集的聲音信號中的關鍵詞一致時，執(zhí)行模塊執(zhí)行相應的操作，實現(xiàn)了基于手部姿勢信息和語音的人機互動，從而使人機互動的實現(xiàn)方式多元化，非常適于實用。綜上所述，本發(fā)明在技術上有顯著的進步，具有明顯的積極效果，誠為一新穎、進步、實用的新設計。上述說明僅是本發(fā)明技術方案的概述，為了能夠更清楚了解本發(fā)明的技術手段，而可依照說明書的內容予以實施，并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點能夠更明顯易懂，以下特舉較佳實施例，并配合附圖詳細說明如下。

圖1為本發(fā)明的人機互動系統(tǒng)示意圖；圖2為本發(fā)明的人機互動方法流程圖。
具體實施例方式為更進一步闡述本發(fā)明為達成預定發(fā)明目的所采取的技術手段及功效，以下結合附圖及較佳實施例，對依據(jù)本發(fā)明提出的人機互動系統(tǒng)和方法其具體實施方式
、結構、特征、流程及其功效，詳細說明如后。實施例一、人機互動系統(tǒng)。該系統(tǒng)如附圖1所示。圖1示出的人機互動系統(tǒng)包括視頻捕捉裝置1、聲音捕捉裝置2以及控制裝置3。其中的控制裝置3包括接收模塊31、手部提取模塊32、存儲模塊33、控制模塊34、語音識別模塊35、關鍵詞模塊36以及執(zhí)行模塊37。其中的接收模塊31與手部提取模塊32連接，控制模塊34與手部提取模塊32、存儲模塊33以及執(zhí)行模塊37均連接，語音識別模塊35與聲音捕捉裝置2和關鍵詞模塊36均連接，執(zhí)行模塊37與控制模塊34和關鍵詞模塊36均連接。視頻捕捉裝置I主要用于實時攝取圖像，并將其攝取到的圖像向控制裝置3發(fā)送。這里的實時攝取如視頻捕捉裝置I按照預定采樣頻率進行圖像采樣。該視頻捕捉裝置I可以與控制裝置3集成設置，也可以與控制裝置3相互分離獨立設置。在視頻捕捉裝置I與控制裝置3相互分離獨立設置的情況下，視頻捕捉裝置I可以與控制裝置3采用有線連接方式連接或者采用無線連接方式連接，即視頻捕捉裝置通過有線或者無線的方式將其攝取到的圖像傳輸給控制裝置3。視頻捕捉裝置I可以采用現(xiàn)有的攝像頭、以及攝像機等攝像設備，如RGB彩色攝像頭或者3D深度感應器等。本發(fā)明不限制視頻捕捉裝置I的具體類型。聲音捕捉裝置2主要用于拾取聲音，即拾取對話方發(fā)出的聲音。聲音捕捉裝置2將拾取到的聲音的音頻信號輸出至語音識別模塊35。聲音捕捉裝置2可以具體表現(xiàn)為麥克風、或者耳麥等形式?？刂蒲b置3主要用于根據(jù)視頻捕捉裝置I實時攝取的圖像、以及其預先存儲的手部姿勢信息與控制裝置的輸入信息的對應關系信息確定出攝取到的圖像中顯示出的用戶的手部姿勢信息對應的控制裝置的輸入信息，控制裝置3通過對聲音捕捉裝置2拾取的聲音信號進行語音識別以及關鍵詞提取處理，并在確定出的輸入信息與提取出的關鍵詞一致時執(zhí)行相應的操作，從而實現(xiàn)了同時基于用戶手部姿勢和語音的人機互動。由于本發(fā)明提供的人機互動系統(tǒng)僅僅是基于用戶的手部姿勢和語音來實現(xiàn)人機互動，因此，用戶完全可以坐在桌前或者站在桌前或者位于其它近距離的地方來進行人機互動如體感游戲或者設備控制等，從而可以實現(xiàn)近距離體感游戲，并可以使用戶在游戲過程中同時進行手部和語言的反應訓練，增強用戶對身體鍛煉的興趣?？刂蒲b置3中的接收模塊31主要用于接收視頻捕捉裝置I傳輸來的圖像序列。在視頻捕捉裝置I與控制裝置3獨立分離設置的情況下，接收模塊31可以通過有線或者無線方式接收到視頻捕捉裝置I傳輸來的圖像。一個具體的例子接收模塊31可以通過藍牙、2. 4GHz、WIF1、紅外傳輸、以及USB等傳輸方式接收視頻捕捉裝置I傳輸來的圖像，即接收模塊31可以為藍牙模塊、2. 4GHz模塊、WIFI模塊、紅外模塊、或者USB模塊。在視頻捕捉裝置I與控制裝置3集成設置在同一電子設備的情況下，接收模塊31可以為緩存介質。本發(fā)明不限制接收模塊31的具體實現(xiàn)方式?？刂蒲b置3中的手部提取模塊32主要用于從接收模塊31接收到的圖像中提取用戶的手部圖像，并進一步判斷出該手部圖像對應的手部姿勢信息(如OK手勢或者剪刀手勢或者表示I的手勢等等)，之后，手部提取模塊32向控制模塊34輸出其確定出的手部姿勢信息。這里的手部姿勢信息可以為一個手部姿勢信息的索引號或者標識符等，以便于控制模塊23進行匹配查找。本發(fā)明中的手部提取模塊32可以采用相似度比較方式來確定用戶的手部姿勢信息，一個具體的例子，手部提取模塊32中預先存儲有多個手部輪廓圖像，手部提取模塊32可以先從視頻捕捉裝置I傳輸來的圖像信息中提取出手部圖像信息，然后從該手部圖像信息中摳取出手部輪廓(如采用現(xiàn)有的圖像摳取技術摳取出手部輪廓)，并將摳取出的該手部輪廓進行進行縮放處理，以便于和其存儲的手部輪廓圖像的大小相近似，之后，手部提取模塊32將縮放處理后的手部輪廓與其預先存儲的多個手部輪廓圖像進行相似度比較，確定出與摳取出的手部輪廓相似度最高的手部輪廓圖像，該圖像對應的圖像編號即為上述手部提取模塊32傳輸給控制模塊23的手部姿勢信息。需要說明的是，手部提取模塊32在接收到視頻捕捉裝置I傳輸來的圖像后，可以先對其接收到的圖像進行優(yōu)化處理操作，之后，再進行提取用戶的手部圖像信息以及確定手部姿勢信息的操作。上述對接收到的圖像進行的優(yōu)化處理操作可以包括去除無效信息處理、去除干擾信息處理、糾正鏡頭畸變處理、以及增強有效信息處理等操作中的一個或者多個操作。另外，手部提取模塊32在提取用戶的手部圖像信息的過程中，可以先將視頻捕捉裝置I傳輸來的圖像轉換為黑白圖像，從而手部提取模塊32可以根據(jù)黑白圖像中的像素的灰度值，提取出用戶的手部圖像信息(如手部輪廓信息)。控制裝置3中的存儲模塊33主要用于存儲手部姿勢信息與控制裝置的輸入信息的對應關系信息，例如，存儲模塊33中存儲有手部姿勢的索引號與控制裝置3的輸入信息的對應關系信息。上述輸入信息可以包括針對控制裝置3的某具體應用的控制命令，例如電視機換臺、瀏覽照片翻頁、關閉正在瀏覽的網頁或者體感游戲中的游戲命令等等。上述輸入信息也可以包括游戲輸入信息，例如，控制裝置3中的石頭剪子布游戲根據(jù)該輸入信息獲知用戶此時作了個剪子的手勢，從而該游戲可以對該剪子、提取出的語音關鍵詞與游戲中的手勢進行輸贏判斷；再例如，控制裝置3中的手口練習游戲根據(jù)該輸入信息判斷用戶此時作的手勢是否與屏幕上顯示的手勢相同，且提取出的語音關鍵詞是否與屏幕上顯示出的手勢匹配，該手口練習游戲通過對屏幕上顯示的手勢進行快速變化，來鍛煉用戶的手口腦的反映速度。本發(fā)明可以動態(tài)的設置存儲模塊33中存儲的對應關系信息，一個具體的例子首先，開啟視頻捕捉裝置1，視頻捕捉裝置I開始攝像操作，視頻捕捉裝置I攝取到的包含用戶手部的圖片被顯示在控制裝置3所在設備的顯示屏上，控制裝置3可以在顯示屏上顯示手部區(qū)域位置范圍，用戶可以通過調整其坐姿或者站位等使視頻捕捉裝置I攝取到的用戶手部位于該手部區(qū)域位置范圍內，之后，用戶點擊攝取圖片對應的按鍵(該按鍵如計算機鍵盤上的回車鍵或者屏幕上顯示的注冊鍵或者遙控器上的確定鍵等)；控制裝置3在監(jiān)測到由該按鍵產生的攝取圖片的命令之后，獲取包含有用戶手部區(qū)域的圖片，該圖片可以是黑白圖片或者彩色圖片，然后，控制裝置3基于該圖片確定手部姿勢，并確定出該手部姿勢索引值，之后，將該手部姿勢索引值和當前需要設置的控制裝置3的輸入信息以表中記錄的形式對應存儲到存儲模塊33中。當然，本發(fā)明中的控制裝置3也可以采用其它操作過程在存儲模塊33中存儲手部姿勢信息和控制裝置3的輸入信息之間的對應關系信息，本發(fā)明不限制在存儲模塊33存儲手部姿勢信息和控制裝置3的輸入信息之間的對應關系信息的具體實現(xiàn)方式?？刂蒲b置3中的控制模塊34主要用于基于存儲模塊33中存儲的對應關系信息將手部提取模塊32傳輸來的手部姿勢信息轉換為相應的輸入信息，并將該輸入信息提供給控制裝置3中的執(zhí)行模塊37，以實現(xiàn)人機交互如體感游戲等。一個具體的例子控制模塊34可以利用手部提取模塊32輸出的手部姿勢信息在存儲模塊33中存儲的對應關系信息中進行匹配查找，匹配到的記錄中的輸入信息即為其接收到的手部姿勢信息對應的輸入信肩、O控制裝置3中的語音識別模塊35主要用于將聲音捕捉裝置2輸出的音頻信號進行語音識別處理。語音識別模塊35可以在語音識別處理前對聲音捕捉裝置2輸出的音頻信號進行去噪、以及格式轉換等處理，之后再進行語音識別處理。一個具體的例子，語音識別模塊35將其接收到的音頻信號轉換為文本格式信息。本發(fā)明中的語音識別模塊35可以采用現(xiàn)有的多種語音識別技術來進行語音識別，本發(fā)明不限制語音識別模塊35進行語音識別的具體實現(xiàn)過程。關鍵詞模塊36主要用于從語音識別模塊35的語音識別處理結果(如轉換后的文本格式彳目息)中提取關鍵詞，并向執(zhí)行I吳塊37輸出其提取出的關鍵詞。關鍵詞I吳塊36提取出的關鍵詞可以具體為數(shù)字或者文字等等。關鍵詞模塊36可以采用預定的提取策略進行關鍵詞的提取，例如，關鍵詞模塊36在提取關鍵詞的過程中可以忽略“的”、“了”、以及“你、我、他”等語氣助詞和代詞等。關鍵詞模塊36可以采用現(xiàn)有的提取策略進行關鍵詞的提取，本發(fā)明不限制關鍵詞模塊36提取關鍵詞的具體實現(xiàn)過程。控制裝置3中的執(zhí)行模塊37主要用于接收控制模塊34傳輸來的輸入信息以及關鍵詞模塊36輸出的關鍵詞，并在該輸入信息與該關鍵詞匹配(如精確匹配或者模糊匹配)時，根據(jù)該輸入信息或者根據(jù)該關鍵詞執(zhí)行相應的操作，例如，根據(jù)該輸入信息或者關鍵詞進行游戲的判分，再例如，根據(jù)該輸入信息或者關鍵詞打開相應的菜單等等。控制裝置3還可以包括顯示屏以及電源模塊等元件。顯示屏主要用于顯示畫面(如游戲畫面、以及視頻捕捉裝置I攝取獲得的圖像等)。該顯示屏可以為計算機的顯示屏、移動電話的顯示屏、電視機顯示屏、平板電腦顯示屏、或者游戲機顯示屏等。電源模塊主要用于為控制裝置3中的各用電元件(如控制裝置3中的各模塊、或者視頻捕捉裝置I和控制裝置3中的各模塊等)提供電力資源，該電源模塊可以為計算機、移動電話、電視機、平板電腦、或者游戲機等電子設備本身自帶的電源模塊，也可以為專為本發(fā)明中的人機互動系統(tǒng)設置的電源模塊。上述實施例中記載的人機互動系統(tǒng)的設置方式可以為如下兩種形式第一種形式為整個人機互動系統(tǒng)集成設置在同一個電子設備中，從而整個人機互動系統(tǒng)成為一個電子設備的一部分，該電子設備可以具體為計算機、移動電話、電視機、平板電腦、機頂盒、電視機機頂盒一體機或者游戲機等。一個具體的例子在人機互動系統(tǒng)集成設置在計算機中的情況下，視頻捕捉裝置I集成設置在計算機顯示屏的左上角，聲音捕捉裝置2集成設置在主機的側面，而控制裝置3集成設置在計算機的主機的內部電路中。第二種形式為人機互動系統(tǒng)中的視頻捕捉裝置I與控制裝置3獨立分離設置，且視頻捕捉裝置I與控制裝置3之間可以通過有線(如USB)或者無線(如藍牙或者wifi或者紅外等)的方式連接，而聲音捕捉裝置2與控制裝置3集成設置在同一個電子設備中。具體的，視頻捕捉裝置I可以為攝像頭或者攝像機等獨立的設備，聲音捕捉裝置2和控制裝置3則可以集成設置在計算機、移動電話、電視機、平板電腦(PAD)、機頂盒、電視機機頂盒一體機或者游戲機等電子設備中。實施例二、人機互動方法。該方法的流程如附圖2所示。圖2中示出的人機互動方法包括如下步驟S200、實時攝取圖像，并拾取聲音信號。具體的，可以按照預定采樣頻率進行圖像米樣和聲音信號的米樣。S210、從實時攝取的圖像中提取用戶手部圖像信息。具體的，本發(fā)明可以采用現(xiàn)有的圖像定位截取技術來提取用戶手部圖像信息，例如，用戶的手指上帶有發(fā)光源設備，從而可以根據(jù)該發(fā)光源截取該發(fā)光源周邊預定大小區(qū)域的圖像。需要說明的是，本發(fā)明可以先對實時攝取的圖像進行優(yōu)化處理操作，之后，再進行提取用戶的手部圖像信息的操作。上述對實時攝取的圖像進行的優(yōu)化處理操作可以包括去除無效信息處理、去除干擾信息處理、糾正鏡頭畸變處理、以及增強有效信息處理等操作中的一個或者多個操作。另外，在提取用戶的手部圖像信息的過程中，可以先將實時采集到的圖像轉換為黑白圖像，從而可以根據(jù)黑白圖像中的像素的灰度值，提取出用戶的手部圖像信息(如手部輪廓信息)。S220、根據(jù)提取的用戶手部圖像信息確定用戶的手部姿勢信息。具體的，本發(fā)明可以采用圖像相似度比較方式來確定用戶的手部姿勢信息，一個具體的例子，預先存儲有多個手部輪廓圖像，先從提取出的手部圖像信息中摳取出用戶手部輪廓，并將摳取出的該手部輪廓進行進行縮放處理，以便于和預先存儲的手部輪廓圖像的大小相近似，之后，將縮放處理后的手部輪廓與預先存儲的多個手部輪廓圖像進行相似度比較，確定出與摳取出的手部輪廓相似度最高的手部輪廓圖像，該圖像對應的圖像編號即為手部姿勢信息。S230、將上述確定出的手部姿勢信息在預先存儲的手部姿勢信息與控制裝置的輸入信息的對應關系信息中匹配查找，以確定用戶的手部姿勢信息對應的控制裝置的輸入信
肩、O具體的，預先存儲的對應關系信息可以為手部姿勢的索引號與控制裝置的輸入信息的對應關系信息。上述輸入信息可以包括針對控制裝置的某具體應用的控制命令，例如電視機換臺、瀏覽照片翻頁、關閉正在瀏覽的網頁或者體感游戲中的游戲命令等等。上述輸入信息也可以包括游戲輸入信息，例如，控制裝置中的石頭剪子布游戲根據(jù)該輸入信息獲知用戶此時作了個剪子的手勢，從而該游戲可以對該剪子以及語音關鍵詞提取結果與游戲中的手勢進行輸贏判斷；再例如，控制裝置中的手口練習游戲根據(jù)該輸入信息判斷用戶此時作的手勢是否與屏幕上顯示的手勢相同，且提取出的語音關鍵詞是否與屏幕上顯示出的手勢匹配，該手口練習游戲通過對屏幕上顯示的手勢進行快速變化，來鍛煉用戶的手口腦的反映速度。本發(fā)明可以動態(tài)的設置并存儲該對應關系信息，一個具體的例子首先，開啟視頻捕捉裝置，視頻捕捉裝置開始攝像操作，視頻捕捉裝置攝取到的包含用戶手部的圖片被顯示在控制裝置所在設備的顯示屏上，控制裝置可以在顯示屏上顯示手部區(qū)域位置范圍，用戶可以通過調整其坐姿或者站位等使視頻捕捉裝置攝取到的用戶手部位于該手部區(qū)域位置范圍內，之后，用戶點擊攝取圖片對應的按鍵(該按鍵如計算機鍵盤上的回車鍵或者屏幕上顯示的注冊鍵或者遙控器上的確定鍵等)；控制裝置在監(jiān)測到由該按鍵產生的攝取圖片的命令之后，獲取包含有用戶手部區(qū)域的圖片，該圖片可以是黑白圖片或者彩色圖片，然后，控制裝置基于該圖片確定用戶手部姿勢，并確定出該手部姿勢索引值，之后，將該手部姿勢索引值和當前需要設置的控制裝置3的輸入信息以表中記錄的形式對應存儲到存儲介質中。
當然，本發(fā)明也可以采用其它操作過程來存儲手部姿勢信息和控制裝置的輸入信息之間的對應關系信息，本發(fā)明不限制在存儲手部姿勢信息和控制裝置的輸入信息之間的對應關系信息的具體實現(xiàn)方式。上述匹配查找的一個具體的例子利用上述步驟中確定出的手部姿勢信息在預先存儲的對應關系信息中進行精確匹配查找，精確匹配到的記錄中的輸入信息即為確定出的用戶的手部姿勢信息對應的控制裝置的輸入信息。S240、對上述拾取的聲音信號進行語音識別處理，并從語音識別處理結果中提取關鍵詞。具體的，本發(fā)明可以先對拾取的音頻信號進行去噪處理、以及格式轉換等處理，并對處理后的音頻信號進行語音識別處理操作。一個具體的例子，本發(fā)明可以將上述拾取的音頻信號轉換為文本格式信息。本發(fā)明可以采用現(xiàn)有的多種語音識別技術來進行語音識另IJ，本發(fā)明不限制語音識別的具體實現(xiàn)過程。上述提取的關鍵詞可以具體為數(shù)字或者文字等等。本發(fā)明可以采用預定的提取策略進行關鍵詞的提取，例如，在提取關鍵詞的過程中可以忽略“的”、“ 了”、以及“你、我、他”等語氣助詞和代詞等。本發(fā)明可以采用現(xiàn)有的提取策略進行關鍵詞的提取，本發(fā)明不限制提取關鍵詞的具體實現(xiàn)過程。S250、在上述確定出的輸入信息與上述提取出的關鍵詞相匹配時，根據(jù)確定出的輸入信息或者根據(jù)關鍵詞執(zhí)行相應的操作。一個具體的例子，在兩者精確匹配或者模糊匹配的情況下，本發(fā)明可以根據(jù)該輸入信息或者關鍵詞進行游戲的判分；另一個具體的例子，在兩者精確匹配或者模糊匹配的情況下，本發(fā)明可以根據(jù)該輸入信息或者關鍵詞打開相應的菜單等等。針對實施例二需要說明的是，雖然實施例二順序描述了 S200-S250，但實際上，本發(fā)明中的S210-S230與S240并不存在先后順序執(zhí)行的情況，即圖像的處理過程和語音的處理過程這兩者是相互并行的。以上所述僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例揭露如上，然而并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術人員在不脫離本發(fā)明技術方案范圍內，當可利用上述揭示的技術內容作出些許更動或修飾為等同變化的等效實施例，但凡是未脫離本發(fā)明技術方案的內容，依據(jù)本發(fā)明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾，均仍屬于本發(fā)明技術方案的范圍內。
權利要求
1.一種人機互動系統(tǒng)，其特征在于，包括視頻捕捉裝置、聲音捕捉裝置和控制裝置；所述視頻捕捉裝置，用于實時攝取圖像，并輸出；所述聲音捕捉裝置，用于拾取聲音信號，并輸出；所述控制裝置包括接收模塊，用于接收所述視頻捕捉裝置傳輸來的圖像；手部提取模塊，用于從所述接收模塊接收到的圖像中提取用戶手部輪廓信息，并根據(jù)所述手部輪廓信息確定用戶的手部姿勢；存儲模塊，用于預先存儲手部姿勢與控制設備的輸入信息的對應關系信息；控制模塊，用于將手部提取模塊確定的手部姿勢在所述存儲模塊中存儲的對應關系信息中進行匹配查找，以確定手部提取模塊確定出的手部姿勢對應的控制裝置的輸入信息；語音識別模塊，用于對所述聲音捕捉裝置拾取的聲音信號進行語音識別處理；關鍵詞模塊，用于從所述語音識別模塊的語音識別處理結果中提取關鍵詞，并輸出所述關鍵詞；執(zhí)行模塊，用于在所述控制模塊確定出的輸入信息與所述關鍵詞相匹配時，根據(jù)所述控制模塊確定出的輸入信息或所述關鍵詞執(zhí)行相應的操作。
2.如權利要求1所述的人機互動系統(tǒng)，其特征在于，所述視頻捕捉裝置和所述聲音捕捉裝置與所述控制裝置集成設置于同一電子設備中。
3.如權利要求2所述的人機互動系統(tǒng)，其特征在于，所述電子設備包括計算機、游戲機、移動電話、平板電腦、機頂盒、電視機頂盒一體機或者電視機。
4.如權利要求1所述的人機互動系統(tǒng)，其特征在于，所述視頻捕捉裝置和/或聲音捕捉裝置與所述控制裝置獨立分離設置。
5.如權利要求4所述的人機互動系統(tǒng)，其特征在于，所述控制裝置設置于計算機、游戲機、移動電話、平板電腦、機頂盒、電視機頂盒一體機或者電視機中。
6.ー種人機互動方法，其特征在于，所述方法包括實時攝取圖像，并拾取聲音信號；從所述攝取的圖像中提取用戶手部輪廓信息；根據(jù)所述手部輪廓信息確定用戶的手部姿勢；將所述手部姿勢在預先存儲的手部姿勢與控制設備的輸入信息的對應關系信息中匹配查找，以確定所述用戶的手部姿勢對應的控制設備的輸入信息；對所述聲音信號進行語音識別處理；從所述語音識別處理結果中提取關鍵詞；在所述確定出的輸入信息與所述關鍵詞相匹配時，根據(jù)所述確定出的輸入信息或者所述關鍵詞執(zhí)行相應的操作。
全文摘要
本發(fā)明是有關于一種人機互動系統(tǒng)和方法。其中的方法包括實時攝取圖像，并拾取聲音信號；從圖像中提取用戶手部輪廓信息；根據(jù)該用戶手部輪廓信息確定用戶的手部姿勢；將該手部姿勢在預先存儲的手部姿勢與控制設備的輸入信息的對應關系信息中匹配查找，以確定用戶的手部姿勢對應的控制設備的輸入信息；對聲音信號進行語音識別處理，并從語音識別處理結果中提取關鍵詞；在確定出的上述查找到的輸入信息與所述關鍵詞相匹配時，根據(jù)確定出的輸入信息或者關鍵詞執(zhí)行相應的操作。本發(fā)明提供的技術方案能夠基于手部姿勢信息和語音實現(xiàn)人機互動，從而使人機互動的實現(xiàn)方式多元化，非常適于實用。
文檔編號G10L15/22GK103034323SQ20111029968
公開日2013年4月10日申請日期2011年9月30日優(yōu)先權日2011年9月30日
發(fā)明者董德福, 吳冠廷申請人:德信互動科技(北京)有限公司

完整全部詳細技術資料下載