本發(fā)明涉及一種基于RealSense的陪伴機器人的多模式交互方法。
背景技術:
隨著社會老齡化的日益加劇,陪伴機器人正在逐漸走入家庭和養(yǎng)老機構。但目前的機器人多使用語音、觸摸屏進行交互,交互模式單一,使用不便。部分基于Kinect相機的機器人能夠識別人體骨骼點,但是對于人臉、手指等細微部位的識別精度低、延時高。
RealSense 3D camera是英特爾提供的一套感知計算解決方案,RealSense攝像頭為該方案的一種硬件設備。RealSense攝像頭內置紅外傳感器、色彩傳感器及麥克風陣列,可以采集深度圖像、彩色圖像和語音信號。該攝像頭具有精度高、延時短和體積小的優(yōu)勢。
與Kinect相比,RealSense能夠準確、快速地識別人臉及手指,并可以獲取人臉和手指上的標識點。RealSense可以提供手勢、人臉和語音三種交互模式,與單模式相比,多種交互模式相互配合,一方面機器人可以準確地識別用戶的需求,另一方面用戶可以更方便地與機器人進行交互,以便機器人在與人服務的過程中區(qū)分操作命令信息與非操作指令信息,從而使交互更加自然靈活。
技術實現(xiàn)要素:
本發(fā)明提供一種基于RealSense的陪伴機器人的多模式交互方法,利用RealSense傳感器設計多種交互模式,為陪伴機器人設計人機對話、新聞播報和移動控制等功能。采用手勢、人臉及語音的多模式交互方法,方便用戶與機器人交互。
為實現(xiàn)上述技術目的,達到上述技術效果,本發(fā)明通過以下技術方案實現(xiàn):
一種基于RealSense的陪伴機器人的多模式交互方法,其特征在于,包括三大功能模塊和六種工作模式,所述三大功能模塊是人機對話、新聞播報和移動控制功能模塊,所述六種工作模式分為非操作性模式和操作性模式,其中:
非操作性模式包括:
A)非操作性語音模式:利用語音識別技術識別全部的語音輸入信號;
B)非操作性手勢模式:通過預設的手勢命令表,利用手勢識別技術識別手勢信號;
C)非操作性人臉模式:通過預設的人臉表情表,利用人臉識別技術識別人臉的表情信息;
操作性模式包括:
A)操作性語音模式:通過預設的語音命令表,利用語音識別技術將語音輸入轉變?yōu)椴倏貦C器人的指令;
B)操作性手勢模式:通過預設的手勢命令表,利用手勢識別技術將手勢信號轉變?yōu)椴倏貦C器人的指令;
C)操作性人臉模式:通過預設的人臉命令表,利用人臉識別技術將人臉表情轉變?yōu)椴倏貦C器人的指令;
多模式交互方法具體包括如下步驟:
步驟1、初次使用時,設置機器人系統(tǒng)默認的操作性模式和默認的非操作性模式,并對每個功能模塊設置默認的操作性模式和默認的非操作性模式,對于每個功能模塊,操作性模式輸入的優(yōu)先權高于非操作性模式輸入;
步驟2、機器人系統(tǒng)啟動后通過操作性模式選擇并進入一個功能模塊;
步驟3、在各功能模塊中根據(jù)設置的操作性模式和非操作性模式,利用RealSense傳感器進行識別并進行對應的分析和處理。
優(yōu)選,步驟3中,對于人機對話功能模塊:默認的操作性模式為操作性手勢模式或操作性人臉模式的一種,默認的非操作性模式包括非操作性語音模式,具體交互步驟如下:
A1、使用RealSense傳感器提供的函數(shù)啟動RealSense傳感器的語音識別模塊,啟動RealSense傳感器與操作性模式對應的手勢識別模塊或操作性人臉模式;
A2、若用戶輸入語音信號,則進入步驟A3;否則,進入步驟A7;
A3、利用RealSense傳感器識別用戶的語音,獲取語音識別結果;
A4、對識別結果進行分析,若其置信度大于50%,即為識別成功,獲取識別結果中的文字內容;
A5、調用網(wǎng)絡上提供的聊天機器人接口,將文字內容發(fā)送至聊天機器人,并獲取應答;
A6、使用RealSense傳感器提供的函數(shù)對聊天機器人的回答進行語音合成并輸出;
A7、利用RealSense傳感器識別用戶的人臉或手勢,獲取人臉數(shù)據(jù)或手勢數(shù)據(jù),進而判斷用戶是否需要暫停或退出人機對話功能模塊。
優(yōu)選,步驟3中,對于新聞播報功能模塊:默認的操作性模式為操作性手勢模式,具體交互步驟如下:
B1、啟動RealSense傳感器的手勢識別模塊;
B2、獲取網(wǎng)絡上的新聞資源;
B3、使用RealSense傳感器提供的函數(shù)將新聞標題進行語音合成并輸出;
B4、利用RealSense傳感器識別用戶的手勢,使用RealSense傳感器提供的函數(shù)獲取手勢數(shù)據(jù),進而判斷用戶是否希望播報該新聞,或者播報下一條新聞,或者退出新聞;
B5、在某條新聞播報過程中,利用RealSense傳感器識別用戶的手勢,使用RealSense傳感器獲取手勢數(shù)據(jù)判斷用戶是否希望結束播報該新聞。
優(yōu)選,步驟3中,對于移動控制功能模塊:默認的操作性模式為操作性語音模式、操作性手勢模式或操作性人臉模式的一種,具體交互步驟如下:
C1、啟動RealSense傳感器的語音識別模塊、手勢識別模塊和人臉識別模塊;
C2、用戶輸入語音、人臉或手勢信號;
C3、利用RealSense傳感器識別用戶的語音輸入信號、人臉數(shù)據(jù)和手勢數(shù)據(jù),對識別結果進行分析;
C4、機器人根據(jù)移動命令進行移動。
本發(fā)明的有益效果是:通過設置默認的操作性模式和默認的非操作性模式,避免了將交互中的一些與操控機器人的指令相同的語音或符號等一般性輸入當作操控機器人的命令,避免混淆。多模式交互方便殘障人士,例如聾啞人、手部有殘疾的人等與機器人交互。
附圖說明
圖1是本發(fā)明陪伴機器人功能模塊示意圖;
圖2是本發(fā)明一種基于RealSense的陪伴機器人交互模式關系示意圖;
圖3是本發(fā)明信號處理流程圖;
圖4是本發(fā)明交互模式轉換示意圖;
圖5是本發(fā)明陪伴機器人功能流程圖。
具體實施方式
下面結合附圖和具體的實施例對本發(fā)明技術方案作進一步的詳細描述,以使本領域的技術人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。
RealSense傳感器提供了多種交互技術,方便用戶與機器人進行交互,例如:
(1)手勢識別技術:RealSense傳感器提供了手部22個標識點數(shù)據(jù)(PXCMHandData.JointType),并定義多個手勢(PXCMHandData.QueryFiredGestureData()),開發(fā)人員可以根據(jù)需要,定義符合需求的手勢。
(2)人臉識別技術:RealSense傳感器提供了人臉77個標識點數(shù)據(jù)(PXCMFaceData.LandmarksData),利用這些數(shù)據(jù),開發(fā)人員可以定義人臉命令,并可以分析用戶的表情。
(3)語音識別與合成技術:利用RealSense傳感器提供的語音庫,可以方便地對用戶的語音信號進行識別(PXCMSpeechRecognition),并將文字轉化為語音告知用戶(PXCMSpeechSynthesis)。
一種基于RealSense的陪伴機器人的多模式交互方法,包括三大功能模塊和六種工作模式,如圖1所示,所述三大功能模塊是人機對話、新聞播報和移動控制功能模塊,如圖2所示,所述六種工作模式分為非操作性模式和操作性模式,其中:
非操作性模式包括:
A)非操作性語音模式:利用語音識別技術識別全部的語音輸入信號;
B)非操作性手勢模式:通過預設的手勢命令表,利用手勢識別技術識別手勢信號,以便進行符號語言(如啞語)的交流;
C)非操作性人臉模式:通過預設的人臉表情表,利用人臉識別技術識別人臉的表情信息,從而判斷用戶的情感與情緒等信息。
操作性模式包括:
A)操作性語音模式:通過預設的語音命令表,利用語音識別技術將語音輸入轉變?yōu)椴倏貦C器人的指令;
B)操作性手勢模式:通過預設的手勢命令表,利用手勢識別技術將手勢信號轉變?yōu)椴倏貦C器人的指令;
C)操作性人臉模式:通過預設的人臉命令表,利用人臉識別技術將人臉表情轉變?yōu)椴倏貦C器人的指令。
定義了多模式交互過程中的兩種輸入:操作性輸入和非操作性輸入,在交互過程中,操作性輸入與非操作性輸入采用不同的模式,如語音、手勢、人臉。操作性輸入優(yōu)先權高于非操作性輸入,以便在交互過程中方便的操作機器人并改變當前交互進程。
多模式交互方法具體包括如下步驟:
步驟1、初次使用時,設置機器人系統(tǒng)默認的操作性模式和默認的非操作性模式,并對每個功能模塊設置默認的操作性模式和默認的非操作性模式,系統(tǒng)啟動時,根據(jù)客戶喜歡或實際需求,設置默認的操作性模式(如操作性手勢模式)和默認的非操作性模式(如非操作性語音模式)。
對于每個功能模塊,操作性模式和非操作性模式不同,操作性模式輸入的優(yōu)先權高于非操作性模式輸入。這樣,避免了將交互中的一些與操控機器人的指令相同的語音或符號等一般性輸入當作操控機器人的命令,比如,在對話聊天過程中,非操作性語音輸入中含有“….停止….”或“…退出….”的語音不會被識別為讓機器人停止或退出當前任務的指令。
步驟2、機器人系統(tǒng)啟動后通過操作性模式選擇并進入一個功能模塊;
步驟3、在各功能模塊中根據(jù)設置的操作性模式和非操作性模式,利用RealSense傳感器進行識別并進行對應的分析和處理,如圖3所示。
下面進行詳細介紹,如圖4所示,陪伴機器人默認操作模式是操作性語音模式,設計語音命令表,該表共包括3個語音命令:“人機對話”、“新聞播報”、“移動控制”。用戶使用相應的語音命令啟動相應的功能。
如圖5所示,對于人機對話功能模塊:由于需要識別用戶所有的語音信號,機器人默認的非操作性模式包括非操作性語音模式,而默認的操作性模式為操作性手勢模式或操作性人臉模式的一種。在對話過程如果用戶想要操控機器人,如退出當前對話,則可以很方便地采用操作性手勢控制機器人,如暫停、退出對話等操作,具體交互步驟如下:
A1、使用RealSense傳感器提供的函數(shù)pxcmStatus SpeechRecognition.StartRec(PXCMAudioSource source,PXCMSpeechRecognition.Handler handler)啟動RealSense傳感器的語音識別模塊,因為是默認的操作性模式為操作性手勢或操作性人臉模式,所以根據(jù)用戶的選擇,二者啟動一種即可,比如,使用RealSense提供的函數(shù)pxcmStatus PXCMSenseManager.AcquireFrame(bool ifall)啟動RealSense傳感器的手勢識別模塊;
A2、若用戶輸入語音信號,則進入步驟A3;否則,進入步驟A7;
A3、利用RealSense傳感器識別用戶的語音,使用自定義函數(shù)PXCMSpeechRecognition.RecognitionData OnRecognition()獲取語音識別結果PXCMSpeechRecognition.RecognitionData;本文自定義函數(shù)均采用C#語言。
A4、對識別結果PXCMSpeechRecognition.RecognitionData進行分析,若其置信度(PXCMSpeechRecognition.RecognitionData.scores[0].confidence)大于50%,即為識別成功,獲取識別結果中的文字內容(PXCMSpeechRecognition.RecognitionData.scores[0].sentence);
A5、使用自定義函數(shù)void Chat(string question,out string answer)調用網(wǎng)絡上提供的聊天機器人接口,將文字內容(question)發(fā)送至聊天機器人,并獲取應答(answer);
A6、使用RealSense提供的函數(shù)pxcmStatus PXCMSpeechSynthesis.BuildSentence(int sid,string sentence)對聊天機器人的回答(sentence)進行語音合成并輸出;
A7、利用RealSense傳感器識別用戶的人臉或手勢,使用RealSense提供的函數(shù)PXCMFaceData.Face PXCMFaceData.QueryFaceByIndex(int index)獲取人臉數(shù)據(jù)PXCMFaceData.Face,使用RealSense提供的函數(shù)pxcmStatus PXCMHandData.QueryHandDataById(int handId,out PXCMHandData.IHand handData)獲取手勢數(shù)據(jù)handData,進而判斷用戶是否需要暫?;蛲顺鰧υ捁δ苣K。需說明的是,只有操作性模式下的操作才能進行暫?;蛲顺觥?/p>
對于新聞播報功能模塊:機器人發(fā)出的新聞聲音可能會干擾用戶語音信號的識別。因而,默認的操作性模式為操作性手勢模式。用戶通過手勢選取希望播報的新聞,以及控制播報新聞時的進度,具體交互步驟如下:
B1、使用RealSense傳感器提供的函數(shù)pxcmStatus PXCMSenseManager.AcquireFrame(bool ifall)啟動RealSense傳感器的手勢識別模塊;
B2、使用自定義函數(shù)string sendPost(string urlHotNews,string parameter)獲取網(wǎng)絡上的新聞資源;
B3、使用RealSense傳感器提供的函數(shù)pxcmStatus PXCMSpeechSynthesis.BuildSentence(int sid,string sentence)將新聞標題(sentence)進行語音合成并輸出;
B4、利用RealSense傳感器識別用戶的手勢,使用RealSense提供的函數(shù)pxcmStatus PXCMHandData.QueryHandDataById(int handId,out PXCMHandData.IHand handData)獲取手勢數(shù)據(jù),進而判斷用戶是否希望播報該新聞,或者播報下一條新聞,或者退出新聞;
B5、在某條新聞播報過程中,利用RealSense傳感器識別用戶的手勢,使用RealSense提供的函數(shù)pxcmStatus PXCMHandData.QueryHandDataById(int handId,out PXCMHandData.IHand handData)獲取手勢數(shù)據(jù)判斷用戶是否希望結束播報該新聞。
對于移動控制功能模塊:用戶可以通過使用人臉命令、語音命令和手勢命令控制機器人的移動,默認的操作性模式為操作性語音模式、操作性手勢模式或操作性人臉模式的一種,一般的,機器人處于移動控制狀態(tài)時,主要操作性輸入為語音。語音命令包括5個語音命令:“前進”、“后退”、“左轉”、“右轉”、“停止”。手勢與人臉也可以作為操作性輸入。這種多種操作性輸入,方便殘障人士,例如聾啞人、手部有殘疾的人等,控制機器人,具體交互步驟如下:
C1、使用RealSense傳感器提供的函數(shù)pxcmStatus SpeechRecognition.StartRec(PXCMAudioSource source,PXCMSpeechRecognition.Handler handler)啟動RealSense傳感器的語音識別模塊,使用RealSense提供的函數(shù)pxcmStatus PXCMSenseManager.AcquireFrame(bool ifall)啟動RealSense傳感器的手勢識別模塊和人臉識別模塊;
C2、用戶輸入語音、人臉或手勢信號;
C3、利用RealSense傳感器識別用戶的輸入信號,使用RealSense提供的函數(shù)PXCMFaceData.Face PXCMFaceData.QueryFaceByIndex(int index)獲取人臉數(shù)據(jù)PXCMFaceData.Face,使用RealSense提供的函數(shù)pxcmStatus PXCMHandData.QueryHandDataById(int handId,out PXCMHandData.IHand handData)獲取手勢數(shù)據(jù)handData,使用自定義函數(shù)PXCMSpeechRecognition.RecognitionData OnRecognition()獲取語音識別結果PXCMSpeechRecognition.RecognitionData,對數(shù)據(jù)和識別結果進行分析;
C4、機器人根據(jù)移動命令進行移動。
本發(fā)明的有益效果是:通過設置默認的操作性模式和默認的非操作性模式,避免了將交互中的一些與操控機器人的指令相同的語音或符號等一般性輸入當作操控機器人的命令,避免混淆。多模式交互方便殘障人士,例如聾啞人、手部有殘疾的人等與機器人交互。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或者等效流程變換,或者直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。