本發(fā)明涉及機器人技術(shù)領(lǐng)域,具體地說,涉及一種人機交互裝置及方法。
背景技術(shù):
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計算機技術(shù)以及人工智能技術(shù)的引入,機器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴展到了醫(yī)療、保健、家庭、娛樂以及服務(wù)行業(yè)等領(lǐng)域。而人們對于機器人的要求也從簡單重復(fù)的機械動作提升為具有擬人問答、自主性及與其他機器人進行交互的智能機器人,人機交互也就成為決定智能機器人發(fā)展的重要因素。
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提供了一種人機交互裝置,其包括:
語音交互信息采集設(shè)備,其用于采集用戶輸入的語音交互信息;
圖像交互信息采集設(shè)備,其用于采集關(guān)于用戶的圖像交互信息;
云處理器,其與所述語音交互信息采集設(shè)備和圖像交互信息采集設(shè)備通信,用于接收所述語音交互信息和圖像交互信息并根據(jù)所述語音交互信息和圖像交互信息生成語音反饋信息和機器人動作信息,根據(jù)所述語音反饋信息和機器人動作信息生成全息投影數(shù)據(jù);
全息投影設(shè)備,其與所述云處理器通信,用于根據(jù)所述云處理器傳輸來的全息投影數(shù)據(jù)進行全息投影顯示機器人全息圖像,以通過所述機器人全息圖像與用戶進行交互。
根據(jù)本發(fā)明的一個實施例,所述全息投影設(shè)備包括:
語音信息輸出模塊,其用于根據(jù)所述全息投影數(shù)據(jù)輸出相應(yīng)的語音信息;
機器人投影模塊,其用于根據(jù)所述全息投影數(shù)據(jù)生成相應(yīng)的機器人投影。
根據(jù)本發(fā)明的一個實施例,所述云處理器根據(jù)所述圖像交互信息生成與交互環(huán)境相適應(yīng)的推薦音樂信息,并根據(jù)所述推薦音樂信息生成所述語音反饋信息。
根據(jù)本發(fā)明的一個實施例,所述云處理器根據(jù)所述語音交互信息和/或圖像交互信息生成用戶情緒信息,并根據(jù)所述用戶情緒信息生成對應(yīng)的機器人動作信息,根據(jù)所述機器人動作信息生成包含機器人動作的全息投影數(shù)據(jù)。
根據(jù)本發(fā)明的一個實施例,所述云處理器還根據(jù)所述用戶情緒信息生成相應(yīng)的音頻或視頻推薦信息,并根據(jù)所述音頻或視頻推薦信息生成所述全息投影數(shù)據(jù)。
本發(fā)明還提供了一種人機交互方法,其包括:
交互信息采集步驟,采集用戶輸入的語音交互信息和關(guān)于用戶的圖像交互信息;
全息投影數(shù)據(jù)生成步驟,根據(jù)所述語音交互信息和圖像交互信息生成語音反饋信息和機器人動作,根據(jù)所述語音反饋信息和機器人動作生成全息投影數(shù)據(jù);
全息投影步驟,根據(jù)所述全息投影數(shù)據(jù)進行全息投影顯示機器人全息圖像,以通過所述機器人全息圖像與用戶進行交互。
根據(jù)本發(fā)明的一個實施例,在所述全息投影數(shù)據(jù)生成步驟中,根據(jù)所述圖像交互信息生成與交互環(huán)境相適應(yīng)的推薦音樂信息,并根據(jù)所述推薦音樂信息生成所述語音反饋信息。
根據(jù)本發(fā)明的一個實施例,在所述全息投影數(shù)據(jù)生成步驟中,根據(jù)所述語音交互信息和/或圖像交互信息生成用戶情緒信息,并根據(jù)所述用戶情緒信息生成對應(yīng)的機器人動作信息,根據(jù)所述機器人動作信息生成包含機器人動作的全息投影數(shù)據(jù)。
根據(jù)本發(fā)明的一個實施例,在所述全息投影數(shù)據(jù)生成步驟中,還根據(jù)所述用戶情緒信息生成相應(yīng)的音頻或視頻推薦信息,并根據(jù)所述音頻或視頻推薦信息生成所述全息投影數(shù)據(jù)。
本發(fā)明所提供的人機交互裝置以及方法使得全息投影出的智能機器人同時具有語音交互、視覺交互以及環(huán)境交互的能力,其能夠結(jié)合多個維度的信息與用戶進行交互,從而使得用戶能夠得到更好的交互體驗。
同時,該人機交互裝置通過全息投影來以全息投影的方式向用戶呈現(xiàn)出機器人影像,這樣使得虛擬機器人3d化,并使得虛擬機器人能夠具有比實體機器人更加豐富、生動、靈活的表情和動作,有助于進一步提高用戶的交互體驗。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要的附圖做簡單的介紹:
圖1是根據(jù)本發(fā)明一個實施例的人機交互裝置的結(jié)構(gòu)示意圖;
圖2是根據(jù)本發(fā)明一個實施例的人機交互方法的實現(xiàn)流程示意圖;
圖3是根據(jù)本發(fā)明一個實施例的生成語音反饋信息的流程圖;
圖4是根據(jù)本發(fā)明一個實施例的人機交互方法的實現(xiàn)流程示意圖。
具體實施方式
以下將結(jié)合附圖及實施例來詳細(xì)說明本發(fā)明的實施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護范圍之內(nèi)。
同時,在以下說明中,出于解釋的目的而闡述了許多具體細(xì)節(jié),以提供對本發(fā)明實施例的徹底理解。然而,對本領(lǐng)域的技術(shù)人員來說顯而易見的是,本發(fā)明可以不用這里的具體細(xì)節(jié)或者所描述的特定方式來實施。
另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
針對現(xiàn)有技術(shù)中所存在的問題,本發(fā)明提供了一種人機交互裝置,該裝置采用全息投影的方式來顯示出機器人全息圖像,通過機器人全息圖像來與用戶進行更加生動、靈活的交互。
圖1示出了本實施例所提供的人機交互裝置的結(jié)構(gòu)示意圖。
如圖1所示,本實施例中,該人機交互裝置優(yōu)選地包括:語音交互信息采集設(shè)備101、圖像交互信息采集設(shè)備102、云處理器103以及全息投影設(shè)備104。其中,語音交互信息采集設(shè)備101用于采集用戶輸入的語音交互信息,圖像交互信息采集設(shè)備102用于采集關(guān)于用戶的圖像交互信息。
需要指出的是,在本發(fā)明的不同實施例中,語音交互信息采集設(shè)備101和圖像交互信息采集設(shè)備102既可以采用同一設(shè)備來實現(xiàn)(即該設(shè)備同時具有語音交互信息采集和圖像交互信息采集兩種功能),也可以采用不同的設(shè)備來實現(xiàn),本發(fā)明不限于此。
本實施例中,語音交互信息采集設(shè)備101和圖像交互信息采集設(shè)備102均與云處理器103連接。云處理器103在接收到語音交互信息采集設(shè)備101所傳輸來的語音交互信息和圖像交互信息采集設(shè)備102所傳輸來的圖像交互信息后,會根據(jù)上述語音交互信息和圖像交互信息來生成語音反饋信息和表情信息,并根據(jù)上述語音交互信息和表情信息生成全景投影數(shù)據(jù)。
具體地,本實施例中,云處理器103在接收到語音交互信息采集設(shè)備101所傳輸來的語音交互信息后,會對上述語音交互信息進行語音識別處理,從而將上述語音交互信息由聲音信息轉(zhuǎn)換為文本信息。在得到對應(yīng)于上述語音交互信息的文本信息后,云處理器103優(yōu)選地對上述文本信息進行自然語言處理,具體地,本實施例中,云處理器103優(yōu)選地對文本信息進行分詞處理,從而得到分詞處理結(jié)果。
在得到分詞處理結(jié)果后,云處理器103會根據(jù)上述分詞處理結(jié)果來判斷各個分詞的詞性并得到語義解析結(jié)果。根據(jù)分詞詞性以及語義解析結(jié)果,云處理器103能夠生成對應(yīng)的語音反饋信息。同時,根據(jù)所接收到的語音交互信息和圖像交互信息,云處理器103還會生成相應(yīng)的機器人動作信息。隨后,云處理器103可以根據(jù)上述機器人動作信息和語音反饋信息生成全息投影數(shù)據(jù)。
具體地,本實施例中,云處理器103能夠?qū)D像交互信息采集設(shè)備102所傳輸來的圖像交互信息中所包含的人臉圖像進行人臉識別,從而得到人臉表情信息。根據(jù)人臉表情信息,云處理器103能夠確定出相應(yīng)的用戶情緒信息。例如,如果云處理器103通過對人臉圖像進行人臉識別所識別出的人臉表情信息為“哭泣”表情,那么其所確定出的用戶情緒信息則可以為“悲傷”等。
在得到用戶情緒信息后,云處理器103還會根據(jù)用戶情緒信息確定出該用戶情緒信息所對應(yīng)的情緒編號。本實施例中,云處理器103優(yōu)選地通過查詢預(yù)先設(shè)定的情緒編號對應(yīng)表的方式來確定出用戶情緒信息所對應(yīng)的情緒編號。當(dāng)然,在本發(fā)明的其他實施例中,云處理器103還可以采用其他合理方式來確定出用戶情緒信息所對應(yīng)的情緒編號,本發(fā)明不限于此。
在得到用戶情緒信息所對應(yīng)的情緒編號后,云處理器103會根據(jù)用戶情緒所對應(yīng)的編號確定出機器人情緒所對應(yīng)的編號,并根據(jù)機器人情緒所對應(yīng)的編號來確定出該編號所對應(yīng)的機器人情緒信息和機器人動作信息。在得到機器人情緒信息后,云處理器103會根據(jù)上述語義解析結(jié)果以及機器人情緒信息生成機器人動作信息。
需要指出的是,在本發(fā)明的其他實施例中,云處理器103在根據(jù)圖像交互信息生成用戶情緒信息的過程中,還可以結(jié)合語音交互信息101所傳輸來的語音交互信息來生成用戶情緒信息。一般來說,語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來,語音情感的變化通??梢泽w現(xiàn)為語音特征參數(shù)的變化。因此云處理器103也就可以根據(jù)相關(guān)語音特征參數(shù)的變化來根據(jù)語音交互信息輔助確定用戶情緒信息,從而使得最終確定出的用戶情緒信息更加準(zhǔn)確、可靠。
本實施例中,云處理器103優(yōu)選地根據(jù)上述語音反饋信息、機器人情緒信息以及機器人動作信息來生成全息投影數(shù)據(jù)。如圖1所示,本實施例中,云處理器103與全息投影設(shè)備104連接,其能夠?qū)⒆陨砩傻娜⑼队皵?shù)據(jù)傳輸至全息投影設(shè)備104。而全息投影設(shè)備104接收到上述全息投影數(shù)據(jù)后,會根據(jù)上述全息投影數(shù)據(jù)來進行全息投影,從而顯示出相應(yīng)的機器人全息圖像。本實施例中,由于云處理器103所生成的全息投影數(shù)據(jù)中包含機器人動作信息,這樣全息投影設(shè)備104所生成的機器人全息圖像中的機器人將呈現(xiàn)處相應(yīng)的表情以及動作。
需要指出的是,在本發(fā)明的其他實施例中,根據(jù)實際需要,云處理器103還能夠上述用戶情緒信息來生成相應(yīng)的音頻和/或視頻推薦信息,并根據(jù)該音頻和/或視頻推薦信息來生成包含機器人表情的全息投影數(shù)據(jù),本發(fā)明不限于此。
本實施例中,全息投影設(shè)備104優(yōu)選地包括語音信息輸出模塊和機器人投影模塊。其中,語音信息輸出模塊用于根據(jù)全息投影數(shù)據(jù)輸出相應(yīng)的語音信息,而機器人投影模塊則用戶根據(jù)全息投影數(shù)據(jù)來生成相應(yīng)的機器人全息圖像從而使得虛擬出的3d機器人能夠呈現(xiàn)相應(yīng)的表情以及動作。本實施例中,根據(jù)實際需要,云處理器103還能夠根據(jù)圖像交互信息采集設(shè)備102所傳輸來的圖像交互信息生成與交互環(huán)境相適應(yīng)的推薦音樂信息,并根據(jù)該推薦音樂信息生成語音反饋信息。云處理器103會將上述語音反饋信息傳輸至全息投影設(shè)備104所包含的語音信息輸出模塊,以由語音信息輸出模塊進行語音輸出。
例如,云處理器103通過圖像交互信息采集設(shè)備102所獲取到的圖像交互信息確定出當(dāng)前男女主人正在進行燭光晚餐,那么此時云處理器103則會根據(jù)生成與當(dāng)前交互環(huán)境相應(yīng)的較為舒緩、輕柔的音樂信息,這樣語音信息輸出模塊所輸出的語音將能夠提高男女主人的用餐氛圍。
本發(fā)明還提供了一種人機交互方法,與上述人機交互裝置類似地,該方法同樣采用全息投影的方式來顯示出機器人全息圖像,通過機器人全息圖像來與用戶進行更加生動、靈活的交互。
為了更加清楚地闡述本發(fā)明所提供的人機交互方法的實現(xiàn)原理、實現(xiàn)過程以及優(yōu)點,以下分別結(jié)合不同的實施例來對該人機交互方法作進一步地說明。
實施例一:
圖2示出了本實施例所提供的人機交互方法的實現(xiàn)流程示意圖。
如圖2所示,本實施例所提供的人機交互方法首先在步驟s201中采集用戶輸入的語音交互信息和關(guān)于用戶的圖像交互信息。具體地,本實施例中,該方法在步驟s201中優(yōu)選地通過麥克風(fēng)等語音采集設(shè)備來采集用戶輸入的語音交互信息,并通過攝像頭等圖像采集設(shè)備來采集關(guān)于用戶的圖像交互信息。
在得到語音交互信息和圖像交互信息后,該方法會在步驟s202中根據(jù)上述語音交互信息和圖像交互信息來生成語音反饋信息和機器人動作信息。本實施例中,根據(jù)實際需要,上述機器人動作信息既可以包含機器人所需要表現(xiàn)的相關(guān)肢體動作信息,也可以包含機器人所需要表現(xiàn)的相關(guān)表情信息,抑或是其他合理的動作信息。
圖3示出了本實施例中該方法生成語音反饋信息的具體實現(xiàn)流程示意圖。如圖3所示,該方法在步驟s301中首先會對所獲取到的語音交互信息進行語音識別處理,從而將上述語音交互信息由聲音信息轉(zhuǎn)換為文本信息。在得到對應(yīng)于上述語音信息的文本信息后,該方法會在步驟s302中進一步地對該文本信息進行自然語言處理,從而得到自然語言處理結(jié)果。本實施例中,該方法優(yōu)選地對文本信息進行分詞處理,從而得到該文本信息的分詞處理結(jié)果。
在得到分詞處理結(jié)果后,該方法會在步驟s303中根據(jù)上述分詞處理結(jié)果判斷各個分詞的詞性并得到語義解析結(jié)果,并在步驟s304中根據(jù)上述語義解析結(jié)果來生成多個候選語音反饋信息。對于這些候選語音反饋信息,該方法會分別計算各個語音反饋信息的評分(例如計算各個語音反饋信息與所獲取到的語義交互信息的匹配度等),并將評分最高的候選語音反饋信息作為所需要的語音反饋信息。
需要說明的是,在本發(fā)明的其他實施例中,該方法還可以根據(jù)步驟s201中所獲取到的圖像交互信息還可以包含用于表征當(dāng)前交互環(huán)境的信息,因此該方法還可以根據(jù)上述圖像交互信息來生成與交互環(huán)境相適應(yīng)的推薦音樂信息,并根據(jù)該推薦音樂信息來生成語音反饋信息。
在此如圖2所示,本實施例中,該方法會在步驟s202中根據(jù)語音交互信息來地生成用戶情緒信息。一般來說,語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來,語音情感的變化通??梢泽w現(xiàn)為語音特征參數(shù)的變化。例如,當(dāng)用戶處于高興狀態(tài)時,其通常表現(xiàn)為語速較快、音量較大;當(dāng)用戶處于悲傷狀態(tài)時,其通常表現(xiàn)為語速緩慢、音量較小?;羰亲畛S玫呐卸ㄇ楦械恼Z音特征,它能夠反應(yīng)超音段的信息。本實施例中,根據(jù)實際需要,該方法可以采用基頻、能量、語速、共振峰頻率、單個音節(jié)的持續(xù)時長、音節(jié)之間的停頓時間、線性預(yù)測系數(shù)、mel倒譜系數(shù)等以及它們的變化形式(例如最大值、最小值、均值、范圍以及變化量等)中的某一種或某幾種來作為情感識別的特征參數(shù)。
需要指出的是,在本發(fā)明的其他實施例中,該方法還可以采用其他合理方式來根據(jù)所獲取到的語音交互信息確定用戶情緒信息,本發(fā)明不限于此。
本實施例中,在步驟s202中,該方法還會通過圖像交互信息中所包含的人臉圖像進行人臉識別,從而得到人臉表情信息。根據(jù)人臉表情信息,該方法能夠確定出相應(yīng)的用戶情緒信息。例如,如果通過對人臉圖像進行人臉識別所識別出的人臉表情信息為“哭泣”表情,那么該方法所確定出的用戶情緒信息則可以為“悲傷”等。
結(jié)合基于語音交互信息所得到用戶情緒信息和基于圖像交互信息所得到的用戶情緒信息,該方法可以得到更加準(zhǔn)確的用戶情緒信息。需要指出的是,在本發(fā)明的其他實施例中,該方法還可以僅根據(jù)語音交互信息或圖像交互信息來確定用戶情緒信息,本發(fā)明不限于此。
在得到用戶情緒信息后,該方法會根據(jù)用戶情緒信息確定出該用戶情緒信息所對應(yīng)的情緒編號。本實施例中,該方法優(yōu)選地通過查詢預(yù)先設(shè)定的情緒編號對應(yīng)表的方式來確定出用戶情緒信息所對應(yīng)的情緒編號。當(dāng)然,在本發(fā)明的其他實施例中,該方法還可以采用其他合理方式來確定出用戶情緒信息所對應(yīng)的情緒編號,本發(fā)明不限于此。
在得到用戶情緒信息所對應(yīng)的情緒編號后,該方法會根據(jù)用戶情緒所對應(yīng)的編號確定出機器人情緒所對應(yīng)的編號,并根據(jù)機器人情緒所對應(yīng)的編號來確定出該編號所對應(yīng)的機器人情緒信息。在得到機器人情緒信息后,該方法會根據(jù)上述語義解析結(jié)果以及機器人情緒信息生成機器人動作信息。
再次如圖2所示,在得到語音反饋信息和機器人動作信息后,該方法會在步驟s203中根據(jù)上述語音反饋信息和機器人動作信息生成全息投影數(shù)據(jù),并在步驟s204中根據(jù)步驟s203中所生層的全息投影數(shù)據(jù)來進行全息投影從而生成機器人全息圖像。其中,該方法所生成的機器人全息圖像既能夠根據(jù)全息投影數(shù)據(jù)中的相關(guān)機器人動作信息來呈現(xiàn)出相應(yīng)的肢體動作和/或表情,也可以根據(jù)全息投影數(shù)據(jù)中的相關(guān)語音反饋信息來輸出相應(yīng)的語音。這樣也就使得虛擬機器人3d化,并使得虛擬機器人能夠具有比實體機器人更加豐富、生動、靈活的表情和動作,有助于提高用戶的交互體驗。
實施例二:
圖4示出了本實施例所提供的人機交互方法的實現(xiàn)流程示意圖。
如圖4所示,本實施例所提供的人機交互方法首先在步驟s401中采集用戶輸入的語音交互信息和關(guān)于用戶的圖像交互信息。在得到語音交互信息和圖像交互信息后,該方法會在步驟s401中根據(jù)上述步驟s401中所得到的語音交互信息和圖像交互信息生成用戶情緒信息。
需要指出的是,本實施例中,上述步驟s401以及步驟s402的具體實現(xiàn)原理以及過程與上述實施例一中步驟s201以及步驟s202所闡述的相關(guān)內(nèi)容類似,故在此不再對步驟s401以及步驟s402的相關(guān)內(nèi)容進行贅述。
在得到用戶情緒信息后,如圖4所示,本實施例中,該方法會在步驟s403中根據(jù)步驟s402中所得到的用戶情緒信息生成相應(yīng)的音頻推薦信息和/或視頻推薦信息。
具體地,本實施例中,該方法在得到用戶情緒信息后,會根據(jù)用戶情緒信息來確定出推薦音頻類別和/或推薦視頻類別,隨后在上述推薦音頻類別和/或推薦視頻類別中選取音頻推薦信息和/或視頻推薦信息。
例如,如果該方法在步驟s402中所確定出的用戶情緒信息為焦急情緒,那么該方法在步驟s403中可以從舒緩類別的音頻中選取出推薦音頻信息,以通過所選取的較為舒緩的音頻來安撫用戶的焦躁情緒。
需要指出的是,在本發(fā)明的其他實施例中,該方法還可以采用其他合理的方式來生成推薦音頻信息和/或推薦視頻信息,本發(fā)明不限于此。
在得到推薦音頻信息和/或推薦視頻信息后,本實施例中,該方法會在步驟s404中根據(jù)上述推薦音頻信息和/或推薦視頻信息生成全息投影數(shù)據(jù)。在步驟s405中,該方法會根據(jù)步驟s404中所生成的全息投影數(shù)據(jù)來進行全息投影,從而生成并輸出相應(yīng)的全息視頻圖像或音頻。
本發(fā)明所提供的人機交互方法使得全息投影出的智能機器人同時具有語音交互、視覺交互以及環(huán)境交互的能力,其能夠結(jié)合多個維度的信息與用戶進行交互,從而使得用戶能夠得到更好的交互體驗。
應(yīng)該理解的是,本發(fā)明所公開的實施例不限于這里所公開的特定結(jié)構(gòu)或處理步驟,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實施例的目的,而并不意味著限制。
說明書中提到的“一個實施例”或“實施例”意指結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
雖然上述示例用于說明本發(fā)明在一個或多個應(yīng)用中的原理,但對于本領(lǐng)域的技術(shù)人員來說,在不背離本發(fā)明的原理和思想的情況下,明顯可以在形式上、用法及實施的細(xì)節(jié)上作各種修改而不用付出創(chuàng)造性勞動。因此,本發(fā)明由所附的權(quán)利要求書來限定。