一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置與流程

文檔序號：40646159發(fā)布日期：2025-01-10 18:52閱讀：2來源：國知局

本技術涉及機器人，特別涉及一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。

背景技術：

1、機器人已成為連接物理世界與數(shù)字世界的橋梁，它們在家庭、工業(yè)、醫(yī)療、教育等多個領域中扮演著越來越重要的角色。這些應用場景要求機器人能夠理解和響應復雜的自然語言指令，同時處理來自視覺、聽覺、觸覺等多種傳感器的數(shù)據(jù)，以實現(xiàn)高度仿真和自然的交互。

2、相關技術中，機器人的操作系統(tǒng)僅支持單一的模態(tài)信息處理，例如僅依賴視覺或聽覺信息，無法全面整合視覺、聽覺、觸覺等多種傳感器數(shù)據(jù)，限制了機器人在復雜環(huán)境中的感知和交互能力。同時現(xiàn)有系統(tǒng)難以實現(xiàn)對用戶意圖的深層次理解，導致機器人在提供交互體驗時缺乏自然性和個性化，無法滿足用戶對智能化交互的期待。

技術實現(xiàn)思路

1、本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。為了對披露的實施例的一些方面有一個基本的理解，下面給出了簡單的概括。該概括部分不是泛泛評述，也不是要確定關鍵／重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念，以此作為后面的詳細說明的序言。

2、第一方面，本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法，方法包括：

3、響應于用戶輸入的控制指令，接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息，得到多模態(tài)數(shù)據(jù)；

4、動態(tài)調整各模態(tài)數(shù)據(jù)的權重，并提取各模態(tài)數(shù)據(jù)的特征向量，各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的，各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的，當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的，預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的；

5、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重，對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合，生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量；

6、根據(jù)綜合特征向量，通過預設大語言模型對控制指令進行分析，得到機器人的最終決策結果；

7、根據(jù)最終決策結果，調用并執(zhí)行機器人所需執(zhí)行的指令集，以驅動機器人完成指令集對應的相關動作。

8、可選的，動態(tài)調整各模態(tài)數(shù)據(jù)的權重，包括

9、獲取各類傳感器的初始默認權重，作為各模態(tài)數(shù)據(jù)的初始權重；

10、將多模態(tài)數(shù)據(jù)輸入預先訓練的環(huán)境分析模型中；

11、輸出多模態(tài)數(shù)據(jù)對應的場景作為機器人的當前應用場景；

12、根據(jù)機器人的當前應用場景，確定各模態(tài)數(shù)據(jù)的可靠性評分；

13、根據(jù)各模態(tài)數(shù)據(jù)的初始權重與各模態(tài)數(shù)據(jù)的可靠性評分，計算動態(tài)調整的各模態(tài)數(shù)據(jù)的權重；動態(tài)調整的各模態(tài)數(shù)據(jù)的權重計算公式為：

14、

15、其中，為第個模態(tài)數(shù)據(jù)的最終調整后的權重，為調整因子，該調整因子用于控制權重調整的敏感度，是第個模態(tài)數(shù)據(jù)在當前應用場景下的可靠性評分函數(shù)，是索引變量，該索引變量用于在求和過程中遍歷所有模態(tài)數(shù)據(jù)，表示模態(tài)數(shù)據(jù)的總數(shù)。

16、可選的，按照以下步驟生成預先訓練的環(huán)境分析模型，包括：

17、收集并預處理機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)；

18、針對預處理的歷史傳感器數(shù)據(jù)，標注對應的場景標簽，得到多個樣本數(shù)據(jù)；

19、采用神經網絡，創(chuàng)建環(huán)境分析模型；

20、將多個樣本數(shù)據(jù)，輸入環(huán)境分析模型中進行機器學習，學習完成時輸出模型損失值；

21、在模型損失值到達最小時，生成預先訓練的環(huán)境分析模型；或者，在損失值未到達最小時，繼續(xù)執(zhí)行將多個樣本數(shù)據(jù)，輸入環(huán)境分析模型中的步驟，直到模型損失值到達最??；

22、環(huán)境分析模型的模型損失函數(shù)為：

23、

24、其中，為模型損失值，為超參數(shù)，該超參數(shù)用于控制損失函數(shù)從平方損失到線性損失的轉換點，為標注的場景標簽，為神經網絡所預測的場景標簽，表示標注的場景標簽與預測的場景標簽之間的誤差大小，為當誤差小于等于超參數(shù)時，損失函數(shù)使用平方誤差，即，為當誤差大于超參數(shù)時，損失函數(shù)使用線性誤差，即。

25、可選的，各模態(tài)數(shù)據(jù)包括視覺模態(tài)數(shù)據(jù)、聽覺模態(tài)數(shù)據(jù)以及觸覺模態(tài)數(shù)據(jù)；

26、根據(jù)機器人的當前應用場景，確定各模態(tài)數(shù)據(jù)的可靠性評分，包括：

27、獲取機器人的當前應用場景對應的當前視覺狀態(tài)、當前聽覺狀態(tài)以及當前觸覺狀態(tài)；

28、加載預先建立的視覺狀態(tài)與可靠性評分的第一映射關系、聽覺狀態(tài)與可靠性評分的第二映射關系以及觸覺狀態(tài)與可靠性評分的第三映射關系；

29、從第一映射關系中，獲取當前視覺狀態(tài)對應的可靠性評分；

30、從第二映射關系中，獲取當前聽覺狀態(tài)對應的可靠性評分；

31、從第三映射關系中，獲取當前觸覺狀態(tài)對應的可靠性評分；

32、將以上獲取的各可靠性評分作為各模態(tài)數(shù)據(jù)的可靠性評分，其中，

33、視覺狀態(tài)包括室內或室外，聽覺狀態(tài)包括安靜或嘈雜，觸覺狀態(tài)包括硬質物體或軟質物體。

34、可選的，各模態(tài)數(shù)據(jù)的特征向量是采用特征提取技術獲取的；

35、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重，對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合，生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量，包括：

36、從提取的各模態(tài)數(shù)據(jù)的特征向量與動態(tài)調整的各模態(tài)數(shù)據(jù)的權重中，獲取各模態(tài)數(shù)據(jù)的特征向量及其權重；

37、對各模態(tài)數(shù)據(jù)的特征向量及其權重進行加權求和，得到初級融合的中間特征向量；其中，初級融合的中間特征向量的計算公式為：

38、

39、其中，是初級融合的中間特征向量，為模態(tài)數(shù)據(jù)的總數(shù)量，是第個模態(tài)數(shù)據(jù)的特征向量，是第個模態(tài)數(shù)據(jù)的權重；

40、使用深度學習網絡對初級融合的特征向量進行非線性映射，以提取更高層次的特征表示；

41、將提取的更高層次的特征表示進行拼接，得到用于表征當前環(huán)境全面狀態(tài)的綜合特征向量。

42、可選的，根據(jù)綜合特征向量，通過預設大語言模型對控制指令進行分析，得到機器人的最終決策結果，包括：

43、在控制指令為文本對象的情況下，獲取文本對象的描述文本；

44、在控制指令為語音對象的情況下，采用語音識別asr系統(tǒng)將語音對象轉換為描述文本；其中，描述文本用于描述文本對象或語音對象的對象內容；

45、根據(jù)描述文本以及綜合特征向量，通過預設大語言模型生成控制指令對應的決策結果，作為機器人的最終決策結果。

46、可選的，根據(jù)描述文本以及綜合特征向量，通過預設大語言模型生成控制指令對應的決策結果，包括：

47、根據(jù)綜合特征向量，構建用于表征機器人的當前應用場景的上下文信息的提示信息集；

48、對描述文本進行分詞處理，以提取多個任務關鍵詞；

49、將多個任務關鍵詞與提示信息集進行拼接，得到任務序列；

50、將任務序列輸入預設大語言模型中，通過預設大語言模型對任務序列進行分析，輸出控制指令對應的決策結果。

51、可選的，根據(jù)綜合特征向量，構建用于表征機器人的當前應用場景的上下文信息的提示信息集，包括：

52、獲取預先定義的多個上下文場景標簽；多個上下文場景標簽包括光照條件、環(huán)境噪音；

53、通過綜合特征向量，確定光照條件的統(tǒng)計學參數(shù)，環(huán)境噪音的分位數(shù)，

54、將統(tǒng)計學參數(shù)、分位數(shù)和預設參數(shù)值進行比較，將滿足預設參數(shù)值的特征向量作為每個上下文場景標簽的子特征；

55、將每個上下文場景標簽的子特征轉換為自然語言描述，得到每個上下文場景標簽對應的提示信息；

56、將每個上下文場景標簽對應的提示信息存儲為json對象，得到用于表征機器人的當前應用場景的上下文信息的提示信息集。

57、可選的，光照條件的統(tǒng)計學參數(shù)包括平均光照強度；環(huán)境噪音的分位數(shù)為基于綜合特征向量中關于環(huán)境噪音的特征所計算的四分位數(shù)；

58、平均光照強度的計算公式為：

59、

60、其中，是平均光照強度，為綜合特征向量中關于光照條件的特征數(shù)量，是關于光照條件的總特征中第個特征。

61、第二方面，本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制裝置，裝置包括：

62、多模態(tài)數(shù)據(jù)獲取模塊，用于響應于用戶輸入的控制指令，接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息，得到多模態(tài)數(shù)據(jù)；

63、權重動態(tài)調整模塊，用于動態(tài)調整各模態(tài)數(shù)據(jù)的權重，并提取各模態(tài)數(shù)據(jù)的特征向量，各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的，各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的，當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的，預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的；

64、綜合特征向量生成模塊，用于根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重，對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合，生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量；

65、決策模塊，用于根據(jù)綜合特征向量，通過預設大語言模型對控制指令進行分析，得到機器人的最終決策結果；

66、指令集調用模塊，用于根據(jù)最終決策結果，調用并執(zhí)行機器人所需執(zhí)行的指令集，以驅動機器人完成指令集對應的相關動作。

67、本技術實施例提供的技術方案可以包括以下有益效果：

68、在本技術實施例中，一方面，動態(tài)權重調整使得融合過程能夠根據(jù)每個模態(tài)的動態(tài)重要性來調整其貢獻，使融合后的特征向量能夠更準確地反映不同模態(tài)的綜合信息，融合后的綜臺特征向量能夠更全面地表征當前環(huán)境狀態(tài)，為機器人提供更豐富的上下文信息；另一方面，利用綜合特征向量，通過預設大語言模型對控制指令進行分析，使得機器人能夠深層次理解用戶的控制指令，同時機器人能夠提供更自然、更符合用戶預期的交互體驗。

69、應當理解的是，以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的，并不能限制本技術。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱小芳,楊隱峰,梁亮
技術所有人：杭州泛嘉科技有限公司
我是此專利的發(fā)明人

上一篇：一種超低能耗建筑外墻用真空絕熱復合外模板的制作方法
上一篇：一種具有恒溫功能的浴缸的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、平老師：1.功能涂層設計與應用 2.柔性電子器件設計與應用 3.結構動態(tài)參數(shù)測試與裝置研發(fā) 4.智能機電一體化產品研發(fā) 5.3D打印工藝與設備
2、潘老師：1.機電一體化裝備及其控制技術 2.多傳感器信息融合與質量評定
3、王老師：機械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池
5、李老師：新型電力電子技術在微網中的應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置與流程