两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置與流程

文檔序號:40646159發(fā)布日期:2025-01-10 18:52閱讀:2來源:國知局
一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置與流程

本技術涉及機器人,特別涉及一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。


背景技術:

1、機器人已成為連接物理世界與數(shù)字世界的橋梁,它們在家庭、工業(yè)、醫(yī)療、教育等多個領域中扮演著越來越重要的角色。這些應用場景要求機器人能夠理解和響應復雜的自然語言指令,同時處理來自視覺、聽覺、觸覺等多種傳感器的數(shù)據(jù),以實現(xiàn)高度仿真和自然的交互。

2、相關技術中,機器人的操作系統(tǒng)僅支持單一的模態(tài)信息處理,例如僅依賴視覺或聽覺信息,無法全面整合視覺、聽覺、觸覺等多種傳感器數(shù)據(jù),限制了機器人在復雜環(huán)境中的感知和交互能力。同時現(xiàn)有系統(tǒng)難以實現(xiàn)對用戶意圖的深層次理解,導致機器人在提供交互體驗時缺乏自然性和個性化,無法滿足用戶對智能化交互的期待。


技術實現(xiàn)思路

1、本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細說明的序言。

2、第一方面,本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法,方法包括:

3、響應于用戶輸入的控制指令,接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);

4、動態(tài)調整各模態(tài)數(shù)據(jù)的權重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的,各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的,當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的,預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的;

5、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量;

6、根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果;

7、根據(jù)最終決策結果,調用并執(zhí)行機器人所需執(zhí)行的指令集,以驅動機器人完成指令集對應的相關動作。

8、可選的,動態(tài)調整各模態(tài)數(shù)據(jù)的權重,包括

9、獲取各類傳感器的初始默認權重,作為各模態(tài)數(shù)據(jù)的初始權重;

10、將多模態(tài)數(shù)據(jù)輸入預先訓練的環(huán)境分析模型中;

11、輸出多模態(tài)數(shù)據(jù)對應的場景作為機器人的當前應用場景;

12、根據(jù)機器人的當前應用場景,確定各模態(tài)數(shù)據(jù)的可靠性評分;

13、根據(jù)各模態(tài)數(shù)據(jù)的初始權重與各模態(tài)數(shù)據(jù)的可靠性評分,計算動態(tài)調整的各模態(tài)數(shù)據(jù)的權重;動態(tài)調整的各模態(tài)數(shù)據(jù)的權重計算公式為:

14、

15、其中,為第個模態(tài)數(shù)據(jù)的最終調整后的權重,為調整因子,該調整因子用于控制權重調整的敏感度,是第個模態(tài)數(shù)據(jù)在當前應用場景下的可靠性評分函數(shù),是索引變量,該索引變量用于在求和過程中遍歷所有模態(tài)數(shù)據(jù),表示模態(tài)數(shù)據(jù)的總數(shù)。

16、可選的,按照以下步驟生成預先訓練的環(huán)境分析模型,包括:

17、收集并預處理機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù);

18、針對預處理的歷史傳感器數(shù)據(jù),標注對應的場景標簽,得到多個樣本數(shù)據(jù);

19、采用神經網絡,創(chuàng)建環(huán)境分析模型;

20、將多個樣本數(shù)據(jù),輸入環(huán)境分析模型中進行機器學習,學習完成時輸出模型損失值;

21、在模型損失值到達最小時,生成預先訓練的環(huán)境分析模型;或者,在損失值未到達最小時,繼續(xù)執(zhí)行將多個樣本數(shù)據(jù),輸入環(huán)境分析模型中的步驟,直到模型損失值到達最??;

22、環(huán)境分析模型的模型損失函數(shù)為:

23、

24、其中,為模型損失值,為超參數(shù),該超參數(shù)用于控制損失函數(shù)從平方損失到線性損失的轉換點,為標注的場景標簽,為神經網絡所預測的場景標簽,表示標注的場景標簽與預測的場景標簽之間的誤差大小,為當誤差小于等于超參數(shù)時,損失函數(shù)使用平方誤差,即,為當誤差大于超參數(shù)時,損失函數(shù)使用線性誤差,即。

25、可選的,各模態(tài)數(shù)據(jù)包括視覺模態(tài)數(shù)據(jù)、聽覺模態(tài)數(shù)據(jù)以及觸覺模態(tài)數(shù)據(jù);

26、根據(jù)機器人的當前應用場景,確定各模態(tài)數(shù)據(jù)的可靠性評分,包括:

27、獲取機器人的當前應用場景對應的當前視覺狀態(tài)、當前聽覺狀態(tài)以及當前觸覺狀態(tài);

28、加載預先建立的視覺狀態(tài)與可靠性評分的第一映射關系、聽覺狀態(tài)與可靠性評分的第二映射關系以及觸覺狀態(tài)與可靠性評分的第三映射關系;

29、從第一映射關系中,獲取當前視覺狀態(tài)對應的可靠性評分;

30、從第二映射關系中,獲取當前聽覺狀態(tài)對應的可靠性評分;

31、從第三映射關系中,獲取當前觸覺狀態(tài)對應的可靠性評分;

32、將以上獲取的各可靠性評分作為各模態(tài)數(shù)據(jù)的可靠性評分,其中,

33、視覺狀態(tài)包括室內或室外,聽覺狀態(tài)包括安靜或嘈雜,觸覺狀態(tài)包括硬質物體或軟質物體。

34、可選的,各模態(tài)數(shù)據(jù)的特征向量是采用特征提取技術獲取的;

35、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量,包括:

36、從提取的各模態(tài)數(shù)據(jù)的特征向量與動態(tài)調整的各模態(tài)數(shù)據(jù)的權重中,獲取各模態(tài)數(shù)據(jù)的特征向量及其權重;

37、對各模態(tài)數(shù)據(jù)的特征向量及其權重進行加權求和,得到初級融合的中間特征向量;其中,初級融合的中間特征向量的計算公式為:

38、

39、其中,是初級融合的中間特征向量,為模態(tài)數(shù)據(jù)的總數(shù)量,是第個模態(tài)數(shù)據(jù)的特征向量,是第個模態(tài)數(shù)據(jù)的權重;

40、使用深度學習網絡對初級融合的特征向量進行非線性映射,以提取更高層次的特征表示;

41、將提取的更高層次的特征表示進行拼接,得到用于表征當前環(huán)境全面狀態(tài)的綜合特征向量。

42、可選的,根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果,包括:

43、在控制指令為文本對象的情況下,獲取文本對象的描述文本;

44、在控制指令為語音對象的情況下,采用語音識別asr系統(tǒng)將語音對象轉換為描述文本;其中,描述文本用于描述文本對象或語音對象的對象內容;

45、根據(jù)描述文本以及綜合特征向量,通過預設大語言模型生成控制指令對應的決策結果,作為機器人的最終決策結果。

46、可選的,根據(jù)描述文本以及綜合特征向量,通過預設大語言模型生成控制指令對應的決策結果,包括:

47、根據(jù)綜合特征向量,構建用于表征機器人的當前應用場景的上下文信息的提示信息集;

48、對描述文本進行分詞處理,以提取多個任務關鍵詞;

49、將多個任務關鍵詞與提示信息集進行拼接,得到任務序列;

50、將任務序列輸入預設大語言模型中,通過預設大語言模型對任務序列進行分析,輸出控制指令對應的決策結果。

51、可選的,根據(jù)綜合特征向量,構建用于表征機器人的當前應用場景的上下文信息的提示信息集,包括:

52、獲取預先定義的多個上下文場景標簽;多個上下文場景標簽包括光照條件、環(huán)境噪音;

53、通過綜合特征向量,確定光照條件的統(tǒng)計學參數(shù),環(huán)境噪音的分位數(shù),

54、將統(tǒng)計學參數(shù)、分位數(shù)和預設參數(shù)值進行比較,將滿足預設參數(shù)值的特征向量作為每個上下文場景標簽的子特征;

55、將每個上下文場景標簽的子特征轉換為自然語言描述,得到每個上下文場景標簽對應的提示信息;

56、將每個上下文場景標簽對應的提示信息存儲為json對象,得到用于表征機器人的當前應用場景的上下文信息的提示信息集。

57、可選的,光照條件的統(tǒng)計學參數(shù)包括平均光照強度;環(huán)境噪音的分位數(shù)為基于綜合特征向量中關于環(huán)境噪音的特征所計算的四分位數(shù);

58、平均光照強度的計算公式為:

59、

60、其中,是平均光照強度,為綜合特征向量中關于光照條件的特征數(shù)量,是關于光照條件的總特征中第個特征。

61、第二方面,本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制裝置,裝置包括:

62、多模態(tài)數(shù)據(jù)獲取模塊,用于響應于用戶輸入的控制指令,接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);

63、權重動態(tài)調整模塊,用于動態(tài)調整各模態(tài)數(shù)據(jù)的權重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的,各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的,當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的,預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的;

64、綜合特征向量生成模塊,用于根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量;

65、決策模塊,用于根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果;

66、指令集調用模塊,用于根據(jù)最終決策結果,調用并執(zhí)行機器人所需執(zhí)行的指令集,以驅動機器人完成指令集對應的相關動作。

67、本技術實施例提供的技術方案可以包括以下有益效果:

68、在本技術實施例中,一方面,動態(tài)權重調整使得融合過程能夠根據(jù)每個模態(tài)的動態(tài)重要性來調整其貢獻,使融合后的特征向量能夠更準確地反映不同模態(tài)的綜合信息,融合后的綜臺特征向量能夠更全面地表征當前環(huán)境狀態(tài),為機器人提供更豐富的上下文信息;另一方面,利用綜合特征向量,通過預設大語言模型對控制指令進行分析,使得機器人能夠深層次理解用戶的控制指令,同時機器人能夠提供更自然、更符合用戶預期的交互體驗。

69、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本技術。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
福海县| 米易县| 雷州市| 昆明市| 博野县| 西华县| 清水县| 镇沅| 柳江县| 嘉峪关市| 镶黄旗| 五寨县| 家居| 定陶县| 广宗县| 阿瓦提县| 墨竹工卡县| 凤城市| 广昌县| 黑河市| 兖州市| 黄冈市| 江城| 政和县| 伊川县| 新乡市| 普安县| 西和县| 宣化县| 子洲县| 澄江县| 同德县| 锡林郭勒盟| 莱阳市| 海盐县| 光山县| 牡丹江市| 昌平区| 原阳县| 松滋市| 铜山县|