本技術涉及機器人,特別涉及一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。
背景技術:
1、機器人已成為連接物理世界與數(shù)字世界的橋梁,它們在家庭、工業(yè)、醫(yī)療、教育等多個領域中扮演著越來越重要的角色。這些應用場景要求機器人能夠理解和響應復雜的自然語言指令,同時處理來自視覺、聽覺、觸覺等多種傳感器的數(shù)據(jù),以實現(xiàn)高度仿真和自然的交互。
2、相關技術中,機器人的操作系統(tǒng)僅支持單一的模態(tài)信息處理,例如僅依賴視覺或聽覺信息,無法全面整合視覺、聽覺、觸覺等多種傳感器數(shù)據(jù),限制了機器人在復雜環(huán)境中的感知和交互能力。同時現(xiàn)有系統(tǒng)難以實現(xiàn)對用戶意圖的深層次理解,導致機器人在提供交互體驗時缺乏自然性和個性化,無法滿足用戶對智能化交互的期待。
技術實現(xiàn)思路
1、本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法及裝置。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細說明的序言。
2、第一方面,本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制方法,方法包括:
3、響應于用戶輸入的控制指令,接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);
4、動態(tài)調整各模態(tài)數(shù)據(jù)的權重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的,各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的,當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的,預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的;
5、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量;
6、根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果;
7、根據(jù)最終決策結果,調用并執(zhí)行機器人所需執(zhí)行的指令集,以驅動機器人完成指令集對應的相關動作。
8、可選的,動態(tài)調整各模態(tài)數(shù)據(jù)的權重,包括
9、獲取各類傳感器的初始默認權重,作為各模態(tài)數(shù)據(jù)的初始權重;
10、將多模態(tài)數(shù)據(jù)輸入預先訓練的環(huán)境分析模型中;
11、輸出多模態(tài)數(shù)據(jù)對應的場景作為機器人的當前應用場景;
12、根據(jù)機器人的當前應用場景,確定各模態(tài)數(shù)據(jù)的可靠性評分;
13、根據(jù)各模態(tài)數(shù)據(jù)的初始權重與各模態(tài)數(shù)據(jù)的可靠性評分,計算動態(tài)調整的各模態(tài)數(shù)據(jù)的權重;動態(tài)調整的各模態(tài)數(shù)據(jù)的權重計算公式為:
14、
15、其中,為第個模態(tài)數(shù)據(jù)的最終調整后的權重,為調整因子,該調整因子用于控制權重調整的敏感度,是第個模態(tài)數(shù)據(jù)在當前應用場景下的可靠性評分函數(shù),是索引變量,該索引變量用于在求和過程中遍歷所有模態(tài)數(shù)據(jù),表示模態(tài)數(shù)據(jù)的總數(shù)。
16、可選的,按照以下步驟生成預先訓練的環(huán)境分析模型,包括:
17、收集并預處理機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù);
18、針對預處理的歷史傳感器數(shù)據(jù),標注對應的場景標簽,得到多個樣本數(shù)據(jù);
19、采用神經網絡,創(chuàng)建環(huán)境分析模型;
20、將多個樣本數(shù)據(jù),輸入環(huán)境分析模型中進行機器學習,學習完成時輸出模型損失值;
21、在模型損失值到達最小時,生成預先訓練的環(huán)境分析模型;或者,在損失值未到達最小時,繼續(xù)執(zhí)行將多個樣本數(shù)據(jù),輸入環(huán)境分析模型中的步驟,直到模型損失值到達最??;
22、環(huán)境分析模型的模型損失函數(shù)為:
23、
24、其中,為模型損失值,為超參數(shù),該超參數(shù)用于控制損失函數(shù)從平方損失到線性損失的轉換點,為標注的場景標簽,為神經網絡所預測的場景標簽,表示標注的場景標簽與預測的場景標簽之間的誤差大小,為當誤差小于等于超參數(shù)時,損失函數(shù)使用平方誤差,即,為當誤差大于超參數(shù)時,損失函數(shù)使用線性誤差,即。
25、可選的,各模態(tài)數(shù)據(jù)包括視覺模態(tài)數(shù)據(jù)、聽覺模態(tài)數(shù)據(jù)以及觸覺模態(tài)數(shù)據(jù);
26、根據(jù)機器人的當前應用場景,確定各模態(tài)數(shù)據(jù)的可靠性評分,包括:
27、獲取機器人的當前應用場景對應的當前視覺狀態(tài)、當前聽覺狀態(tài)以及當前觸覺狀態(tài);
28、加載預先建立的視覺狀態(tài)與可靠性評分的第一映射關系、聽覺狀態(tài)與可靠性評分的第二映射關系以及觸覺狀態(tài)與可靠性評分的第三映射關系;
29、從第一映射關系中,獲取當前視覺狀態(tài)對應的可靠性評分;
30、從第二映射關系中,獲取當前聽覺狀態(tài)對應的可靠性評分;
31、從第三映射關系中,獲取當前觸覺狀態(tài)對應的可靠性評分;
32、將以上獲取的各可靠性評分作為各模態(tài)數(shù)據(jù)的可靠性評分,其中,
33、視覺狀態(tài)包括室內或室外,聽覺狀態(tài)包括安靜或嘈雜,觸覺狀態(tài)包括硬質物體或軟質物體。
34、可選的,各模態(tài)數(shù)據(jù)的特征向量是采用特征提取技術獲取的;
35、根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量,包括:
36、從提取的各模態(tài)數(shù)據(jù)的特征向量與動態(tài)調整的各模態(tài)數(shù)據(jù)的權重中,獲取各模態(tài)數(shù)據(jù)的特征向量及其權重;
37、對各模態(tài)數(shù)據(jù)的特征向量及其權重進行加權求和,得到初級融合的中間特征向量;其中,初級融合的中間特征向量的計算公式為:
38、
39、其中,是初級融合的中間特征向量,為模態(tài)數(shù)據(jù)的總數(shù)量,是第個模態(tài)數(shù)據(jù)的特征向量,是第個模態(tài)數(shù)據(jù)的權重;
40、使用深度學習網絡對初級融合的特征向量進行非線性映射,以提取更高層次的特征表示;
41、將提取的更高層次的特征表示進行拼接,得到用于表征當前環(huán)境全面狀態(tài)的綜合特征向量。
42、可選的,根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果,包括:
43、在控制指令為文本對象的情況下,獲取文本對象的描述文本;
44、在控制指令為語音對象的情況下,采用語音識別asr系統(tǒng)將語音對象轉換為描述文本;其中,描述文本用于描述文本對象或語音對象的對象內容;
45、根據(jù)描述文本以及綜合特征向量,通過預設大語言模型生成控制指令對應的決策結果,作為機器人的最終決策結果。
46、可選的,根據(jù)描述文本以及綜合特征向量,通過預設大語言模型生成控制指令對應的決策結果,包括:
47、根據(jù)綜合特征向量,構建用于表征機器人的當前應用場景的上下文信息的提示信息集;
48、對描述文本進行分詞處理,以提取多個任務關鍵詞;
49、將多個任務關鍵詞與提示信息集進行拼接,得到任務序列;
50、將任務序列輸入預設大語言模型中,通過預設大語言模型對任務序列進行分析,輸出控制指令對應的決策結果。
51、可選的,根據(jù)綜合特征向量,構建用于表征機器人的當前應用場景的上下文信息的提示信息集,包括:
52、獲取預先定義的多個上下文場景標簽;多個上下文場景標簽包括光照條件、環(huán)境噪音;
53、通過綜合特征向量,確定光照條件的統(tǒng)計學參數(shù),環(huán)境噪音的分位數(shù),
54、將統(tǒng)計學參數(shù)、分位數(shù)和預設參數(shù)值進行比較,將滿足預設參數(shù)值的特征向量作為每個上下文場景標簽的子特征;
55、將每個上下文場景標簽的子特征轉換為自然語言描述,得到每個上下文場景標簽對應的提示信息;
56、將每個上下文場景標簽對應的提示信息存儲為json對象,得到用于表征機器人的當前應用場景的上下文信息的提示信息集。
57、可選的,光照條件的統(tǒng)計學參數(shù)包括平均光照強度;環(huán)境噪音的分位數(shù)為基于綜合特征向量中關于環(huán)境噪音的特征所計算的四分位數(shù);
58、平均光照強度的計算公式為:
59、
60、其中,是平均光照強度,為綜合特征向量中關于光照條件的特征數(shù)量,是關于光照條件的總特征中第個特征。
61、第二方面,本技術實施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機器人控制裝置,裝置包括:
62、多模態(tài)數(shù)據(jù)獲取模塊,用于響應于用戶輸入的控制指令,接收并預處理預先設置在機器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);
63、權重動態(tài)調整模塊,用于動態(tài)調整各模態(tài)數(shù)據(jù)的權重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權重是基于各模態(tài)數(shù)據(jù)的可靠性評分計算的,各模態(tài)數(shù)據(jù)的可靠性評分是基于機器人的當前應用場景確定的,當前應用場景是根據(jù)預先訓練的環(huán)境分析模型分析的,預先訓練的環(huán)境分析模型是基于機器人在不同環(huán)境下執(zhí)行任務時的歷史傳感器數(shù)據(jù)進行機器學習得到的;
64、綜合特征向量生成模塊,用于根據(jù)動態(tài)調整的各模態(tài)數(shù)據(jù)的權重,對提取的各模態(tài)數(shù)據(jù)的特征向量進行融合,生成用于表征當前環(huán)境全面狀態(tài)的綜合特征向量;
65、決策模塊,用于根據(jù)綜合特征向量,通過預設大語言模型對控制指令進行分析,得到機器人的最終決策結果;
66、指令集調用模塊,用于根據(jù)最終決策結果,調用并執(zhí)行機器人所需執(zhí)行的指令集,以驅動機器人完成指令集對應的相關動作。
67、本技術實施例提供的技術方案可以包括以下有益效果:
68、在本技術實施例中,一方面,動態(tài)權重調整使得融合過程能夠根據(jù)每個模態(tài)的動態(tài)重要性來調整其貢獻,使融合后的特征向量能夠更準確地反映不同模態(tài)的綜合信息,融合后的綜臺特征向量能夠更全面地表征當前環(huán)境狀態(tài),為機器人提供更豐富的上下文信息;另一方面,利用綜合特征向量,通過預設大語言模型對控制指令進行分析,使得機器人能夠深層次理解用戶的控制指令,同時機器人能夠提供更自然、更符合用戶預期的交互體驗。
69、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本技術。