一種可執(zhí)行策略判斷方法和機(jī)器人與流程

文檔序號(hào)：40610071發(fā)布日期：2025-01-07 20:52閱讀：8來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器人，特別涉及一種可執(zhí)行策略判斷方法和機(jī)器人。

背景技術(shù)：

1、隨著大語(yǔ)言模型(large?language?models，llms)的發(fā)展，它們已經(jīng)能夠生成復(fù)雜的文本、回答問(wèn)題，甚至進(jìn)行各種主題的對(duì)話。然而，大語(yǔ)言模型并不根植于物理世界，也不能觀察大語(yǔ)言模型的生成對(duì)任何物理過(guò)程的結(jié)果，當(dāng)大語(yǔ)言模型應(yīng)用于機(jī)器人中，可能導(dǎo)致大語(yǔ)言模型在解析指令后，使機(jī)器人做出不合理或滑稽的錯(cuò)誤，甚至可能以對(duì)特定的物理情況來(lái)說(shuō)，機(jī)器人根本無(wú)法完成大語(yǔ)言模型解析指令得到的動(dòng)作。

2、此外，通常情況下，機(jī)器人想要完成用戶的指示，需要執(zhí)行多個(gè)動(dòng)作，通過(guò)大語(yǔ)言模型解析指令后得到的多個(gè)動(dòng)作，機(jī)器人可能無(wú)法完成。

3、綜上所述，目前采用大語(yǔ)言模型解析用戶指令得到的動(dòng)作，機(jī)器人可能無(wú)法執(zhí)行。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種可執(zhí)行策略判斷方法和機(jī)器人，用以解決現(xiàn)有技術(shù)中存在的采用大語(yǔ)言模型得到的動(dòng)作，存在機(jī)器人無(wú)法執(zhí)行的問(wèn)題。

2、第一方面，本技術(shù)提供一種可執(zhí)行策略判斷方法，該方法包括：

3、將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型，得到多個(gè)連續(xù)的任務(wù)描述，其中，所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的，所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作；

4、遍歷預(yù)設(shè)的任務(wù)描述集合，確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合；

5、基于機(jī)器人采集到的圖像，確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息，其中，所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述；

6、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略，其中，所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng)。

7、在一種可能的實(shí)現(xiàn)方式中，所述基于機(jī)器人采集到的圖像，確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息，包括：

8、基于所述機(jī)器人采集到的圖像，確定所述機(jī)器人在初始位置處的第一位姿，并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息；

9、針對(duì)其他任務(wù)描述，基于所述機(jī)器人采集到的圖像，確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿，并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。

10、在一種可能的實(shí)現(xiàn)方式中，所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略，包括：

11、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述，計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值；

12、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值，判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。

13、在一種可能的實(shí)現(xiàn)方式中，所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述，計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值，包括：

14、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)，得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)；

15、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述，計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。

16、在一種可能的實(shí)現(xiàn)方式中，所述判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略，包括：

17、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較，在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下，確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略，在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下，確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。

18、第二方面，本技術(shù)提供一種機(jī)器人，包括處理器和執(zhí)行機(jī)構(gòu)；

19、所述處理器，用于將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型，得到多個(gè)連續(xù)的任務(wù)描述，其中，所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的，所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作；遍歷預(yù)設(shè)的任務(wù)描述集合，確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合；基于機(jī)器人采集到的圖像，確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息，其中，所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述；采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略，其中，所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng)；

20、所述執(zhí)行機(jī)構(gòu)，用于在所述處理器確定所述多個(gè)待執(zhí)行動(dòng)作為機(jī)器人可執(zhí)行策略的情況下，依次執(zhí)行所述多個(gè)待執(zhí)行動(dòng)作。

21、在一種可能的實(shí)現(xiàn)方式中，所述處理器具體用于：

22、基于所述機(jī)器人采集到的圖像，確定所述機(jī)器人在初始位置處的第一位姿，并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息；

23、針對(duì)其他任務(wù)描述，基于所述機(jī)器人采集到的圖像，確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿，并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。

24、在一種可能的實(shí)現(xiàn)方式中，所述處理器具體用于：

25、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述，計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值；

26、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值，判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。

27、在一種可能的實(shí)現(xiàn)方式中，所述處理器具體用于：

28、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)，得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)；

29、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述，基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述，計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。

30、在一種可能的實(shí)現(xiàn)方式中，所述處理器具體用于：

31、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較，在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下，確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略，在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下，確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。

32、本發(fā)明有益效果如下：

33、本發(fā)明提供的一種可執(zhí)行策略判斷方法和機(jī)器人，由于先從任務(wù)描述集合中確定多個(gè)連續(xù)的任務(wù)描述均屬于該任務(wù)描述集合，因此，可以確定通過(guò)大語(yǔ)言模型得到的多個(gè)連續(xù)的任務(wù)描述均為機(jī)器人可執(zhí)行的動(dòng)作，然后結(jié)合機(jī)器人采集到的圖像，采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法，基于機(jī)器人的當(dāng)前狀態(tài)信息和任務(wù)描述，判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略，從而可以識(shí)別對(duì)機(jī)器人不合理的待執(zhí)行動(dòng)作，提高機(jī)器人的性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高雪松,孫萁浩,田友強(qiáng),張玉,翟世平,劉帥帥,劉微,陳維強(qiáng),袁德玲,任貝貝
技術(shù)所有人：海信集團(tuán)控股股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種可執(zhí)行策略判斷方法和機(jī)器人與流程