两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種可執(zhí)行策略判斷方法和機(jī)器人與流程

文檔序號(hào):40610071發(fā)布日期:2025-01-07 20:52閱讀:8來(lái)源:國(guó)知局
一種可執(zhí)行策略判斷方法和機(jī)器人與流程

本發(fā)明涉及機(jī)器人,特別涉及一種可執(zhí)行策略判斷方法和機(jī)器人。


背景技術(shù):

1、隨著大語(yǔ)言模型(large?language?models,llms)的發(fā)展,它們已經(jīng)能夠生成復(fù)雜的文本、回答問(wèn)題,甚至進(jìn)行各種主題的對(duì)話。然而,大語(yǔ)言模型并不根植于物理世界,也不能觀察大語(yǔ)言模型的生成對(duì)任何物理過(guò)程的結(jié)果,當(dāng)大語(yǔ)言模型應(yīng)用于機(jī)器人中,可能導(dǎo)致大語(yǔ)言模型在解析指令后,使機(jī)器人做出不合理或滑稽的錯(cuò)誤,甚至可能以對(duì)特定的物理情況來(lái)說(shuō),機(jī)器人根本無(wú)法完成大語(yǔ)言模型解析指令得到的動(dòng)作。

2、此外,通常情況下,機(jī)器人想要完成用戶的指示,需要執(zhí)行多個(gè)動(dòng)作,通過(guò)大語(yǔ)言模型解析指令后得到的多個(gè)動(dòng)作,機(jī)器人可能無(wú)法完成。

3、綜上所述,目前采用大語(yǔ)言模型解析用戶指令得到的動(dòng)作,機(jī)器人可能無(wú)法執(zhí)行。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種可執(zhí)行策略判斷方法和機(jī)器人,用以解決現(xiàn)有技術(shù)中存在的采用大語(yǔ)言模型得到的動(dòng)作,存在機(jī)器人無(wú)法執(zhí)行的問(wèn)題。

2、第一方面,本技術(shù)提供一種可執(zhí)行策略判斷方法,該方法包括:

3、將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型,得到多個(gè)連續(xù)的任務(wù)描述,其中,所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的,所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作;

4、遍歷預(yù)設(shè)的任務(wù)描述集合,確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合;

5、基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,其中,所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述;

6、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,其中,所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng)。

7、在一種可能的實(shí)現(xiàn)方式中,所述基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,包括:

8、基于所述機(jī)器人采集到的圖像,確定所述機(jī)器人在初始位置處的第一位姿,并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息;

9、針對(duì)其他任務(wù)描述,基于所述機(jī)器人采集到的圖像,確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿,并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。

10、在一種可能的實(shí)現(xiàn)方式中,所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,包括:

11、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值;

12、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值,判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。

13、在一種可能的實(shí)現(xiàn)方式中,所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值,包括:

14、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù);

15、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。

16、在一種可能的實(shí)現(xiàn)方式中,所述判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,包括:

17、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較,在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略,在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。

18、第二方面,本技術(shù)提供一種機(jī)器人,包括處理器和執(zhí)行機(jī)構(gòu);

19、所述處理器,用于將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型,得到多個(gè)連續(xù)的任務(wù)描述,其中,所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的,所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作;遍歷預(yù)設(shè)的任務(wù)描述集合,確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合;基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,其中,所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述;采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,其中,所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng);

20、所述執(zhí)行機(jī)構(gòu),用于在所述處理器確定所述多個(gè)待執(zhí)行動(dòng)作為機(jī)器人可執(zhí)行策略的情況下,依次執(zhí)行所述多個(gè)待執(zhí)行動(dòng)作。

21、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:

22、基于所述機(jī)器人采集到的圖像,確定所述機(jī)器人在初始位置處的第一位姿,并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息;

23、針對(duì)其他任務(wù)描述,基于所述機(jī)器人采集到的圖像,確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿,并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。

24、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:

25、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值;

26、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值,判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。

27、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:

28、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù);

29、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。

30、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:

31、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較,在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略,在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。

32、本發(fā)明有益效果如下:

33、本發(fā)明提供的一種可執(zhí)行策略判斷方法和機(jī)器人,由于先從任務(wù)描述集合中確定多個(gè)連續(xù)的任務(wù)描述均屬于該任務(wù)描述集合,因此,可以確定通過(guò)大語(yǔ)言模型得到的多個(gè)連續(xù)的任務(wù)描述均為機(jī)器人可執(zhí)行的動(dòng)作,然后結(jié)合機(jī)器人采集到的圖像,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,從而可以識(shí)別對(duì)機(jī)器人不合理的待執(zhí)行動(dòng)作,提高機(jī)器人的性能。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
通渭县| 景谷| 甘洛县| 囊谦县| 恩平市| 共和县| 兴山县| 同仁县| 奉化市| 博爱县| 普陀区| 平远县| 临海市| 定州市| 高雄县| 安达市| 东港市| 观塘区| 南丰县| 正阳县| 阳西县| 潮州市| 新晃| 石狮市| 莆田市| 调兵山市| 金门县| 梁河县| 安顺市| 漯河市| 天津市| 缙云县| 昌平区| 河池市| 青龙| 邢台县| 东港市| 炎陵县| 探索| 竹山县| 基隆市|