本發(fā)明涉及機(jī)器人,特別涉及一種可執(zhí)行策略判斷方法和機(jī)器人。
背景技術(shù):
1、隨著大語(yǔ)言模型(large?language?models,llms)的發(fā)展,它們已經(jīng)能夠生成復(fù)雜的文本、回答問(wèn)題,甚至進(jìn)行各種主題的對(duì)話。然而,大語(yǔ)言模型并不根植于物理世界,也不能觀察大語(yǔ)言模型的生成對(duì)任何物理過(guò)程的結(jié)果,當(dāng)大語(yǔ)言模型應(yīng)用于機(jī)器人中,可能導(dǎo)致大語(yǔ)言模型在解析指令后,使機(jī)器人做出不合理或滑稽的錯(cuò)誤,甚至可能以對(duì)特定的物理情況來(lái)說(shuō),機(jī)器人根本無(wú)法完成大語(yǔ)言模型解析指令得到的動(dòng)作。
2、此外,通常情況下,機(jī)器人想要完成用戶的指示,需要執(zhí)行多個(gè)動(dòng)作,通過(guò)大語(yǔ)言模型解析指令后得到的多個(gè)動(dòng)作,機(jī)器人可能無(wú)法完成。
3、綜上所述,目前采用大語(yǔ)言模型解析用戶指令得到的動(dòng)作,機(jī)器人可能無(wú)法執(zhí)行。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種可執(zhí)行策略判斷方法和機(jī)器人,用以解決現(xiàn)有技術(shù)中存在的采用大語(yǔ)言模型得到的動(dòng)作,存在機(jī)器人無(wú)法執(zhí)行的問(wèn)題。
2、第一方面,本技術(shù)提供一種可執(zhí)行策略判斷方法,該方法包括:
3、將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型,得到多個(gè)連續(xù)的任務(wù)描述,其中,所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的,所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作;
4、遍歷預(yù)設(shè)的任務(wù)描述集合,確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合;
5、基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,其中,所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述;
6、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,其中,所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng)。
7、在一種可能的實(shí)現(xiàn)方式中,所述基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,包括:
8、基于所述機(jī)器人采集到的圖像,確定所述機(jī)器人在初始位置處的第一位姿,并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息;
9、針對(duì)其他任務(wù)描述,基于所述機(jī)器人采集到的圖像,確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿,并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。
10、在一種可能的實(shí)現(xiàn)方式中,所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,包括:
11、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值;
12、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值,判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。
13、在一種可能的實(shí)現(xiàn)方式中,所述采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值,包括:
14、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù);
15、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。
16、在一種可能的實(shí)現(xiàn)方式中,所述判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,包括:
17、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較,在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略,在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。
18、第二方面,本技術(shù)提供一種機(jī)器人,包括處理器和執(zhí)行機(jī)構(gòu);
19、所述處理器,用于將用戶發(fā)送的自然語(yǔ)言指令輸入至大語(yǔ)言模型,得到多個(gè)連續(xù)的任務(wù)描述,其中,所述大語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練得到的,所述任務(wù)描述用于表征機(jī)器人的待執(zhí)行動(dòng)作;遍歷預(yù)設(shè)的任務(wù)描述集合,確定所述多個(gè)連續(xù)的任務(wù)描述均屬于所述預(yù)設(shè)的任務(wù)描述集合;基于機(jī)器人采集到的圖像,確定與目標(biāo)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息,其中,所述目標(biāo)任務(wù)描述為所述多個(gè)連續(xù)的任務(wù)描述中由第一個(gè)任務(wù)描述到最后一個(gè)任務(wù)描述;采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,其中,所述多個(gè)待執(zhí)行動(dòng)作與所述多個(gè)連續(xù)的任務(wù)描述相對(duì)應(yīng);
20、所述執(zhí)行機(jī)構(gòu),用于在所述處理器確定所述多個(gè)待執(zhí)行動(dòng)作為機(jī)器人可執(zhí)行策略的情況下,依次執(zhí)行所述多個(gè)待執(zhí)行動(dòng)作。
21、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:
22、基于所述機(jī)器人采集到的圖像,確定所述機(jī)器人在初始位置處的第一位姿,并將所述第一位姿作為與第一個(gè)任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息;
23、針對(duì)其他任務(wù)描述,基于所述機(jī)器人采集到的圖像,確定機(jī)器人執(zhí)行上一個(gè)任務(wù)描述對(duì)應(yīng)的待執(zhí)行動(dòng)作后的第二位姿,并將所述第二位姿作為當(dāng)前任務(wù)描述對(duì)應(yīng)的機(jī)器人的當(dāng)前狀態(tài)信息。
24、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:
25、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前待執(zhí)行動(dòng)作到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值;
26、基于計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值,判斷所述多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略。
27、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:
28、采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,對(duì)表征機(jī)器人的當(dāng)前狀態(tài)信息、任務(wù)描述和動(dòng)作獎(jiǎng)勵(lì)值的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),得到多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù);
29、針對(duì)機(jī)器人的當(dāng)前狀態(tài)信息和目標(biāo)任務(wù)描述,基于所述多步時(shí)序差分的狀態(tài)-動(dòng)作值函數(shù)、所述機(jī)器人的當(dāng)前狀態(tài)信息和所述目標(biāo)任務(wù)描述,計(jì)算所述機(jī)器人由當(dāng)前狀態(tài)到下一個(gè)待執(zhí)行動(dòng)作的動(dòng)作獎(jiǎng)勵(lì)值。
30、在一種可能的實(shí)現(xiàn)方式中,所述處理器具體用于:
31、將計(jì)算得到的動(dòng)作獎(jiǎng)勵(lì)值均與預(yù)設(shè)閾值進(jìn)行比較,在確定每個(gè)動(dòng)作獎(jiǎng)勵(lì)值均大于預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人可執(zhí)行策略,在確定動(dòng)作獎(jiǎng)勵(lì)值中至少存在一個(gè)動(dòng)作獎(jiǎng)勵(lì)值小于等于所述預(yù)設(shè)閾值的情況下,確定所述多個(gè)待執(zhí)行動(dòng)作為所述機(jī)器人非可執(zhí)行策略。
32、本發(fā)明有益效果如下:
33、本發(fā)明提供的一種可執(zhí)行策略判斷方法和機(jī)器人,由于先從任務(wù)描述集合中確定多個(gè)連續(xù)的任務(wù)描述均屬于該任務(wù)描述集合,因此,可以確定通過(guò)大語(yǔ)言模型得到的多個(gè)連續(xù)的任務(wù)描述均為機(jī)器人可執(zhí)行的動(dòng)作,然后結(jié)合機(jī)器人采集到的圖像,采用多步時(shí)序差分的強(qiáng)化學(xué)習(xí)方法,基于機(jī)器人的當(dāng)前狀態(tài)信息和任務(wù)描述,判斷多個(gè)待執(zhí)行動(dòng)作是否為機(jī)器人可執(zhí)行策略,從而可以識(shí)別對(duì)機(jī)器人不合理的待執(zhí)行動(dòng)作,提高機(jī)器人的性能。