1.一種用于訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的方法,所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)用于控制相機(jī)傳感器在機(jī)器人正在交互的環(huán)境中的位置,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述相機(jī)傳感器是所述機(jī)器人的一部分。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述相機(jī)傳感器在所述環(huán)境內(nèi)的所述機(jī)器人外部。
4.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述相機(jī)傳感器是中央凹相機(jī)。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述中央凹相機(jī)包括具有不同視場的多個相機(jī)。
6.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述相應(yīng)預(yù)測是在生成所述第二觀察的時間步處對所述目標(biāo)傳感器的傳感器讀數(shù)的值的預(yù)測。
7.根據(jù)權(quán)利要求1至5中任一項所述的方法,其中,所述相應(yīng)預(yù)測是在生成所述第二觀察的所述時間步之后的一個或多個時間步中的每個時間步處從至少所述目標(biāo)傳感器的傳感器讀數(shù)的值生成的回報的預(yù)測。
8.根據(jù)任一前述權(quán)利要求所述的方法,其中,根據(jù)所述第二觀察生成表征由所述目標(biāo)傳感器生成的傳感器讀數(shù)的所述一個或多個目標(biāo)傳感器中的每個目標(biāo)傳感器的相應(yīng)預(yù)測包括:
9.根據(jù)權(quán)利要求8所述的方法,進(jìn)一步包括:
10.根據(jù)權(quán)利要求9所述的方法,其中:
11.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述目標(biāo)傳感器包括所述機(jī)器人的一個或多個本體感受傳感器。
12.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述動作指定所述相機(jī)傳感器的一個或多個致動器中的每個致動器的目標(biāo)速度。
13.根據(jù)任一前述權(quán)利要求所述的方法,其中,使用所述一個或多個目標(biāo)傳感器的所述獎勵來訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)包括通過強(qiáng)化學(xué)習(xí)來訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)。
14.根據(jù)任一前述權(quán)利要求所述的方法,其中,通過強(qiáng)化學(xué)習(xí)訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)包括與相機(jī)評價神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)。
15.根據(jù)任一前述權(quán)利要求所述的方法,其中所述機(jī)器人進(jìn)一步包括一個或多個可控元件。
16.根據(jù)權(quán)利要求15所述的方法,其中,所述可控元件中的每個可控元件在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間使用相應(yīng)的固定策略而被控制。
17.根據(jù)權(quán)利要求15所述的方法,其中,在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的訓(xùn)練期間,所述可控元件中的每個可控元件可使用接收包括由所述相機(jī)傳感器生成的一個或多個圖像的輸入的機(jī)器人策略神經(jīng)網(wǎng)絡(luò)來控制。
18.根據(jù)權(quán)利要求17所述的方法,其中,所述機(jī)器人策略神經(jīng)網(wǎng)絡(luò)在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間針對指定任務(wù)的外部獎勵而被訓(xùn)練。
19.根據(jù)權(quán)利要求18所述的方法,其中,所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練在所述機(jī)器人策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間作為輔助任務(wù)被執(zhí)行。
20.根據(jù)權(quán)利要求15至18中任一項所述的方法,進(jìn)一步包括:
21.根據(jù)權(quán)利要求20所述的方法,其中,使用所述經(jīng)訓(xùn)練的相機(jī)策略神經(jīng)網(wǎng)絡(luò)來使用針對一個或多個指定任務(wù)的外部獎勵來訓(xùn)練接收包括由所述相機(jī)傳感器生成的一個或多個圖像的輸入的機(jī)器人策略神經(jīng)網(wǎng)絡(luò)以控制所述一個或多個可控元件中的每個可控元件包括:
22.根據(jù)權(quán)利要求15至21中任一項所述的方法,其中,所述一個或多個可控元件包括一個或多個操縱器。
23.一種系統(tǒng),包括:
24.一個或多個非暫時性計算機(jī)存儲介質(zhì),所述一個或多個非暫時性計算機(jī)存儲介質(zhì)存儲指令,所述指令在由一個或多個計算機(jī)執(zhí)行時使所述一個或多個計算機(jī)執(zhí)行根據(jù)權(quán)利要求1至22中任一項所述的相應(yīng)方法的操作。