通過自預(yù)測來訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號：40575292發(fā)布日期：2025-01-03 11:40閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>通過自預(yù)測來訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的制作方法

技術(shù)特征：

1.一種用于訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的方法，所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)用于控制相機(jī)傳感器在機(jī)器人正在交互的環(huán)境中的位置，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述相機(jī)傳感器是所述機(jī)器人的一部分。

3.根據(jù)權(quán)利要求1所述的方法，其中，所述相機(jī)傳感器在所述環(huán)境內(nèi)的所述機(jī)器人外部。

4.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述相機(jī)傳感器是中央凹相機(jī)。

5.根據(jù)權(quán)利要求4所述的方法，其中，所述中央凹相機(jī)包括具有不同視場的多個相機(jī)。

6.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述相應(yīng)預(yù)測是在生成所述第二觀察的時間步處對所述目標(biāo)傳感器的傳感器讀數(shù)的值的預(yù)測。

7.根據(jù)權(quán)利要求1至5中任一項所述的方法，其中，所述相應(yīng)預(yù)測是在生成所述第二觀察的所述時間步之后的一個或多個時間步中的每個時間步處從至少所述目標(biāo)傳感器的傳感器讀數(shù)的值生成的回報的預(yù)測。

8.根據(jù)任一前述權(quán)利要求所述的方法，其中，根據(jù)所述第二觀察生成表征由所述目標(biāo)傳感器生成的傳感器讀數(shù)的所述一個或多個目標(biāo)傳感器中的每個目標(biāo)傳感器的相應(yīng)預(yù)測包括：

9.根據(jù)權(quán)利要求8所述的方法，進(jìn)一步包括：

10.根據(jù)權(quán)利要求9所述的方法，其中：

11.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述目標(biāo)傳感器包括所述機(jī)器人的一個或多個本體感受傳感器。

12.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述動作指定所述相機(jī)傳感器的一個或多個致動器中的每個致動器的目標(biāo)速度。

13.根據(jù)任一前述權(quán)利要求所述的方法，其中，使用所述一個或多個目標(biāo)傳感器的所述獎勵來訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)包括通過強(qiáng)化學(xué)習(xí)來訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)。

14.根據(jù)任一前述權(quán)利要求所述的方法，其中，通過強(qiáng)化學(xué)習(xí)訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)包括與相機(jī)評價神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)。

15.根據(jù)任一前述權(quán)利要求所述的方法，其中所述機(jī)器人進(jìn)一步包括一個或多個可控元件。

16.根據(jù)權(quán)利要求15所述的方法，其中，所述可控元件中的每個可控元件在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間使用相應(yīng)的固定策略而被控制。

17.根據(jù)權(quán)利要求15所述的方法，其中，在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的訓(xùn)練期間，所述可控元件中的每個可控元件可使用接收包括由所述相機(jī)傳感器生成的一個或多個圖像的輸入的機(jī)器人策略神經(jīng)網(wǎng)絡(luò)來控制。

18.根據(jù)權(quán)利要求17所述的方法，其中，所述機(jī)器人策略神經(jīng)網(wǎng)絡(luò)在所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間針對指定任務(wù)的外部獎勵而被訓(xùn)練。

19.根據(jù)權(quán)利要求18所述的方法，其中，所述相機(jī)策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練在所述機(jī)器人策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練期間作為輔助任務(wù)被執(zhí)行。

20.根據(jù)權(quán)利要求15至18中任一項所述的方法，進(jìn)一步包括：

21.根據(jù)權(quán)利要求20所述的方法，其中，使用所述經(jīng)訓(xùn)練的相機(jī)策略神經(jīng)網(wǎng)絡(luò)來使用針對一個或多個指定任務(wù)的外部獎勵來訓(xùn)練接收包括由所述相機(jī)傳感器生成的一個或多個圖像的輸入的機(jī)器人策略神經(jīng)網(wǎng)絡(luò)以控制所述一個或多個可控元件中的每個可控元件包括：

22.根據(jù)權(quán)利要求15至21中任一項所述的方法，其中，所述一個或多個可控元件包括一個或多個操縱器。

23.一種系統(tǒng)，包括：

24.一個或多個非暫時性計算機(jī)存儲介質(zhì)，所述一個或多個非暫時性計算機(jī)存儲介質(zhì)存儲指令，所述指令在由一個或多個計算機(jī)執(zhí)行時使所述一個或多個計算機(jī)執(zhí)行根據(jù)權(quán)利要求1至22中任一項所述的相應(yīng)方法的操作。

技術(shù)總結(jié)
用于訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的方法、系統(tǒng)和裝置，包括編碼在計算機(jī)存儲介質(zhì)上的計算機(jī)程序。

技術(shù)研發(fā)人員：馬修·科伊奇·格蘭姆斯,彼得·沃伊切赫·米羅夫斯基,約瑟夫·瓦魯格斯·莫達(dá)耶爾
受保護(hù)的技術(shù)使用者：淵慧科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

通過自預(yù)測來訓(xùn)練相機(jī)策略神經(jīng)網(wǎng)絡(luò)的制作方法