本說明書涉及使用機器學習模型來處理數(shù)據(jù)。
背景技術:
1、機器學習模型接收輸入并基于接收到的輸入生成輸出,例如預測輸出。一些機器學習模型是參數(shù)模型,并且基于所接收的輸入和模型的參數(shù)值來生成輸出。
2、一些機器學習模型是采用多層模型來生成接收到的輸入的輸出的深度模型。例如,深度神經(jīng)網(wǎng)絡是包括輸出層和一個或多個隱藏層的深度機器學習模型,每個隱藏層將非線性變換應用于接收到的輸入以生成輸出。
技術實現(xiàn)思路
1、本說明書總體上描述了用于訓練相機策略神經(jīng)網(wǎng)絡并使用經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡的技術。
2、本文描述的一個示例實施方式涉及一種用于訓練相機策略神經(jīng)網(wǎng)絡的方法。相機策略神經(jīng)網(wǎng)絡用于控制相機傳感器在機器人正在交互的環(huán)境中的位置。該方法包括:獲得指定機器人的一個或多個目標傳感器的數(shù)據(jù);獲得第一觀察,該第一觀察包括在處于當前位置時由相機傳感器捕獲的環(huán)境的一個或多個圖像;使用相機策略神經(jīng)網(wǎng)絡處理相機策略輸入,該相機策略輸入包括(i)指定機器人的一個或多個目標傳感器的數(shù)據(jù)和(ii)第一觀察,該第一觀察包括由相機傳感器捕獲的一個或多個圖像,以生成限定用于調(diào)整相機傳感器的位置的相機控制動作的相機策略輸出;基于相機控制動作來調(diào)整相機傳感器的當前位置;獲得第二觀察,該第二觀察包括在處于經(jīng)調(diào)整的位置時由相機傳感器捕獲的環(huán)境的一個或多個圖像;根據(jù)第二觀察生成表征由目標傳感器生成的傳感器讀數(shù)的一個或多個目標傳感器中的每個目標傳感器的相應預測;針對每個目標傳感器,根據(jù)目標傳感器的相應預測中的誤差來生成相機策略神經(jīng)網(wǎng)絡的相應獎勵;以及使用一個或多個目標傳感器的獎勵來訓練相機策略神經(jīng)網(wǎng)絡。
3、在本說明書中,“機器人”可以是真實世界機械機器人或真實世界機械機器人的計算機模擬。因此,可以在真實世界環(huán)境或模擬環(huán)境——即,真實世界環(huán)境的計算機模擬——中訓練相機策略神經(jīng)網(wǎng)絡。在一些實施方式中,當在模擬環(huán)境中訓練相機策略神經(jīng)網(wǎng)絡時,經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡可以用于真實世界環(huán)境中的下游任務。例如,經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡可以用作訓練用于控制機器人的機器人策略神經(jīng)網(wǎng)絡的一部分。訓練機器人策略神經(jīng)網(wǎng)絡可以在真實世界環(huán)境中執(zhí)行,并且在訓練之后,機器人策略神經(jīng)網(wǎng)絡可以用于在真實世界環(huán)境中控制真實世界機器人。替代地,訓練機器人策略神經(jīng)網(wǎng)絡也可以在計算機模擬中執(zhí)行,并且在訓練之后,機器人策略神經(jīng)網(wǎng)絡可以用于在真實世界環(huán)境中控制真實世界機器人。
4、在一些實施方式中,相機傳感器是機器人的一部分。
5、在一些實施方式中,相機傳感器在環(huán)境內(nèi)的機器人外部。
6、在一些實施方式中,相機傳感器是中央凹相機。
7、在一些實施方式中,中央凹相機包括具有不同視場的多個相機。
8、在一些實施方式中,相應預測是在生成第二觀察的時間步處對目標傳感器的傳感器讀數(shù)的值的預測。
9、在一些實施方式中,相應預測是在生成第二觀察的時間步之后的一個或多個時間步中的每個時間步處從至少目標傳感器的傳感器讀數(shù)的值生成的回報的預測。
10、在一些實施方式中,根據(jù)第二觀察生成表征由目標傳感器生成的傳感器讀數(shù)的一個或多個目標傳感器中的每個目標傳感器的相應預測包括:使用傳感器預測神經(jīng)網(wǎng)絡處理包括第二觀察的預測器輸入,以生成包括一個或多個目標傳感器中的每個目標傳感器的相應預測的預測器輸出。
11、在一些實施方式中,該方法進一步包括:使用一個或多個目標傳感器的相應預測中的誤差來訓練傳感器預測神經(jīng)網(wǎng)絡。
12、在一些實施方式中,機器人包括多個傳感器,多個傳感器包括一個或多個目標傳感器,預測器輸出包括多個傳感器中的每個傳感器的相應預測,并且訓練傳感器預測神經(jīng)網(wǎng)絡包括使用多個傳感器中的每個傳感器的相應預測中的誤差來訓練傳感器預測神經(jīng)網(wǎng)絡。
13、在一些實施方式中,目標傳感器包括機器人的一個或多個本體感受傳感器。
14、在一些實施方式中,動作指定相機傳感器的一個或多個致動器中的每個致動器的目標速度。
15、在一些實施方式中,使用針對一個或多個目標傳感器的獎勵來訓練相機策略神經(jīng)網(wǎng)絡包括通過強化學習來訓練相機策略神經(jīng)網(wǎng)絡。
16、在一些實施方式中,通過強化學習來訓練相機策略神經(jīng)網(wǎng)絡包括與相機評價神經(jīng)網(wǎng)絡聯(lián)合地訓練相機策略神經(jīng)網(wǎng)絡。
17、在一些實施方式中,機器人進一步包括一個或多個可控元件。
18、在一些實施方式中,在訓練相機策略神經(jīng)網(wǎng)絡期間使用相應的固定策略來控制可控元件中的每個可控元件。
19、在一些實施方式中,在訓練相機策略神經(jīng)網(wǎng)絡期間,可控元件中的每個可控元件可使用機器人策略神經(jīng)網(wǎng)絡來控制,該機器人策略神經(jīng)網(wǎng)絡接收包括由相機傳感器生成的一個或多個圖像的輸入。
20、在一些實施方式中,在相機策略神經(jīng)網(wǎng)絡的訓練期間,機器人策略神經(jīng)網(wǎng)絡在針對指定任務的外部獎勵被訓練。
21、在一些實施方式中,相機策略神經(jīng)網(wǎng)絡的訓練在機器人策略神經(jīng)網(wǎng)絡的訓練期間作為輔助任務被執(zhí)行。
22、在一些實施方式中,該方法進一步包括:在相機策略神經(jīng)網(wǎng)絡的訓練之后:使用經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡來使用針對一個或多個指定任務的外部獎勵來訓練接收包括由相機傳感器生成的一個或多個圖像的輸入的機器人策略神經(jīng)網(wǎng)絡以控制一個或多個可控元件中的每個可控元件。
23、在一些實施方式中,使用經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡來使用針對一個或多個指定任務的外部獎勵來訓練接收包括由相機傳感器生成的一個或多個圖像的輸入的機器人策略神經(jīng)網(wǎng)絡以控制一個或多個可控元件中的每個可控元件包括:使用經(jīng)訓練的相機策略神經(jīng)網(wǎng)絡來生成用于機器人策略神經(jīng)網(wǎng)絡的訓練的訓練數(shù)據(jù)。
24、在一些實施方式中,一個或多個可控元件包括一個或多個操縱器。
25、可以實現(xiàn)本說明書中描述的主題的特定實施例,以便實現(xiàn)以下優(yōu)點中的一個或多個優(yōu)點。
26、通過如本說明書中描述訓練相機策略神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡學習主動視覺技能,用于移動相機以從信息性視點觀察機器人傳感器,而沒有外部獎勵或標簽。具體地,相機策略神經(jīng)網(wǎng)絡學習將相機移動到對于目標傳感器最有預測性的視點,該目標傳感器使用對神經(jīng)網(wǎng)絡的調(diào)節(jié)輸入來指定。即使當訓練使用有噪聲的學習的獎勵函數(shù)時,學習的策略也是有能力的,避免了遮擋,并且精確地將傳感器適配(frame)到視圖中的特定位所。也就是說,所學習的策略學習移動相機以避免相機傳感器與目標傳感器之間的遮擋,并且學習將傳感器適配到視圖中對由傳感器生成的傳感器讀數(shù)最有預測性的位所。
27、學習這些主動視覺技能可以對各種下游任務中的任何下游任務有用。例如,學習將對象視覺地適配在一致的圖像位所中主動地減少了可歸因于對象位置的圖像空間方差。因此,鎖定圖像內(nèi)的對象位置可以簡化學習下游機器人技能,即,用于控制機器人執(zhí)行任務或?qū)W習可重用技能的訓練策略神經(jīng)網(wǎng)絡。例如,利用相機策略神經(jīng)網(wǎng)絡(或神經(jīng)網(wǎng)絡的子網(wǎng)絡)可以改進視覺地引導的操縱策略的獲取,因為它們?nèi)缓罂梢跃劢褂诓呗缘碾y以學習的操縱方面。
28、在附圖和下面的描述中闡述了本說明書的主題的一個或多個實施例的細節(jié)。根據(jù)說明書、附圖和權利要求,主題的其他特征、方面和優(yōu)點將變得顯而易見。