本發(fā)明涉及一種用于更新場景表示模型的方法。
背景技術:
1、在計算機視覺和機器人領域中,可構建場景表示模型來在虛擬空間中表示真實空間中存在的場景。例如,為了導航經(jīng)過真實世界環(huán)境或場景,機器人可構建并使用彼真實世界環(huán)境或場景的內部場景表示模型。場景表示模型可使用同步定位和映射(通常稱為“slam”)來生成,其中場景的表示或映射以及彼場景內的定位可被同步確定。
2、edgar?sucar等人的arxiv編號為arxiv:2103.12352v2的論文“imap:實時隱式映射和定位(imap:?implicit?mapping?and?positioning?in?real-time)”公開一種包括場景表示模型的實時slam系統(tǒng),所述場景表示模型可預測場景的物體的幾何形狀和顏色。場景表示模型是通過最小化所捕獲場景深度圖像與場景表示模型的體積渲染之間的損失來優(yōu)化的。因此,經(jīng)優(yōu)化場景表示模型可表示場景的物體的幾何形狀和顏色。
3、智帥峰(shuaifeng?zhi)等人的arxiv編號為arxiv:2111.14637v2的論文“ilabel:交互式神經(jīng)場景標記(ilabel:?interactive?neural?scene?labelling)”公開了對“imap”論文中的實時slam系統(tǒng)的擴展。具體來說,場景表示模型進一步預測場景的物體的語義類別。提供圖形用戶界面以允許用戶向場景的所捕獲深度圖像提供語義類別標簽(例如,“墻”或“書”等)。場景表示模型是通過以下方式來優(yōu)化的:最小化場景表示模型的渲染rgb?(紅-綠-藍)值與所捕獲圖像的真實rgb值之間、場景表示模型的經(jīng)渲染深度值與距離攝像機的場景的真實深度值之間、以及場景表示模型的經(jīng)渲染語義類別標簽與用戶提供的語義類別標簽的注釋之間的損失。如此,經(jīng)優(yōu)化場景表示模型可表示場景的物體的幾何形狀、顏色和用戶指定的語義類別。
4、然而,物體的幾何形狀和顏色和/或物體的用戶指定的語義類別(諸如“書”)僅僅部分地描述了物體的實際本質。因此,已知場景表示模型在準確地反映真實世界場景的程度上受到限制。這反過來可能會限制機器人使用已知場景表示模型來自主執(zhí)行的任務類型。而且,物體的用戶指定的語義類別需要用戶輸入,這可能會限制自主生成準確場景表示模型的程度。
5、可期望減輕這些缺點中的至少一些。
技術實現(xiàn)思路
1、根據(jù)本發(fā)明的第一方面,提供一種用于更新場景表示模型的計算機實現(xiàn)的方法,所述方法包括:獲得表示具有一個或多個物體的場景的場景表示模型,所述場景表示模型被配置為預測所述物體中的一或多者的物理性質的值;獲得所述物體中的至少一者的所述物理性質的值,所述所獲得值是從機器人與所述至少一個物體的物理接觸中衍生的;和基于所述所獲得值來更新所述場景表示模型。
2、這可允許所述場景表示模型包括物體的從機器人與所述物體的物理接觸中衍生的物理性質。例如,這可允許所述經(jīng)更新場景表示模型準確地預測僅從圖像中難以確定或可能確定的物理性質。這反過來可允許所述經(jīng)更新場景表示模型更完整地表示所述物體的所述本質。這反過來可允許所述場景表示模型更準確地反映多數(shù)真實世界場景。因此,可提供經(jīng)改進場景表示模型。替代地或另外,這可允許例如機器人基于所述經(jīng)更新場景表示來操作以執(zhí)行更寬范圍的任務和/或更準確地執(zhí)行任務。例如,這可允許機器人基于所述場景的所述物體的所述物理性質來執(zhí)行任務(例如,基于所述物體的質量對具有相同幾何形狀和顏色但不同質量的盒體進行分類)。替代地或另外,從機器人與所述至少一個物體的物理接觸中衍生的所述所獲得值可允許要自主獲得準確場景表示,例如未必需要來自用戶的輸入。
3、可選地,所述機器人與所述場景的所述至少一個物體的所述物理接觸包括所述機器人對所述場景的所述至少一個物體進行物理移動或嘗試進行物理移動。所述所獲得值然后是從所述物理移動或所述嘗試中衍生的。與場景交互的機器人可物理地移動物體(或至少嘗試移動物體),并且這未必需要特定測量探頭。因此,基于移動或嘗試移動來衍生所述物理性質的所述值可允許以成本高效方式來確定所述場景的物體的物理性質的值(例如,質量、摩擦系數(shù)、硬度或這些的下界)。
4、可選地,所述物理接觸可包括所述至少一個物體的自上而下的戳刺、所述至少一個物體的橫向推動以及所述至少一個物體的提升中的一或多者。不同類型的物理接觸可以成本高效方式確定不同物理性質。在一些示例中,在戳刺、推動或提升的每一情形中,所述機器人一旦接觸就移動的距離可能相對較短,例如在幾毫米的范圍內,這可足以對物體的物理屬性進行采樣,但不足以實質上損壞或改變所述場景中物體的位置。在其他示例中,所述至少一個物體可能由于所述物理接觸而移動和/或改變位置。
5、可選地,所述物理性質的所述值指示所述至少一個物體的柔韌性或硬度、所述至少一個物體的摩擦系數(shù)以及所述至少一個物體的質量中的一或多者。這些性質可通過所述機器人移動所述物體(或嘗試移動所述物體)來確定,并且因此不需要專門測量探頭來接觸所述物體,這可能是成本高效的。在一個示例中,所述摩擦系數(shù)可基于所述機器人移動所述物體時發(fā)出的聲音來估計。
6、可選地,所述機器人與所述至少一個物體的所述物理接觸包括所述機器人的測量探頭與所述至少一個物體的物理接觸,其中所述所獲得值是基于在接觸所述至少一個物體時所述測量探頭的輸出而衍生的。這可允許諸如光譜特征、熱導率、材料孔隙率和材料類型等更寬范圍的物理性質被確定。
7、可選地,所述方法包括:基于所述多個物體中的每一者的所述物理性質的所述經(jīng)預測值的不確定性從所述一個或多個物體當中選擇所述至少一個物體;控制所述機器人與所述所選擇物體進行物理接觸;和從所述物理接觸中衍生所述所選擇物體的所述物理性質的所述值,由此獲得所述值。這可允許機器人自主選擇(例如,沒有來自用戶的輸入)要進行物理接觸的所述物體,這可導致所述場景表示模型中不確定性的最大降低,并且因此提供所述場景表示模型的準確性和/或可靠性的最大增益。這可提供要被自主創(chuàng)建的準確和/或可靠場景表示模型。
8、可選地,選擇所述至少一個物體包括:確定所述機器人與所述多個物體中的每一者的所述物理接觸的運動學成本和/或運動學可行性;和所述至少一個物體是另外基于針對所述多個物體中的每一者的所述所確定運動學可行性來選擇的。這可允許機器人避免或減少嘗試獲得所述機器人無法接觸或在運動學上接觸成本較高的所述物體的值。這可允許以高效方式更新所述場景表示模型。
9、可選地,所述方法包括:響應于確定所述機器人與所述多個物體中的給定物體的所述物理接觸在運動學上不可行,將所述給定物體添加到選擇掩模,以防止所述給定物體在對要獲得所述物理性質的值的物體的進一步選擇中被選擇。這可允許對于物理接觸在運動學上不可行的物體,不需要在多個物體選擇上多次確定所述運動學成本和/或所述運動學可行性。這可進一步提高所述場景表示模型被更新的效率。
10、可選地,所述場景表示模型提供所述場景的隱式場景表示。例如,所述隱式場景表示可通過提供空間坐標與場景性質之間的映射函數(shù)來隱式地表示所述場景。這可允許所述場景要以資源高效方式表示(并且其性質要被查詢)。例如,這可與顯式場景表示(諸如所述場景的點云或網(wǎng)格)相比,這可需要相對大的資源使用來存儲、維護和交互。提供隱式場景表示的所述場景表示模型反過來可增加所述場景表示模型可進行學習、適應和/或詢問的速度。這反過來可有助于允許所述方法的實時應用。
11、可選地,所述場景表示模型包括具有語義頭的多層感知器,其中對于輸入到所述多層感知器的所述場景表示的坐標,所述語義頭輸出對彼坐標處的所述物理性質的所述值的所述預測。這種實現(xiàn)方式可提供一種特別資源高效方式來提供對物體的物理性質的值的預測。這反過來可有助于允許所述方法的實時應用。
12、可選地,所述多層感知器進一步具有體積密度頭和/或光度測定頭,其中對于輸入到所述多層感知器中的所述場景表示的所述坐標,所述體積密度頭輸出對彼坐標處的所述體積密度的預測,和/或所述光度測定頭輸出對彼坐標處的光度測定值的預測。這可提供所述場景表示模型還以資源高效方式預測光度測定值(例如顏色、亮度)和幾何形狀(例如形狀),這可有助于允許在諸如實時slam的實時應用中使用所述方法。替代地或另外,共享同一多層感知器主干的所述語義頭和所述體積密度和/或光度測定頭可提供,針對所述場景的一部分(例如,物體的一部分)獲得的物理性質值的經(jīng)改進預測可自動地傳播到其他類似部分(例如,同一物體的其他部分)。這可提高所述場景表示模型被更新的效率。
13、可選地,更新所述場景表示模型包括:優(yōu)化所述場景表示模型,以便最小化所述至少一個物體的所述物理性質的所述所獲得值與所述經(jīng)預測值之間的損失。這可提供,所述場景表示模型的所有所述物體的所述物理性質值預測是基于所述所獲得值來更新的。這可針對給定數(shù)目的所獲得值和/或針對要被高效更新的所述場景表示提供更完整場景表示。
14、可選地,所述所獲得值和所述經(jīng)預測值各自表示多個離散值中的一者,且優(yōu)化所述場景表示模型包括最小化所述經(jīng)預測值與所測量值之間的交叉熵損失;或者所述所獲得值和所述經(jīng)預測值各自表示連續(xù)值中的一者,且優(yōu)化所述場景表示模型包括最小化所述經(jīng)預測值與所述所測量值之間的均方誤差損失。這可允許所述場景模型被更新,其中所述值是離散值(例如類別)或連續(xù)值(例如硬度)。
15、可選地,更新所述場景表示包括:利用所述場景的所捕獲圖像的一部分所表示的所述物體的所述所獲得值來標記所述部分;獲得從所述場景表示模型渲染的所述場景的虛擬圖像,所述虛擬圖像的一個或多個部分是利用所述相應部分所表示的所述相應物體的所述相應經(jīng)預測值來標記的;確定所述所捕獲圖像的所述經(jīng)標記部分的所述所獲得值與所述虛擬圖像的對應部分的所述經(jīng)預測值之間的損失;和優(yōu)化所述場景表示模型以便最小化所述損失。這可提供,所述場景表示模型可被高效地更新。這可提供,整個場景表示是基于所述場景的一個(或多個)所捕獲(和經(jīng)標記)圖像來更新的。這反過來可提供一種更新所述模型的高效方法。
16、可選地,所述所捕獲圖像的一個或多個部分各自利用距離捕獲到所述圖像的攝像機的所獲得深度值來標記,所述所獲得深度值指示所述部分所表示的所述場景的一部分的深度;所述虛擬圖像的一個或多個部分各自利用距離所述虛擬圖像被渲染的虛擬攝像機的經(jīng)預測深度值來標記,所述經(jīng)預測深度值指示所述部分所表示的所述場景表示的一部分的深度;并且更新所述場景表示模型包括:確定所述所捕獲圖像的所述一個或多個部分的所述所獲得深度值與所述虛擬圖像的一個或多個對應部分的所述經(jīng)預測深度值之間的幾何形狀損失;和優(yōu)化所述場景表示模型以便最小化所述幾何形狀損失。這可允許所述場景表示的所述物理性質值和所述幾何形狀兩者是基于一個(或多個)所捕獲圖像來共同優(yōu)化的。這可提供一種更新所述場景表示模型的高效手段。替代地或另外,這可有助于提供,將所獲得物理性質值傳播到同一物體的其他部分和/或類似物體。
17、可選地,所述所捕獲圖像的一個或多個部分各自利用捕獲到所述圖像的攝像機下的所獲得光度測定值來標記,所述所獲得光度測定值指示所述部分所表示的所述場景的一部分的光度測定性質;所述虛擬圖像的一個或多個部分各自利用所述虛擬圖像被渲染的虛擬攝像機下的經(jīng)預測光度測定值來標記,所述經(jīng)預測光度測定值指示所述部分所表示的所述場景表示的一部分的經(jīng)預測光度測定性質;且其中更新所述場景表示模型包括:確定所述所捕獲圖像的所述一個或多個部分的所述所獲得光度測定值與所述虛擬圖像的一個或多個對應部分的所述經(jīng)預測光度測定值之間的光度測定損失;和優(yōu)化所述場景表示模型以便最小化所述光度測定損失。這可允許所述場景表示的所述物理性質值和所述光度測定值(例如,顏色、照明)?(以及幾何形狀)是基于一個(或多個)所捕獲圖像來共同優(yōu)化的。這可提供一種更新所述場景表示模型的高效手段。替代地或另外,這可有助于提供,將所獲得物理性質值傳播到同一物體的其他部分和/或其他類似物體。
18、可選地,所述所捕獲圖像的所述一個或多個部分是從所述所捕獲圖像中采樣的,并且所述經(jīng)預測深度值和/或所述經(jīng)預測光度測定值是基于來自所述場景表示模型的輸出針對所述虛擬圖像的一個或多個部分的對應樣本來預測的。因此,所述更新不必基于整個所捕獲圖像,而是基于其樣本。這可有助于提高所述場景表示模型可被更新的速度。這反過來可允許所述方法的實時應用,諸如實時slam。
19、可選地,所述方法包括:估計當所述所捕獲圖像被捕獲時捕獲到所述圖像的攝像機的姿勢;且其中所述虛擬圖像在具有所述所估計姿勢的虛擬攝像機下被渲染。這可提供,捕獲所述圖像的所述攝像機不必具有固定位置和/或方向,而是可被移動。這可為方法的部署提供靈活性。
20、可選地,所述攝像機的所述姿勢是至少部分地基于指示用于定位所述攝像機的裝置的配置的數(shù)據(jù)來估計的。這可有助于有效地估計攝像機姿勢,例如在攝像機附接到機械臂的情況下,所述機械臂的底座是固定的,并且其關節(jié)配置是已知的(并且可從中衍生攝像機姿勢)。
21、可選地,所述攝像機的所述姿勢是至少部分地基于被配置為估計所述攝像機的所述姿勢的姿勢估計模塊的輸出來估計的,其中優(yōu)化所述場景表示模型包括共同地優(yōu)化所述姿勢估計模塊和所述場景表示模型,以最小化所述損失。這可有助于即使在攝像機可自由移動(例如由人類用戶或由機器人移動)的情況下估計所述攝像機姿勢。替代地或另外,這可有助于從初始估計(例如,基于機械臂的關節(jié)配置)對攝像機姿勢估計進行微調。
22、可選地,所述所獲得場景表示模型是通過以下方式來預訓練的:優(yōu)化所述場景表示模型以便最小化所述場景的至少一個物體的所述物理性質的值的所提供估計值與所述至少一個物體的所述物理性質的所述經(jīng)預測值之間的損失。例如與從沒有關于場景的任何部分的物理性質值的信息開始相比,這可有助于相對快速地提供相對準確的場景表示。這些估計可基于例如家居物體的典型硬度范圍。
23、可選地,所述估計是通過以下方式來提供的:將預訓練物體檢測器應用于所捕獲圖像以識別所述至少一個物體;和從所述至少一個物體的所述身份來推斷所述估計。這可提供對物理性質的更準確初始估計。這反過來可減少生成相對準確的場景表示模型所花費的時間(和交互)。例如,可首先對所捕獲圖像應用物體識別,以將一部分識別為椅子,并且對物理性質值的估計可以是椅子的典型質量。
24、可選地,所述方法包括:控制所述機器人(或另一機器人裝置)基于所述經(jīng)更新場景表示模型來執(zhí)行任務。例如與如果模型沒有被更新相比,這可允許機器人完成更寬范圍的任務和/或更準確地完成任務。例如,這可允許機器人執(zhí)行基于所述場景的物體的物理性質定義的任務,例如基于所述物體的質量對外觀相同但質量不同的盒體進行分類。
25、根據(jù)本發(fā)明的第二方面,提供一種被配置為執(zhí)行根據(jù)第一方面的方法的設備。在一些示例中,所述設備可以是機器人,例如第一方面的機器人。在一些示例中,所述設備可包括被配置為執(zhí)行所述方法的計算機。例如,所述計算機可以是例如遠離所述機器人的遠程服務器。
26、根據(jù)本發(fā)明的第三方面,提供一種包括一組指令的計算機程序,當由計算機執(zhí)行時,所述一組指令致使所述計算機執(zhí)行根據(jù)第一方面所述的方法。在一些示例中,所述計算機可以是所述機器人的一部分。在一些示例中,所述計算機可以是遠離所述機器人但例如經(jīng)由有線或無線方式通信地連接到所述機器人的遠程服務器的一部分。所述計算機可包括處理器和存儲器,所述存儲器存儲指令,當由所述處理器執(zhí)行時,所述指令致使所述處理器執(zhí)行根據(jù)第一方面所述的方法。根據(jù)本發(fā)明的第四方面,提供一種上面存儲有指令的非暫時性計算機可讀介質,當由計算機執(zhí)行時,所述指令致使所述計算機執(zhí)行第一方面的方法。
27、另外的特征將從參考附圖進行的以下描述中變得顯而易見。