本公開涉及用于執(zhí)行用于單目三維(three-dimensional,3d)對象檢測和/或低級別傳感器融合(例如,相機和雷達融合)的跨域空間匹配(cross-domain?spatialmatching,cdsm)的技術(shù)。
背景技術(shù):
1、在3d空間中檢測單目對象時遇到的挑戰(zhàn)是在單個圖像內(nèi)缺乏第三維或深度信息,該第三維或深度信息由二維(two-dimensional,2d)空間中的像素表示。在不具有關(guān)于第三維的信息的情況下,僅從處理2d圖像來準確定位和理解3d空間中的對象是困難的。存在許多方法來解決這一問題。一些方法旨在增強單目對象檢測的性能和可靠性。
2、解決單目對象檢測中缺乏深度信息的一種方法是對2d和3d參數(shù)進行解耦并分別預(yù)測它們。例如,centernet不使用邊界框,而是僅預(yù)測對象的中心,同時回歸其他屬性,諸如,深度、3d尺寸和相對于該關(guān)鍵中心點的旋轉(zhuǎn)角度。另一種方法稱為fcos3d。在該示例中,維護圖像中的一組預(yù)限定的3d位置來執(zhí)行2d中心預(yù)測。在這種方法中,圖像被投影回具有基于2d位置及其對應(yīng)的預(yù)測深度的二維半(2.5d)空間。其余參數(shù)也在3d空間中回歸以生成最終對象預(yù)測。
3、另一種先前的方法將該問題視為具有從單個圖像導(dǎo)出的解的深度估計問題。另一種方法被稱為pgd,它將2d圖像像素的深度估計作為分布來執(zhí)行,并結(jié)合概率表示來捕獲不確定性。此外,通過考慮3d對象之間的上下文連接,利用幾何關(guān)系圖來改進估計。epro-pnp是另一種方法,采用透視n點(perspective-n-points,pnp)方法。這解決了來自對象空間中的一組3d點及其在圖像空間中對應(yīng)的2d投影的姿態(tài)。epro-pnp使用pnp方法提出了一種可微層,該方法以端到端的方式訓(xùn)練網(wǎng)絡(luò)以學(xué)習(xí)加權(quán)的2d-3d點對應(yīng)關(guān)系。輸出被解釋為適用于3d對象檢測的概率分布。
4、在其他示例中,包括用于從2d圖像預(yù)測3d對象的基于transformer的視覺網(wǎng)絡(luò),諸如bevformer。bevformer通過對圖像特征進行預(yù)限定網(wǎng)格形狀的鳥瞰圖(birds-eye-view,bev)查詢,利用空間和時間信息來學(xué)習(xí)統(tǒng)一的鳥瞰圖(bev)表示。bevformer預(yù)測目前正由nuscenes3d對象檢測基準使用。然而,這些transformer和類似的transformer的當前實現(xiàn)是計算密集型的,并且還不適合于嵌入式部署(例如,在交通工具中的嵌入式計算機或控制器上)。
5、采用融合算法來增強高級交通工具感知系統(tǒng)的性能。融合算法將來自各個傳感器的數(shù)據(jù)進行組合并且生成最終的感知結(jié)果。融合過程利用每個傳感器的優(yōu)勢,并旨在實現(xiàn)更穩(wěn)健的結(jié)果。此外,融合算法在涉及部分傳感器堵塞或其他故障模式的情況下提供了額外的安全層。通過依賴于更可靠的傳感器讀數(shù),它可以幫助緩解潛在的危險。
6、融合算法可以被分類為高級別或低級別。在高級別融合中,來自不同傳感器的檢測到的對象的信息在對象級別處進行融合。低級別融合操作更接近原始輸入數(shù)據(jù),直接利用來自每個傳感器的數(shù)據(jù)流的信息。兩者的關(guān)鍵區(qū)別在于它們的操作階段。高級別融合適用于已處理的傳感器檢測,而低級別融合適用于原始或最低處理的數(shù)據(jù)流本身。因此,低級別融合神經(jīng)網(wǎng)絡(luò)可以潛在地標識交叉?zhèn)鞲衅鲾?shù)據(jù)中在更高級別(例如,對象級別)處可能無法訪問的模式。然而,由于傳感器讀取域存在顯著差異(例如,圖像相機的2d視圖與點云的3d周圍視圖),將這兩個信息源關(guān)聯(lián)或組合在一起會帶來許多挑戰(zhàn)。
7、現(xiàn)有方法如avod、mv3d和pointfusion嘗試使用復(fù)雜的域映射技術(shù)來實現(xiàn)不同的多視圖方法。諸如centerfusion和futr3d之類的較新方法包括不同的架構(gòu),其中融合是在類似于centernet純視覺模型方法處理的相機圖像上進行的,但還包括來自雷達檢測的附加信息。首先,在圖像中預(yù)測2d中心點和對象特征,然后經(jīng)由frustum關(guān)聯(lián)機制將其與提取的雷達特征相關(guān)聯(lián)。兩個傳感器特征圖的融合導(dǎo)致最終的3d預(yù)測。
8、現(xiàn)有的傳感器融合方法在某些系統(tǒng)中實現(xiàn)在計算上是昂貴的?,F(xiàn)有的從2d圖像導(dǎo)出3d數(shù)據(jù)的方法可能過于復(fù)雜,并且不適合計算資源(例如,處理器帶寬、存儲器)可能有限(諸如在交通工具中)的嵌入式實現(xiàn)。
技術(shù)實現(xiàn)思路
1、本節(jié)提供了本公開的總體概述,但并未全面公開其全部范圍或其特征中的所有特征。
2、一種用于在交通工具周圍的物理環(huán)境的3d自由空間中執(zhí)行用于單目對象檢測的跨域空間匹配cdsm的交通工具系統(tǒng)的計算機實現(xiàn)的方法,方法包括:將至少一個輸入圖像從交通工具的相機接收到圖像處理網(wǎng)絡(luò)中,至少一個輸入圖像包括物理環(huán)境的像素信息的2d陣列;從輸入圖像的像素信息的2d陣列確定物理環(huán)境中的潛在目標的一組2d圖像特征;通過將cdsm旋轉(zhuǎn)應(yīng)用于2d圖像特征來將一組2d圖像特征變換為潛在目標的一組3d圖像特征,cdsm旋轉(zhuǎn)將2d圖像特征的橫軸和縱軸分別與3d鳥瞰圖bev網(wǎng)格的張量高度軸和張量寬度軸對齊,并且通過將cdsm聚合應(yīng)用于3d圖像特征來外推垂直于張量寬度軸和張量高度軸的張量通道軸的深度信息;生成潛在目標的一組聚合的3d特征,一組聚合的3d特征包括針對張量通道軸外推的深度信息;以及基于聚合的3d特征來檢測與潛在目標相關(guān)聯(lián)的一個或多個對象。
3、在其他特征中,確定一個或多個對象中的至少一個對象位于交通工具的行進路徑上。
4、在其他特征中,控制交通工具以避免與一個或多個對象中的至少一個對象碰撞。
5、在其他特征中,接收至少一個輸入圖像包括:將笛卡爾全局相機坐標系gccs置于相機的相機傳感器視場的中心。
6、在其他特征中,gccs包括:沿交通工具行進路徑限定的x軸;與x軸正交的y軸,y軸限定交通工具的寬度;以及限定張量通道軸的z軸。
7、在其他特征中,張量高度軸與gccs的x軸相對應(yīng),并且張量寬度軸與gccs的y軸相對應(yīng)。
8、在其他特征中,將cdsm旋轉(zhuǎn)應(yīng)用于2d圖像特征包括:通過將2d圖像特征繞z軸旋轉(zhuǎn)第一距離并且將gccs繞y軸旋轉(zhuǎn)第二距離來將2d圖像特征與gccs對齊。
9、在其他特征中,將2d卷積層應(yīng)用于bev網(wǎng)格,以生成經(jīng)細化的2d圖像特征;以及將經(jīng)細化的2d圖像特征傳遞到3d預(yù)測頭,以將經(jīng)細化的2d圖像特征處理成3d圖像特征。
10、一種用于在交通工具周圍的物理環(huán)境的3d自由空間中執(zhí)行用于單目對象檢測的跨域空間匹配cdsm的計算機系統(tǒng),計算機系統(tǒng)包括:圖像處理網(wǎng)絡(luò),圖像處理網(wǎng)絡(luò)用于將至少一個輸入圖像從交通工具的相機接收到網(wǎng)絡(luò)主干中,至少一個輸入圖像包括物理環(huán)境的像素信息的2d陣列;雙向特征金字塔網(wǎng)絡(luò),雙向特征金字塔網(wǎng)絡(luò)用于從輸入圖像的像素信息的2d陣列確定物理環(huán)境中的潛在目標的一組的2d圖像特征;以及cdsm系統(tǒng),cdsm系統(tǒng)用于通過將cdsm旋轉(zhuǎn)應(yīng)用于2d圖像特征來將一組2d圖像特征變換為潛在目標的一組3d圖像特征,cdsm旋轉(zhuǎn)將2d圖像特征的橫軸和縱軸分別與3d鳥瞰圖(bev)網(wǎng)格的張量高度軸和張量寬度軸對齊,并且通過將cdsm聚合應(yīng)用于3d圖像特征來外推垂直于張量寬度軸和張量高度軸的張量通道軸的深度信息。
11、在其他特征中,cdsm系統(tǒng):生成潛在目標的一組聚合的3d特征,一組聚合的3d特征包括針對張量通道軸外推的深度信息;并且基于聚合的3d特征來檢測與潛在目標相關(guān)聯(lián)的一個或多個對象。
12、在其他特征中,點云處理網(wǎng)絡(luò),點云處理網(wǎng)絡(luò)連接到激光雷達系統(tǒng)和雷達系統(tǒng)中的至少一個,點云處理系統(tǒng)從激光雷達系統(tǒng)和雷達系統(tǒng)中的至少一個接收表示交通工具周圍的物理環(huán)境的3d點云數(shù)據(jù)。
13、在其他特征中,體素特征提取器(vfe),vfe耦合到點云處理網(wǎng)絡(luò),點云處理網(wǎng)絡(luò)和vfe生成交通工具周圍的物理環(huán)境的多個3d特征圖。
14、在其他特征中,cdsm系統(tǒng)在cdsm融合塊中將2d圖像特征與3d特征圖融合,以生成潛在目標的一組聚合的3d特征。
15、在其他特征中,cdsm系統(tǒng)在潛在目標的bev網(wǎng)格中生成統(tǒng)一的輸出預(yù)測。
16、在其他特征中,cdsm系統(tǒng)將表示2d圖像特征的第一域中的空間信息與cdsm對齊塊中的表示3d特征圖的不同于第一域的第二域中的空間信息對齊,以將2d圖像特征與3d特征圖融合。
17、在其他特征中,cdsm系統(tǒng)確定與潛在目標相關(guān)聯(lián)的一個或多個對象中的至少一個對象位于交通工具的行進路徑上。
18、在其他特征中,cdsm系統(tǒng)控制交通工具以避免與一個或多個對象中的至少一個對象碰撞。
19、在其他特征中,當將至少一個輸入圖像接收到網(wǎng)絡(luò)主干中時,cdsm系統(tǒng)將笛卡爾全局相機坐標系gccs置于相機的相機傳感器視場的中心。
20、在其他特征中,cdsm系統(tǒng)將gccs限定為:沿交通工具行進路徑延伸的x軸;限定交通工具的寬度的與x軸正交的y軸;以及限定張量通道軸的z軸。
21、在其他特征中,cdsm中的張量高度軸與gccs的x軸相對應(yīng),并且cdsm中的張量寬度軸與gccs的y軸相對應(yīng)。
22、通過本文提供的描述,進一步的適用領(lǐng)域?qū)⒆兊蔑@而易見。本
技術(shù)實現(xiàn)要素:
中的描述和具體示例僅旨在說明的目的,而不旨在限制本公開的范圍。