本發(fā)明屬于自動(dòng)駕駛,特別是涉及一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法。
背景技術(shù):
1、當(dāng)前3d占用預(yù)測(cè)方法主要利用3d體素真值對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)。然而,對(duì)3d體素進(jìn)行標(biāo)注成本高昂且極具挑戰(zhàn)性。相關(guān)研究表明,采用預(yù)先標(biāo)注的激光雷達(dá)數(shù)據(jù)生成初步的3d體素真值后,完成這些真值的后處理仍需要約4000小時(shí)的人工勞動(dòng)。這些問(wèn)題限制了3d占用預(yù)測(cè)方法的可用性和可擴(kuò)展性。鑒于周視相機(jī)的成本優(yōu)勢(shì)以及圖像具有豐富語(yǔ)義信息的特點(diǎn),采用2d真值來(lái)監(jiān)督3d占用預(yù)測(cè)模型的方法逐漸受到更多關(guān)注。
2、在最近的研究中,基于2d真值監(jiān)督的3d占用預(yù)測(cè)方法多采用nerf的體渲染技術(shù),將3d占用預(yù)測(cè)結(jié)果渲染為2d語(yǔ)義與深度圖。這類方法通過(guò)最小化渲染圖與2d真值的損失來(lái)優(yōu)化模型。
3、然而,這種監(jiān)督方式也繼承了nerf體渲染的局限性。每個(gè)2d像素真值僅對(duì)應(yīng)從相機(jī)光線出發(fā)的,經(jīng)過(guò)該像素中心的單一光線,離相機(jī)光心較遠(yuǎn)的3d占用因?yàn)槠涑叨容^小,nerf模型在該區(qū)域的采樣點(diǎn)較少,導(dǎo)致無(wú)法對(duì)其進(jìn)行有效監(jiān)督。此外nerf采用均勻采樣策略,遠(yuǎn)處物體的細(xì)節(jié)解析度遠(yuǎn)不如近處物體,使得模型在尺度變化較大的場(chǎng)景中表現(xiàn)不佳。此外,每個(gè)真值像素均對(duì)應(yīng)于一條光線,故體渲染的計(jì)算開(kāi)銷(xiāo)與真值像素密度相關(guān),通常需要對(duì)光線數(shù)量設(shè)置上限,從而影響了真值利用率與模型性能。
4、同時(shí)訓(xùn)練3d占用預(yù)測(cè)模型時(shí)一種直觀的方法是將多幀lidar點(diǎn)云直接轉(zhuǎn)換到統(tǒng)一的坐標(biāo)系進(jìn)行加密,然后將得到的密集點(diǎn)云投影到相機(jī)視角以生成密集2d真值,這種簡(jiǎn)單的解決思路僅適合于靜態(tài)場(chǎng)景,而場(chǎng)景中的的車(chē)輛、行人等往往是動(dòng)態(tài)變化的,其在不同幀中的位置會(huì)有所不同,會(huì)導(dǎo)致前景目標(biāo)真值在出現(xiàn)重疊、模糊或其他錯(cuò)誤的情況,進(jìn)而產(chǎn)生錯(cuò)誤的2d真值。
5、因此針對(duì)上述技術(shù)問(wèn)題仍未有有效的技術(shù)方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于提供一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,提高了預(yù)測(cè)準(zhǔn)確率,提高了訓(xùn)練速度。
2、為了實(shí)現(xiàn)本發(fā)明目的,本發(fā)明提供了一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,包括以下步驟:
3、步驟1、利用2d圖像特征提取網(wǎng)絡(luò)對(duì)多視角rbg圖像進(jìn)行2d特征提??;
4、步驟2、通過(guò)深度預(yù)測(cè)網(wǎng)絡(luò)將所述2d圖像特征轉(zhuǎn)換為3d特征;
5、步驟3、利用3d特征提取網(wǎng)絡(luò)提取所述3d特征;
6、步驟4、將所述3d特征進(jìn)行3d高斯濺射,后渲染到最后的2d圖像;
7、步驟4.1:設(shè)置參數(shù)并將3d特征轉(zhuǎn)換為3d高斯表示:利用兩個(gè)mlp完成3d高斯的不透明度與3d高斯語(yǔ)義的預(yù)測(cè),并設(shè)置3d高斯的縮放矩陣參數(shù)、旋轉(zhuǎn)矩陣參數(shù)及中心坐標(biāo)參數(shù);
8、步驟4.2:將3d高斯投影為圖像平面上的2d高斯,獲得2d渲染所需的信息:
9、步驟4.2.1:將3d高斯中心點(diǎn)投影到像素坐標(biāo)系;
10、步驟4.2.2:利用縮放矩陣和旋轉(zhuǎn)矩陣計(jì)算3d協(xié)方差矩陣;
11、步驟4.2.3:將所述3d協(xié)方差矩陣轉(zhuǎn)換為2d協(xié)方差矩陣,最終獲得所述2d渲染所需的信息;
12、步驟4.3:將所述2d高斯渲染到2d圖像:
13、步驟4.3.1:為2d高斯覆蓋的區(qū)塊生成交互id并排序:
14、步驟4.3.2:根據(jù)不透明度與顏色進(jìn)行渲染。
15、步驟5、設(shè)置損失函數(shù),利用2d真值進(jìn)行監(jiān)督:所述損失函數(shù)包括交叉熵?fù)p失函數(shù)、silog?損失函數(shù);
16、步驟6、構(gòu)建密集2d語(yǔ)義與深度真值數(shù)據(jù)集;通過(guò)結(jié)合現(xiàn)有的3d檢測(cè)框和3d激光雷達(dá)點(diǎn)云語(yǔ)義分割標(biāo)簽,生成密集2d語(yǔ)義與深度真值,用于訓(xùn)練3d占用預(yù)測(cè)模型;
17、步驟6.1:對(duì)前景與背景分別聚合當(dāng)前場(chǎng)景點(diǎn)云,得到所述場(chǎng)景的前景點(diǎn)云字典與背景密集點(diǎn)云;
18、步驟6.2:分發(fā)所述前景點(diǎn)云字典與所述背景密集點(diǎn)云到各幀生成的3d密集點(diǎn)云:利用相機(jī)內(nèi)外參將當(dāng)前幀的密集點(diǎn)云投影到圖像平面得到密集的2d真值;
19、步驟6.3:消除所述2d真值中的歧義。
20、與現(xiàn)有技術(shù)相比,本發(fā)明的顯著進(jìn)步在于:(1)本發(fā)明利用3d高斯濺射,在只使用2d真值的情況下對(duì)3d占用預(yù)測(cè)進(jìn)行監(jiān)督,提高了訓(xùn)練速度以及預(yù)測(cè)準(zhǔn)確率;(2)本發(fā)明還提出了一種對(duì)應(yīng)的密集2d語(yǔ)義與深度真值數(shù)據(jù)集的構(gòu)建方法,根據(jù)此方法生成的額數(shù)據(jù)更加密集,也更適用于本發(fā)明提出的基于3d高斯濺射的周視3d占用預(yù)測(cè)方法。
21、為更清楚說(shuō)明本發(fā)明的功能特性以及結(jié)構(gòu)參數(shù),下面結(jié)合附圖及具體實(shí)施方式進(jìn)一步說(shuō)明。
1.一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟4.2.1為:
4.根據(jù)權(quán)利要求3所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟4.2.2為:
5.根據(jù)權(quán)利要求4所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟4.2.3為:
6.根據(jù)權(quán)利要求2所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟4.3.1為:所述交互id是區(qū)塊序號(hào)與2d高斯中心點(diǎn),即區(qū)塊id,的深度組合得到的64位整數(shù),具體的:所述區(qū)塊id被左移32位,為深度值留出了低32位的位置,然后所述區(qū)塊id與所述深度值按位進(jìn)行或操作,合并成64位的整數(shù)。
7.根據(jù)權(quán)利要求6所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟4.3.2為:對(duì)于圖像中的每個(gè)像素,需要將其對(duì)應(yīng)光錐內(nèi)所有3d高斯的顏色進(jìn)行加權(quán),以此作為其渲染結(jié)果;計(jì)算像素i的顏色的公式如下所示:
8.根據(jù)權(quán)利要求1所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟6為基于nuscenes數(shù)據(jù)集提出的一種密集2d語(yǔ)義與深度真值數(shù)據(jù)集的構(gòu)建方法:
9.根據(jù)權(quán)利要求8所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟6.1包括以下步驟:
10.根據(jù)權(quán)利要求8所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟6.2包括以下步驟:
11.根據(jù)權(quán)利要求8所述的一種基于3d高斯濺射的周視3d占用預(yù)測(cè)方法,其特征在于,所述步驟6.3包括以下步驟: