本發(fā)明涉及車輛,特別是涉及一種基于transformer架構的自動駕駛軌跡預測方法、系統(tǒng)、電子設備、存儲介質及車輛。
背景技術:
1、目前,自動駕駛的運動預測是一項具有挑戰(zhàn)性的任務,其核心在于場景理解。駕駛場景的復雜性導致這個任務的輸入,是靜態(tài)和動態(tài)信息的異構混合。具體就是如何對有關道路幾何形狀、車道連通性、時變交通信號燈狀態(tài)、動態(tài)障礙物的歷史的信息以及他們之間的交互等多模輸入信息,進行特征表征、特征提取以及特征融合,這是非常關鍵而又懸而未決的問題。
2、現(xiàn)有技術的方案中,都需要針對不同類型的輸入信息,手工設計不同的特征表征模塊,特征前處理模塊,以及后續(xù)的特征融合模塊,這樣會導致整個系統(tǒng)難以進行拓展和延申,且難以在精度和性能之間進行調整。
3、一種處理方式是將場景輸入信息渲染為一張多通道柵格化的俯視圖[4,2,28,29,7,23],場景輸入元素之間的關系在自上而下的正交平面上呈現(xiàn),并通過時空卷積網(wǎng)絡進行建模。然而,卷積的局部結構非常適合于處理圖像輸入,但不能有效地捕捉長期的時空關系。
4、另一種處理方式是用時序處理技術(rnn或者時序cnn)對agent的歷史狀態(tài)進行建模,將道路元素近似為基本的原語(例如分段線性段)用姿態(tài)和語義信息對其進行編碼。然后所有實體之間的關系建模通常視為一個信息聚合過程,模型可以采用池化[23,34,31,35,10,28]、軟注意力[10,23]、或圖神經網(wǎng)絡[36,33,30]等結構來加以實現(xiàn)。但是rnn或者時序cnn這類時序處理技術的缺點在于無法并行計算,這會導致計算推理耗時較大;同時rnn不擅長處理過長序列,cnn的感受野有限,這也不利于agent之間的關系建模。
5、因此,本技術提供一種基于transformer架構的自動駕駛軌跡預測方法以解決上述技術問題。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于transformer架構的自動駕駛軌跡預測方法、系統(tǒng)、電子設備、存儲介質及車輛,用以解決現(xiàn)有技術中需要手動進行特征表征,導致難以進行拓展和延申,且難以在精度和性能之間進行調整的技術問題。
2、為了解決上述技術問題,本發(fā)明提供了一種基于transformer架構的自動駕駛軌跡預測方法,包括:
3、特征表達步驟,包括響應于自動駕駛運動預測所需的多模態(tài)輸入信息并進行相應的特征表征;
4、編碼處理步驟,包括響應于所述特征表征后的所述多模態(tài)輸入信息,提取出環(huán)境的深層次特征并進行編碼,得到環(huán)境特征表達;
5、軌跡特征提取步驟,包括響應于編碼后的所述環(huán)境特征表達,基于交叉注意力機制,提取軌跡特征,其中,所述軌跡特征包括用于軌跡預測的關鍵信息;
6、預測輸出步驟,包括響應于所述軌跡特征,預測多模態(tài)軌跡,其中,所述預測包括軌跡的概率、軌跡點的均值和方差。
7、在其中一些具體實施例中,特征表達步驟,包括響應于自動駕駛運動預測所需的多模態(tài)輸入信息并進行相應的特征表征,進一步包括:
8、確定agent?history,用于表征agent的歷史運動狀態(tài),包括每個agent在連續(xù)時間序列內的位置、速度和加速度數(shù)據(jù),形成歷史狀態(tài)信息;
9、確定agent?interaction,用于表征agent之間的交互關系,包括分析每個agent與其周圍agent的相對位置、速度和加速度,確定交互關系;
10、確定roadgragh,用于表征agent周圍的道路信息,包括提取agent周圍道路的幾何信息,并將幾何信息轉換為agent坐標系下的表示;
11、確定traffic?light?state,用于表征agent周圍交通燈的歷史信息,包括收集agent周圍交通燈的狀態(tài)信息,包括位置和顏色并轉換為agent坐標系下的表示;
12、基于每個確定的特征,生成相應的mask信息,以標識和處理缺失或不完整的數(shù)據(jù),確保特征表征的完整性和準確性。
13、在其中一些具體實施例中,編碼處理步驟,包括響應于所述特征表征后的所述多模態(tài)輸入信息,提取出環(huán)境的深層次特征并進行編碼,得到環(huán)境特征表達,進一步包括:
14、將特征表征后的所述多模態(tài)輸入信息輸入到scene?encoder中,其中sceneencoder由多個transformer?encoder?block組成;
15、對每個模態(tài)的輸入使用transformer?encoder?block進行特征提取,每個block包括多頭自注意力機制和前饋神經網(wǎng)絡;
16、根據(jù)融合策略,對不同模態(tài)的輸入信息進行聚合,其中,所述融合策略包括latefusion、early?fusion或hierarchical?fusion;
17、基于調整transformer?encoder?block的數(shù)量、序列長度和多頭自注意力的head數(shù)量參數(shù),控制模型復雜度和推理耗時。
18、在其中一些具體實施例中,軌跡特征提取步驟,包括響應于編碼后的所述環(huán)境特征表達,基于交叉注意力機制,提取軌跡特征,其中,所述軌跡特征包括用于軌跡預測的關鍵信息,進一步包括:
19、將編碼后的所述環(huán)境特征表達輸入到trajectory?decoder中;
20、使用多個transformer?decoder?layer進行特征提取,每個layer包括maskmultihead?self?attention、cross?multihead?selfattention和前饋神經網(wǎng)絡;
21、通過交叉注意力機制,從環(huán)境特征表達中提取軌跡特征;
22、使用可學習的query作為decoder的輸入,以提取用于軌跡預測的關鍵信息。
23、在其中一些具體實施例中,預測輸出步驟,包括響應于所述軌跡特征,預測多模態(tài)軌跡,其中,所述預測包括軌跡的概率、軌跡點的均值和方差,進一步包括:
24、將輸出的軌跡特征輸入到gmm?prediction?head中;
25、基于gmm?prediction?head的三個全連接層分支分別預測軌跡的概率、軌跡點的均值和方差;
26、根據(jù)預測結果生成多模態(tài)預測軌跡;
27、在模型訓練過程中,使用loss計算結合預測結果和真實軌跡數(shù)據(jù)計算軌跡分類loss和軌跡回歸loss,以優(yōu)化模型參數(shù)。
28、在其中一些具體實施例中,在所述特征表達步驟之前,所述方法還包括:
29、在模型訓練前,使用開源數(shù)據(jù)集進行數(shù)據(jù)處理,以獲得符合特征表征要求的輸入數(shù)據(jù);
30、在特定環(huán)境下收集實車數(shù)據(jù),對模型進行微調以適應實際駕駛場景;
31、根據(jù)模型訓練結果,調整模型參數(shù),以優(yōu)化預測精度和性能。
32、基于同一構思,本發(fā)明還提供一種基于transformer架構的自動駕駛軌跡預測系統(tǒng),包括:
33、特征表達模塊,配置為響應于自動駕駛運動預測所需的多模態(tài)輸入信息并進行相應的特征表征;
34、編碼處理模塊,配置為響應于所述特征表征后的所述多模態(tài)輸入信息,提取出環(huán)境的深層次特征并進行編碼,得到環(huán)境特征表達;
35、軌跡特征提取模塊,配置為響應于編碼后的所述環(huán)境特征表達,基于交叉注意力機制,提取軌跡特征,其中,所述軌跡特征包括用于軌跡預測的關鍵信息;
36、預測輸出模塊,配置為響應于所述軌跡特征,預測多模態(tài)軌跡,其中,所述預測包括軌跡的概率、軌跡點的均值和方差。
37、基于同一構思,本發(fā)明還提供一種電子設備,包括:處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;所述存儲器中存儲有計算機程序,當所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行基于transformer架構的自動駕駛軌跡預測方法的步驟。
38、基于同一構思,本發(fā)明還提供一種計算機可讀存儲介質,其存儲有可由電子設備執(zhí)行的計算機程序,當所述計算機程序在所述電子設備上運行時,使得所述電子設備執(zhí)行基于transformer架構的自動駕駛軌跡預測方法的步驟。
39、基于同一構思,本發(fā)明還提供一種車輛,所述車輛設置有如上所述的基于transformer架構的自動駕駛軌跡預測系統(tǒng)。
40、與現(xiàn)有技術相比,其有益效果在于,本發(fā)明公開了一種基于transformer架構的自動駕駛軌跡預測方法、系統(tǒng)、電子設備、存儲介質及車輛,能夠避免復雜、異構的架構設計,便于拓展;同時通過改變架構參數(shù),控制模型容量和算力消耗,在模型精度和性能之間求得平衡。