本技術(shù)涉及智能交通管理,尤其涉及一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法及相關(guān)裝置。
背景技術(shù):
1、隨著城市化進(jìn)程的加速,交通壓力和安全挑戰(zhàn)日益嚴(yán)峻,智能交通系統(tǒng)(its)作為應(yīng)對(duì)這些挑戰(zhàn)的關(guān)鍵技術(shù),正迅速發(fā)展。its通過集成先進(jìn)的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)以及計(jì)算機(jī)技術(shù),實(shí)現(xiàn)了對(duì)交通流動(dòng)的實(shí)時(shí)監(jiān)控、高效管理和科學(xué)引導(dǎo)。全息軌跡構(gòu)建技術(shù),作為its的重要組成部分,能夠全面捕捉和分析路口內(nèi)車輛的動(dòng)態(tài)行為,對(duì)于提升交通流的優(yōu)化和預(yù)測能力至關(guān)重要。
2、當(dāng)前,實(shí)現(xiàn)路口內(nèi)復(fù)雜全息軌跡構(gòu)建的主要技術(shù)方案依賴于雷視融合技術(shù)。該技術(shù)結(jié)合了雷達(dá)和視覺檢測設(shè)備的優(yōu)勢,能夠獲取車輛的位置、速度、運(yùn)動(dòng)方向以及外觀和車牌等特征信息。然而,在實(shí)際應(yīng)用中,由于視線遮擋、光照變化、距離限制等因素,視覺檢測設(shè)備往往無法連續(xù)或準(zhǔn)確地捕獲車輛軌跡,導(dǎo)致軌跡信息的不完整。
3、為了解決這些問題,當(dāng)前技術(shù)方案采用了軌跡修正方法。這種方法的核心在于設(shè)定預(yù)設(shè)軌跡,即根據(jù)道路設(shè)計(jì)和交通規(guī)則,為車輛設(shè)定一系列預(yù)期的行駛路徑和速度。在實(shí)際應(yīng)用中,系統(tǒng)首先通過雷達(dá)和視覺檢測設(shè)備獲取車輛的實(shí)際行駛數(shù)據(jù),然后將這些數(shù)據(jù)與預(yù)設(shè)軌跡進(jìn)行對(duì)比和分析。當(dāng)發(fā)現(xiàn)實(shí)際軌跡與預(yù)設(shè)軌跡存在偏差時(shí),系統(tǒng)會(huì)利用算法進(jìn)行軌跡修正,以模擬和還原車輛在路口的真實(shí)行駛狀態(tài)。
4、然而,盡管軌跡修正方法在一定程度上緩解了檢測誤差,但其仍存在局限性。一方面,預(yù)設(shè)軌跡的設(shè)定依賴于道路設(shè)計(jì)和交通規(guī)則,缺乏對(duì)車輛行為的深入學(xué)習(xí)和理解。因此,在復(fù)雜交通環(huán)境中,特別是交通流量大、交通事件突發(fā)的情況下,預(yù)設(shè)軌跡的預(yù)測準(zhǔn)確性可能受限。另一方面,軌跡修正方法主要依賴于算法對(duì)實(shí)際軌跡與預(yù)設(shè)軌跡的對(duì)比和分析,缺乏對(duì)車輛行駛意圖和路徑的實(shí)時(shí)預(yù)測能力。這限制了全息軌跡構(gòu)建技術(shù)在應(yīng)對(duì)突發(fā)交通事件和復(fù)雜交通場景方面的能力。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本技術(shù)提供了一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法及相關(guān)裝置,以實(shí)現(xiàn)更好的應(yīng)對(duì)突發(fā)交通事件和復(fù)雜交通場景的目的。具體方案如下:
2、本技術(shù)第一方面提供一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法,包括:
3、獲得目標(biāo)車輛的初始軌跡數(shù)據(jù);
4、確定所述目標(biāo)車輛的目標(biāo)流向;
5、基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個(gè)車道中篩選目標(biāo)車道;
6、如果所述初始軌跡數(shù)據(jù)滿足修正條件,從路口的配置信息中提取所述目標(biāo)車道的車道信息,并基于所述初始軌跡數(shù)據(jù),獲得所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息和當(dāng)前運(yùn)動(dòng)信息;
7、將所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運(yùn)動(dòng)信息及所述目標(biāo)車道的車道信息輸入至生成對(duì)抗模仿學(xué)習(xí)模型,得到所述生成對(duì)抗模仿學(xué)習(xí)模型確定的目標(biāo)軌跡數(shù)據(jù);
8、基于所述目標(biāo)軌跡數(shù)據(jù),對(duì)所述初始軌跡數(shù)據(jù)進(jìn)行修正。
9、在一種可能的實(shí)現(xiàn)中,確定所述目標(biāo)車輛的目標(biāo)流向,包括:
10、如果所述目標(biāo)車輛已鎖流向,則將所述目標(biāo)車輛已鎖定的流向作為所述目標(biāo)車輛的目標(biāo)流向;
11、如果所述目標(biāo)車輛未鎖流向,且所述目標(biāo)車輛的進(jìn)口道車道流向配置為單流向,則將所述單流向作為所述目標(biāo)車輛的目標(biāo)流向;
12、如果所述目標(biāo)車輛未鎖流向,且所述目標(biāo)車輛的進(jìn)口道車道流向配置為多流向,則通過比較所述多流向中各流向?qū)?yīng)的車流量,從所述多流向中選擇車流量最大的流向作為所述目標(biāo)車輛的目標(biāo)流向;
13、如果所述多流向中各流向?qū)?yīng)的車流量一致,基于所述目標(biāo)車輛的歷史軌跡,確定臨時(shí)目標(biāo)點(diǎn),如果所述臨時(shí)目標(biāo)點(diǎn)位于所述多流向中其中一個(gè)流向中,將所述多流向中包含所述臨時(shí)目標(biāo)點(diǎn)的流向作為所述目標(biāo)車輛的目標(biāo)流向。
14、在一種可能的實(shí)現(xiàn)中,基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個(gè)車道中篩選目標(biāo)車道,包括:
15、基于所述初始軌跡數(shù)據(jù)中所述目標(biāo)車輛當(dāng)前所處軌跡點(diǎn),確定所述目標(biāo)車輛的最新軌跡航向角;
16、獲取所述目標(biāo)車輛的目標(biāo)流向所對(duì)應(yīng)的出口道航向角;
17、確定所述最新軌跡航向角和所述出口道航向角的平均夾角;
18、確定所述目標(biāo)流向?qū)?yīng)的至少一個(gè)車道中各車道的目標(biāo)點(diǎn)和所述目標(biāo)車輛當(dāng)前所處軌跡點(diǎn)之間的角度,將所述角度與所述平均夾角之差最小的車道作為目標(biāo)車道。
19、在一種可能的實(shí)現(xiàn)中,所述初始軌跡數(shù)據(jù)滿足修正條件通過以下方式判斷得到:
20、確定所述初始軌跡數(shù)據(jù)中進(jìn)入所述目標(biāo)車道的路口內(nèi)的第一個(gè)初始軌跡點(diǎn)和所述目標(biāo)車道的目標(biāo)點(diǎn)之間的第一距離;
21、確定所述初始軌跡數(shù)據(jù)中所述目標(biāo)車輛當(dāng)前所處軌跡點(diǎn)和所述第一個(gè)初始軌跡點(diǎn)之間的第二距離;
22、如果所述目標(biāo)流向?yàn)樽筠D(zhuǎn)流向,如果所述第二距離和所述第一距離的比值不小于左轉(zhuǎn)閾值,則滿足修正條件;
23、如果所述目標(biāo)流向?yàn)橛肄D(zhuǎn)流向,如果所述第二距離和所述第一距離的比值不小于右轉(zhuǎn)閾值,則滿足修正條件;
24、如果所述目標(biāo)流向?yàn)橹毙辛飨颍绻龅诙嚯x和所述第一距離的比值不小于直行閾值,且所述目標(biāo)車輛在視覺跟蹤中失效,則滿足修正條件;
25、如果所述目標(biāo)流向?yàn)榈纛^流向,如果所述目標(biāo)車輛在視覺跟蹤中失效,則滿足修正條件。
26、在一種可能的實(shí)現(xiàn)中,所述生成對(duì)抗模仿學(xué)習(xí)模型基于對(duì)抗網(wǎng)絡(luò)訓(xùn)練得到,所述對(duì)抗網(wǎng)絡(luò)包括生成器和評(píng)判器;
27、所述生成對(duì)抗模仿學(xué)習(xí)模型基于所述對(duì)抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程,包括:
28、獲取路口的車輛行駛軌跡,并基于所述路口的車輛行駛軌跡確定專家的狀態(tài)動(dòng)作對(duì);
29、在當(dāng)前時(shí)刻,按照課程分布集的設(shè)定采樣出個(gè)車輛,作為多個(gè)樣本車輛;
30、獲取所述多個(gè)樣本車輛中各所述樣本車輛在當(dāng)前位置的樣本信息;所述樣本信息包括:所述樣本車輛在當(dāng)前位置的位置信息和運(yùn)動(dòng)信息及其周圍樣本車輛的位置信息和運(yùn)動(dòng)信息及目標(biāo)樣本車道的車道信息;
31、根據(jù)所述生成器的當(dāng)前策略對(duì)各樣本車輛對(duì)應(yīng)的樣本信息進(jìn)行處理,生成各所述樣本車輛的軌跡;
32、確定各所述樣本車輛的軌跡對(duì)應(yīng)的懲罰值;
33、基于所述評(píng)判器為各所述樣本車輛的軌跡中的每個(gè)狀態(tài)動(dòng)作對(duì)進(jìn)行評(píng)分,生成各所述樣本車輛的獎(jiǎng)勵(lì)值;所述獎(jiǎng)勵(lì)值通過以下方式確定得到:
34、
35、其中,表示評(píng)判器在參數(shù)下根據(jù)狀態(tài)動(dòng)作對(duì)得出的值,表示所述樣本車輛的軌跡對(duì)應(yīng)的懲罰值;
36、保持所述評(píng)判器的參數(shù)不變,基于信賴域優(yōu)化方法更新所述生成器的策略參數(shù);基于信賴域優(yōu)化方法更新所述生成器的策略參數(shù),包括:對(duì)以下約束優(yōu)化問題進(jìn)行求解:
37、;
38、其中,表示策略的參數(shù);表示期望;表示在時(shí)刻采取的當(dāng)前策略,其根據(jù)舊參數(shù)定義的;表示新策略;表示當(dāng)前策略在時(shí)刻下在觀察條件下采取動(dòng)作的概率;表示新策略在時(shí)刻下在觀察條件下采取動(dòng)作的概率;表示當(dāng)前策略在觀察條件下采取動(dòng)作的概率分布;表示新策略在觀察條件下采取動(dòng)作的概率分布;表示和之間的kl(kullback-leibler)散度;表示步長參數(shù),用于控制每次優(yōu)化步驟中策略的最大變化量;表示優(yōu)勢函數(shù),用于衡量觀察條件下采取動(dòng)作的動(dòng)作價(jià)值期望與觀測器估計(jì)的狀態(tài)價(jià)值期望之間的差異程度;動(dòng)作表示所述樣本車輛根據(jù)策略采取的行為;
39、所述優(yōu)勢函數(shù)通過以下廣義優(yōu)勢估計(jì)方法進(jìn)行估計(jì)得到:
40、
41、其中,表示折扣率;是介于0和1之間的參數(shù),用于平衡td(temporaldifference)誤差的權(quán)重;表示評(píng)判器確定的獎(jiǎng)勵(lì)值;和分別表示在時(shí)刻和時(shí)刻的狀態(tài)價(jià)值期望;
42、保持所述生成器的策略參數(shù)不變,基于所述專家的狀態(tài)動(dòng)作對(duì)和所述生成器的新策略生成的狀態(tài)動(dòng)作對(duì),更新所述評(píng)判器的評(píng)判參數(shù);所述評(píng)判器的評(píng)判參數(shù)通過以下目標(biāo)函數(shù)進(jìn)行更新:
43、
44、其中,表示專家策略,表示所述新策略,表示在執(zhí)行策略時(shí)狀態(tài)動(dòng)作對(duì)被訪問到的概率;表示在策略下時(shí)間處于狀態(tài)的概率;表示基于當(dāng)前策略在狀態(tài)下采取動(dòng)作的概率;表示在執(zhí)行策略時(shí)狀態(tài)動(dòng)作對(duì)被訪問到的概率;表示在策略下時(shí)間處于狀態(tài)的概率;表示基于專家策略在狀態(tài)下采取動(dòng)作的概率;是的簡化表達(dá),表示評(píng)判器在參數(shù)下根據(jù)狀態(tài)動(dòng)作對(duì)得出的值。
45、在一種可能的實(shí)現(xiàn)中,確定各所述樣本車輛的軌跡對(duì)應(yīng)的懲罰值,包括:
46、通過懲罰函數(shù),確定各所述樣本車輛的軌跡對(duì)應(yīng)的懲罰值;
47、其中,表示任意兩個(gè)樣本車輛之間最小距離,1表示碰撞懲罰值,表示樣本車輛距道路邊緣最近距離,,表示樣本車輛距離道路左邊緣最近距離,表示樣本車輛距離道路右邊緣最近距離,表示距離懲罰值,表示不滿足車輛運(yùn)動(dòng)學(xué)約束,表示約束懲罰值,表示急剎車懲罰值,表示加速度。
48、在一種可能的實(shí)現(xiàn)中,所述碰撞懲罰值通過以下方式確定得到:
49、從所述樣本車輛的軌跡中提取前n個(gè)連續(xù)的位置點(diǎn);
50、針對(duì)所述前n個(gè)連續(xù)的位置點(diǎn)中各位置點(diǎn),如果所述樣本車輛在移動(dòng)到所述位置點(diǎn)之前與其周圍車輛未發(fā)生碰撞,但在所述位置點(diǎn)與其周圍車輛發(fā)生碰撞,將所述位置點(diǎn)標(biāo)記為異常;如果所述樣本車輛在移動(dòng)到所述位置點(diǎn)之前與其周圍車輛未發(fā)生碰撞,且在所述位置點(diǎn)與其周圍車輛未發(fā)生碰撞,將所述位置點(diǎn)標(biāo)記為候選;
51、如果所述前n個(gè)連續(xù)的位置點(diǎn)中各位置點(diǎn)中存在標(biāo)記為候選的位置點(diǎn),將標(biāo)記為候選的位置點(diǎn)中排列在最后的位置點(diǎn)作為所述樣本車輛的新的當(dāng)前位置,并確定標(biāo)記為異常的位置點(diǎn)對(duì)應(yīng)的懲罰值,將標(biāo)記為異常的位置點(diǎn)對(duì)應(yīng)的懲罰值進(jìn)行累加,得到碰撞懲罰值;
52、如果所述前n個(gè)連續(xù)的位置點(diǎn)均標(biāo)記為異常,將所述前n個(gè)連續(xù)的位置點(diǎn)中第一個(gè)位置點(diǎn)作為所述樣本車輛的新的當(dāng)前位置,并確定標(biāo)記為異常的位置點(diǎn)對(duì)應(yīng)的懲罰值,將標(biāo)記為異常的位置點(diǎn)對(duì)應(yīng)的懲罰值進(jìn)行累加,得到碰撞懲罰值。
53、本技術(shù)另一方面提供一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化裝置,包括:
54、第一獲得模塊,用于獲得目標(biāo)車輛的初始軌跡數(shù)據(jù);
55、第一確定模塊,用于確定所述目標(biāo)車輛的目標(biāo)流向;
56、篩選模塊,用于基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個(gè)車道中篩選目標(biāo)車道;
57、第二獲得模塊,用于如果所述初始軌跡數(shù)據(jù)滿足修正條件,從路口的配置信息中提取所述目標(biāo)車道的車道信息,并基于所述初始軌跡數(shù)據(jù),獲得所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息和當(dāng)前運(yùn)動(dòng)信息;
58、第二確定模塊,用于將所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運(yùn)動(dòng)信息及所述目標(biāo)車道的車道信息輸入至生成對(duì)抗模仿學(xué)習(xí)模型,得到所述生成對(duì)抗模仿學(xué)習(xí)模型確定的目標(biāo)軌跡數(shù)據(jù);
59、修正模塊,用于基于所述目標(biāo)軌跡數(shù)據(jù),對(duì)所述初始軌跡數(shù)據(jù)進(jìn)行修正。
60、本技術(shù)第三方面提供一種電子設(shè)備,包括:
61、存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
62、處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)如上述任意一項(xiàng)所述的基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法。
63、本技術(shù)第四方面提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備能夠?qū)崿F(xiàn)如上述任意一項(xiàng)所述的基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法。
64、在本技術(shù)中,通過對(duì)生成對(duì)抗模仿學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成對(duì)抗模仿學(xué)習(xí)模型可以學(xué)習(xí)如何根據(jù)車輛當(dāng)前的位置、速度、運(yùn)動(dòng)方向以及周圍車輛的動(dòng)態(tài)變化來預(yù)測車輛未來的行駛意圖和路徑。因此,將目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運(yùn)動(dòng)信息及目標(biāo)車道的車道信息輸入至生成對(duì)抗模仿學(xué)習(xí)模型,生成對(duì)抗模仿學(xué)習(xí)模型能夠生成更加準(zhǔn)確和可靠的目標(biāo)軌跡數(shù)據(jù),因此,目標(biāo)軌跡數(shù)據(jù)可以對(duì)通過雷達(dá)設(shè)備和視覺檢測設(shè)備確定的不完整或偏差的車輛軌跡進(jìn)行智能修正,以應(yīng)對(duì)視線遮擋、光照變化和距離過遠(yuǎn)等問題,從而實(shí)現(xiàn)對(duì)路口內(nèi)車輛運(yùn)動(dòng)狀態(tài)的連續(xù)和準(zhǔn)確捕捉。以及,利用生成對(duì)抗模仿學(xué)習(xí)模型深入學(xué)習(xí)和理解車輛行為,可以摒棄對(duì)預(yù)設(shè)軌跡的依賴,實(shí)現(xiàn)對(duì)車輛行駛意圖和路徑的準(zhǔn)確預(yù)測,可以更好的應(yīng)對(duì)突發(fā)交通事件和復(fù)雜交通場景。以及,通過生成對(duì)抗模仿學(xué)習(xí)模型,可以優(yōu)化數(shù)據(jù)在復(fù)雜交通場景下的融合過程,如交通擁堵情況下的雷視融合精度和適應(yīng)性。