本技術涉及智能駕駛,具體而言,涉及一種用于訓練決策規(guī)劃模型的駕駛數(shù)據生成方法及相關裝置。
背景技術:
1、自動駕駛技術是指通過計算機視覺、傳感器和控制系統(tǒng)等技術手段實現(xiàn)汽車自主行駛的技術。它可以幫助車輛感知周圍的環(huán)境信息,包括路況、交通信號、其他車輛和行人,然后根據這些信息自動調整行駛方向、速度、距離和安全距離等參數(shù),從而使車輛更加安全地行駛。
2、ai(artificial?intelligence,人工智能)是實現(xiàn)自動駕駛技術的關鍵因素之一。車輛必須能夠感知、分析和預測各種路況信息,才能做出最佳決策并保證行駛安全。為了實現(xiàn)自動決策規(guī)劃,通常需要收集專家在各種駕駛場景的駕駛數(shù)據作為訓練樣本集進行模型訓練,獲得決策規(guī)劃模型。但是,若想獲得一個高質量的決策規(guī)劃模型,可能需要升級多個版本,每個版本都需要重新找駕駛技術更優(yōu)的專家專門駕駛模型效果不好場景,并利用重新收集的駕駛數(shù)據對上一版本的決策規(guī)劃模型進行升級,所需的人工成本和時間成本較高。
技術實現(xiàn)思路
1、本技術提供了一種用于訓練決策規(guī)劃模型的駕駛數(shù)據生成方法及相關裝置,能夠降低獲取高質量駕駛數(shù)據的人工成本和時間成本。
2、具體的技術方案如下:
3、第一方面,本技術實施例提供了一種用于訓練決策規(guī)劃模型的駕駛數(shù)據生成方法,所述方法包括:
4、建立仿真場景庫,其中,所述仿真場景庫包括專家駕駛數(shù)據包集合、第一駕駛數(shù)據包集合、第二駕駛數(shù)據包集合和第三駕駛數(shù)據包集合中至少一項,所述第一駕駛數(shù)據包集合包括基于第一決策規(guī)劃模型進行實車自動駕駛過程中記錄的不滿足目標駕駛場景駕駛需求的駕駛數(shù)據包,所述第二駕駛數(shù)據包集合包括將所述專家駕駛數(shù)據包集合中每個駕駛數(shù)據包的他車信息刪除后的駕駛數(shù)據包,所述第三駕駛數(shù)據包集合包括從第一訓練樣本集合中篩選出的不滿足所述目標駕駛場景駕駛需求的駕駛數(shù)據包,所述第一決策規(guī)劃模型為利用所述第一訓練樣本集合訓練的決策規(guī)劃模型;
5、利用所述第一決策規(guī)劃模型和所述仿真場景庫進行自動駕駛仿真,獲得異常數(shù)據包集合,其中,所述異常數(shù)據包集合為不滿足所述目標駕駛場景駕駛需求的數(shù)據包集合;
6、基于決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合,其中,所述目標數(shù)據包集合包括對所述異常數(shù)據包集合中不滿足所述目標駕駛場景駕駛需求的駕駛數(shù)據進行糾正后的駕駛數(shù)據包。
7、通過上述方案可知,本技術實施例可以先利用專家駕駛數(shù)據包集合、基于第一決策規(guī)劃模型進行實車自動駕駛過程中記錄的不滿足目標駕駛場景駕駛需求的第一駕駛數(shù)據包集合、將專家駕駛數(shù)據包集合中每個駕駛數(shù)據包的他車信息刪除后的第二駕駛數(shù)據包集合、從第一訓練樣本集合中篩選出的不滿足目標駕駛場景駕駛需求的第三駕駛數(shù)據包集合中至少一項建立仿真場景庫,然后利用第一決策規(guī)劃模型和仿真場景庫進行自動駕駛仿真,獲得異常數(shù)據包集合,最后基于決策規(guī)劃規(guī)則和異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合,以便利用目標數(shù)據包集合對第一決策規(guī)劃模型進行糾正,獲得更高質量的第二決策規(guī)劃模型。由此可知,本技術實施例在對舊版本決策規(guī)劃模型升級時,并沒有尋找駕駛技術更優(yōu)的專家進行人工駕駛,而是利用已經采集到的駕駛數(shù)據包篩選異常駕駛數(shù)據包,并利用傳統(tǒng)規(guī)則算法(即決策規(guī)劃規(guī)則)對異常駕駛數(shù)據包進行仿真,實現(xiàn)對異常駕駛數(shù)據包的糾正,獲得仿真出的高質量駕駛數(shù)據包用于優(yōu)化深度學習模型(即決策規(guī)劃模型),整個過程無需花費人工時間,從而可以降低獲取高質量駕駛數(shù)據的人工成本和時間成本。
8、在第一方面的第一種可能的實現(xiàn)方式中,在基于決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合之后,所述方法還包括:
9、將所述目標數(shù)據包集合轉換成符合模型訓練格式的第二訓練樣本集合,以便利用所述第二訓練樣本集合對所述第一決策規(guī)劃模型進行訓練,獲得第二決策規(guī)劃模型。
10、通過上述方案可知,本技術實施例在基于決策規(guī)劃規(guī)則和異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合之后,先將目標數(shù)據包集合轉換成符合模型訓練格式的第二訓練樣本集合,再利用第二訓練樣本集合對第一決策規(guī)劃模型進行訓練,獲得第二決策規(guī)劃模型,從而提高了第一決策規(guī)劃模型的訓練效率。
11、在第一方面的第二種可能的實現(xiàn)方式中,當所述目標駕駛場景包括定速巡航時,在利用所述第二訓練樣本集合對所述第一決策規(guī)劃模型進行訓練,獲得第二決策規(guī)劃模型之前,所述方法還包括:
12、過濾所述第二訓練樣本集合中不滿足定速巡航駕駛需求的駕駛數(shù)據;
13、其中,不滿足所述定速巡航駕駛需求的駕駛數(shù)據包括以下至少一項:
14、自車相鄰兩個車道內有分匯流場景;
15、所述自車前方預設距離范圍內有他車;
16、所述自車與自車道前車的車頭時距小于預設時距閾值;
17、所述自車道前車的車速與所述自車的車速之差小于預設車速閾值。
18、通過上述方案可知,本技術實施例通過在利用第二訓練樣本集合對第一決策規(guī)劃模型進行訓練之前,先對過濾第二訓練樣本集合中加速就會存在碰撞風險的駕駛數(shù)據,從而可以提高針對定速巡航場景的決策規(guī)劃模型的準確性。
19、在第一方面的第三種可能的實現(xiàn)方式中,所述仿真場景庫中每個所述駕駛數(shù)據包中包括地圖信息,所述地圖信息的獲取方法包括:
20、針對未添加地圖信息的每個所述駕駛數(shù)據包,從未添加地圖信息的所述駕駛數(shù)據包中獲取地標感知模型的輸入數(shù)據,其中,所述輸入數(shù)據包括目標時刻的道路環(huán)境圖像和所述目標時刻的本地位姿,所述本地位姿包括采集所述道路環(huán)境圖像時自車的全局位姿相對于目標起始點時全局位姿的偏移量,所述目標時刻為所述自車在拓展導航路徑上采集所述道路環(huán)境圖像時的任一時刻,所述拓展導航路徑包括車載導航路徑的拓展路徑;
21、基于所述地標感知模型對所述輸入數(shù)據進行處理,獲得未添加地圖信息的所述駕駛數(shù)據包中所述目標時刻的所述道路環(huán)境圖像中包含的所述地標信息;
22、基于未添加地圖信息的所述駕駛數(shù)據包中每個所述道路環(huán)境圖像中包含的所述地標信息,生成未添加地圖信息的所述駕駛數(shù)據包對應的地圖信息。
23、通過上述方案可知,本技術實施例不但可以基于預先訓練得到的地標感知模型自動感知出任一時刻的道路環(huán)境圖像中包含的地標信息,而且地標感知模型的輸入數(shù)據僅包括道路環(huán)境圖像和本地位姿,而與高精地圖無關,所以可以在擺脫高精地圖的情況下,獲得地標信息構成的局部地圖信息。
24、在第一方面的第四種可能的實現(xiàn)方式中,當所述目標駕駛場景包括定速巡航時,所述基于決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合,包括:
25、基于所述決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得滿足定速巡航駕駛需求的駕駛軌跡;
26、將所述滿足定速巡航駕駛需求的駕駛軌跡替換所述異常數(shù)據包集合中對應的不滿足定速巡航駕駛需求的駕駛軌跡,獲得所述目標數(shù)據包集合。
27、第二方面,本技術實施例提供了一種用于訓練決策規(guī)劃模型的駕駛數(shù)據生成裝置,所述裝置包括:
28、建立單元,用于建立仿真場景庫,其中,所述仿真場景庫包括專家駕駛數(shù)據包集合、第一駕駛數(shù)據包集合、第二駕駛數(shù)據包集合和第三駕駛數(shù)據包集合中至少一項,所述第一駕駛數(shù)據包集合包括基于第一決策規(guī)劃模型進行實車自動駕駛過程中記錄的不滿足目標駕駛場景駕駛需求的駕駛數(shù)據包,所述第二駕駛數(shù)據包集合包括將所述專家駕駛數(shù)據包集合中每個駕駛數(shù)據包的他車信息刪除后的駕駛數(shù)據包,所述第三駕駛數(shù)據包集合包括從第一訓練樣本集合中篩選出的不滿足所述目標駕駛場景駕駛需求的駕駛數(shù)據包,所述第一決策規(guī)劃模型為利用所述第一訓練樣本集合訓練的決策規(guī)劃模型;
29、第一仿真單元,用于利用所述第一決策規(guī)劃模型和所述仿真場景庫進行自動駕駛仿真,獲得異常數(shù)據包集合,其中,所述異常數(shù)據包集合為不滿足所述目標駕駛場景駕駛需求的數(shù)據包集合;
30、第二仿真單元,用于基于決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合,其中,所述目標數(shù)據包集合包括對所述異常數(shù)據包集合中不滿足所述目標駕駛場景駕駛需求的駕駛數(shù)據進行糾正后的駕駛數(shù)據包。
31、在第二方面的第一種可能的實現(xiàn)方式中,所述裝置還包括:
32、轉換單元,用于在基于決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合之后,將所述目標數(shù)據包集合轉換成符合模型訓練格式的第二訓練樣本集合,以便利用所述第二訓練樣本集合對所述第一決策規(guī)劃模型進行訓練,獲得第二決策規(guī)劃模型。
33、在第二方面的第二種可能的實現(xiàn)方式中,所述裝置還包括:
34、過濾單元,用于當所述目標駕駛場景包括定速巡航時,在利用所述第二訓練樣本集合對所述第一決策規(guī)劃模型進行訓練,獲得第二決策規(guī)劃模型之前,過濾所述第二訓練樣本集合中不滿足定速巡航駕駛需求的駕駛數(shù)據;
35、其中,不滿足所述定速巡航駕駛需求的駕駛數(shù)據包括以下至少一項:
36、自車相鄰兩個車道內有分匯流場景;
37、所述自車前方預設距離范圍內有他車;
38、所述自車與自車道前車的車頭時距小于預設時距閾值;
39、所述自車道前車的車速與所述自車的車速之差小于預設車速閾值。
40、在第二方面的第三種可能的實現(xiàn)方式中,所述裝置還包括:
41、獲取單元,用于當所述仿真場景庫中每個所述駕駛數(shù)據包中包括地圖信息時,針對未添加地圖信息的每個所述駕駛數(shù)據包,從未添加地圖信息的所述駕駛數(shù)據包中獲取地標感知模型的輸入數(shù)據,其中,所述輸入數(shù)據包括目標時刻的道路環(huán)境圖像和所述目標時刻的本地位姿,所述本地位姿包括采集所述道路環(huán)境圖像時自車的全局位姿相對于目標起始點時全局位姿的偏移量,所述目標時刻為所述自車在拓展導航路徑上采集所述道路環(huán)境圖像時的任一時刻,所述拓展導航路徑包括車載導航路徑的拓展路徑;
42、感知單元,用于基于所述地標感知模型對所述輸入數(shù)據進行處理,獲得未添加地圖信息的所述駕駛數(shù)據包中所述目標時刻的所述道路環(huán)境圖像中包含的所述地標信息;
43、生成單元,用于基于未添加地圖信息的所述駕駛數(shù)據包中每個所述道路環(huán)境圖像中包含的所述地標信息,生成未添加地圖信息的所述駕駛數(shù)據包對應的地圖信息。
44、在第二方面的第四種可能的實現(xiàn)方式中,所述第二仿真單元包括:
45、仿真模塊,用于當所述目標駕駛場景包括定速巡航時,基于所述決策規(guī)劃規(guī)則和所述異常數(shù)據包集合進行自動駕駛仿真,獲得滿足定速巡航駕駛需求的駕駛軌跡;
46、替換模塊,用于將所述滿足定速巡航駕駛需求的駕駛軌跡替換所述異常數(shù)據包集合中對應的不滿足定速巡航駕駛需求的駕駛軌跡,獲得所述目標數(shù)據包集合。
47、通過上述方案可知,本技術實施例可以先利用專家駕駛數(shù)據包集合、基于第一決策規(guī)劃模型進行實車自動駕駛過程中記錄的不滿足目標駕駛場景駕駛需求的第一駕駛數(shù)據包集合、將專家駕駛數(shù)據包集合中每個駕駛數(shù)據包的他車信息刪除后的第二駕駛數(shù)據包集合、從第一訓練樣本集合中篩選出的不滿足目標駕駛場景駕駛需求的第三駕駛數(shù)據包集合中至少一項建立仿真場景庫,然后利用第一決策規(guī)劃模型和仿真場景庫進行自動駕駛仿真,獲得異常數(shù)據包集合,最后基于決策規(guī)劃規(guī)則和異常數(shù)據包集合進行自動駕駛仿真,獲得目標數(shù)據包集合,以便利用目標數(shù)據包集合對第一決策規(guī)劃模型進行糾正,獲得更高質量的第二決策規(guī)劃模型。由此可知,本技術實施例在對舊版本決策規(guī)劃模型升級時,并沒有尋找駕駛技術更優(yōu)的專家進行人工駕駛,而是利用已經采集到的駕駛數(shù)據包篩選異常駕駛數(shù)據包,并利用傳統(tǒng)規(guī)則算法(即決策規(guī)劃規(guī)則)對異常駕駛數(shù)據包進行仿真,實現(xiàn)對異常駕駛數(shù)據包的糾正,獲得仿真出的高質量駕駛數(shù)據包用于優(yōu)化深度學習模型(即決策規(guī)劃模型),整個過程無需花費人工時間,從而可以降低獲取高質量駕駛數(shù)據的人工成本和時間成本。
48、第三方面,本技術實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
49、第四方面,本技術實施例提供了一種電子設備,電子設備包括:
50、一個或多個處理器;
51、所述處理器與存儲裝置耦合,所述存儲裝置用于存儲一個或多個程序;
52、當一個或多個程序被一個或多個處理器執(zhí)行,使得電子設備實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
53、第五方面,本技術實施例提供了一種車輛,所述車輛包含如第二方面任一實施方式所述的裝置,或者包含如第四方面所述的電子設備。
54、第六方面,本技術實施例提供了一種計算機程序產品,所述計算機程序產品中包含有指令,當指令在計算機或處理器上運行時,使得計算機或處理器執(zhí)行第一方面任一可能的實現(xiàn)方式所述的方法。