本發(fā)明涉及智能交通控制領(lǐng)域。具體而言,涉及一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)。
背景技術(shù):
1、近年來,城市地區(qū)交通擁堵以及交通安全問題日益嚴重,尤其是城市地區(qū)的交叉路口,交通事故頻繁發(fā)生。因此,如何安全高效的優(yōu)化交通信號燈已經(jīng)成為城市交通管理的重要組成部分。
2、強化學(xué)習(xí)因其快速的適應(yīng)能力以及高效的決策能力,目前已成為交通信號控制優(yōu)化的主要方法之一。在強化學(xué)習(xí)中,智能體能夠通過嘗試不同的行動和接收環(huán)境的反饋,并根據(jù)預(yù)先設(shè)計的獎勵函數(shù)不斷提升智能體決策能力,從而獲取適應(yīng)真實交通需求的交通信號控制方案。
3、然而,現(xiàn)有的研究大多集中于如何最大限度地減少交通延誤上,卻忽視了潛在的不安全狀況。在交通信號控制系統(tǒng)中,紅燈的溢出長度是影響安全的一個重要因素,如果交叉路口的交通流量不平衡,繁忙車道往往會獲得無限優(yōu)先權(quán)以獲得最大回報,而空閑車道則會遇到難以忍受的等待時間,這可能會導(dǎo)致駕駛員違規(guī)闖紅燈。
4、因此,亟需一種交通信號控制方法以平衡交通效率和安全。
技術(shù)實現(xiàn)思路
1、本發(fā)明正是基于現(xiàn)有技術(shù)的上述需求而提出的,本發(fā)明要解決的技術(shù)問題是一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)以將溢流安全因素引入到交通信號控制中,考慮優(yōu)先放行即將溢出或者已經(jīng)溢出的車道,從而確保交通路口的安全性。
2、為了解決上述問題,本發(fā)明是采用如下技術(shù)方案實現(xiàn)的:
3、一種基于安全強化學(xué)習(xí)的交通信號控制方法,該方法包括:獲取多個歷史狀態(tài)信息,每個歷史狀態(tài)信息包括第一觀測信息、第二觀測信息、動作、獎勵值和代價值;所述第一觀測信息和所述第二觀測信息對應(yīng)的時刻為相鄰的先后時刻;所述獎勵值由溢流獎勵函數(shù)計算得到,所述溢流獎勵函數(shù)基于各車道密度和對應(yīng)車道的排隊長度構(gòu)建;所述代價值由溢流代價函數(shù)計算得到,所述溢流代價函數(shù)通過車道密度與預(yù)設(shè)最大溢流比例構(gòu)建;將每個歷史狀態(tài)信息的第一觀測信息和第二觀測信息分別輸入至注意力網(wǎng)絡(luò)中,得到第一特征和第二特征;將第一特征輸入至行動者網(wǎng)絡(luò)中,得到第一概率值;將第一特征和第二特征分別輸入至獎勵批評者網(wǎng)絡(luò)中,得到第一獎勵價值和第二獎勵價值;將第一特征和第二特征分別輸入至代價批評者網(wǎng)絡(luò)中,得到第一代價價值和第二代價價值;將獎勵值、第一獎勵價值和第二獎勵價值輸入至獎勵優(yōu)勢評估函數(shù)中,得到優(yōu)勢評估值;將代價值、第一代價價值和第二代價價值輸入至代價優(yōu)勢評估函數(shù)中,得到代價評估值;將優(yōu)勢評估值、代價評估值和第一概率值輸入至目標函數(shù)中并優(yōu)化得到優(yōu)化后的行動者網(wǎng)絡(luò);將獎勵值和第一獎勵價值輸入至獎勵批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò);將代價值和第一代價價值輸入至代價批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的代價批評者網(wǎng)絡(luò);基于優(yōu)化后的行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò),重復(fù)上述過程,直至超過預(yù)設(shè)次數(shù),得到訓(xùn)練后的行動者網(wǎng)絡(luò);獲取當(dāng)前時刻的觀測信息,并輸入至訓(xùn)練后的行動者網(wǎng)絡(luò)得到當(dāng)前動作以控制交通信號。
4、可選地,還包括:執(zhí)行當(dāng)前動作,得到下一時刻的觀測信息;根據(jù)溢流獎勵函數(shù)計算得到當(dāng)前獎勵值;根據(jù)溢流代價函數(shù)計算得到當(dāng)前代價值;基于當(dāng)前時刻的觀測信息、下一時刻的觀測信息、當(dāng)前動作、當(dāng)前獎勵值和當(dāng)前代價值構(gòu)建當(dāng)前狀態(tài)信息;基于當(dāng)前狀態(tài)信息再次優(yōu)化行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò),利用再次優(yōu)化的行動者網(wǎng)絡(luò)對下一時刻的觀測信息進行處理。
5、可選地,還包括:利用均方差誤差構(gòu)建獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)的損失函數(shù),通過adam梯度下降算法最小化損失函數(shù),更新獎勵批評者網(wǎng)絡(luò)的參數(shù)和代價批評者網(wǎng)絡(luò)的參數(shù),得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)。
6、可選地,所述溢流獎勵函數(shù)的表達式為:其中,表示在t時刻時交叉口i的溢流獎勵值,i表示交叉口的標識號,t表示時刻,l表示車道的標識號,表示交叉口i的進口道集合,表示在t時刻時交叉口i的車道l的排隊長度。
7、可選地,所述溢流代價函數(shù)的表達式為:其中,表示溢流代價值,表示在t時刻時交叉口i的車道l的車道密度,ratiow表示預(yù)設(shè)最大溢流比例,表示在t時刻時交叉口i的車道l的排隊長度,表示在t時刻時交叉口i的車道l的最大排隊長度。
8、可選地,所述獎勵優(yōu)勢評估函數(shù)的表達式為:其中,表示在t時刻時交叉口i的獎勵優(yōu)勢評估值,k表示優(yōu)勢評估的階段,γ表示折扣因子,m表示優(yōu)勢評估過程中第m個階段,表示在t時刻時交叉口i的溢流獎勵值,表示第二觀測信息對應(yīng)的第二獎勵價值,表示第一觀測信息對應(yīng)的第一獎勵價值,表示基于第一觀測信息輸出的動作對應(yīng)的優(yōu)勢評估值,ai,t表示在t時刻時交叉口i的動作,λgae表示優(yōu)勢值參數(shù),用于控制優(yōu)勢值平均程度的參數(shù),y表示采樣軌跡的長度。
9、可選地,所述代價優(yōu)勢評估函數(shù)的表達式為:
10、其中,表示在t時刻時交叉口i的代價優(yōu)勢評估值,k表示優(yōu)勢評估的階段,γ表示折扣因子,m表示優(yōu)勢評估過程中第m個階段,表示在t時刻時交叉口i的溢流代價值,表示第二觀測信息對應(yīng)的第二代價價值,表示第一觀測信息對應(yīng)的第一代價價值,表示基于第一觀測信息si,t輸出的動作ai,t對應(yīng)的代價評估值,ai,t表示在t時刻時交叉口i的動作,λgae表示優(yōu)勢值參數(shù),用于控制優(yōu)勢值平均程度的參數(shù),y表示采樣軌跡的長度。
11、可選地,所述目標函數(shù)的表達式為:其中,l(θi,λi)表示目標值,表示在行動者策略網(wǎng)絡(luò)下的預(yù)期經(jīng)驗回報值,min(.)表示取最小值的函數(shù),max(.)表示取最大值的函數(shù),表示當(dāng)前迭代過程中行動者策略網(wǎng)絡(luò)根據(jù)第一觀測信息輸出的動作信息的概率值,表示當(dāng)前迭代過程中上一階段的行動者策略網(wǎng)絡(luò)根據(jù)第一觀測信息輸出的動作信息的概率值,表示限制在[1-ε,1+ε]的范圍內(nèi),若大于1+ε,則取值為1+ε;若小于1-ε,則取值為1-ε;否則,保持不變;表示綜合評估值,表示基于第一觀測信息輸出的動作對應(yīng)的優(yōu)勢評估值,λi表示交叉口i的拉格朗日乘子,表示基于第一觀測信息si,t輸出的動作ai,t對應(yīng)的代價評估值。
12、一種基于安全強化學(xué)習(xí)的交通信號控制系統(tǒng),該系統(tǒng)包括:訓(xùn)練模塊,獲取多個歷史狀態(tài)信息,每個歷史狀態(tài)信息包括第一觀測信息、第二觀測信息、動作、獎勵值和代價值;所述第一觀測信息和所述第二觀測信息對應(yīng)的時刻為相鄰的先后時刻;所述獎勵值由溢流獎勵函數(shù)計算得到,所述溢流獎勵函數(shù)基于各車道密度和對應(yīng)車道的排隊長度構(gòu)建;所述代價值由溢流代價函數(shù)計算得到,所述溢流代價函數(shù)通過車道密度與預(yù)設(shè)最大溢流比例構(gòu)建;將每個歷史狀態(tài)信息的第一觀測信息和第二觀測信息分別輸入至注意力網(wǎng)絡(luò)中,得到第一特征和第二特征;將第一特征輸入至行動者網(wǎng)絡(luò)中,得到第一概率值;將第一特征和第二特征分別輸入至獎勵批評者網(wǎng)絡(luò)中,得到第一獎勵價值和第二獎勵價值;將第一特征和第二特征分別輸入至代價批評者網(wǎng)絡(luò)中,得到第一代價價值和第二代價價值;將獎勵值、第一獎勵價值和第二獎勵價值輸入至獎勵優(yōu)勢評估函數(shù)中,得到優(yōu)勢評估值;將代價值、第一代價價值和第二代價價值輸入至代價優(yōu)勢評估函數(shù)中,得到代價評估值;將優(yōu)勢評估值、代價評估值和第一概率值輸入至目標函數(shù)中并優(yōu)化得到優(yōu)化后的行動者網(wǎng)絡(luò);將獎勵值和第一獎勵價值輸入至獎勵批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò);將代價值和第一代價價值輸入至代價批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的代價批評者網(wǎng)絡(luò);基于優(yōu)化后的行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò),重復(fù)上述過程,直至超過預(yù)設(shè)次數(shù),得到訓(xùn)練后的行動者網(wǎng)絡(luò);執(zhí)行模塊,獲取當(dāng)前時刻的觀測信息,并輸入至訓(xùn)練后的行動者網(wǎng)絡(luò)得到當(dāng)前動作以控制交通信號。
13、可選地,所述訓(xùn)練模塊還包括:執(zhí)行當(dāng)前動作,得到下一時刻的觀測信息;根據(jù)溢流獎勵函數(shù)計算得到當(dāng)前獎勵值;根據(jù)溢流代價函數(shù)計算得到當(dāng)前代價值;基于當(dāng)前時刻的觀測信息、下一時刻的觀測信息、當(dāng)前動作、當(dāng)前獎勵值和當(dāng)前代價值構(gòu)建當(dāng)前狀態(tài)信息;基于當(dāng)前狀態(tài)信息再次優(yōu)化行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò),利用再次優(yōu)化的行動者網(wǎng)絡(luò)對下一時刻的觀測信息進行處理。
14、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng),將溢流安全因素引入到交通信號控制中,考慮優(yōu)先放行即將溢出或者已經(jīng)溢出的車道,并將交通信號控制問題建模成安全優(yōu)化目標函數(shù),在保證效率下,確保交通路口的安全性。