一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)

文檔序號：40611121發(fā)布日期：2025-01-07 20:54閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>信號裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及智能交通控制領(lǐng)域。具體而言，涉及一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)。

背景技術(shù)：

1、近年來，城市地區(qū)交通擁堵以及交通安全問題日益嚴重，尤其是城市地區(qū)的交叉路口，交通事故頻繁發(fā)生。因此，如何安全高效的優(yōu)化交通信號燈已經(jīng)成為城市交通管理的重要組成部分。

2、強化學(xué)習(xí)因其快速的適應(yīng)能力以及高效的決策能力，目前已成為交通信號控制優(yōu)化的主要方法之一。在強化學(xué)習(xí)中，智能體能夠通過嘗試不同的行動和接收環(huán)境的反饋，并根據(jù)預(yù)先設(shè)計的獎勵函數(shù)不斷提升智能體決策能力，從而獲取適應(yīng)真實交通需求的交通信號控制方案。

3、然而，現(xiàn)有的研究大多集中于如何最大限度地減少交通延誤上，卻忽視了潛在的不安全狀況。在交通信號控制系統(tǒng)中，紅燈的溢出長度是影響安全的一個重要因素，如果交叉路口的交通流量不平衡，繁忙車道往往會獲得無限優(yōu)先權(quán)以獲得最大回報，而空閑車道則會遇到難以忍受的等待時間，這可能會導(dǎo)致駕駛員違規(guī)闖紅燈。

4、因此，亟需一種交通信號控制方法以平衡交通效率和安全。

技術(shù)實現(xiàn)思路

1、本發(fā)明正是基于現(xiàn)有技術(shù)的上述需求而提出的，本發(fā)明要解決的技術(shù)問題是一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)以將溢流安全因素引入到交通信號控制中，考慮優(yōu)先放行即將溢出或者已經(jīng)溢出的車道，從而確保交通路口的安全性。

2、為了解決上述問題，本發(fā)明是采用如下技術(shù)方案實現(xiàn)的：

3、一種基于安全強化學(xué)習(xí)的交通信號控制方法，該方法包括：獲取多個歷史狀態(tài)信息，每個歷史狀態(tài)信息包括第一觀測信息、第二觀測信息、動作、獎勵值和代價值；所述第一觀測信息和所述第二觀測信息對應(yīng)的時刻為相鄰的先后時刻；所述獎勵值由溢流獎勵函數(shù)計算得到，所述溢流獎勵函數(shù)基于各車道密度和對應(yīng)車道的排隊長度構(gòu)建；所述代價值由溢流代價函數(shù)計算得到，所述溢流代價函數(shù)通過車道密度與預(yù)設(shè)最大溢流比例構(gòu)建；將每個歷史狀態(tài)信息的第一觀測信息和第二觀測信息分別輸入至注意力網(wǎng)絡(luò)中，得到第一特征和第二特征；將第一特征輸入至行動者網(wǎng)絡(luò)中，得到第一概率值；將第一特征和第二特征分別輸入至獎勵批評者網(wǎng)絡(luò)中，得到第一獎勵價值和第二獎勵價值；將第一特征和第二特征分別輸入至代價批評者網(wǎng)絡(luò)中，得到第一代價價值和第二代價價值；將獎勵值、第一獎勵價值和第二獎勵價值輸入至獎勵優(yōu)勢評估函數(shù)中，得到優(yōu)勢評估值；將代價值、第一代價價值和第二代價價值輸入至代價優(yōu)勢評估函數(shù)中，得到代價評估值；將優(yōu)勢評估值、代價評估值和第一概率值輸入至目標函數(shù)中并優(yōu)化得到優(yōu)化后的行動者網(wǎng)絡(luò)；將獎勵值和第一獎勵價值輸入至獎勵批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò)；將代價值和第一代價價值輸入至代價批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的代價批評者網(wǎng)絡(luò)；基于優(yōu)化后的行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)，重復(fù)上述過程，直至超過預(yù)設(shè)次數(shù)，得到訓(xùn)練后的行動者網(wǎng)絡(luò)；獲取當(dāng)前時刻的觀測信息，并輸入至訓(xùn)練后的行動者網(wǎng)絡(luò)得到當(dāng)前動作以控制交通信號。

4、可選地，還包括：執(zhí)行當(dāng)前動作，得到下一時刻的觀測信息；根據(jù)溢流獎勵函數(shù)計算得到當(dāng)前獎勵值；根據(jù)溢流代價函數(shù)計算得到當(dāng)前代價值；基于當(dāng)前時刻的觀測信息、下一時刻的觀測信息、當(dāng)前動作、當(dāng)前獎勵值和當(dāng)前代價值構(gòu)建當(dāng)前狀態(tài)信息；基于當(dāng)前狀態(tài)信息再次優(yōu)化行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)，利用再次優(yōu)化的行動者網(wǎng)絡(luò)對下一時刻的觀測信息進行處理。

5、可選地，還包括：利用均方差誤差構(gòu)建獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)的損失函數(shù)，通過adam梯度下降算法最小化損失函數(shù)，更新獎勵批評者網(wǎng)絡(luò)的參數(shù)和代價批評者網(wǎng)絡(luò)的參數(shù)，得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)。

6、可選地，所述溢流獎勵函數(shù)的表達式為：其中，表示在t時刻時交叉口i的溢流獎勵值，i表示交叉口的標識號，t表示時刻，l表示車道的標識號，表示交叉口i的進口道集合，表示在t時刻時交叉口i的車道l的排隊長度。

7、可選地，所述溢流代價函數(shù)的表達式為：其中，表示溢流代價值，表示在t時刻時交叉口i的車道l的車道密度，ratiow表示預(yù)設(shè)最大溢流比例，表示在t時刻時交叉口i的車道l的排隊長度，表示在t時刻時交叉口i的車道l的最大排隊長度。

8、可選地，所述獎勵優(yōu)勢評估函數(shù)的表達式為：其中，表示在t時刻時交叉口i的獎勵優(yōu)勢評估值，k表示優(yōu)勢評估的階段，γ表示折扣因子，m表示優(yōu)勢評估過程中第m個階段，表示在t時刻時交叉口i的溢流獎勵值，表示第二觀測信息對應(yīng)的第二獎勵價值，表示第一觀測信息對應(yīng)的第一獎勵價值，表示基于第一觀測信息輸出的動作對應(yīng)的優(yōu)勢評估值，ai,t表示在t時刻時交叉口i的動作，λgae表示優(yōu)勢值參數(shù)，用于控制優(yōu)勢值平均程度的參數(shù)，y表示采樣軌跡的長度。

9、可選地，所述代價優(yōu)勢評估函數(shù)的表達式為：

10、其中，表示在t時刻時交叉口i的代價優(yōu)勢評估值，k表示優(yōu)勢評估的階段，γ表示折扣因子，m表示優(yōu)勢評估過程中第m個階段，表示在t時刻時交叉口i的溢流代價值，表示第二觀測信息對應(yīng)的第二代價價值，表示第一觀測信息對應(yīng)的第一代價價值，表示基于第一觀測信息si,t輸出的動作ai,t對應(yīng)的代價評估值，ai,t表示在t時刻時交叉口i的動作，λgae表示優(yōu)勢值參數(shù)，用于控制優(yōu)勢值平均程度的參數(shù)，y表示采樣軌跡的長度。

11、可選地，所述目標函數(shù)的表達式為：其中，l(θi,λi)表示目標值，表示在行動者策略網(wǎng)絡(luò)下的預(yù)期經(jīng)驗回報值，min(.)表示取最小值的函數(shù)，max(.)表示取最大值的函數(shù)，表示當(dāng)前迭代過程中行動者策略網(wǎng)絡(luò)根據(jù)第一觀測信息輸出的動作信息的概率值，表示當(dāng)前迭代過程中上一階段的行動者策略網(wǎng)絡(luò)根據(jù)第一觀測信息輸出的動作信息的概率值，表示限制在[1-ε,1+ε]的范圍內(nèi)，若大于1+ε，則取值為1+ε；若小于1-ε，則取值為1-ε；否則，保持不變；表示綜合評估值，表示基于第一觀測信息輸出的動作對應(yīng)的優(yōu)勢評估值，λi表示交叉口i的拉格朗日乘子，表示基于第一觀測信息si,t輸出的動作ai,t對應(yīng)的代價評估值。

12、一種基于安全強化學(xué)習(xí)的交通信號控制系統(tǒng)，該系統(tǒng)包括：訓(xùn)練模塊，獲取多個歷史狀態(tài)信息，每個歷史狀態(tài)信息包括第一觀測信息、第二觀測信息、動作、獎勵值和代價值；所述第一觀測信息和所述第二觀測信息對應(yīng)的時刻為相鄰的先后時刻；所述獎勵值由溢流獎勵函數(shù)計算得到，所述溢流獎勵函數(shù)基于各車道密度和對應(yīng)車道的排隊長度構(gòu)建；所述代價值由溢流代價函數(shù)計算得到，所述溢流代價函數(shù)通過車道密度與預(yù)設(shè)最大溢流比例構(gòu)建；將每個歷史狀態(tài)信息的第一觀測信息和第二觀測信息分別輸入至注意力網(wǎng)絡(luò)中，得到第一特征和第二特征；將第一特征輸入至行動者網(wǎng)絡(luò)中，得到第一概率值；將第一特征和第二特征分別輸入至獎勵批評者網(wǎng)絡(luò)中，得到第一獎勵價值和第二獎勵價值；將第一特征和第二特征分別輸入至代價批評者網(wǎng)絡(luò)中，得到第一代價價值和第二代價價值；將獎勵值、第一獎勵價值和第二獎勵價值輸入至獎勵優(yōu)勢評估函數(shù)中，得到優(yōu)勢評估值；將代價值、第一代價價值和第二代價價值輸入至代價優(yōu)勢評估函數(shù)中，得到代價評估值；將優(yōu)勢評估值、代價評估值和第一概率值輸入至目標函數(shù)中并優(yōu)化得到優(yōu)化后的行動者網(wǎng)絡(luò)；將獎勵值和第一獎勵價值輸入至獎勵批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的獎勵批評者網(wǎng)絡(luò)；將代價值和第一代價價值輸入至代價批評者網(wǎng)絡(luò)的損失函數(shù)中并優(yōu)化得到優(yōu)化后的代價批評者網(wǎng)絡(luò)；基于優(yōu)化后的行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)，重復(fù)上述過程，直至超過預(yù)設(shè)次數(shù)，得到訓(xùn)練后的行動者網(wǎng)絡(luò)；執(zhí)行模塊，獲取當(dāng)前時刻的觀測信息，并輸入至訓(xùn)練后的行動者網(wǎng)絡(luò)得到當(dāng)前動作以控制交通信號。

13、可選地，所述訓(xùn)練模塊還包括：執(zhí)行當(dāng)前動作，得到下一時刻的觀測信息；根據(jù)溢流獎勵函數(shù)計算得到當(dāng)前獎勵值；根據(jù)溢流代價函數(shù)計算得到當(dāng)前代價值；基于當(dāng)前時刻的觀測信息、下一時刻的觀測信息、當(dāng)前動作、當(dāng)前獎勵值和當(dāng)前代價值構(gòu)建當(dāng)前狀態(tài)信息；基于當(dāng)前狀態(tài)信息再次優(yōu)化行動者網(wǎng)絡(luò)、獎勵批評者網(wǎng)絡(luò)和代價批評者網(wǎng)絡(luò)，利用再次優(yōu)化的行動者網(wǎng)絡(luò)對下一時刻的觀測信息進行處理。

14、與現(xiàn)有技術(shù)相比，本發(fā)明提供一種基于安全強化學(xué)習(xí)的交通信號控制方法及系統(tǒng)，將溢流安全因素引入到交通信號控制中，考慮優(yōu)先放行即將溢出或者已經(jīng)溢出的車道，并將交通信號控制問題建模成安全優(yōu)化目標函數(shù)，在保證效率下，確保交通路口的安全性。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任毅龍,付翔,于海洋,姜涵
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種熱壓塊冷卻系統(tǒng)及方法與流程
上一篇：借助另一車輛輔助本車輛尋找停車位的方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、畢老師：機構(gòu)動力學(xué)與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術(shù) 2.智能檢測與控制技術(shù) 3.機構(gòu)運動學(xué)與動力學(xué) 4.機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！