一種基于深度強化學習的多交叉口信號協(xié)同控制方法

文檔序號：40612868發(fā)布日期：2025-01-07 20:58閱讀：19來源：國知局

本發(fā)明屬于交通工程和交通信息及控制系統(tǒng)領域，涉及多交叉口信號協(xié)同控制，更具體地說，涉及一種基于深度強化學習的多交叉口信號協(xié)同控制方法。

背景技術：

1、交通信號配時優(yōu)化的研究大多基于優(yōu)化模型的算法。隨著智能交通技術的發(fā)展，基于多智能體的深度強化學習(deep?reinforcement?learning,drl)方法在交通信號控制領域引起了廣泛關注。通過將每個交叉口視為獨立的智能體，利用反饋學習和信息共享，實現(xiàn)信號聯(lián)動控制，增強了交通系統(tǒng)的整體運行效率。

2、在基于深度強化學習的多交叉口信號協(xié)調(diào)控制框架中，智能體通常代表交通信號燈，環(huán)境則對應設有信號燈的交叉口。每個智能體根據(jù)交通狀態(tài)(如車輛位置、速度、隊列長度等)做出決策，旨在通過最大化整體獎勵(如減少車輛等待時間)來優(yōu)化信號控制。多項國內(nèi)外研究表明，采用深度強化學習技術可以有效提升交通信號控制的協(xié)調(diào)性和適應性。例如，nishi等人通過圖卷積神經(jīng)網(wǎng)絡提取路網(wǎng)幾何特征，并結(jié)合神經(jīng)擬合q迭代算法實現(xiàn)了分布式信號控制(ieee,2018:877-883)；chu等人提出了多智能體a2c算法，通過混合獎勵函數(shù)優(yōu)化相鄰交叉口的信號控制(ieee?transactions?on?intelligent?transportationsystems,2019,21(3):1086-1095)；huo等人在v2x環(huán)境下采用了端到端學習模型，實現(xiàn)了高效的交叉口協(xié)同控制。

3、盡管這些方法取得了一定成效，但大多針對單個或相鄰交叉口，多交叉口的信號控制仍然面臨著模型復雜性高、控制策略不穩(wěn)定等問題。為此，本發(fā)明提出了一種基于深度強化學習的多交叉口信號協(xié)同控制方法，通過顯式策略調(diào)節(jié)函數(shù)和參數(shù)共享機制，提升了策略選擇的可解釋性，并降低了算法的復雜性和噪聲影響。該算法采用排隊長度和等待時間作為狀態(tài)變量，信號相位作為動作空間，并將相鄰交叉口的影響納入獎勵函數(shù)中。該技術的提出為交通信號配時優(yōu)化提供了一種新的解決方案，特別適用于高峰時段交通流量復雜的多交叉口協(xié)同控制場景。

技術實現(xiàn)思路

1、技術問題：針對現(xiàn)有基于深度強化學習的多交叉口信號控制存在著模型復雜性高，策略選擇的可解釋性不強等不足，本發(fā)明的目的是提供一種基于深度強化學習的多交叉口信號協(xié)同控制方法，通過引入顯式策略調(diào)節(jié)函數(shù)和參數(shù)共享機制，提高算法策略選擇的可解釋性并減少其復雜性和噪聲影響，實現(xiàn)多交叉口信號協(xié)同控制，降低平均排隊長度和平均等待時間，提高交通效率。

2、技術方案：為解決上述技術問題，本發(fā)明的基于深度強化學習的多交叉口信號協(xié)同控制方法，包括如下步驟：

3、步驟1：構建包含等待時間、排隊長度、相鄰交叉口影響的綜合獎勵函數(shù)，以多交叉口信號控制系統(tǒng)的綜合獎勵函數(shù)最大化為目標構建數(shù)學模型；

4、步驟2：通過引入顯式策略調(diào)節(jié)函數(shù)，設計顯式策略調(diào)節(jié)深度q網(wǎng)絡協(xié)同控制算法；

5、步驟3：采用隨機梯度下降方法調(diào)整可調(diào)策略函數(shù)的參數(shù)；

6、步驟4：通過設計參數(shù)共享機制，動態(tài)調(diào)整路網(wǎng)中各交叉口的信號控制策略，實現(xiàn)多交叉口協(xié)同優(yōu)化控制。

7、步驟1中的綜合獎勵函數(shù)計算方法包括如下步驟：

8、步驟11：以多交叉口交通信號控制系統(tǒng)的獎勵函數(shù)總和最大化為目標，如公式(1)所示：

9、

10、式中：表示每個信號燈的綜合獎勵函數(shù)，s表示信號燈集合，其中每個信號燈s∈s；

11、每個信號燈的綜合獎勵函數(shù)由等待時間的負獎勵rs、排隊長度的負獎勵以及相鄰交叉口的影響三部分之和，如公式(2)所示：

12、

13、其中，等待時間的負獎勵rs由公式(3)計算：

14、

15、式中：li表示交叉口i的車道集合，w(l)表示每條車道l的等待時間；

16、排隊長度的負獎勵由公式(4)計算：

17、

18、式中：交通運動(l,m)表示從進口道的車道l到出口道的車道m(xù)的過程，p(l,m)表示車道級交通運動的壓力，p(l,m)由公式(5)計算：

19、

20、式中，表示一條車道的車輛密度，其中n(l)為車道l上的車輛數(shù)量，c(l)為車道l的最大容量；

21、相鄰交叉口的影響由公式(6)計算：

22、

23、式中，qwi表示交叉口i的排隊長度和等待時間的加權和，由公式(7)計算：

24、

25、式中，q(l)為每個車道l的排隊長度，w(l)為車道l的等待時間，li表示每個交叉口i的車道集合。

26、步驟2中的設計顯式策略調(diào)節(jié)深度q網(wǎng)絡協(xié)同控制算法，包括如下步驟：

27、步驟21：引入顯式的可調(diào)節(jié)策略函數(shù)g(s,a；θ)，在函數(shù)中，s表示當前狀態(tài)，包括交通流量、當前信號燈狀態(tài)；a表示改變信號燈狀態(tài)的可選動作，θ是可調(diào)節(jié)函數(shù)的參數(shù)；通過優(yōu)化策略函數(shù)g的參數(shù)θ，決定在給定狀態(tài)下基于q函數(shù)的最優(yōu)動作選擇；對于一個給定狀態(tài)s和動作a，當該動作是q函數(shù)的最優(yōu)選擇，目標值為1；否則，目標值為0。

28、步驟3中的采用隨機梯度下降方法調(diào)整可調(diào)策略函數(shù)的參數(shù)θ，包括如下步驟：

29、步驟31：使用softmax函數(shù)將策略函數(shù)g(s,a；θ)的輸出轉(zhuǎn)化為概率分布，使得每個可能動作的選擇概率與對應的q值成正比，如公式(8)所示：

30、

31、式中：π(a|s；θ)表示狀態(tài)s下選擇動作a的概率；

32、步驟32：損失函數(shù)用來度量策略函數(shù)g輸出的q值和目標q值之間的差距，huber損失函數(shù)l(θ)如公式(9)所示：

33、

34、式中：q(si,ai；θ)是預測的q值；n表示樣本數(shù)量，用于計算損失的數(shù)據(jù)批次的大??；yi是目標q值，通常通過貝爾曼方程(10)計算：

35、yi＝ri+γmaxa′q(si+1,a′；θ-)????????????????????????????????????????(10)

36、式中：ri是即時獎勵，γ折扣因子，介于0和1之間，用于衡量未來獎勵的權重，越接近1，未來獎勵的重要性越高表示未來獎勵的；maxa′q(si+1,a′；θ-)表示在下一個狀態(tài)si+1下選擇動作a′所能獲得的最大q值，代表最優(yōu)策略下的最大期望累計獎勵，θ-是目標網(wǎng)絡的參數(shù)，si+1是執(zhí)行動作后轉(zhuǎn)移到的新狀態(tài)；

37、步驟33：使用損失函數(shù)的梯度更新參數(shù)，以最小化損失函數(shù)的值，通過計算損失函數(shù)的梯度，逐步調(diào)整網(wǎng)絡的權重，使得損失函數(shù)的值逐漸減小，最終使得網(wǎng)絡輸出的預測值更接近目標值，如公式(11)所示：

38、

39、其中，η是學習率，是損失函數(shù)對參數(shù)θ的梯度；softmax函數(shù)將神經(jīng)網(wǎng)絡的輸出轉(zhuǎn)化為概率分布，用于選擇動作；損失函數(shù)衡量softmax輸出的預測結(jié)果與目標q值之間的差距；隨機梯度下降利用損失函數(shù)計算的誤差，通過梯度下降法更新神經(jīng)網(wǎng)絡softmax層的參數(shù)。

40、步驟4中的參數(shù)共享機制設計方法，包括如下步驟：

41、步驟41：首先，每個交叉口的智能體基于車流量、排隊長度、相位時長的本地狀態(tài)獨立學習和決策，快速適應其所處的局部交通環(huán)境；其次，通過評估相鄰交叉口之間上下游排隊長度的差異，動態(tài)調(diào)整信號配時參數(shù)，確保交叉口之間的交通流量平衡，減少交叉口間的車輛排隊和擁堵現(xiàn)象；通過設計共享策略網(wǎng)絡和全局超參數(shù)，減少個體智能體的模型復雜度，避免重復計算縮短訓練時間；最后，各個交叉口的智能體通過共享經(jīng)驗回放緩沖區(qū)，在訓練過程中相互學習不同交叉口的信號相位選擇經(jīng)驗，利用其他交叉口的決策經(jīng)驗來改進自身策略，提升策略的全局最優(yōu)性，實現(xiàn)更高效的交通信號控制策略。

42、有益效果：本發(fā)明與現(xiàn)有技術相比，具有以下優(yōu)點：

43、區(qū)別于現(xiàn)有的基于深度強化學習的交叉口信號協(xié)同控制技術在獎勵函數(shù)設計主要關注車輛延誤、隊列長度、行程時間、以及綠波協(xié)調(diào)等因素，忽視了多交叉口系統(tǒng)中相鄰交叉口間的相互影響。本發(fā)明在構建綜合獎勵函數(shù)時，創(chuàng)新性地引入了相鄰交叉口間的相互影響因素，同時結(jié)合車輛等待時間和排隊長度的動態(tài)變化，對復雜交通流進行更為精細化的控制。

44、其次，針對現(xiàn)有研究中策略調(diào)節(jié)函數(shù)通常僅采用如動態(tài)調(diào)整探索率(如ε-貪婪策略)等調(diào)節(jié)方法，本發(fā)明提出了一種顯式策略調(diào)節(jié)機制，通過設計顯式策略調(diào)節(jié)的深度q網(wǎng)絡(deep?q-network,dqn)協(xié)同控制算法，提升了策略優(yōu)化的可解釋性和穩(wěn)定性。

45、此外，本發(fā)明針對多交叉口的協(xié)同優(yōu)化控制，設計了一種參數(shù)共享機制，使得各交叉口能夠在復雜多變的交通環(huán)境中共享關鍵信息，進行信號控制策略的動態(tài)調(diào)整。這一機制有效降低了多交叉口系統(tǒng)中的計算復雜度，增強整個路網(wǎng)系統(tǒng)的協(xié)同性與魯棒性，顯著減少交通延誤，提升路網(wǎng)的整體通行能力。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：馬昌喜,劉燕,趙紅星,劉洋
技術所有人：蘭州交通大學
我是此專利的發(fā)明人

上一篇：一種散裝物料連續(xù)卸料自動入庫的裝置及方法與流程
上一篇：一種體重管理方法及系統(tǒng)與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
3、畢老師：機構動力學與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術 2.智能檢測與控制技術 3.機構運動學與動力學 4.機電一體化技術
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！