本發(fā)明屬于交通工程和交通信息及控制系統(tǒng)領域,涉及多交叉口信號協(xié)同控制,更具體地說,涉及一種基于深度強化學習的多交叉口信號協(xié)同控制方法。
背景技術:
1、交通信號配時優(yōu)化的研究大多基于優(yōu)化模型的算法。隨著智能交通技術的發(fā)展,基于多智能體的深度強化學習(deep?reinforcement?learning,drl)方法在交通信號控制領域引起了廣泛關注。通過將每個交叉口視為獨立的智能體,利用反饋學習和信息共享,實現(xiàn)信號聯(lián)動控制,增強了交通系統(tǒng)的整體運行效率。
2、在基于深度強化學習的多交叉口信號協(xié)調(diào)控制框架中,智能體通常代表交通信號燈,環(huán)境則對應設有信號燈的交叉口。每個智能體根據(jù)交通狀態(tài)(如車輛位置、速度、隊列長度等)做出決策,旨在通過最大化整體獎勵(如減少車輛等待時間)來優(yōu)化信號控制。多項國內(nèi)外研究表明,采用深度強化學習技術可以有效提升交通信號控制的協(xié)調(diào)性和適應性。例如,nishi等人通過圖卷積神經(jīng)網(wǎng)絡提取路網(wǎng)幾何特征,并結(jié)合神經(jīng)擬合q迭代算法實現(xiàn)了分布式信號控制(ieee,2018:877-883);chu等人提出了多智能體a2c算法,通過混合獎勵函數(shù)優(yōu)化相鄰交叉口的信號控制(ieee?transactions?on?intelligent?transportationsystems,2019,21(3):1086-1095);huo等人在v2x環(huán)境下采用了端到端學習模型,實現(xiàn)了高效的交叉口協(xié)同控制。
3、盡管這些方法取得了一定成效,但大多針對單個或相鄰交叉口,多交叉口的信號控制仍然面臨著模型復雜性高、控制策略不穩(wěn)定等問題。為此,本發(fā)明提出了一種基于深度強化學習的多交叉口信號協(xié)同控制方法,通過顯式策略調(diào)節(jié)函數(shù)和參數(shù)共享機制,提升了策略選擇的可解釋性,并降低了算法的復雜性和噪聲影響。該算法采用排隊長度和等待時間作為狀態(tài)變量,信號相位作為動作空間,并將相鄰交叉口的影響納入獎勵函數(shù)中。該技術的提出為交通信號配時優(yōu)化提供了一種新的解決方案,特別適用于高峰時段交通流量復雜的多交叉口協(xié)同控制場景。
技術實現(xiàn)思路
1、技術問題:針對現(xiàn)有基于深度強化學習的多交叉口信號控制存在著模型復雜性高,策略選擇的可解釋性不強等不足,本發(fā)明的目的是提供一種基于深度強化學習的多交叉口信號協(xié)同控制方法,通過引入顯式策略調(diào)節(jié)函數(shù)和參數(shù)共享機制,提高算法策略選擇的可解釋性并減少其復雜性和噪聲影響,實現(xiàn)多交叉口信號協(xié)同控制,降低平均排隊長度和平均等待時間,提高交通效率。
2、技術方案:為解決上述技術問題,本發(fā)明的基于深度強化學習的多交叉口信號協(xié)同控制方法,包括如下步驟:
3、步驟1:構建包含等待時間、排隊長度、相鄰交叉口影響的綜合獎勵函數(shù),以多交叉口信號控制系統(tǒng)的綜合獎勵函數(shù)最大化為目標構建數(shù)學模型;
4、步驟2:通過引入顯式策略調(diào)節(jié)函數(shù),設計顯式策略調(diào)節(jié)深度q網(wǎng)絡協(xié)同控制算法;
5、步驟3:采用隨機梯度下降方法調(diào)整可調(diào)策略函數(shù)的參數(shù);
6、步驟4:通過設計參數(shù)共享機制,動態(tài)調(diào)整路網(wǎng)中各交叉口的信號控制策略,實現(xiàn)多交叉口協(xié)同優(yōu)化控制。
7、步驟1中的綜合獎勵函數(shù)計算方法包括如下步驟:
8、步驟11:以多交叉口交通信號控制系統(tǒng)的獎勵函數(shù)總和最大化為目標,如公式(1)所示:
9、
10、式中:表示每個信號燈的綜合獎勵函數(shù),s表示信號燈集合,其中每個信號燈s∈s;
11、每個信號燈的綜合獎勵函數(shù)由等待時間的負獎勵rs、排隊長度的負獎勵以及相鄰交叉口的影響三部分之和,如公式(2)所示:
12、
13、其中,等待時間的負獎勵rs由公式(3)計算:
14、
15、式中:li表示交叉口i的車道集合,w(l)表示每條車道l的等待時間;
16、排隊長度的負獎勵由公式(4)計算:
17、
18、式中:交通運動(l,m)表示從進口道的車道l到出口道的車道m(xù)的過程,p(l,m)表示車道級交通運動的壓力,p(l,m)由公式(5)計算:
19、
20、式中,表示一條車道的車輛密度,其中n(l)為車道l上的車輛數(shù)量,c(l)為車道l的最大容量;
21、相鄰交叉口的影響由公式(6)計算:
22、
23、式中,qwi表示交叉口i的排隊長度和等待時間的加權和,由公式(7)計算:
24、
25、式中,q(l)為每個車道l的排隊長度,w(l)為車道l的等待時間,li表示每個交叉口i的車道集合。
26、步驟2中的設計顯式策略調(diào)節(jié)深度q網(wǎng)絡協(xié)同控制算法,包括如下步驟:
27、步驟21:引入顯式的可調(diào)節(jié)策略函數(shù)g(s,a;θ),在函數(shù)中,s表示當前狀態(tài),包括交通流量、當前信號燈狀態(tài);a表示改變信號燈狀態(tài)的可選動作,θ是可調(diào)節(jié)函數(shù)的參數(shù);通過優(yōu)化策略函數(shù)g的參數(shù)θ,決定在給定狀態(tài)下基于q函數(shù)的最優(yōu)動作選擇;對于一個給定狀態(tài)s和動作a,當該動作是q函數(shù)的最優(yōu)選擇,目標值為1;否則,目標值為0。
28、步驟3中的采用隨機梯度下降方法調(diào)整可調(diào)策略函數(shù)的參數(shù)θ,包括如下步驟:
29、步驟31:使用softmax函數(shù)將策略函數(shù)g(s,a;θ)的輸出轉(zhuǎn)化為概率分布,使得每個可能動作的選擇概率與對應的q值成正比,如公式(8)所示:
30、
31、式中:π(a|s;θ)表示狀態(tài)s下選擇動作a的概率;
32、步驟32:損失函數(shù)用來度量策略函數(shù)g輸出的q值和目標q值之間的差距,huber損失函數(shù)l(θ)如公式(9)所示:
33、
34、式中:q(si,ai;θ)是預測的q值;n表示樣本數(shù)量,用于計算損失的數(shù)據(jù)批次的大??;yi是目標q值,通常通過貝爾曼方程(10)計算:
35、yi=ri+γmaxa′q(si+1,a′;θ-)????????????????????????????????????????(10)
36、式中:ri是即時獎勵,γ折扣因子,介于0和1之間,用于衡量未來獎勵的權重,越接近1,未來獎勵的重要性越高表示未來獎勵的;maxa′q(si+1,a′;θ-)表示在下一個狀態(tài)si+1下選擇動作a′所能獲得的最大q值,代表最優(yōu)策略下的最大期望累計獎勵,θ-是目標網(wǎng)絡的參數(shù),si+1是執(zhí)行動作后轉(zhuǎn)移到的新狀態(tài);
37、步驟33:使用損失函數(shù)的梯度更新參數(shù),以最小化損失函數(shù)的值,通過計算損失函數(shù)的梯度,逐步調(diào)整網(wǎng)絡的權重,使得損失函數(shù)的值逐漸減小,最終使得網(wǎng)絡輸出的預測值更接近目標值,如公式(11)所示:
38、
39、其中,η是學習率,是損失函數(shù)對參數(shù)θ的梯度;softmax函數(shù)將神經(jīng)網(wǎng)絡的輸出轉(zhuǎn)化為概率分布,用于選擇動作;損失函數(shù)衡量softmax輸出的預測結(jié)果與目標q值之間的差距;隨機梯度下降利用損失函數(shù)計算的誤差,通過梯度下降法更新神經(jīng)網(wǎng)絡softmax層的參數(shù)。
40、步驟4中的參數(shù)共享機制設計方法,包括如下步驟:
41、步驟41:首先,每個交叉口的智能體基于車流量、排隊長度、相位時長的本地狀態(tài)獨立學習和決策,快速適應其所處的局部交通環(huán)境;其次,通過評估相鄰交叉口之間上下游排隊長度的差異,動態(tài)調(diào)整信號配時參數(shù),確保交叉口之間的交通流量平衡,減少交叉口間的車輛排隊和擁堵現(xiàn)象;通過設計共享策略網(wǎng)絡和全局超參數(shù),減少個體智能體的模型復雜度,避免重復計算縮短訓練時間;最后,各個交叉口的智能體通過共享經(jīng)驗回放緩沖區(qū),在訓練過程中相互學習不同交叉口的信號相位選擇經(jīng)驗,利用其他交叉口的決策經(jīng)驗來改進自身策略,提升策略的全局最優(yōu)性,實現(xiàn)更高效的交通信號控制策略。
42、有益效果:本發(fā)明與現(xiàn)有技術相比,具有以下優(yōu)點:
43、區(qū)別于現(xiàn)有的基于深度強化學習的交叉口信號協(xié)同控制技術在獎勵函數(shù)設計主要關注車輛延誤、隊列長度、行程時間、以及綠波協(xié)調(diào)等因素,忽視了多交叉口系統(tǒng)中相鄰交叉口間的相互影響。本發(fā)明在構建綜合獎勵函數(shù)時,創(chuàng)新性地引入了相鄰交叉口間的相互影響因素,同時結(jié)合車輛等待時間和排隊長度的動態(tài)變化,對復雜交通流進行更為精細化的控制。
44、其次,針對現(xiàn)有研究中策略調(diào)節(jié)函數(shù)通常僅采用如動態(tài)調(diào)整探索率(如ε-貪婪策略)等調(diào)節(jié)方法,本發(fā)明提出了一種顯式策略調(diào)節(jié)機制,通過設計顯式策略調(diào)節(jié)的深度q網(wǎng)絡(deep?q-network,dqn)協(xié)同控制算法,提升了策略優(yōu)化的可解釋性和穩(wěn)定性。
45、此外,本發(fā)明針對多交叉口的協(xié)同優(yōu)化控制,設計了一種參數(shù)共享機制,使得各交叉口能夠在復雜多變的交通環(huán)境中共享關鍵信息,進行信號控制策略的動態(tài)調(diào)整。這一機制有效降低了多交叉口系統(tǒng)中的計算復雜度,增強整個路網(wǎng)系統(tǒng)的協(xié)同性與魯棒性,顯著減少交通延誤,提升路網(wǎng)的整體通行能力。