技術(shù)特征:1.一種基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號協(xié)同控制方法,其特征在于,該方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號協(xié)同控制方法,其特征在于,所述步驟1中的綜合獎(jiǎng)勵(lì)函數(shù)計(jì)算方法包括如下步驟:
3.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號協(xié)同控制方法,其特征在于,所述步驟2中的設(shè)計(jì)顯式策略調(diào)節(jié)深度q網(wǎng)絡(luò)協(xié)同控制算法,包括如下步驟:
4.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號協(xié)同控制方法,其特征在于,所述步驟4中的參數(shù)共享機(jī)制設(shè)計(jì)方法,包括如下步驟:
技術(shù)總結(jié)本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號協(xié)同控制方法,首先,構(gòu)建包含等待時(shí)間、排隊(duì)長度及相鄰交叉口影響的綜合獎(jiǎng)勵(lì)函數(shù),基于該獎(jiǎng)勵(lì)函數(shù)構(gòu)建多交叉口信號控制系統(tǒng)的數(shù)學(xué)模型,以實(shí)現(xiàn)綜合獎(jiǎng)勵(lì)最大化為目標(biāo)。其次,設(shè)計(jì)顯式策略調(diào)節(jié)的深度Q網(wǎng)絡(luò)協(xié)同控制算法,通過引入顯式策略調(diào)節(jié)函數(shù),并利用隨機(jī)梯度下降法對可調(diào)策略函數(shù)參數(shù)進(jìn)行優(yōu)化調(diào)整。最后,通過設(shè)計(jì)參數(shù)共享機(jī)制,在復(fù)雜多變的交通環(huán)境下,動態(tài)調(diào)整路網(wǎng)中各交叉口的信號控制策略,從而實(shí)現(xiàn)多交叉口的協(xié)同優(yōu)化控制。本發(fā)明顯著提高了多交叉口信號系統(tǒng)的協(xié)同控制效率,減少交通延誤,提升路網(wǎng)通行能力。
技術(shù)研發(fā)人員:馬昌喜,劉燕,趙紅星,劉洋
受保護(hù)的技術(shù)使用者:蘭州交通大學(xué)
技術(shù)研發(fā)日:技術(shù)公布日:2025/1/6