本發(fā)明屬于光無(wú)線通信,涉及一種基于深度強(qiáng)化學(xué)習(xí)的光無(wú)線通信中設(shè)備間能量感知的頻譜管理方法。
背景技術(shù):
1、近年來(lái),基于led(light-emitting?diode,發(fā)光二極管)的可見(jiàn)光通信(visiblelight?communication,vlc)技術(shù),由于具有低功耗、高安全性、無(wú)電磁干擾等優(yōu)點(diǎn),并可提供大約400thz無(wú)需授權(quán)的頻譜,受到研究人員的廣泛關(guān)注?,F(xiàn)有研究表明:vlc可以利用波長(zhǎng)為380nm-780nm的可見(jiàn)光波,通過(guò)編碼好的數(shù)據(jù)信息控制led的亮滅,實(shí)現(xiàn)數(shù)據(jù)信息的光線傳輸。在接收端,利用接收設(shè)備配置的光電探測(cè)器捕捉高速閃爍的led的亮滅情況,并經(jīng)過(guò)一系列的信號(hào)處理,可以獲得發(fā)送端傳輸?shù)脑紨?shù)據(jù)信息。
2、但是,vlc通信面臨諸多問(wèn)題,如:其數(shù)據(jù)傳輸依賴視距鏈路(line?of?sight,los),los鏈路易被阻擋,vlc的接入點(diǎn)(access?point,ap)覆蓋范圍較小,而多vlc?ap密集部署易造成嚴(yán)重的小區(qū)間通信干擾等。為克服上述vlc缺點(diǎn),近年來(lái),有學(xué)者提出將vlc和傳統(tǒng)rf(radio?frequency,射頻)通信技術(shù)相結(jié)合,vlc-rf異構(gòu)組網(wǎng)的這一想法引起了許多相關(guān)領(lǐng)域?qū)W者的興趣。一方面,vlc?ap可以提供高速率通信服務(wù),另一方面,rf?ap覆蓋范圍較大和抗視距鏈路的阻擋特性,可以保證低速傳輸鏈路的穩(wěn)定性。
3、然而,隨著智慧城市和萬(wàn)物智能應(yīng)用需求的快速發(fā)展,當(dāng)室內(nèi)存在過(guò)多用戶設(shè)備時(shí),大量的設(shè)備之間通信通過(guò)vlc?ap或rf?ap轉(zhuǎn)接,將極大地增加ap的負(fù)擔(dān)并消耗大量的vlc-rf異構(gòu)網(wǎng)絡(luò)的有限頻譜、功率資源。d2d(device?to?device,設(shè)備到設(shè)備)通信是一種設(shè)備與設(shè)備直接通信而無(wú)需通過(guò)ap轉(zhuǎn)接的通信技術(shù)。近年來(lái)在許多領(lǐng)域得到應(yīng)用,如車到車通信(vehicle-to-vehicle,v2v),對(duì)于萬(wàn)物智聯(lián)的新一代互聯(lián)網(wǎng)場(chǎng)景,d2d通信技術(shù)將極大地減少通信開(kāi)銷和提高網(wǎng)絡(luò)中邊緣設(shè)備通信能力,增加網(wǎng)絡(luò)的可達(dá)速率。
4、但是,d2d使用的頻譜資源對(duì)室內(nèi)vlc-rf異構(gòu)網(wǎng)絡(luò)的蜂窩通信用戶形成一些干擾。當(dāng)請(qǐng)求頻譜分配的d2d數(shù)目較多時(shí),需要vlc-rf異構(gòu)網(wǎng)絡(luò)協(xié)調(diào)d2d復(fù)用蜂窩用戶的頻譜對(duì)網(wǎng)絡(luò)通信的可達(dá)速率和小區(qū)間干擾、頻譜資源利用率的矛盾問(wèn)題,多d2d頻譜分配將增加各vlc?ap和rf?ap的頻譜復(fù)用和干擾管理的復(fù)雜性。另外,d2d設(shè)備的儲(chǔ)能有限,限制了設(shè)備的續(xù)航通信能力,因此d2d通信中需要考慮設(shè)備的能耗問(wèn)題。為此,在本技術(shù)中,我們提出使用d2d通信技術(shù)作為vlc-rf的輔助通信手段,提供d2d通信技術(shù)允許設(shè)備在不連接基站的情況下與其他設(shè)備通信方式,通過(guò)復(fù)用vlc-rf蜂窩用戶頻譜進(jìn)行d2d通信,并采用深度強(qiáng)化學(xué)習(xí)算法,解決d2d復(fù)用vlc-rf蜂窩用戶頻譜的頻譜選擇和干擾管理問(wèn)題,提高d2d復(fù)用頻譜的能效性能。
技術(shù)實(shí)現(xiàn)思路
1、鑒于此,本發(fā)明的核心在于提供一種基于深度強(qiáng)化學(xué)習(xí)光無(wú)線通信中設(shè)備間能量感知頻譜管理,在保證蜂窩用戶qoe和d2d節(jié)點(diǎn)剩余能量的前提下,提升系統(tǒng)的能效。
2、為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
3、s1:輸入d2d設(shè)備集合n,vlc?ap集合,各vlc?ap的發(fā)射功率pv和帶寬bv;rf?ap的發(fā)射功率pr和總帶寬br,使用rf通信的蜂窩用戶集合m;接入vlc和rf的用戶的頻譜采用正交頻分復(fù)用方式,d2d設(shè)備間通信需要復(fù)用rf的頻段或復(fù)用vlc載波資源;根據(jù)朗伯輻射模型,計(jì)算采用vlc載波的vlc-d2d發(fā)射機(jī)與接收機(jī)之間的信道增益和可達(dá)速率值,根據(jù)路徑損耗模型,計(jì)算采用rf頻段的rf-d2d之間的信道增益和可達(dá)速率值;
4、s2:計(jì)算d2d設(shè)備在通信的空閑時(shí)間所收集的能量,根據(jù)vlc-d2d的等效sinr和rf-d2d的sinr值,構(gòu)造d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣;
5、s3:將d2d節(jié)點(diǎn)的剩余能量和系統(tǒng)能效作為d2d復(fù)用cue頻譜的獎(jiǎng)勵(lì)函數(shù)值,建立vlc-d2d和rf-d2d頻譜分配的馬爾可夫決策模型,構(gòu)建智能體從頻譜可復(fù)用關(guān)聯(lián)矩陣中選擇復(fù)用頻譜的狀態(tài)空間、動(dòng)作策略和獎(jiǎng)勵(lì)函數(shù),建立d2d復(fù)用cue頻譜的累積折扣獎(jiǎng)勵(lì)的期望值最大化的優(yōu)化目標(biāo)函數(shù);
6、s4:使用actor-critic(行動(dòng)者-評(píng)論家)深度強(qiáng)化學(xué)習(xí)(deep?reinforcementlearning,drl)算法優(yōu)化d2d多智能體的頻譜選擇,提高d2d多智能體在vlc-rf網(wǎng)絡(luò)中獲得的累積折扣獎(jiǎng)勵(lì)的期望值。
7、其中,所述s1具體方法為:
8、s101:在室內(nèi)vlc-rf系統(tǒng)中,存在m個(gè)使用rf通信的蜂窩用戶設(shè)備,保存在集合m中;室內(nèi)存在n個(gè)d2d對(duì),保存在集合n中;當(dāng)d2d用戶設(shè)備(d2d?user?equipment,due)復(fù)用rf的蜂窩用戶設(shè)備(cellular?user?equpment,cue)的頻譜傳輸數(shù)據(jù)時(shí),d2d被稱為rf-d2d;當(dāng)due復(fù)用vlc的載波通信時(shí),d2d被稱為vlc-d2d;rf的總帶寬br平分給m個(gè)蜂窩用戶,每份帶寬的中心頻率為調(diào)制載波的中心頻率;vlc主要提高室內(nèi)m個(gè)用戶的下行通信,所有vlc?ap的總帶寬采用正交頻分多址,其子載波數(shù)目大于m,因此,下行光線傳輸可以避免干擾;每個(gè)rf-d2d在每個(gè)時(shí)隙中只能復(fù)用一個(gè)rf的子載波,rf的子載波在每個(gè)時(shí)隙中可以被多個(gè)rf-d2d復(fù)用,使用相同頻譜的d2d之間,cue和復(fù)用其載波通信的rf-d2d之間都可能發(fā)生信號(hào)干擾;vlc-d2d復(fù)用vlc的光子載波通信;
9、s102:根據(jù)朗伯輻射模型,計(jì)算vlc-d2d通信的信道增益;
10、其中,根據(jù)朗伯輻射模型,第n對(duì)vlc-d2d之間的信道增益為:
11、
12、上式(1)中,代表朗伯輻射系數(shù),且φ1/2表示使用vlc的d2d發(fā)射機(jī)的半功率輻射角,φ表示d2d發(fā)射機(jī)的輻射角;ar表示d2d接收機(jī)的光探測(cè)器(photodetector,pd)的接收面積;表示d2d設(shè)備發(fā)射端和設(shè)備接收端的直線距離;ψn,n為d2d對(duì)接收機(jī)的入射角,ψc為due接收機(jī)的視場(chǎng)角;ts(ψn,n)和g(ψn,n)分別表示due以ψn,n接收光線信號(hào)時(shí)的光學(xué)濾波器和光學(xué)聚光器的增益;
13、s103:計(jì)算vlc-d2d接收信號(hào)的sinr(signal?to?interference?plus?noiseratio,信干噪比)值;
14、其中,第n對(duì)采用vlc通信的d2d接收信號(hào)的sinr可以表示為:
15、
16、上式(2)中,popt是due發(fā)射機(jī)的平均發(fā)射光功率值,與led(lighting?emittingdiode,發(fā)光二極管)的直流偏置呈正比;η表示光電轉(zhuǎn)換系數(shù);表示第n個(gè)vlc-d2d發(fā)射機(jī)與對(duì)應(yīng)接收機(jī)的pd之間的信道增益,表示第i對(duì)vlc-d2d發(fā)射機(jī)與對(duì)應(yīng)接收機(jī)的pd之間的信道增益;為第n對(duì)vlc-d2d通信的子載波帶寬,本技術(shù)的vlc頻段采用固定載波帶寬分配,則為常數(shù);nv表示due接收光信號(hào)的高斯白噪聲功率譜密度;
17、s104:計(jì)算vlc-d2d接收機(jī)接收數(shù)據(jù)信號(hào)的可達(dá)速率值;
18、其中,第n對(duì)vlc-d2d接收數(shù)據(jù)信號(hào)的可達(dá)速率可以表示為:
19、
20、s105:根據(jù)路徑損耗模型,計(jì)算rf-d2d的信道增益值;
21、其中,第n對(duì)復(fù)用rf頻段的d2d通信的信道增益可以表示為:
22、
23、上式中,k表示路徑損耗常數(shù);βn,n表示由多徑效應(yīng)帶來(lái)的快衰弱增益,服從指數(shù)分布;λn,n表示由陰影衰弱帶來(lái)的慢衰弱增益,服從對(duì)數(shù)正態(tài)分布;dn,n表示第n對(duì)d2d設(shè)備的發(fā)射機(jī)與接收機(jī)之間的距離;α是路徑損耗因子;
24、s106:計(jì)算rf-d2d接收信號(hào)的sinr值;
25、其中,第n對(duì)rf-d2d的sinr值的計(jì)算公式為:
26、
27、上式中,αn,m是二元變量,當(dāng)rf-d2d?n復(fù)用蜂窩用戶m的rf頻譜時(shí),αn,m=1,否則,αn,m=0;同樣地,當(dāng)rf-d2d?i復(fù)用蜂窩用戶m的rf頻譜時(shí),αi,m=1,否則,αi,m=0;分別是蜂窩用戶m和d2d?n的發(fā)射功率;和分別表示第n對(duì)和第i對(duì)d2d的發(fā)射功率;為蜂窩用戶m與d2d的發(fā)端due的信道增益值,可以由瑞利衰落模型計(jì)算得到;和分別表示第n對(duì)和d2d、due?i和due?n構(gòu)成的d2d復(fù)用rf頻率通信的信道增益值;為第n對(duì)rf-d2d通信的子載波帶寬;nr表示due接收rf信號(hào)的高斯白噪聲功率譜密度;
28、s107:根據(jù)香農(nóng)公式,計(jì)算復(fù)用rf載波通信的d2d的可達(dá)速率值;
29、其中,復(fù)用rf載波通信的第n對(duì)d2d的可達(dá)速率值計(jì)算公式為:
30、
31、上式中,bn,m為復(fù)用rf信道m(xù)的第n對(duì)rf-d2d通信的子載波帶寬。
32、其中,所述s2具體方法為:
33、s201:計(jì)算vlc-d2d的等效sinr值;
34、其中,第n對(duì)vlc-d2d的等效sinr值的計(jì)算公式為:
35、
36、上式中,γrf=3db和γvlc=5.4db分別代表rf網(wǎng)絡(luò)和vlc網(wǎng)絡(luò)的信道編碼損耗因子;
37、s202:將所有d2d加入聯(lián)盟v聯(lián)盟的集合fvlc中,依次判斷聯(lián)盟fvlc中d2d對(duì)的等效sinr值,若其等效sinr值小于設(shè)定的閾值則將該d2d對(duì)加入r聯(lián)盟的集合frf中,否則,d2d的聯(lián)盟信息不變;本技術(shù)中,我們?cè)O(shè)置
38、本發(fā)明采用了博弈論的思想,將所有d2d分為兩個(gè)聯(lián)盟,分別稱為v聯(lián)盟和r聯(lián)盟,用符號(hào)分別表示為fvlc和frf,d2d設(shè)備位于fvlc使用vlc頻譜進(jìn)行通信,位于frf中的d2d設(shè)備通過(guò)復(fù)用蜂窩用戶上行鏈路頻譜進(jìn)行通信。
39、s203:依次檢查fvlc中d2d,若d2d使用vlc頻譜的等效sinr值小于該d2d復(fù)用rf頻譜的sinr值,則該d2d加入到frf中;同樣地,依次檢查frf中d2d,若d2d復(fù)用rf頻譜的sinr值小于該d2d使用vlc頻譜的等效sinr值,則該d2d加入到fvlc中;
40、s206:對(duì)frf中d2d,當(dāng)rf-d2d靠近其復(fù)用rf頻譜的cue時(shí),則rf-d2d對(duì)與使用相同頻譜的cue之間具有很大的同頻干擾,則該rf-d2d不能復(fù)用其鄰近c(diǎn)ue的頻譜,為此,我們根據(jù)cue和rf-d2d的地理位置信息設(shè)置了一系列授權(quán)小區(qū),根據(jù)上行接入rf的cue的發(fā)射功率,升序排列m個(gè)cue為:在集合m中,并根據(jù)cue發(fā)射功率確定各個(gè)cue的強(qiáng)干擾半徑,尋找復(fù)用cue頻譜且處在cue強(qiáng)干擾范圍內(nèi)的rf-d2d,保存在集合cue的強(qiáng)干擾范圍內(nèi)rf-d2d集合中;
41、其中,cue?m的位置信息將由上行鏈路發(fā)送給基站,設(shè)rm為cue?m的強(qiáng)干擾半徑,它和cue?m的上行發(fā)射功率成正相關(guān),即
42、其中,位于cue?m強(qiáng)干擾范圍內(nèi)的rf-d2d集合可以表示為:
43、
44、上式中,dn表示第n對(duì)d2d,(xm,ym)表示為cue?m的位置,(xn,yn)為復(fù)用cue?m頻譜且與cue?m距離較大的due的位置,rm為cue?m的強(qiáng)干擾半徑;
45、s207:確定復(fù)用cue頻譜的授權(quán)rf-d2d設(shè)備集合,確定各rf-d2d的授權(quán)cue集合;
46、其中,cue?m的授權(quán)rf-d2d設(shè)備集和fm-d可以表示為:
47、
48、其中,rf-d2d?n的授權(quán)cue集合fn-c可以表示為:
49、
50、上式中,cm表示cue?m,當(dāng)cm與rf-d2d較大距離值在cm的干擾半徑之外的cue,成為可授權(quán)rf-d2d復(fù)用頻譜的候選cue之一;
51、s208:構(gòu)造d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣;
52、其中,所有d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣定義為:
53、
54、在矩陣cb中,bm,n表示的是一個(gè)二元變量,當(dāng)cue?m的上行鏈路頻譜可以被授權(quán)給rf-d2d?n復(fù)用時(shí),則bm,n值為1,否則,bm,n為0,m∈m,n∈n;在矩陣cb中,b0,n表示d2d?n是否被授權(quán)使用vlc頻譜進(jìn)行通信,若被授權(quán),則b0,n為1,否則,b0,n為0。
55、其中,所述s3具體方法為:
56、s301:將室內(nèi)vlc-rf的每個(gè)d2d抽象為一個(gè)智能體,將vlc-rf系統(tǒng)的頻譜塊資源狀態(tài)的標(biāo)志為ct=[st,v,ft,dt,it],其中,c表示各資源塊各時(shí)隙狀態(tài)集合;st表示t時(shí)隙d2d可用的cue頻譜塊索引號(hào),其值通過(guò)檢索s208步驟得到的頻譜可復(fù)用關(guān)聯(lián)矩陣cb得到;v表示該頻譜塊是否vlc的頻譜,若st為vlc頻譜,v=1,否則,v=0;ft表示st頻譜塊是否被cue上行通信占用;dt表示st頻譜塊是否被其他d2d占用;it表示st頻譜塊分配給當(dāng)前d2d是否對(duì)cue形成干擾;d2d的智能體在vlc-rf系統(tǒng)中距離各個(gè)cue的距離向量信息為dt=[d1,...,dm];則智能體在t時(shí)隙在vlc-rf系統(tǒng)中的狀態(tài)表示為:et=[ct,dt-1],其中,dt-1表示d2d在上一時(shí)隙時(shí)距離各cue的距離向量信息;
57、s302:將d2d復(fù)用vlc-rf的cue的動(dòng)作空間表示為:at=[it,kt],it為一個(gè)二元變量,it=1表示d2d在t時(shí)隙需要傳輸信號(hào);kt表示d2d在t時(shí)隙使用cue頻譜塊的索引號(hào)息,其中,kt∈{0,1,...,m},kt=0表示d2d使用vlc的頻譜通信;
58、s303:計(jì)算d2d復(fù)用cue頻譜的獎(jiǎng)勵(lì)函數(shù)值;
59、其中,d2d?n復(fù)用cue?m頻譜塊進(jìn)行通信的獎(jiǎng)勵(lì)函數(shù)值的計(jì)算公式為:
60、
61、上式中,ren表示d2d?n復(fù)用cue頻譜獲得的獎(jiǎng)勵(lì)值,rn表示d2d?n復(fù)用vlc或rf頻譜獲得的可達(dá)速率值,β表示設(shè)備的剩余能量與接入vlc-rf獲得可達(dá)速率的權(quán)重系數(shù);rneg表示智能體復(fù)用cue頻譜塊引入的干擾導(dǎo)致cue的可達(dá)速率降低或剩余能量減少的懲罰值,在本技術(shù)中,令rneg=-1;表示cue的可達(dá)速率值,表示cue的通信速率閾值;表示d2d設(shè)備通信的能量閾值;ptotal為vlc-rf系統(tǒng)的d2d設(shè)備通信的總發(fā)射功率值,由系統(tǒng)接入vlc?ap的通信設(shè)備發(fā)射功率、接入rf?ap的cue設(shè)備發(fā)射功率和d2d發(fā)射功率綜合決定;表示所有接入vlc-d2d和rf-d2d的平均剩余能量值;
62、s304:將d2d復(fù)用vlc或rf頻譜的決策建模為馬爾可夫決策過(guò)程(markov?decisionprocess,mdp),d2d的mdp元組表示為:(et,at,r,p,γ),其中,r為獎(jiǎng)勵(lì)函數(shù)值ren集合,n∈n;p表示d2d智能體從狀態(tài)et執(zhí)行動(dòng)作at轉(zhuǎn)移狀態(tài)至et+1的概率集合,其元素pn表示智能體n的轉(zhuǎn)移概率,表示為:表示智能體n在t時(shí)隙的資源狀態(tài),表示智能體n在t+1時(shí)隙的資源狀態(tài),示智能體n在t時(shí)隙采取的動(dòng)作;γ表示獎(jiǎng)勵(lì)的折扣因子集合,其元素值γ∈[0,1],若γ→0,代表智能體關(guān)心當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì),隨著γ增大,智能體將更加關(guān)心未來(lái)獎(jiǎng)勵(lì)值;
63、s306:計(jì)算智能體在選擇動(dòng)作后的累積折扣獎(jiǎng)勵(lì)值和累積折扣獎(jiǎng)勵(lì)的期望值;
64、其中,智能體n在該t時(shí)隙的累積折扣獎(jiǎng)勵(lì)的計(jì)算公式為:
65、
66、上式中,t表示觀測(cè)時(shí)隙周期值;為智能體n在t+j時(shí)隙的瞬時(shí)獎(jiǎng)勵(lì)值,且
67、其中,智能體n的累積折扣獎(jiǎng)勵(lì)的期望值的計(jì)算公式為:
68、
69、上式中,jn是智能體的智能體n的累積折扣獎(jiǎng)勵(lì)的期望值,也是本技術(shù)的優(yōu)化目標(biāo);
70、其中,所述s4具體方法為:
71、s401:當(dāng)d2d向vlc-rf系統(tǒng)發(fā)出頻譜分配的通信請(qǐng)求,則vlc-rf系統(tǒng)的控制中心將d2d抽象為智能體,控制中心從云端下載經(jīng)驗(yàn)存放池中的歷史軌跡數(shù)據(jù),訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的actor-critic策略;
72、s402:輸入智能體d2d的請(qǐng)求信息,根據(jù)檢索頻譜可復(fù)用關(guān)聯(lián)矩陣cb得到各頻譜塊是否可用的信息,統(tǒng)計(jì)vlc-rf系統(tǒng)中各頻譜塊的狀態(tài)信息et和d2d的動(dòng)作空間at,構(gòu)造d2d的mdp信息(et,at,r,p,γ);
73、s403:采用深度學(xué)習(xí)的q函數(shù)方法,計(jì)算智能體選擇頻譜塊的累積折扣獎(jiǎng)勵(lì)的期望值:
74、其中,智能體在t時(shí)刻的資源狀態(tài)-動(dòng)作策略(et,at)的q函數(shù)計(jì)算的累積折扣獎(jiǎng)勵(lì)的期望值為:
75、
76、上式中,qπ(et,at)表示智能體在et狀態(tài)下采用動(dòng)作at可以獲得的潛在長(zhǎng)期折扣獎(jiǎng)勵(lì)的期望值;et+1表示t+1時(shí)隙的資源-動(dòng)作策略;e表示各資源塊的ct狀態(tài)與智能體的距離向量dt-1的組合集合;p(et+1|et,at)表示智能體采用動(dòng)作at,從當(dāng)前資源狀態(tài)et轉(zhuǎn)移到下一資源狀態(tài)et+1的轉(zhuǎn)移概率函數(shù)值,p(et+1|et,at)∈p;γ∈γ;qπ(et+1,at)表示智能體在et+1資源狀態(tài)下采用動(dòng)作at可以獲得的潛在長(zhǎng)期折扣獎(jiǎng)勵(lì)的期望值;
77、s404:采用貝爾曼最優(yōu)方程方法尋找智能體的最佳狀態(tài)-動(dòng)作策略;
78、其中,智能體n的最佳狀態(tài)-動(dòng)作策略表示為:
79、
80、上式中,π*表示最佳策略(e*,a*),滿足
81、其中,尋找最佳狀態(tài)-動(dòng)作策略的貝爾曼最優(yōu)方程可以描述為:
82、
83、s405:采用智能體與vlc-rf資源環(huán)境交互產(chǎn)生的一個(gè)軌跡更新q函數(shù)值;
84、其中,軌跡數(shù)據(jù)更新第n個(gè)智能體的q函數(shù)值的公式為:
85、
86、上式中,η表示學(xué)習(xí)速率,η∈[0,1];
87、s406:在深度強(qiáng)化學(xué)習(xí)中,將所有d2d多智能體選擇vlc-rf通信頻譜的actor-critic全局策略表示為π={π1,...,πn,...,πn},對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)表示為θ={θ1,...,θn};第n個(gè)智能體的critic網(wǎng)絡(luò)的輸出為該q函數(shù)值表示第n個(gè)智能體的actor-critic策略的累積折扣獎(jiǎng)勵(lì)期望值;同時(shí),該q函數(shù)值反映了智能體采用actor動(dòng)作后,在critic網(wǎng)絡(luò)上獲得的評(píng)價(jià)值;使用深度神經(jīng)網(wǎng)絡(luò)作為q函數(shù)的非線性函數(shù)擬合器,得到critic網(wǎng)絡(luò)的連續(xù)q函數(shù);
88、s407:計(jì)算智能體的q函數(shù)值在最小化損失函數(shù)時(shí)的網(wǎng)絡(luò)參數(shù)θ,并更新drl網(wǎng)絡(luò)權(quán)重參數(shù)θ;
89、其中,智能體n的q函數(shù)值的最小化損失函數(shù)的更新公式為:
90、
91、上式中,表示智能體n采用在線策略μ′的累積折扣獎(jiǎng)勵(lì)q函數(shù)估計(jì)值,其中,μ′={μ′1,...,μ′n}是drl的目標(biāo)actor網(wǎng)絡(luò)的策略集合,它的參數(shù)從在線網(wǎng)絡(luò)復(fù)制得到;在線網(wǎng)絡(luò)每隔一定步數(shù),就將其參數(shù)復(fù)制到drl的actor目標(biāo)網(wǎng)絡(luò)中上,目的是避免actor網(wǎng)絡(luò)過(guò)高地估計(jì)智能體的q函數(shù)值;是深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)存放的動(dòng)作經(jīng)驗(yàn)存放池,(a1,a2,...,an)為可觀測(cè)到的經(jīng)驗(yàn)存放池中n個(gè)智能體的一組歷史動(dòng)作數(shù)據(jù),表示t時(shí)刻之前的l-1次觀測(cè)的狀態(tài)-動(dòng)作策略集合,其元素ot=[ct,at]為智能體在時(shí)隙t觀察到的狀態(tài)-動(dòng)作策略[et,at],l為歷史的觀測(cè)次數(shù),x=(o1,...,on)表示n個(gè)智能體的可觀測(cè)的一組狀態(tài)-動(dòng)作策略集合,
92、s408:采用深度確定性梯度策略梯度(deep?deterministic?policies?gradient,ddpg)方法,尋找所有智能體在基于歷史的狀態(tài)-動(dòng)作策略條件下對(duì)給定動(dòng)作的q函數(shù)的最大累積折扣獎(jiǎng)勵(lì)期望值的下目標(biāo)梯度值;然后,通過(guò)比較,選擇使小目標(biāo)梯度值最小的智能體的動(dòng)作;
93、ddpg的主要思想是采用梯度下降的方向迭代方法,調(diào)整通過(guò)訓(xùn)練得到的critic策略網(wǎng)絡(luò)的參數(shù)θ得到最大化q函數(shù)值,以克服梯度策略方法在多智能體環(huán)境中常常表現(xiàn)出高方差梯度估計(jì)的缺點(diǎn);
94、其中,ddpg求解第n個(gè)智能體的采取動(dòng)作at的最大q函數(shù)值的下目標(biāo)梯度值表示方法為:
95、
96、上式中,θn表示當(dāng)網(wǎng)絡(luò)參數(shù)為θ時(shí)智能體n的狀態(tài),μn表示網(wǎng)絡(luò)狀態(tài)為θn時(shí)的智能體n的連續(xù)性策略,θ∈θ;j(μn)為智能體n使用連續(xù)性策略μn時(shí)累積折扣獎(jiǎng)勵(lì)的期望值,表示求解智能體狀態(tài)θn的j(μn)梯度值;表示智能體n基于歷史的狀態(tài)-動(dòng)作策略ot采用動(dòng)作at求解智能體狀態(tài)θn的μn梯度值;表示智能體n基于n個(gè)智能體的x狀態(tài)-動(dòng)作策略集合和動(dòng)作集合(a1,a2,...,an)的連續(xù)性策略μn的q函數(shù)值,表示求解智能體動(dòng)作at的策略μn的q函數(shù)梯度值;
97、s409:輸出所有智能體的最優(yōu)動(dòng)作集合(a1,a2,...,an);然后,將所有智能體獲得最大q函數(shù)值的最優(yōu)動(dòng)作集合(a1,a2,...,an)表示為at,智能體優(yōu)化前的狀態(tài)ct和vlc-rf環(huán)境資源狀態(tài)dt標(biāo)記為et,智能體采用優(yōu)化動(dòng)作at后的狀態(tài)集合記為et+1,計(jì)算智能體采用et+1的獎(jiǎng)勵(lì)函數(shù)值ren集合記為rt+1,生成一個(gè)軌跡數(shù)據(jù)(et,at,rt+1,et+1),存放在drl的經(jīng)驗(yàn)存放池中,當(dāng)經(jīng)驗(yàn)存放池的軌跡數(shù)據(jù)已滿時(shí),將新的軌跡數(shù)據(jù)替換經(jīng)驗(yàn)存放池中存放時(shí)間長(zhǎng)的軌跡數(shù)據(jù)。