基于深度強(qiáng)化學(xué)習(xí)光無(wú)線通信中設(shè)備間能量感知頻譜管理

文檔序號(hào)：40610574發(fā)布日期：2025-01-07 20:53閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于深度強(qiáng)化學(xué)習(xí)光無(wú)線通信中設(shè)備間能量感知頻譜管理

本發(fā)明屬于光無(wú)線通信，涉及一種基于深度強(qiáng)化學(xué)習(xí)的光無(wú)線通信中設(shè)備間能量感知的頻譜管理方法。

背景技術(shù)：

1、近年來(lái)，基于led(light-emitting?diode，發(fā)光二極管)的可見(jiàn)光通信(visiblelight?communication，vlc)技術(shù)，由于具有低功耗、高安全性、無(wú)電磁干擾等優(yōu)點(diǎn)，并可提供大約400thz無(wú)需授權(quán)的頻譜，受到研究人員的廣泛關(guān)注?，F(xiàn)有研究表明：vlc可以利用波長(zhǎng)為380nm-780nm的可見(jiàn)光波，通過(guò)編碼好的數(shù)據(jù)信息控制led的亮滅，實(shí)現(xiàn)數(shù)據(jù)信息的光線傳輸。在接收端，利用接收設(shè)備配置的光電探測(cè)器捕捉高速閃爍的led的亮滅情況，并經(jīng)過(guò)一系列的信號(hào)處理，可以獲得發(fā)送端傳輸?shù)脑紨?shù)據(jù)信息。

2、但是，vlc通信面臨諸多問(wèn)題，如：其數(shù)據(jù)傳輸依賴視距鏈路(line?of?sight，los)，los鏈路易被阻擋，vlc的接入點(diǎn)(access?point，ap)覆蓋范圍較小，而多vlc?ap密集部署易造成嚴(yán)重的小區(qū)間通信干擾等。為克服上述vlc缺點(diǎn)，近年來(lái)，有學(xué)者提出將vlc和傳統(tǒng)rf(radio?frequency，射頻)通信技術(shù)相結(jié)合，vlc-rf異構(gòu)組網(wǎng)的這一想法引起了許多相關(guān)領(lǐng)域?qū)W者的興趣。一方面，vlc?ap可以提供高速率通信服務(wù)，另一方面，rf?ap覆蓋范圍較大和抗視距鏈路的阻擋特性，可以保證低速傳輸鏈路的穩(wěn)定性。

3、然而，隨著智慧城市和萬(wàn)物智能應(yīng)用需求的快速發(fā)展，當(dāng)室內(nèi)存在過(guò)多用戶設(shè)備時(shí)，大量的設(shè)備之間通信通過(guò)vlc?ap或rf?ap轉(zhuǎn)接，將極大地增加ap的負(fù)擔(dān)并消耗大量的vlc-rf異構(gòu)網(wǎng)絡(luò)的有限頻譜、功率資源。d2d(device?to?device，設(shè)備到設(shè)備)通信是一種設(shè)備與設(shè)備直接通信而無(wú)需通過(guò)ap轉(zhuǎn)接的通信技術(shù)。近年來(lái)在許多領(lǐng)域得到應(yīng)用，如車到車通信(vehicle-to-vehicle,v2v)，對(duì)于萬(wàn)物智聯(lián)的新一代互聯(lián)網(wǎng)場(chǎng)景，d2d通信技術(shù)將極大地減少通信開(kāi)銷和提高網(wǎng)絡(luò)中邊緣設(shè)備通信能力，增加網(wǎng)絡(luò)的可達(dá)速率。

4、但是，d2d使用的頻譜資源對(duì)室內(nèi)vlc-rf異構(gòu)網(wǎng)絡(luò)的蜂窩通信用戶形成一些干擾。當(dāng)請(qǐng)求頻譜分配的d2d數(shù)目較多時(shí)，需要vlc-rf異構(gòu)網(wǎng)絡(luò)協(xié)調(diào)d2d復(fù)用蜂窩用戶的頻譜對(duì)網(wǎng)絡(luò)通信的可達(dá)速率和小區(qū)間干擾、頻譜資源利用率的矛盾問(wèn)題，多d2d頻譜分配將增加各vlc?ap和rf?ap的頻譜復(fù)用和干擾管理的復(fù)雜性。另外，d2d設(shè)備的儲(chǔ)能有限，限制了設(shè)備的續(xù)航通信能力，因此d2d通信中需要考慮設(shè)備的能耗問(wèn)題。為此，在本技術(shù)中，我們提出使用d2d通信技術(shù)作為vlc-rf的輔助通信手段，提供d2d通信技術(shù)允許設(shè)備在不連接基站的情況下與其他設(shè)備通信方式，通過(guò)復(fù)用vlc-rf蜂窩用戶頻譜進(jìn)行d2d通信，并采用深度強(qiáng)化學(xué)習(xí)算法，解決d2d復(fù)用vlc-rf蜂窩用戶頻譜的頻譜選擇和干擾管理問(wèn)題，提高d2d復(fù)用頻譜的能效性能。

技術(shù)實(shí)現(xiàn)思路

1、鑒于此，本發(fā)明的核心在于提供一種基于深度強(qiáng)化學(xué)習(xí)光無(wú)線通信中設(shè)備間能量感知頻譜管理，在保證蜂窩用戶qoe和d2d節(jié)點(diǎn)剩余能量的前提下，提升系統(tǒng)的能效。

2、為達(dá)到上述目的，本發(fā)明提供如下技術(shù)方案：

3、s1：輸入d2d設(shè)備集合n，vlc?ap集合，各vlc?ap的發(fā)射功率pv和帶寬bv；rf?ap的發(fā)射功率pr和總帶寬br，使用rf通信的蜂窩用戶集合m；接入vlc和rf的用戶的頻譜采用正交頻分復(fù)用方式，d2d設(shè)備間通信需要復(fù)用rf的頻段或復(fù)用vlc載波資源；根據(jù)朗伯輻射模型，計(jì)算采用vlc載波的vlc-d2d發(fā)射機(jī)與接收機(jī)之間的信道增益和可達(dá)速率值，根據(jù)路徑損耗模型，計(jì)算采用rf頻段的rf-d2d之間的信道增益和可達(dá)速率值；

4、s2：計(jì)算d2d設(shè)備在通信的空閑時(shí)間所收集的能量，根據(jù)vlc-d2d的等效sinr和rf-d2d的sinr值，構(gòu)造d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣；

5、s3：將d2d節(jié)點(diǎn)的剩余能量和系統(tǒng)能效作為d2d復(fù)用cue頻譜的獎(jiǎng)勵(lì)函數(shù)值，建立vlc-d2d和rf-d2d頻譜分配的馬爾可夫決策模型，構(gòu)建智能體從頻譜可復(fù)用關(guān)聯(lián)矩陣中選擇復(fù)用頻譜的狀態(tài)空間、動(dòng)作策略和獎(jiǎng)勵(lì)函數(shù)，建立d2d復(fù)用cue頻譜的累積折扣獎(jiǎng)勵(lì)的期望值最大化的優(yōu)化目標(biāo)函數(shù)；

6、s4：使用actor-critic(行動(dòng)者-評(píng)論家)深度強(qiáng)化學(xué)習(xí)(deep?reinforcementlearning，drl)算法優(yōu)化d2d多智能體的頻譜選擇，提高d2d多智能體在vlc-rf網(wǎng)絡(luò)中獲得的累積折扣獎(jiǎng)勵(lì)的期望值。

7、其中，所述s1具體方法為：

8、s101：在室內(nèi)vlc-rf系統(tǒng)中，存在m個(gè)使用rf通信的蜂窩用戶設(shè)備，保存在集合m中；室內(nèi)存在n個(gè)d2d對(duì)，保存在集合n中；當(dāng)d2d用戶設(shè)備(d2d?user?equipment，due)復(fù)用rf的蜂窩用戶設(shè)備(cellular?user?equpment，cue)的頻譜傳輸數(shù)據(jù)時(shí)，d2d被稱為rf-d2d；當(dāng)due復(fù)用vlc的載波通信時(shí)，d2d被稱為vlc-d2d；rf的總帶寬br平分給m個(gè)蜂窩用戶，每份帶寬的中心頻率為調(diào)制載波的中心頻率；vlc主要提高室內(nèi)m個(gè)用戶的下行通信，所有vlc?ap的總帶寬采用正交頻分多址，其子載波數(shù)目大于m，因此，下行光線傳輸可以避免干擾；每個(gè)rf-d2d在每個(gè)時(shí)隙中只能復(fù)用一個(gè)rf的子載波，rf的子載波在每個(gè)時(shí)隙中可以被多個(gè)rf-d2d復(fù)用，使用相同頻譜的d2d之間，cue和復(fù)用其載波通信的rf-d2d之間都可能發(fā)生信號(hào)干擾；vlc-d2d復(fù)用vlc的光子載波通信；

9、s102：根據(jù)朗伯輻射模型，計(jì)算vlc-d2d通信的信道增益；

10、其中，根據(jù)朗伯輻射模型，第n對(duì)vlc-d2d之間的信道增益為：

11、

12、上式(1)中，代表朗伯輻射系數(shù)，且φ1/2表示使用vlc的d2d發(fā)射機(jī)的半功率輻射角，φ表示d2d發(fā)射機(jī)的輻射角；ar表示d2d接收機(jī)的光探測(cè)器(photodetector，pd)的接收面積；表示d2d設(shè)備發(fā)射端和設(shè)備接收端的直線距離；ψn,n為d2d對(duì)接收機(jī)的入射角，ψc為due接收機(jī)的視場(chǎng)角；ts(ψn,n)和g(ψn,n)分別表示due以ψn,n接收光線信號(hào)時(shí)的光學(xué)濾波器和光學(xué)聚光器的增益；

13、s103：計(jì)算vlc-d2d接收信號(hào)的sinr(signal?to?interference?plus?noiseratio，信干噪比)值；

14、其中，第n對(duì)采用vlc通信的d2d接收信號(hào)的sinr可以表示為：

15、

16、上式(2)中，popt是due發(fā)射機(jī)的平均發(fā)射光功率值，與led(lighting?emittingdiode，發(fā)光二極管)的直流偏置呈正比；η表示光電轉(zhuǎn)換系數(shù)；表示第n個(gè)vlc-d2d發(fā)射機(jī)與對(duì)應(yīng)接收機(jī)的pd之間的信道增益，表示第i對(duì)vlc-d2d發(fā)射機(jī)與對(duì)應(yīng)接收機(jī)的pd之間的信道增益；為第n對(duì)vlc-d2d通信的子載波帶寬，本技術(shù)的vlc頻段采用固定載波帶寬分配，則為常數(shù)；nv表示due接收光信號(hào)的高斯白噪聲功率譜密度；

17、s104：計(jì)算vlc-d2d接收機(jī)接收數(shù)據(jù)信號(hào)的可達(dá)速率值；

18、其中，第n對(duì)vlc-d2d接收數(shù)據(jù)信號(hào)的可達(dá)速率可以表示為：

19、

20、s105：根據(jù)路徑損耗模型，計(jì)算rf-d2d的信道增益值；

21、其中，第n對(duì)復(fù)用rf頻段的d2d通信的信道增益可以表示為：

22、

23、上式中，k表示路徑損耗常數(shù)；βn,n表示由多徑效應(yīng)帶來(lái)的快衰弱增益，服從指數(shù)分布；λn,n表示由陰影衰弱帶來(lái)的慢衰弱增益，服從對(duì)數(shù)正態(tài)分布；dn,n表示第n對(duì)d2d設(shè)備的發(fā)射機(jī)與接收機(jī)之間的距離；α是路徑損耗因子；

24、s106：計(jì)算rf-d2d接收信號(hào)的sinr值；

25、其中，第n對(duì)rf-d2d的sinr值的計(jì)算公式為：

26、

27、上式中，αn,m是二元變量，當(dāng)rf-d2d?n復(fù)用蜂窩用戶m的rf頻譜時(shí)，αn,m＝1，否則，αn,m＝0；同樣地，當(dāng)rf-d2d?i復(fù)用蜂窩用戶m的rf頻譜時(shí)，αi,m＝1，否則，αi,m＝0；分別是蜂窩用戶m和d2d?n的發(fā)射功率；和分別表示第n對(duì)和第i對(duì)d2d的發(fā)射功率；為蜂窩用戶m與d2d的發(fā)端due的信道增益值，可以由瑞利衰落模型計(jì)算得到；和分別表示第n對(duì)和d2d、due?i和due?n構(gòu)成的d2d復(fù)用rf頻率通信的信道增益值；為第n對(duì)rf-d2d通信的子載波帶寬；nr表示due接收rf信號(hào)的高斯白噪聲功率譜密度；

28、s107：根據(jù)香農(nóng)公式，計(jì)算復(fù)用rf載波通信的d2d的可達(dá)速率值；

29、其中，復(fù)用rf載波通信的第n對(duì)d2d的可達(dá)速率值計(jì)算公式為：

30、

31、上式中，bn,m為復(fù)用rf信道m(xù)的第n對(duì)rf-d2d通信的子載波帶寬。

32、其中，所述s2具體方法為：

33、s201：計(jì)算vlc-d2d的等效sinr值；

34、其中，第n對(duì)vlc-d2d的等效sinr值的計(jì)算公式為：

35、

36、上式中，γrf＝3db和γvlc＝5.4db分別代表rf網(wǎng)絡(luò)和vlc網(wǎng)絡(luò)的信道編碼損耗因子；

37、s202：將所有d2d加入聯(lián)盟v聯(lián)盟的集合fvlc中，依次判斷聯(lián)盟fvlc中d2d對(duì)的等效sinr值，若其等效sinr值小于設(shè)定的閾值則將該d2d對(duì)加入r聯(lián)盟的集合frf中，否則，d2d的聯(lián)盟信息不變；本技術(shù)中，我們?cè)O(shè)置

38、本發(fā)明采用了博弈論的思想，將所有d2d分為兩個(gè)聯(lián)盟，分別稱為v聯(lián)盟和r聯(lián)盟，用符號(hào)分別表示為fvlc和frf，d2d設(shè)備位于fvlc使用vlc頻譜進(jìn)行通信，位于frf中的d2d設(shè)備通過(guò)復(fù)用蜂窩用戶上行鏈路頻譜進(jìn)行通信。

39、s203：依次檢查fvlc中d2d，若d2d使用vlc頻譜的等效sinr值小于該d2d復(fù)用rf頻譜的sinr值，則該d2d加入到frf中；同樣地，依次檢查frf中d2d，若d2d復(fù)用rf頻譜的sinr值小于該d2d使用vlc頻譜的等效sinr值，則該d2d加入到fvlc中；

40、s206：對(duì)frf中d2d，當(dāng)rf-d2d靠近其復(fù)用rf頻譜的cue時(shí)，則rf-d2d對(duì)與使用相同頻譜的cue之間具有很大的同頻干擾，則該rf-d2d不能復(fù)用其鄰近c(diǎn)ue的頻譜，為此，我們根據(jù)cue和rf-d2d的地理位置信息設(shè)置了一系列授權(quán)小區(qū)，根據(jù)上行接入rf的cue的發(fā)射功率，升序排列m個(gè)cue為：在集合m中，并根據(jù)cue發(fā)射功率確定各個(gè)cue的強(qiáng)干擾半徑，尋找復(fù)用cue頻譜且處在cue強(qiáng)干擾范圍內(nèi)的rf-d2d，保存在集合cue的強(qiáng)干擾范圍內(nèi)rf-d2d集合中；

41、其中，cue?m的位置信息將由上行鏈路發(fā)送給基站，設(shè)rm為cue?m的強(qiáng)干擾半徑，它和cue?m的上行發(fā)射功率成正相關(guān)，即

42、其中，位于cue?m強(qiáng)干擾范圍內(nèi)的rf-d2d集合可以表示為：

43、

44、上式中，dn表示第n對(duì)d2d，(xm,ym)表示為cue?m的位置，(xn,yn)為復(fù)用cue?m頻譜且與cue?m距離較大的due的位置，rm為cue?m的強(qiáng)干擾半徑；

45、s207：確定復(fù)用cue頻譜的授權(quán)rf-d2d設(shè)備集合，確定各rf-d2d的授權(quán)cue集合；

46、其中，cue?m的授權(quán)rf-d2d設(shè)備集和fm-d可以表示為：

47、

48、其中，rf-d2d?n的授權(quán)cue集合fn-c可以表示為：

49、

50、上式中，cm表示cue?m，當(dāng)cm與rf-d2d較大距離值在cm的干擾半徑之外的cue，成為可授權(quán)rf-d2d復(fù)用頻譜的候選cue之一；

51、s208：構(gòu)造d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣；

52、其中，所有d2d復(fù)用cue頻譜的頻譜可復(fù)用關(guān)聯(lián)矩陣定義為：

53、

54、在矩陣cb中，bm,n表示的是一個(gè)二元變量，當(dāng)cue?m的上行鏈路頻譜可以被授權(quán)給rf-d2d?n復(fù)用時(shí)，則bm,n值為1，否則，bm,n為0，m∈m，n∈n；在矩陣cb中，b0,n表示d2d?n是否被授權(quán)使用vlc頻譜進(jìn)行通信，若被授權(quán)，則b0,n為1，否則，b0,n為0。

55、其中，所述s3具體方法為：

56、s301：將室內(nèi)vlc-rf的每個(gè)d2d抽象為一個(gè)智能體，將vlc-rf系統(tǒng)的頻譜塊資源狀態(tài)的標(biāo)志為ct＝[st,v,ft,dt,it]，其中，c表示各資源塊各時(shí)隙狀態(tài)集合；st表示t時(shí)隙d2d可用的cue頻譜塊索引號(hào)，其值通過(guò)檢索s208步驟得到的頻譜可復(fù)用關(guān)聯(lián)矩陣cb得到；v表示該頻譜塊是否vlc的頻譜，若st為vlc頻譜，v＝1，否則，v＝0；ft表示st頻譜塊是否被cue上行通信占用；dt表示st頻譜塊是否被其他d2d占用；it表示st頻譜塊分配給當(dāng)前d2d是否對(duì)cue形成干擾；d2d的智能體在vlc-rf系統(tǒng)中距離各個(gè)cue的距離向量信息為dt＝[d1,...,dm]；則智能體在t時(shí)隙在vlc-rf系統(tǒng)中的狀態(tài)表示為：et＝[ct,dt-1]，其中，dt-1表示d2d在上一時(shí)隙時(shí)距離各cue的距離向量信息；

57、s302：將d2d復(fù)用vlc-rf的cue的動(dòng)作空間表示為：at＝[it,kt]，it為一個(gè)二元變量，it＝1表示d2d在t時(shí)隙需要傳輸信號(hào)；kt表示d2d在t時(shí)隙使用cue頻譜塊的索引號(hào)息，其中，kt∈{0,1,...,m}，kt＝0表示d2d使用vlc的頻譜通信；

58、s303：計(jì)算d2d復(fù)用cue頻譜的獎(jiǎng)勵(lì)函數(shù)值；

59、其中，d2d?n復(fù)用cue?m頻譜塊進(jìn)行通信的獎(jiǎng)勵(lì)函數(shù)值的計(jì)算公式為：

60、

61、上式中，ren表示d2d?n復(fù)用cue頻譜獲得的獎(jiǎng)勵(lì)值，rn表示d2d?n復(fù)用vlc或rf頻譜獲得的可達(dá)速率值，β表示設(shè)備的剩余能量與接入vlc-rf獲得可達(dá)速率的權(quán)重系數(shù)；rneg表示智能體復(fù)用cue頻譜塊引入的干擾導(dǎo)致cue的可達(dá)速率降低或剩余能量減少的懲罰值，在本技術(shù)中，令rneg＝-1；表示cue的可達(dá)速率值，表示cue的通信速率閾值；表示d2d設(shè)備通信的能量閾值；ptotal為vlc-rf系統(tǒng)的d2d設(shè)備通信的總發(fā)射功率值，由系統(tǒng)接入vlc?ap的通信設(shè)備發(fā)射功率、接入rf?ap的cue設(shè)備發(fā)射功率和d2d發(fā)射功率綜合決定；表示所有接入vlc-d2d和rf-d2d的平均剩余能量值；

62、s304：將d2d復(fù)用vlc或rf頻譜的決策建模為馬爾可夫決策過(guò)程(markov?decisionprocess,mdp)，d2d的mdp元組表示為：(et,at,r,p,γ)，其中，r為獎(jiǎng)勵(lì)函數(shù)值ren集合，n∈n；p表示d2d智能體從狀態(tài)et執(zhí)行動(dòng)作at轉(zhuǎn)移狀態(tài)至et+1的概率集合，其元素pn表示智能體n的轉(zhuǎn)移概率，表示為：表示智能體n在t時(shí)隙的資源狀態(tài)，表示智能體n在t+1時(shí)隙的資源狀態(tài)，示智能體n在t時(shí)隙采取的動(dòng)作；γ表示獎(jiǎng)勵(lì)的折扣因子集合，其元素值γ∈[0,1]，若γ→0，代表智能體關(guān)心當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì)，隨著γ增大，智能體將更加關(guān)心未來(lái)獎(jiǎng)勵(lì)值；

63、s306：計(jì)算智能體在選擇動(dòng)作后的累積折扣獎(jiǎng)勵(lì)值和累積折扣獎(jiǎng)勵(lì)的期望值；

64、其中，智能體n在該t時(shí)隙的累積折扣獎(jiǎng)勵(lì)的計(jì)算公式為：

65、

66、上式中，t表示觀測(cè)時(shí)隙周期值；為智能體n在t+j時(shí)隙的瞬時(shí)獎(jiǎng)勵(lì)值，且

67、其中，智能體n的累積折扣獎(jiǎng)勵(lì)的期望值的計(jì)算公式為：

68、

69、上式中，jn是智能體的智能體n的累積折扣獎(jiǎng)勵(lì)的期望值，也是本技術(shù)的優(yōu)化目標(biāo)；

70、其中，所述s4具體方法為：

71、s401：當(dāng)d2d向vlc-rf系統(tǒng)發(fā)出頻譜分配的通信請(qǐng)求，則vlc-rf系統(tǒng)的控制中心將d2d抽象為智能體，控制中心從云端下載經(jīng)驗(yàn)存放池中的歷史軌跡數(shù)據(jù)，訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的actor-critic策略；

72、s402：輸入智能體d2d的請(qǐng)求信息，根據(jù)檢索頻譜可復(fù)用關(guān)聯(lián)矩陣cb得到各頻譜塊是否可用的信息，統(tǒng)計(jì)vlc-rf系統(tǒng)中各頻譜塊的狀態(tài)信息et和d2d的動(dòng)作空間at，構(gòu)造d2d的mdp信息(et,at,r,p,γ)；

73、s403：采用深度學(xué)習(xí)的q函數(shù)方法，計(jì)算智能體選擇頻譜塊的累積折扣獎(jiǎng)勵(lì)的期望值：

74、其中，智能體在t時(shí)刻的資源狀態(tài)-動(dòng)作策略(et，at)的q函數(shù)計(jì)算的累積折扣獎(jiǎng)勵(lì)的期望值為：

75、

76、上式中，qπ(et,at)表示智能體在et狀態(tài)下采用動(dòng)作at可以獲得的潛在長(zhǎng)期折扣獎(jiǎng)勵(lì)的期望值；et+1表示t+1時(shí)隙的資源-動(dòng)作策略；e表示各資源塊的ct狀態(tài)與智能體的距離向量dt-1的組合集合；p(et+1|et,at)表示智能體采用動(dòng)作at，從當(dāng)前資源狀態(tài)et轉(zhuǎn)移到下一資源狀態(tài)et+1的轉(zhuǎn)移概率函數(shù)值，p(et+1|et,at)∈p；γ∈γ；qπ(et+1,at)表示智能體在et+1資源狀態(tài)下采用動(dòng)作at可以獲得的潛在長(zhǎng)期折扣獎(jiǎng)勵(lì)的期望值；

77、s404：采用貝爾曼最優(yōu)方程方法尋找智能體的最佳狀態(tài)-動(dòng)作策略；

78、其中，智能體n的最佳狀態(tài)-動(dòng)作策略表示為：

79、

80、上式中，π*表示最佳策略(e*，a*)，滿足

81、其中，尋找最佳狀態(tài)-動(dòng)作策略的貝爾曼最優(yōu)方程可以描述為：

82、

83、s405：采用智能體與vlc-rf資源環(huán)境交互產(chǎn)生的一個(gè)軌跡更新q函數(shù)值；

84、其中，軌跡數(shù)據(jù)更新第n個(gè)智能體的q函數(shù)值的公式為：

85、

86、上式中，η表示學(xué)習(xí)速率，η∈[0,1]；

87、s406：在深度強(qiáng)化學(xué)習(xí)中，將所有d2d多智能體選擇vlc-rf通信頻譜的actor-critic全局策略表示為π＝{π1,...,πn,...,πn}，對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)表示為θ＝{θ1,...,θn}；第n個(gè)智能體的critic網(wǎng)絡(luò)的輸出為該q函數(shù)值表示第n個(gè)智能體的actor-critic策略的累積折扣獎(jiǎng)勵(lì)期望值；同時(shí)，該q函數(shù)值反映了智能體采用actor動(dòng)作后，在critic網(wǎng)絡(luò)上獲得的評(píng)價(jià)值；使用深度神經(jīng)網(wǎng)絡(luò)作為q函數(shù)的非線性函數(shù)擬合器，得到critic網(wǎng)絡(luò)的連續(xù)q函數(shù)；

88、s407：計(jì)算智能體的q函數(shù)值在最小化損失函數(shù)時(shí)的網(wǎng)絡(luò)參數(shù)θ，并更新drl網(wǎng)絡(luò)權(quán)重參數(shù)θ；

89、其中，智能體n的q函數(shù)值的最小化損失函數(shù)的更新公式為：

90、

91、上式中，表示智能體n采用在線策略μ′的累積折扣獎(jiǎng)勵(lì)q函數(shù)估計(jì)值，其中，μ′＝{μ′1,...,μ′n}是drl的目標(biāo)actor網(wǎng)絡(luò)的策略集合，它的參數(shù)從在線網(wǎng)絡(luò)復(fù)制得到；在線網(wǎng)絡(luò)每隔一定步數(shù)，就將其參數(shù)復(fù)制到drl的actor目標(biāo)網(wǎng)絡(luò)中上，目的是避免actor網(wǎng)絡(luò)過(guò)高地估計(jì)智能體的q函數(shù)值；是深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)存放的動(dòng)作經(jīng)驗(yàn)存放池，(a1,a2,...,an)為可觀測(cè)到的經(jīng)驗(yàn)存放池中n個(gè)智能體的一組歷史動(dòng)作數(shù)據(jù)，表示t時(shí)刻之前的l-1次觀測(cè)的狀態(tài)-動(dòng)作策略集合，其元素ot＝[ct,at]為智能體在時(shí)隙t觀察到的狀態(tài)-動(dòng)作策略[et,at]，l為歷史的觀測(cè)次數(shù)，x＝(o1,...,on)表示n個(gè)智能體的可觀測(cè)的一組狀態(tài)-動(dòng)作策略集合，

92、s408：采用深度確定性梯度策略梯度(deep?deterministic?policies?gradient,ddpg)方法，尋找所有智能體在基于歷史的狀態(tài)-動(dòng)作策略條件下對(duì)給定動(dòng)作的q函數(shù)的最大累積折扣獎(jiǎng)勵(lì)期望值的下目標(biāo)梯度值；然后，通過(guò)比較，選擇使小目標(biāo)梯度值最小的智能體的動(dòng)作；

93、ddpg的主要思想是采用梯度下降的方向迭代方法，調(diào)整通過(guò)訓(xùn)練得到的critic策略網(wǎng)絡(luò)的參數(shù)θ得到最大化q函數(shù)值，以克服梯度策略方法在多智能體環(huán)境中常常表現(xiàn)出高方差梯度估計(jì)的缺點(diǎn)；

94、其中，ddpg求解第n個(gè)智能體的采取動(dòng)作at的最大q函數(shù)值的下目標(biāo)梯度值表示方法為：

95、

96、上式中，θn表示當(dāng)網(wǎng)絡(luò)參數(shù)為θ時(shí)智能體n的狀態(tài)，μn表示網(wǎng)絡(luò)狀態(tài)為θn時(shí)的智能體n的連續(xù)性策略，θ∈θ；j(μn)為智能體n使用連續(xù)性策略μn時(shí)累積折扣獎(jiǎng)勵(lì)的期望值，表示求解智能體狀態(tài)θn的j(μn)梯度值；表示智能體n基于歷史的狀態(tài)-動(dòng)作策略ot采用動(dòng)作at求解智能體狀態(tài)θn的μn梯度值；表示智能體n基于n個(gè)智能體的x狀態(tài)-動(dòng)作策略集合和動(dòng)作集合(a1,a2,...,an)的連續(xù)性策略μn的q函數(shù)值，表示求解智能體動(dòng)作at的策略μn的q函數(shù)梯度值；

97、s409：輸出所有智能體的最優(yōu)動(dòng)作集合(a1,a2,...,an)；然后，將所有智能體獲得最大q函數(shù)值的最優(yōu)動(dòng)作集合(a1,a2,...,an)表示為at，智能體優(yōu)化前的狀態(tài)ct和vlc-rf環(huán)境資源狀態(tài)dt標(biāo)記為et，智能體采用優(yōu)化動(dòng)作at后的狀態(tài)集合記為et+1，計(jì)算智能體采用et+1的獎(jiǎng)勵(lì)函數(shù)值ren集合記為rt+1，生成一個(gè)軌跡數(shù)據(jù)(et,at,rt+1,et+1)，存放在drl的經(jīng)驗(yàn)存放池中，當(dāng)經(jīng)驗(yàn)存放池的軌跡數(shù)據(jù)已滿時(shí)，將新的軌跡數(shù)據(jù)替換經(jīng)驗(yàn)存放池中存放時(shí)間長(zhǎng)的軌跡數(shù)據(jù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉煥淋,候楊洋,陳勇,陳浩楠,張玉蘭,陳科
技術(shù)所有人：重慶郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于深度強(qiáng)化學(xué)習(xí)光無(wú)線通信中設(shè)備間能量感知頻譜管理