两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法

文檔序號:40641954發(fā)布日期:2025-01-10 18:48閱讀:6來源:國知局
一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法

本申請涉及人工智能與復(fù)雜網(wǎng)絡(luò)交叉領(lǐng)域,具體而言,涉及一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法。


背景技術(shù):

1、服務(wù)網(wǎng)絡(luò)的資源調(diào)配問題可以被建模為具有固定拓?fù)浣Y(jié)構(gòu)的帶約束條件最短路徑尋優(yōu)問題。傳統(tǒng)對于處理多目標(biāo)個體最短路徑尋優(yōu)中出現(xiàn)各類約束與信息交互的問題并不占優(yōu)勢,求解繁瑣,甚至大部分情況下無法求出納什均衡解。基于深度強(qiáng)化學(xué)習(xí)的方法在服務(wù)網(wǎng)絡(luò)環(huán)境下服務(wù)資源調(diào)配問題的研究中取得了一定的效果,但是對于大規(guī)模服務(wù)資源的調(diào)度問題,問題復(fù)雜決策難度大,其在搜索最優(yōu)決策的時候,存在動作搜索空間大的問題和挑戰(zhàn)。分層強(qiáng)化學(xué)習(xí)用于解決在動作空間中搜索最優(yōu)動作的問題。分層強(qiáng)化學(xué)習(xí)被設(shè)計(jì)成一個多層次的決策框架,將決策過程分為高層決策和低層決策。高級決策提供子目標(biāo)來指導(dǎo)這個結(jié)構(gòu)中的低級操作。高層子目標(biāo)顯著降低了行動空間的復(fù)雜性,從而提高了決策過程的效率;然而,分層強(qiáng)化學(xué)習(xí)很少應(yīng)用于資源調(diào)度問題,特別是在復(fù)雜服務(wù)網(wǎng)絡(luò)中大量的資源調(diào)度任務(wù)中。在這些復(fù)雜的服務(wù)網(wǎng)絡(luò)中,由于計(jì)算負(fù)載開銷增加和分層強(qiáng)化學(xué)習(xí)方法的可擴(kuò)展性有限,在涉及大規(guī)模資源包的調(diào)度任務(wù)中仍然是一個需要解決的難點(diǎn)問題。


技術(shù)實(shí)現(xiàn)思路

1、本申請實(shí)施例的目的在于提供一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法,用以解決了現(xiàn)有技術(shù)存在的上述問題,可減少服務(wù)器資源調(diào)度過程中的計(jì)算量,提高計(jì)算精度。

2、本申請?zhí)峁┝艘环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法,該方法可以包括:

3、基于配置的多個時間節(jié)點(diǎn),獲取任一時間節(jié)點(diǎn)處待處理的多個服務(wù)資源包對應(yīng)的初始狀態(tài)向量;

4、針對任一服務(wù)資源包,采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊,對該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到教師策略表征向量;

5、采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)模塊配置的策略擬合函數(shù),對教師策略表征向量進(jìn)行處理,確定該服務(wù)資源包在該時間節(jié)點(diǎn)的目標(biāo)策略表征向量。

6、在一種可能的實(shí)現(xiàn)中,所述編碼器模塊包括:學(xué)生編碼器和教師編碼器;

7、所述學(xué)生編碼器包括學(xué)生局部關(guān)注子模塊;所述教師編碼器包括教師局部關(guān)注子模塊。

8、在一種可能的實(shí)現(xiàn)中,采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊,對該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到教師策略表征向量,包括:

9、采用所述學(xué)生局部關(guān)注子模塊,對所述服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到所述服務(wù)資源包在該時間節(jié)點(diǎn)的特征感知注意權(quán)值;

10、對所述特征感知注意權(quán)值和所述初始狀態(tài)向量進(jìn)行處理,得到所述學(xué)生編碼器輸出的學(xué)生策略表征向量;

11、采用所述教師局部關(guān)注子模塊,對所述學(xué)生策略表征向量和所述初始狀態(tài)向量進(jìn)行處理,得到所述服務(wù)資源包在該時間節(jié)點(diǎn)的注意權(quán)重矩陣;

12、對所述注意權(quán)重矩陣和所述初始狀態(tài)向量進(jìn)行處理,得到所述教師編碼器輸出的教師策略表征向量。

13、在一種可能的實(shí)現(xiàn)中,所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還包括自蒸餾模塊;

14、確定所述教師編碼器輸出的教師策略表征向量之后,所述方法還包括:

15、通過所述自蒸餾模塊中配置的自蒸餾損失函數(shù),對所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)。

16、在一種可能的實(shí)現(xiàn)中,所述自蒸餾損失函數(shù)為:

17、

18、其中,lsd(·)為自蒸餾損失函數(shù),m為時間節(jié)點(diǎn)t的服務(wù)資源包的數(shù)量,qtea(·)和qstu(·)分別為策略擬合函數(shù)和學(xué)生策略擬合函數(shù)、和分別為教師策略表征向量和學(xué)生策略表征向量,θsd為自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。

19、在一種可能的實(shí)現(xiàn)中,所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)過程包括經(jīng)驗(yàn)存儲階段和訓(xùn)練階段。

20、在一種可能的實(shí)現(xiàn)中,在所述經(jīng)驗(yàn)存儲階段過程中,收集每個時間節(jié)點(diǎn)的經(jīng)驗(yàn)元胞數(shù)據(jù)集;所述經(jīng)驗(yàn)元胞數(shù)據(jù)集包括:任一服務(wù)資源包在每個時間節(jié)點(diǎn)的初始狀態(tài)向量、目標(biāo)策略表征向量、獎勵向量、動態(tài)鄰居節(jié)點(diǎn)和運(yùn)輸狀態(tài)。

21、在一種可能的實(shí)現(xiàn)中,在所述訓(xùn)練階段過程中,通過配置的最終損失函數(shù),對所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)。

22、在一種可能的實(shí)現(xiàn)中,所述最終損失函數(shù)為:

23、

24、其中,為最終損失函數(shù),qtea(·)和qstu(·)分別為策略擬合函數(shù)和學(xué)生策略擬合函數(shù),t為時間節(jié)點(diǎn),θq為qtea(·)和qstu(·)的參數(shù),θsd為自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),和為兩個歸一化超參數(shù),為服務(wù)資源包在時間節(jié)點(diǎn)t的初始狀態(tài)向量為期望函數(shù),lsd(·)為自蒸餾損失函數(shù),和分別為目標(biāo)價值和學(xué)生目標(biāo)價值。

25、本申請?zhí)峁┮环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法,該方法包括:基于配置的時間節(jié)點(diǎn),獲取任一時間節(jié)點(diǎn)待處理的多個服務(wù)資源包對應(yīng)的初始狀態(tài)向量;針對任一服務(wù)資源包,采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊,對該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到教師策略表征向量;采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)模塊配置的策略擬合函數(shù),對教師策略表征向量進(jìn)行處理,確定該服務(wù)資源包在該時間節(jié)點(diǎn)的目標(biāo)策略表征向量;本申請通過自蒸餾技術(shù),提高自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的性能,減少計(jì)算量,從而提高調(diào)度決策的有效性。



技術(shù)特征:

1.一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法,其特征在于,所述方法包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述編碼器模塊包括:學(xué)生編碼器和教師編碼器;

3.如權(quán)利要求2所述的方法,其特征在于,采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊,對該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到教師策略表征向量,包括:

4.如權(quán)利要求3所述的方法,其特征在于,所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還包括自蒸餾模塊;

5.如權(quán)利要求4所述的方法,其特征在于,所述自蒸餾損失函數(shù)為:

6.如權(quán)利要求1所述的方法,其特征在于,所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)過程包括經(jīng)驗(yàn)存儲階段和訓(xùn)練階段。

7.如權(quán)利要求6所述的方法,其特征在于,在所述經(jīng)驗(yàn)存儲階段過程中,收集每個時間節(jié)點(diǎn)的經(jīng)驗(yàn)元胞數(shù)據(jù)集;所述經(jīng)驗(yàn)元胞數(shù)據(jù)集包括:任一服務(wù)資源包在每個時間節(jié)點(diǎn)的初始狀態(tài)向量、目標(biāo)策略表征向量、獎勵向量、動態(tài)鄰居節(jié)點(diǎn)和運(yùn)輸狀態(tài)。

8.如權(quán)利要求7所述的方法,其特征在于,在所述訓(xùn)練階段過程中,通過配置的最終損失函數(shù),對所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)。

9.如權(quán)利要求8所述的方法,其特征在于,所述最終損失函數(shù)為:


技術(shù)總結(jié)
本申請?zhí)峁┮环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法,涉及人工智能與復(fù)雜網(wǎng)絡(luò)交叉領(lǐng)域,該方法包括:基于配置的多個時間節(jié)點(diǎn),獲取任一時間節(jié)點(diǎn)處待處理的多個服務(wù)資源包對應(yīng)的初始狀態(tài)向量;采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊,對該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理,得到該服務(wù)資源包在該時間節(jié)點(diǎn)的教師策略表征向量;利用策略網(wǎng)絡(luò)模塊,對教師策略表征向量進(jìn)行處理,確定該服務(wù)資源包在該時間節(jié)點(diǎn)的目標(biāo)策略表征向量;本申請通過自蒸餾技術(shù)提高自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的性能,減少計(jì)算量,提高調(diào)度決策的有效性。

技術(shù)研發(fā)人員:高慶,張可昕,呂金虎,王薇,周方
受保護(hù)的技術(shù)使用者:北京航空航天大學(xué)杭州創(chuàng)新研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
阿拉善盟| 莱阳市| 墨脱县| 临高县| 闵行区| 陆河县| 托克托县| 武功县| 阿拉善盟| 西华县| 广灵县| 汾西县| 惠东县| 灵台县| 衡东县| 新建县| 大安市| 启东市| 泰顺县| 基隆市| 安顺市| 定边县| 屏南县| 定西市| 北安市| 柳江县| 饶河县| 衡东县| 株洲市| 孟村| 颍上县| 荆门市| 台中市| 奉贤区| 黄石市| 东至县| 新蔡县| 黄梅县| 新龙县| 板桥市| 友谊县|