一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法與流程

文檔序號：40610202發(fā)布日期：2025-01-07 20:52閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法與流程

本發(fā)明涉及電磁超表面，具體涉及一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法。

背景技術(shù)：

1、電磁超表面，作為一類二維平面結(jié)構(gòu)的復(fù)合材料，以其獨特的波束調(diào)控能力在電磁學(xué)領(lǐng)域引起了廣泛關(guān)注。與傳統(tǒng)的三維超材料相比，超表面因其平面特性而展現(xiàn)出諸多優(yōu)勢，包括但不限于設(shè)計靈活性、易于集成以及與曲面結(jié)構(gòu)的兼容性。這一技術(shù)的應(yīng)用范圍廣泛，涵蓋了從雷達散射截面的縮減到波束偏轉(zhuǎn)、異常反射、異常折射，乃至多波束切換等復(fù)雜場景、展現(xiàn)了其在現(xiàn)代通信、雷達系統(tǒng)、光學(xué)器件以及隱身技術(shù)中的巨大潛力。

2、2014年，崔鐵軍教授開創(chuàng)性地提出了數(shù)字化編碼超表面的概念，這標(biāo)志著超表面設(shè)計邁入了一個新紀(jì)元。編碼超表面通過將不同的反射相位單元用二進制代碼標(biāo)識，極大地簡化了設(shè)計過程。在這種框架下，超表面的設(shè)計挑戰(zhàn)被轉(zhuǎn)化為了尋找最優(yōu)編碼序列和相應(yīng)的單元結(jié)構(gòu)的問題。然而，隨著研究的深入，超表面設(shè)計的優(yōu)化方法也暴露出了一些關(guān)鍵性問題。

3、目前，超表面優(yōu)化設(shè)計主要依賴兩大類方法：傳統(tǒng)優(yōu)化算法和基于監(jiān)督學(xué)習(xí)的方法。前者包括遍歷算法、遺傳算法、蟻群算法等，雖然在處理低維問題時表現(xiàn)良好，但當(dāng)面對大規(guī)模、高比特位編碼超表面時，其計算復(fù)雜度急劇上升，導(dǎo)致設(shè)計周期延長，效率低下。尤其對于高比特位編碼超表面，傳統(tǒng)算法的局限性更為顯著，因為它們往往難以有效探索復(fù)雜的解空間。

4、另一方面，基于監(jiān)督學(xué)習(xí)的方法，盡管在數(shù)據(jù)驅(qū)動的優(yōu)化中展現(xiàn)出了巨大的潛力，但其性能高度依賴于高質(zhì)量、大規(guī)模的數(shù)據(jù)集。若數(shù)據(jù)集構(gòu)建不當(dāng)或不足，訓(xùn)練出的模型可能無法準(zhǔn)確地預(yù)測超表面的性能，從而影響設(shè)計的精確性和可靠性。

5、鑒于現(xiàn)有超表面設(shè)計方法的局限性，迫切需要開發(fā)一種新的優(yōu)化設(shè)計策略，以克服高比特位編碼超表面設(shè)計中的挑戰(zhàn)。這種策略應(yīng)能夠高效地處理大規(guī)模優(yōu)化問題，同時確保設(shè)計的精度和魯棒性，從而推動電磁超表面技術(shù)向更高級別的應(yīng)用邁進。

技術(shù)實現(xiàn)思路

1、基于背景技術(shù)中的現(xiàn)狀，本發(fā)明的目的在于解決基于監(jiān)督學(xué)習(xí)的超表面設(shè)計方法對數(shù)據(jù)集的高度依賴、數(shù)據(jù)集制作成本高和高比特位編碼超表面的問題，因此提出了一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法。本發(fā)明方法將關(guān)注的超表面特性作為優(yōu)化目標(biāo)，通過智能體與環(huán)境的交互，掌握環(huán)境運作規(guī)律，制定相應(yīng)的策略，使得超表面狀態(tài)參數(shù)朝著期望的功能或技術(shù)指標(biāo)變化。本發(fā)明方法對非線性、不確定性的復(fù)雜環(huán)境求解能力更強，具備智能快速的特點，且無需預(yù)先準(zhǔn)備數(shù)據(jù)集，降低了數(shù)據(jù)集依賴性與制作成本。

2、本發(fā)明采用了以下技術(shù)方案來實現(xiàn)目的：

3、一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，所述方法包括如下步驟：

4、s1、構(gòu)建超表面對應(yīng)的強化學(xué)習(xí)環(huán)境模型；

5、s2、構(gòu)建強化學(xué)習(xí)算法對應(yīng)的值網(wǎng)絡(luò)；

6、s3、基于已構(gòu)建的強化學(xué)習(xí)環(huán)境模型與值網(wǎng)絡(luò)，通過智能體與環(huán)境交互的方式，更新強化學(xué)習(xí)環(huán)境模型的目標(biāo)函數(shù)，優(yōu)化智能體的決策；

7、s4、滿足預(yù)設(shè)優(yōu)化需求后，停止交互過程，輸出超表面優(yōu)化設(shè)計結(jié)果。

8、進一步的，步驟s3中，智能體是由值網(wǎng)絡(luò)、動作選擇策略與迭代更新共同構(gòu)成的整體，智能體是強化學(xué)習(xí)算法中的組成部分；智能體觀察強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài)，通過值網(wǎng)絡(luò)獲取可進行的決策動作對應(yīng)的動作值，依據(jù)動作選擇策略做出決策動作；決策動作給到強化學(xué)習(xí)環(huán)境模型，環(huán)境狀態(tài)更新，對應(yīng)的目標(biāo)函數(shù)值也更新，通過比較新狀態(tài)的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距，強化學(xué)習(xí)環(huán)境模型給予智能體獎勵；智能體依據(jù)每次做出決策動作并獲得獎勵的過程，進行迭代更新。

9、進一步的，步驟s3中，強化學(xué)習(xí)算法采用dqn算法，在dqn算法中，使用兩個獨立的值網(wǎng)絡(luò)分別作為當(dāng)前值網(wǎng)絡(luò)q(θ)與目標(biāo)值網(wǎng)絡(luò)q(θ-)，通過目標(biāo)值網(wǎng)絡(luò)q(θ-)使強化學(xué)習(xí)過程的目標(biāo)值分段保持穩(wěn)定。當(dāng)前值網(wǎng)絡(luò)負(fù)責(zé)觀察環(huán)境此刻狀態(tài)st并給出決策動作at，環(huán)境接收到動作后更新狀態(tài)并計算新狀態(tài)st+1對應(yīng)的目標(biāo)函數(shù)值，然后根據(jù)獎勵規(guī)則返回獎勵rt+1；將樣本數(shù)據(jù)(st,at,st+1,rt+1)存入經(jīng)驗回放池，當(dāng)經(jīng)驗回放池中樣本數(shù)據(jù)的數(shù)量超過批訓(xùn)練數(shù)量b時，從中隨機均勻抽取數(shù)據(jù)進行訓(xùn)練，并將抽取的批數(shù)據(jù)分別輸入當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)，將兩個值網(wǎng)絡(luò)的輸出值之間的誤差作為損失函數(shù)lt，其公式如下：

10、

11、式中，γ為折扣因子；通過誤差反向傳播更新當(dāng)前值網(wǎng)絡(luò)的參數(shù)，并且每隔g個時間步就將當(dāng)前值網(wǎng)絡(luò)的參數(shù)賦給目標(biāo)值網(wǎng)絡(luò)。經(jīng)過多步迭代，當(dāng)前值網(wǎng)絡(luò)的決策能力得以提高，智能體最終可找到目標(biāo)函數(shù)值小于給定優(yōu)化值的狀態(tài)參數(shù)設(shè)計。

12、本發(fā)明同時提供一種計算機裝置設(shè)備系統(tǒng)，包括存儲器、處理器及存儲在存儲器上的計算機程序，所述處理器執(zhí)行所述計算機程序以實現(xiàn)前述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。

13、本發(fā)明同時提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序/指令，其特征在于：該計算機程序/指令被處理器執(zhí)行時實現(xiàn)前述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。

14、綜上所述，由于采用了本技術(shù)方案，本發(fā)明的有益效果如下：

15、強化學(xué)習(xí)機制使智能體能夠自主探索未知環(huán)境，通過反復(fù)決策、觀察結(jié)果并調(diào)整策略，智能體能逐漸理解環(huán)境規(guī)則，從而制定出有效策略，引導(dǎo)超表面狀態(tài)參數(shù)向期望功能和技術(shù)指標(biāo)進化。

16、與粒子群算法等傳統(tǒng)優(yōu)化算法相比，本發(fā)明方法更擅長處理非線性和不確定性的復(fù)雜場景，展現(xiàn)出更強的求解能力和更快的收斂速度，從而特別適合解決高比特位編碼超表面的設(shè)計難題。

17、不同于監(jiān)督學(xué)習(xí)方式需要大量高質(zhì)量數(shù)據(jù)集的支持，本發(fā)明通過智能體與環(huán)境的直接交互實現(xiàn)優(yōu)化設(shè)計，避免了對數(shù)據(jù)集的高度依賴，減少了數(shù)據(jù)準(zhǔn)備的成本和工作量。傳統(tǒng)設(shè)計方法往往依賴于大量的人工干預(yù)，耗費時間和人力；而本發(fā)明方法減少了人工參與度，降低了時間成本和人力成本，提高了效率和經(jīng)濟性。

18、無論面對大規(guī)模模塊還是高比特位編碼的超表面設(shè)計挑戰(zhàn)，本發(fā)明提供的方法均能展現(xiàn)出其優(yōu)越性，為超表面技術(shù)的發(fā)展提供了新的可能。

技術(shù)特征：

1.一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于，所述方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s1中，強化學(xué)習(xí)環(huán)境模型為數(shù)學(xué)模型或仿真環(huán)境模型，由超表面狀態(tài)信息與物理規(guī)律構(gòu)成，包括狀態(tài)空間、動作空間、狀態(tài)更新和獎勵機制模塊。

3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s1中，超表面由m×n個邊長為d的陣元構(gòu)成，其中第(m,n)個陣元對應(yīng)的相位為在強化學(xué)習(xí)環(huán)境模型中，描述超表面狀態(tài)的多種參數(shù)共同構(gòu)成超表面的狀態(tài)空間，對超表面狀態(tài)進行改變的行為則記為決策動作，多種決策動作構(gòu)成動作空間；超表面狀態(tài)的更新由智能體做出的決策動作驅(qū)動；通過比較某一決策動作采取后新狀態(tài)下的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距，實現(xiàn)獎勵機制，由強化學(xué)習(xí)環(huán)境模型將獎勵作為給予智能體的反饋信號。

4.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s2中，值網(wǎng)絡(luò)是將環(huán)境狀態(tài)映射為動作值的神經(jīng)網(wǎng)絡(luò)；值網(wǎng)絡(luò)包括輸入層、輸出層和多個隱藏層，每個隱藏層后采用對應(yīng)的激活函數(shù)，激活函數(shù)用于增加值網(wǎng)絡(luò)的非線性擬合能力；值網(wǎng)絡(luò)的輸入為強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài)，輸出則為智能體所有可進行的決策動作對應(yīng)的動作值。

5.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s3中，智能體是由值網(wǎng)絡(luò)、動作選擇策略與迭代更新共同構(gòu)成的整體，智能體是強化學(xué)習(xí)算法中的組成部分；智能體觀察強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài)，通過值網(wǎng)絡(luò)獲取可進行的決策動作對應(yīng)的動作值，依據(jù)動作選擇策略做出決策動作；決策動作給到強化學(xué)習(xí)環(huán)境模型，環(huán)境狀態(tài)更新，對應(yīng)的目標(biāo)函數(shù)值也更新，通過比較新狀態(tài)的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距，強化學(xué)習(xí)環(huán)境模型給予智能體獎勵；智能體依據(jù)每次做出決策動作并獲得獎勵的過程，進行迭代更新。

6.根據(jù)權(quán)利要求5所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s3中，強化學(xué)習(xí)算法采用dqn算法，在dqn算法中，使用兩個獨立的值網(wǎng)絡(luò)分別作為當(dāng)前值網(wǎng)絡(luò)與目標(biāo)值網(wǎng)絡(luò)，通過目標(biāo)值網(wǎng)絡(luò)使強化學(xué)習(xí)過程的目標(biāo)值分段保持穩(wěn)定；針對智能體每次迭代更新得到的樣本數(shù)據(jù)，使用經(jīng)驗回放池存儲樣本數(shù)據(jù)，通過從經(jīng)驗回放池隨機均勻地抽取已存儲的樣本數(shù)據(jù)的方式來進行智能體新的迭代訓(xùn)練過程。

7.根據(jù)權(quán)利要求5所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s3中，動作選擇策略采用ε-greedy策略，在該策略中，數(shù)值ε的范圍介于0到1之間，代表智能體隨機選擇決策動作的概率；在智能體的迭代更新過程中，ε-greedy策略的數(shù)值ε隨著迭代訓(xùn)練步數(shù)的增加而逐漸減?。换谠摬呗缘膽?yīng)用，當(dāng)智能體不對決策動作進行隨機選擇時，智能體選擇值網(wǎng)絡(luò)輸出的動作值中的最大值對應(yīng)的動作來作為決策動作。

8.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，其特征在于：步驟s4中，當(dāng)智能體的迭代步數(shù)達到預(yù)設(shè)上限、手動方式停止迭代或者已找到滿足給定優(yōu)化值的強化學(xué)習(xí)環(huán)境模型的環(huán)境狀態(tài)參數(shù)時，終止迭代；將迭代終止時小于或最接近給定優(yōu)化值的環(huán)境狀態(tài)參數(shù)作為超表面優(yōu)化設(shè)計結(jié)果輸出。

9.一種計算機裝置設(shè)備系統(tǒng)，包括存儲器、處理器及存儲在存儲器上的計算機程序，其特征在于：所述處理器執(zhí)行所述計算機程序以實現(xiàn)權(quán)利要求1-8任一項所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序/指令，其特征在于：該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-8任一項所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。

技術(shù)總結(jié)
本發(fā)明提供一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法，涉及電磁超表面技術(shù)領(lǐng)域，解決了基于監(jiān)督學(xué)習(xí)的超表面設(shè)計方法對數(shù)據(jù)集的高度依賴以及數(shù)據(jù)集制作成本高的問題；方法包括：構(gòu)建超表面對應(yīng)的強化學(xué)習(xí)環(huán)境模型，構(gòu)建強化學(xué)習(xí)算法對應(yīng)的值網(wǎng)絡(luò)；基于已構(gòu)建的強化學(xué)習(xí)環(huán)境模型與值網(wǎng)絡(luò)，通過智能體與環(huán)境交互的方式，更新強化學(xué)習(xí)環(huán)境模型的目標(biāo)函數(shù)，優(yōu)化智能體的決策，滿足預(yù)設(shè)優(yōu)化需求后，停止交互過程，輸出超表面優(yōu)化設(shè)計結(jié)果；其中，通過比較新狀態(tài)的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距，強化學(xué)習(xí)環(huán)境模型給予智能體獎勵；本發(fā)明方法對非線性、不確定性的復(fù)雜環(huán)境求解能力更強，具備智能快速的特點，降低了數(shù)據(jù)集依賴性與制作成本。

技術(shù)研發(fā)人員：姚月,閆超,梁博
受保護的技術(shù)使用者：四川九洲電器集團有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚月,閆超,梁博
技術(shù)所有人：四川九洲電器集團有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：原料池混凝土結(jié)構(gòu)防裂原材料制備設(shè)備及方法與流程
上一篇：一種機場跑道毀傷計算方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！