本發(fā)明涉及電磁超表面,具體涉及一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法。
背景技術(shù):
1、電磁超表面,作為一類二維平面結(jié)構(gòu)的復(fù)合材料,以其獨特的波束調(diào)控能力在電磁學(xué)領(lǐng)域引起了廣泛關(guān)注。與傳統(tǒng)的三維超材料相比,超表面因其平面特性而展現(xiàn)出諸多優(yōu)勢,包括但不限于設(shè)計靈活性、易于集成以及與曲面結(jié)構(gòu)的兼容性。這一技術(shù)的應(yīng)用范圍廣泛,涵蓋了從雷達散射截面的縮減到波束偏轉(zhuǎn)、異常反射、異常折射,乃至多波束切換等復(fù)雜場景、展現(xiàn)了其在現(xiàn)代通信、雷達系統(tǒng)、光學(xué)器件以及隱身技術(shù)中的巨大潛力。
2、2014年,崔鐵軍教授開創(chuàng)性地提出了數(shù)字化編碼超表面的概念,這標(biāo)志著超表面設(shè)計邁入了一個新紀(jì)元。編碼超表面通過將不同的反射相位單元用二進制代碼標(biāo)識,極大地簡化了設(shè)計過程。在這種框架下,超表面的設(shè)計挑戰(zhàn)被轉(zhuǎn)化為了尋找最優(yōu)編碼序列和相應(yīng)的單元結(jié)構(gòu)的問題。然而,隨著研究的深入,超表面設(shè)計的優(yōu)化方法也暴露出了一些關(guān)鍵性問題。
3、目前,超表面優(yōu)化設(shè)計主要依賴兩大類方法:傳統(tǒng)優(yōu)化算法和基于監(jiān)督學(xué)習(xí)的方法。前者包括遍歷算法、遺傳算法、蟻群算法等,雖然在處理低維問題時表現(xiàn)良好,但當(dāng)面對大規(guī)模、高比特位編碼超表面時,其計算復(fù)雜度急劇上升,導(dǎo)致設(shè)計周期延長,效率低下。尤其對于高比特位編碼超表面,傳統(tǒng)算法的局限性更為顯著,因為它們往往難以有效探索復(fù)雜的解空間。
4、另一方面,基于監(jiān)督學(xué)習(xí)的方法,盡管在數(shù)據(jù)驅(qū)動的優(yōu)化中展現(xiàn)出了巨大的潛力,但其性能高度依賴于高質(zhì)量、大規(guī)模的數(shù)據(jù)集。若數(shù)據(jù)集構(gòu)建不當(dāng)或不足,訓(xùn)練出的模型可能無法準(zhǔn)確地預(yù)測超表面的性能,從而影響設(shè)計的精確性和可靠性。
5、鑒于現(xiàn)有超表面設(shè)計方法的局限性,迫切需要開發(fā)一種新的優(yōu)化設(shè)計策略,以克服高比特位編碼超表面設(shè)計中的挑戰(zhàn)。這種策略應(yīng)能夠高效地處理大規(guī)模優(yōu)化問題,同時確保設(shè)計的精度和魯棒性,從而推動電磁超表面技術(shù)向更高級別的應(yīng)用邁進。
技術(shù)實現(xiàn)思路
1、基于背景技術(shù)中的現(xiàn)狀,本發(fā)明的目的在于解決基于監(jiān)督學(xué)習(xí)的超表面設(shè)計方法對數(shù)據(jù)集的高度依賴、數(shù)據(jù)集制作成本高和高比特位編碼超表面的問題,因此提出了一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法。本發(fā)明方法將關(guān)注的超表面特性作為優(yōu)化目標(biāo),通過智能體與環(huán)境的交互,掌握環(huán)境運作規(guī)律,制定相應(yīng)的策略,使得超表面狀態(tài)參數(shù)朝著期望的功能或技術(shù)指標(biāo)變化。本發(fā)明方法對非線性、不確定性的復(fù)雜環(huán)境求解能力更強,具備智能快速的特點,且無需預(yù)先準(zhǔn)備數(shù)據(jù)集,降低了數(shù)據(jù)集依賴性與制作成本。
2、本發(fā)明采用了以下技術(shù)方案來實現(xiàn)目的:
3、一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,所述方法包括如下步驟:
4、s1、構(gòu)建超表面對應(yīng)的強化學(xué)習(xí)環(huán)境模型;
5、s2、構(gòu)建強化學(xué)習(xí)算法對應(yīng)的值網(wǎng)絡(luò);
6、s3、基于已構(gòu)建的強化學(xué)習(xí)環(huán)境模型與值網(wǎng)絡(luò),通過智能體與環(huán)境交互的方式,更新強化學(xué)習(xí)環(huán)境模型的目標(biāo)函數(shù),優(yōu)化智能體的決策;
7、s4、滿足預(yù)設(shè)優(yōu)化需求后,停止交互過程,輸出超表面優(yōu)化設(shè)計結(jié)果。
8、進一步的,步驟s3中,智能體是由值網(wǎng)絡(luò)、動作選擇策略與迭代更新共同構(gòu)成的整體,智能體是強化學(xué)習(xí)算法中的組成部分;智能體觀察強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài),通過值網(wǎng)絡(luò)獲取可進行的決策動作對應(yīng)的動作值,依據(jù)動作選擇策略做出決策動作;決策動作給到強化學(xué)習(xí)環(huán)境模型,環(huán)境狀態(tài)更新,對應(yīng)的目標(biāo)函數(shù)值也更新,通過比較新狀態(tài)的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距,強化學(xué)習(xí)環(huán)境模型給予智能體獎勵;智能體依據(jù)每次做出決策動作并獲得獎勵的過程,進行迭代更新。
9、進一步的,步驟s3中,強化學(xué)習(xí)算法采用dqn算法,在dqn算法中,使用兩個獨立的值網(wǎng)絡(luò)分別作為當(dāng)前值網(wǎng)絡(luò)q(θ)與目標(biāo)值網(wǎng)絡(luò)q(θ-),通過目標(biāo)值網(wǎng)絡(luò)q(θ-)使強化學(xué)習(xí)過程的目標(biāo)值分段保持穩(wěn)定。當(dāng)前值網(wǎng)絡(luò)負(fù)責(zé)觀察環(huán)境此刻狀態(tài)st并給出決策動作at,環(huán)境接收到動作后更新狀態(tài)并計算新狀態(tài)st+1對應(yīng)的目標(biāo)函數(shù)值,然后根據(jù)獎勵規(guī)則返回獎勵rt+1;將樣本數(shù)據(jù)(st,at,st+1,rt+1)存入經(jīng)驗回放池,當(dāng)經(jīng)驗回放池中樣本數(shù)據(jù)的數(shù)量超過批訓(xùn)練數(shù)量b時,從中隨機均勻抽取數(shù)據(jù)進行訓(xùn)練,并將抽取的批數(shù)據(jù)分別輸入當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò),將兩個值網(wǎng)絡(luò)的輸出值之間的誤差作為損失函數(shù)lt,其公式如下:
10、
11、式中,γ為折扣因子;通過誤差反向傳播更新當(dāng)前值網(wǎng)絡(luò)的參數(shù),并且每隔g個時間步就將當(dāng)前值網(wǎng)絡(luò)的參數(shù)賦給目標(biāo)值網(wǎng)絡(luò)。經(jīng)過多步迭代,當(dāng)前值網(wǎng)絡(luò)的決策能力得以提高,智能體最終可找到目標(biāo)函數(shù)值小于給定優(yōu)化值的狀態(tài)參數(shù)設(shè)計。
12、本發(fā)明同時提供一種計算機裝置設(shè)備系統(tǒng),包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)前述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。
13、本發(fā)明同時提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序/指令,其特征在于:該計算機程序/指令被處理器執(zhí)行時實現(xiàn)前述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。
14、綜上所述,由于采用了本技術(shù)方案,本發(fā)明的有益效果如下:
15、強化學(xué)習(xí)機制使智能體能夠自主探索未知環(huán)境,通過反復(fù)決策、觀察結(jié)果并調(diào)整策略,智能體能逐漸理解環(huán)境規(guī)則,從而制定出有效策略,引導(dǎo)超表面狀態(tài)參數(shù)向期望功能和技術(shù)指標(biāo)進化。
16、與粒子群算法等傳統(tǒng)優(yōu)化算法相比,本發(fā)明方法更擅長處理非線性和不確定性的復(fù)雜場景,展現(xiàn)出更強的求解能力和更快的收斂速度,從而特別適合解決高比特位編碼超表面的設(shè)計難題。
17、不同于監(jiān)督學(xué)習(xí)方式需要大量高質(zhì)量數(shù)據(jù)集的支持,本發(fā)明通過智能體與環(huán)境的直接交互實現(xiàn)優(yōu)化設(shè)計,避免了對數(shù)據(jù)集的高度依賴,減少了數(shù)據(jù)準(zhǔn)備的成本和工作量。傳統(tǒng)設(shè)計方法往往依賴于大量的人工干預(yù),耗費時間和人力;而本發(fā)明方法減少了人工參與度,降低了時間成本和人力成本,提高了效率和經(jīng)濟性。
18、無論面對大規(guī)模模塊還是高比特位編碼的超表面設(shè)計挑戰(zhàn),本發(fā)明提供的方法均能展現(xiàn)出其優(yōu)越性,為超表面技術(shù)的發(fā)展提供了新的可能。
1.一種基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s1中,強化學(xué)習(xí)環(huán)境模型為數(shù)學(xué)模型或仿真環(huán)境模型,由超表面狀態(tài)信息與物理規(guī)律構(gòu)成,包括狀態(tài)空間、動作空間、狀態(tài)更新和獎勵機制模塊。
3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s1中,超表面由m×n個邊長為d的陣元構(gòu)成,其中第(m,n)個陣元對應(yīng)的相位為在強化學(xué)習(xí)環(huán)境模型中,描述超表面狀態(tài)的多種參數(shù)共同構(gòu)成超表面的狀態(tài)空間,對超表面狀態(tài)進行改變的行為則記為決策動作,多種決策動作構(gòu)成動作空間;超表面狀態(tài)的更新由智能體做出的決策動作驅(qū)動;通過比較某一決策動作采取后新狀態(tài)下的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距,實現(xiàn)獎勵機制,由強化學(xué)習(xí)環(huán)境模型將獎勵作為給予智能體的反饋信號。
4.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s2中,值網(wǎng)絡(luò)是將環(huán)境狀態(tài)映射為動作值的神經(jīng)網(wǎng)絡(luò);值網(wǎng)絡(luò)包括輸入層、輸出層和多個隱藏層,每個隱藏層后采用對應(yīng)的激活函數(shù),激活函數(shù)用于增加值網(wǎng)絡(luò)的非線性擬合能力;值網(wǎng)絡(luò)的輸入為強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài),輸出則為智能體所有可進行的決策動作對應(yīng)的動作值。
5.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s3中,智能體是由值網(wǎng)絡(luò)、動作選擇策略與迭代更新共同構(gòu)成的整體,智能體是強化學(xué)習(xí)算法中的組成部分;智能體觀察強化學(xué)習(xí)環(huán)境模型中的環(huán)境狀態(tài),通過值網(wǎng)絡(luò)獲取可進行的決策動作對應(yīng)的動作值,依據(jù)動作選擇策略做出決策動作;決策動作給到強化學(xué)習(xí)環(huán)境模型,環(huán)境狀態(tài)更新,對應(yīng)的目標(biāo)函數(shù)值也更新,通過比較新狀態(tài)的目標(biāo)函數(shù)值與給定優(yōu)化值之間的差距,強化學(xué)習(xí)環(huán)境模型給予智能體獎勵;智能體依據(jù)每次做出決策動作并獲得獎勵的過程,進行迭代更新。
6.根據(jù)權(quán)利要求5所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s3中,強化學(xué)習(xí)算法采用dqn算法,在dqn算法中,使用兩個獨立的值網(wǎng)絡(luò)分別作為當(dāng)前值網(wǎng)絡(luò)與目標(biāo)值網(wǎng)絡(luò),通過目標(biāo)值網(wǎng)絡(luò)使強化學(xué)習(xí)過程的目標(biāo)值分段保持穩(wěn)定;針對智能體每次迭代更新得到的樣本數(shù)據(jù),使用經(jīng)驗回放池存儲樣本數(shù)據(jù),通過從經(jīng)驗回放池隨機均勻地抽取已存儲的樣本數(shù)據(jù)的方式來進行智能體新的迭代訓(xùn)練過程。
7.根據(jù)權(quán)利要求5所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s3中,動作選擇策略采用ε-greedy策略,在該策略中,數(shù)值ε的范圍介于0到1之間,代表智能體隨機選擇決策動作的概率;在智能體的迭代更新過程中,ε-greedy策略的數(shù)值ε隨著迭代訓(xùn)練步數(shù)的增加而逐漸減?。换谠摬呗缘膽?yīng)用,當(dāng)智能體不對決策動作進行隨機選擇時,智能體選擇值網(wǎng)絡(luò)輸出的動作值中的最大值對應(yīng)的動作來作為決策動作。
8.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法,其特征在于:步驟s4中,當(dāng)智能體的迭代步數(shù)達到預(yù)設(shè)上限、手動方式停止迭代或者已找到滿足給定優(yōu)化值的強化學(xué)習(xí)環(huán)境模型的環(huán)境狀態(tài)參數(shù)時,終止迭代;將迭代終止時小于或最接近給定優(yōu)化值的環(huán)境狀態(tài)參數(shù)作為超表面優(yōu)化設(shè)計結(jié)果輸出。
9.一種計算機裝置設(shè)備系統(tǒng),包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于:所述處理器執(zhí)行所述計算機程序以實現(xiàn)權(quán)利要求1-8任一項所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序/指令,其特征在于:該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-8任一項所述的基于強化學(xué)習(xí)的超表面優(yōu)化設(shè)計方法的步驟。