一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法

文檔序號(hào)：6635037閱讀：883來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法
【專(zhuān)利摘要】本發(fā)明提出了一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，解決了虛擬空戰(zhàn)仿真中戰(zhàn)術(shù)動(dòng)作的智能決策問(wèn)題。本方法包含：對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行采樣；在狀態(tài)空間中對(duì)效用函數(shù)進(jìn)行擬合，通過(guò)貝爾曼迭代和最小二乘法擬合對(duì)效用函數(shù)進(jìn)行近似計(jì)算；作戰(zhàn)決策，通過(guò)前瞻測(cè)試，在預(yù)測(cè)過(guò)程中采用所擬合的效用函數(shù)進(jìn)行動(dòng)作決策，根據(jù)預(yù)測(cè)的執(zhí)行結(jié)果確定最終執(zhí)行的動(dòng)作。本發(fā)明方法可有效提高效用函數(shù)的擬合效率以及獲取效率，相對(duì)傳統(tǒng)方法，本發(fā)明方法能更快地獲取最優(yōu)行動(dòng)策略。
【專(zhuān)利說(shuō)明】一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)仿真【技術(shù)領(lǐng)域】，具體涉及一種用于飛機(jī)的空戰(zhàn)智能決策任務(wù)的實(shí)現(xiàn)方法。

【背景技術(shù)】
[0002] 隨著無(wú)人機(jī)系統(tǒng)在現(xiàn)代戰(zhàn)場(chǎng)中承擔(dān)的任務(wù)越來(lái)越復(fù)雜，對(duì)無(wú)人機(jī)的智能決策水平的要求也越來(lái)越高；空戰(zhàn)決策無(wú)疑是其中難度水平最高的任務(wù)之一。
[0003] 強(qiáng)化學(xué)習(xí)技術(shù)是由學(xué)習(xí)對(duì)象通過(guò)"試錯(cuò)"的方式與行為環(huán)境進(jìn)行交互，通過(guò)即時(shí) 回報(bào)的累積來(lái)獲取自身最優(yōu)行動(dòng)策略的一種方法。但在傳統(tǒng)的強(qiáng)化學(xué)習(xí)過(guò)程中，為了使行動(dòng)策略能夠有效收斂，一種常用的處理方式是對(duì)狀態(tài)空間各維度進(jìn)行離散化，從而獲取"有限"的基本狀態(tài)單元；行動(dòng)策略就是基于這些基本單元進(jìn)行不斷嘗試，從而找到叢初始單元到目標(biāo)單元的軌跡；最優(yōu)策略是其中最短的。
[0004] 但是，如果狀態(tài)空間的維度較高，即時(shí)基本單元的數(shù)量是有限的，其數(shù)量規(guī)模也將達(dá)到很可觀的水平；在這樣的環(huán)境中，尋找最優(yōu)策略的收斂過(guò)程將及其漫長(zhǎng)。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有問(wèn)題，本發(fā)明提供了一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，采用近似擬合的方法對(duì)空戰(zhàn)決策問(wèn)題求解，將近似的擬合方法應(yīng)用到空戰(zhàn)決策問(wèn)題，以快速獲得最優(yōu)策略。
[0006] 設(shè)紅方飛機(jī)和藍(lán)方飛機(jī)進(jìn)行作戰(zhàn)，本發(fā)明的基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，用于紅方飛機(jī)，具體實(shí)現(xiàn)步驟如下：
[0007] 步驟1 :數(shù)據(jù)采樣；
[0008] 采用軌跡采樣法，對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行記錄，獲取采樣點(diǎn)集合X;
[0009] 步驟2:效用函數(shù)擬合；
[0010] 采用適于連續(xù)狀態(tài)空間函數(shù)的擬合方法擬合效用函數(shù)J(X)，X為態(tài)勢(shì)（或稱(chēng)狀態(tài)）；具體擬合方法為：首先，選取特征量描述空戰(zhàn)狀態(tài)空間，所有選取的特征量組成一個(gè) 特征向量，用特征向量表示集合X中的每個(gè)狀態(tài)X;然后，基于采樣點(diǎn)集合X，使用貝爾曼迭代以及最小二乘法，進(jìn)行效用函數(shù)的擬合；
[0011] 步驟3:作戰(zhàn)決策；
[0012] 對(duì)當(dāng)前的狀態(tài)X，采用前瞻測(cè)試對(duì)紅方飛機(jī)的所有動(dòng)作的執(zhí)行后果進(jìn)行預(yù)測(cè)，選取預(yù)測(cè)結(jié)果最好的動(dòng)作執(zhí)行。所述的前瞻測(cè)試是一種虛擬執(zhí)行的方法，以指定的動(dòng)作開(kāi)始虛擬推進(jìn)作戰(zhàn)過(guò)程，直到完成指定的回合數(shù)。前瞻測(cè)試的每個(gè)回合中紅方飛機(jī)均采用步驟2 得到的效用函數(shù)進(jìn)行動(dòng)作決策。
[0013] 所述的步驟1進(jìn)行數(shù)據(jù)采樣的具體過(guò)程為：
[0014] ?建立紅方、藍(lán)方飛機(jī)，給定紅、藍(lán)雙方的初始態(tài)勢(shì)；
[0015] 魯雙方均采用式（1)定義的即時(shí)回報(bào)函數(shù)S(X)，進(jìn)行動(dòng)作決策，展開(kāi)空戰(zhàn)。動(dòng)作決策時(shí)，選取在當(dāng)前態(tài)勢(shì)下，使己方即時(shí)回報(bào)函數(shù)值最大、同時(shí)使對(duì)方即時(shí)回報(bào)函數(shù)值最小的動(dòng)作。
[0016]

【權(quán)利要求】
1. 一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，用于作戰(zhàn)的紅方飛機(jī)，其特征在于，該空戰(zhàn)行為建模方法包括如下三個(gè)步驟：步驟1:數(shù)據(jù)采樣；采用軌跡采樣法，對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行記錄，獲取采樣點(diǎn)集合X; 步驟2:效用函數(shù)擬合；首先，選取特征量描述空戰(zhàn)狀態(tài)空間，所有選取的特征量組成一個(gè)特征向量，用特征向量表示集合X中的每個(gè)狀態(tài)x;然后，基于采樣點(diǎn)集合X，使用貝爾曼迭代以及最小二乘法，進(jìn)行效用函數(shù)的擬合；設(shè)效用函數(shù)擬合時(shí)的循環(huán)次數(shù)為N，在第k輪循環(huán)中執(zhí)行下面（2.1)和（2.2)，k= 1，2,…，N; (2. 1)獲得藍(lán)方飛機(jī)對(duì)于集合X決策的動(dòng)作向量Ab; (2. 2)獲得紅方飛機(jī)的動(dòng)作向量Ar，以及當(dāng)前循環(huán)下的優(yōu)化效用嚴(yán)，
對(duì)應(yīng)得到的最大F值為/fc;A為折扣因子，〇〈A〈1 ;嚴(yán)-1表示第k-1次循環(huán)得到的效用函數(shù)：
為根據(jù)集合X得到的即時(shí)回報(bào)函數(shù)值向量；f(X，A，Ab)表示在狀態(tài)X 下，紅方飛機(jī)動(dòng)作向量為A、藍(lán)方飛機(jī)動(dòng)作向量為Ab的情況下到達(dá)的下一個(gè)狀態(tài)向量；k表示第k次循環(huán)中特征向量〇的擬和系數(shù)；根據(jù)式（3)得到當(dāng)前循環(huán)下的優(yōu)化效用尸；第N次循環(huán)輸出的/w為擬合得到的效用函數(shù)；步驟3 :作戰(zhàn)決策；對(duì)當(dāng)前的狀態(tài)X，采用前瞻測(cè)試對(duì)紅方飛機(jī)的所有待選動(dòng)作的執(zhí)行后果進(jìn)行預(yù)測(cè)，選取預(yù)測(cè)結(jié)果最好的動(dòng)作執(zhí)行；所述的前瞻測(cè)試是一種虛擬執(zhí)行的方法，以指定的動(dòng)作開(kāi)始虛擬推進(jìn)作戰(zhàn)過(guò)程，直到完成指定的回合數(shù)；前瞻測(cè)試的每個(gè)回合中紅方飛機(jī)均采用步驟2 得到的效用函數(shù)進(jìn)行動(dòng)作決策。
2. 根據(jù)權(quán)利要求1所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，其特征在于，所述的數(shù)據(jù)采樣，具體過(guò)程為： (1) 首先，建立紅方、藍(lán)方飛機(jī)，給定紅、藍(lán)雙方的初始狀態(tài)； (2) 然后，雙方均采用下面定義的即時(shí)回報(bào)函數(shù)S(x)，進(jìn)行動(dòng)作決策，展開(kāi)空戰(zhàn)；在動(dòng) 作決策時(shí)，選取在當(dāng)前狀態(tài)x下，使己方即時(shí)回報(bào)函數(shù)值最大、同時(shí)使對(duì)方即時(shí)回報(bào)函數(shù)值最小的動(dòng)作；
其中，AA表示脫離角，ATA表示進(jìn)入角；R表示兩架飛機(jī)之間的距離，Rd表示兩架飛機(jī) 之間的相對(duì)最佳距離；k為影響因子，用來(lái)調(diào)整距離和角度的相對(duì)影響； (3)對(duì)飛機(jī)交戰(zhàn)的軌跡采樣，形成采樣點(diǎn)集合X。
3. 根據(jù)權(quán)利要求1所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，其特征在于，所述的步驟2中選取的特征量包括：兩機(jī)之間的歐式距離R，脫離角AA，脫離角的變化率尤4,脫離角的絕對(duì)值IAA|，進(jìn)入角ATA，進(jìn)入角的變化率4九4,進(jìn)入角的絕對(duì)值|ATA|，偏航角的偏差HCA，以及偏航角偏差的絕對(duì)值|HCA|。
4. 根據(jù)權(quán)利要求1或3所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，其特征在于，步驟3中所述的前瞻測(cè)試，對(duì)紅方飛機(jī)的每個(gè)待選動(dòng)作根據(jù)當(dāng)前的狀態(tài)x和藍(lán)方飛機(jī)的決策動(dòng)作，獲得下一狀態(tài)？，然后從狀態(tài)？開(kāi)始，預(yù)測(cè)NMll個(gè)決策步長(zhǎng)之后的未來(lái)狀態(tài);cWroH〇
5. 根據(jù)權(quán)利要求4所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法，其特征在于，步驟3中所述的前瞻測(cè)試，對(duì)紅方飛機(jī)的每個(gè)待選動(dòng)作預(yù)測(cè)NMll個(gè)決策步長(zhǎng)之后的未來(lái) 狀態(tài)選取使下式J值最大對(duì)應(yīng)的動(dòng)作作為最佳動(dòng)作；
【文檔編號(hào)】G06F17/50GK104484500SQ201410665956
【公開(kāi)日】2015年4月1日申請(qǐng)日期:2014年11月19日優(yōu)先權(quán)日:2014年9月3日
【發(fā)明者】馬耀飛, 馬小樂(lè), 宋曉, 龔光紅申請(qǐng)人:北京航空航天大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬耀飛;馬小樂(lè);宋曉;龔光紅;
技術(shù)所有人：北京航空航天大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：門(mén)戶(hù)網(wǎng)站的死鏈檢查方法和裝置制造方法
上一篇：一種可搖控外部輸入裝置制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法