两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法

文檔序號(hào):6635037閱讀:883來(lái)源:國(guó)知局
一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法
【專(zhuān)利摘要】本發(fā)明提出了一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,解決了虛擬空戰(zhàn)仿真中戰(zhàn)術(shù)動(dòng)作的智能決策問(wèn)題。本方法包含:對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行采樣;在狀態(tài)空間中對(duì)效用函數(shù)進(jìn)行擬合,通過(guò)貝爾曼迭代和最小二乘法擬合對(duì)效用函數(shù)進(jìn)行近似計(jì)算;作戰(zhàn)決策,通過(guò)前瞻測(cè)試,在預(yù)測(cè)過(guò)程中采用所擬合的效用函數(shù)進(jìn)行動(dòng)作決策,根據(jù)預(yù)測(cè)的執(zhí)行結(jié)果確定最終執(zhí)行的動(dòng)作。本發(fā)明方法可有效提高效用函數(shù)的擬合效率以及獲取效率,相對(duì)傳統(tǒng)方法,本發(fā)明方法能更快地獲取最優(yōu)行動(dòng)策略。
【專(zhuān)利說(shuō)明】一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)仿真【技術(shù)領(lǐng)域】,具體涉及一種用于飛機(jī)的空戰(zhàn)智能決策任務(wù)的 實(shí)現(xiàn)方法。

【背景技術(shù)】
[0002] 隨著無(wú)人機(jī)系統(tǒng)在現(xiàn)代戰(zhàn)場(chǎng)中承擔(dān)的任務(wù)越來(lái)越復(fù)雜,對(duì)無(wú)人機(jī)的智能決策水 平的要求也越來(lái)越高;空戰(zhàn)決策無(wú)疑是其中難度水平最高的任務(wù)之一。
[0003] 強(qiáng)化學(xué)習(xí)技術(shù)是由學(xué)習(xí)對(duì)象通過(guò)"試錯(cuò)"的方式與行為環(huán)境進(jìn)行交互,通過(guò)即時(shí) 回報(bào)的累積來(lái)獲取自身最優(yōu)行動(dòng)策略的一種方法。但在傳統(tǒng)的強(qiáng)化學(xué)習(xí)過(guò)程中,為了使行 動(dòng)策略能夠有效收斂,一種常用的處理方式是對(duì)狀態(tài)空間各維度進(jìn)行離散化,從而獲取"有 限"的基本狀態(tài)單元;行動(dòng)策略就是基于這些基本單元進(jìn)行不斷嘗試,從而找到叢初始單元 到目標(biāo)單元的軌跡;最優(yōu)策略是其中最短的。
[0004] 但是,如果狀態(tài)空間的維度較高,即時(shí)基本單元的數(shù)量是有限的,其數(shù)量規(guī)模也將 達(dá)到很可觀的水平;在這樣的環(huán)境中,尋找最優(yōu)策略的收斂過(guò)程將及其漫長(zhǎng)。


【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有問(wèn)題,本發(fā)明提供了一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,采用 近似擬合的方法對(duì)空戰(zhàn)決策問(wèn)題求解,將近似的擬合方法應(yīng)用到空戰(zhàn)決策問(wèn)題,以快速獲 得最優(yōu)策略。
[0006] 設(shè)紅方飛機(jī)和藍(lán)方飛機(jī)進(jìn)行作戰(zhàn),本發(fā)明的基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方 法,用于紅方飛機(jī),具體實(shí)現(xiàn)步驟如下:
[0007] 步驟1 :數(shù)據(jù)采樣;
[0008] 采用軌跡采樣法,對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行記錄,獲取采樣點(diǎn)集合X;
[0009] 步驟2:效用函數(shù)擬合;
[0010] 采用適于連續(xù)狀態(tài)空間函數(shù)的擬合方法擬合效用函數(shù)J(X),X為態(tài)勢(shì)(或稱(chēng)狀 態(tài));具體擬合方法為:首先,選取特征量描述空戰(zhàn)狀態(tài)空間,所有選取的特征量組成一個(gè) 特征向量,用特征向量表示集合X中的每個(gè)狀態(tài)X;然后,基于采樣點(diǎn)集合X,使用貝爾曼迭 代以及最小二乘法,進(jìn)行效用函數(shù)的擬合;
[0011] 步驟3:作戰(zhàn)決策;
[0012] 對(duì)當(dāng)前的狀態(tài)X,采用前瞻測(cè)試對(duì)紅方飛機(jī)的所有動(dòng)作的執(zhí)行后果進(jìn)行預(yù)測(cè),選取 預(yù)測(cè)結(jié)果最好的動(dòng)作執(zhí)行。所述的前瞻測(cè)試是一種虛擬執(zhí)行的方法,以指定的動(dòng)作開(kāi)始虛 擬推進(jìn)作戰(zhàn)過(guò)程,直到完成指定的回合數(shù)。前瞻測(cè)試的每個(gè)回合中紅方飛機(jī)均采用步驟2 得到的效用函數(shù)進(jìn)行動(dòng)作決策。
[0013] 所述的步驟1進(jìn)行數(shù)據(jù)采樣的具體過(guò)程為:
[0014] ?建立紅方、藍(lán)方飛機(jī),給定紅、藍(lán)雙方的初始態(tài)勢(shì);
[0015] 魯雙方均采用式(1)定義的即時(shí)回報(bào)函數(shù)S(X),進(jìn)行動(dòng)作決策,展開(kāi)空戰(zhàn)。動(dòng)作 決策時(shí),選取在當(dāng)前態(tài)勢(shì)下,使己方即時(shí)回報(bào)函數(shù)值最大、同時(shí)使對(duì)方即時(shí)回報(bào)函數(shù)值最小 的動(dòng)作。
[0016]

【權(quán)利要求】
1. 一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,用于作戰(zhàn)的紅方飛機(jī),其特征在于,該 空戰(zhàn)行為建模方法包括如下三個(gè)步驟: 步驟1:數(shù)據(jù)采樣; 采用軌跡采樣法,對(duì)飛機(jī)作戰(zhàn)過(guò)程的軌跡進(jìn)行記錄,獲取采樣點(diǎn)集合X; 步驟2:效用函數(shù)擬合; 首先,選取特征量描述空戰(zhàn)狀態(tài)空間,所有選取的特征量組成一個(gè)特征向量,用特征向 量表示集合X中的每個(gè)狀態(tài)x;然后,基于采樣點(diǎn)集合X,使用貝爾曼迭代以及最小二乘法, 進(jìn)行效用函數(shù)的擬合; 設(shè)效用函數(shù)擬合時(shí)的循環(huán)次數(shù)為N,在第k輪循環(huán)中執(zhí)行下面(2.1)和(2.2),k= 1,2,…,N; (2. 1)獲得藍(lán)方飛機(jī)對(duì)于集合X決策的動(dòng)作向量Ab; (2. 2)獲得紅方飛機(jī)的動(dòng)作向量Ar,以及當(dāng)前循環(huán)下的優(yōu)化效用嚴(yán),
對(duì)應(yīng)得到的最大F值為/fc;A為折扣因子,〇〈A〈1 ;嚴(yán)-1表示第k-1次循環(huán)得到的效用函 數(shù):
為根據(jù)集合X得到的即時(shí)回報(bào)函數(shù)值向量;f(X,A,Ab)表示在狀態(tài)X 下,紅方飛機(jī)動(dòng)作向量為A、藍(lán)方飛機(jī)動(dòng)作向量為Ab的情況下到達(dá)的下一個(gè)狀態(tài)向量;k表 示第k次循環(huán)中特征向量〇的擬和系數(shù);根據(jù)式(3)得到當(dāng)前循環(huán)下的優(yōu)化效用尸; 第N次循環(huán)輸出的/w為擬合得到的效用函數(shù); 步驟3 :作戰(zhàn)決策; 對(duì)當(dāng)前的狀態(tài)X,采用前瞻測(cè)試對(duì)紅方飛機(jī)的所有待選動(dòng)作的執(zhí)行后果進(jìn)行預(yù)測(cè),選取 預(yù)測(cè)結(jié)果最好的動(dòng)作執(zhí)行;所述的前瞻測(cè)試是一種虛擬執(zhí)行的方法,以指定的動(dòng)作開(kāi)始虛 擬推進(jìn)作戰(zhàn)過(guò)程,直到完成指定的回合數(shù);前瞻測(cè)試的每個(gè)回合中紅方飛機(jī)均采用步驟2 得到的效用函數(shù)進(jìn)行動(dòng)作決策。
2. 根據(jù)權(quán)利要求1所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 所述的數(shù)據(jù)采樣,具體過(guò)程為: (1) 首先,建立紅方、藍(lán)方飛機(jī),給定紅、藍(lán)雙方的初始狀態(tài); (2) 然后,雙方均采用下面定義的即時(shí)回報(bào)函數(shù)S(x),進(jìn)行動(dòng)作決策,展開(kāi)空戰(zhàn);在動(dòng) 作決策時(shí),選取在當(dāng)前狀態(tài)x下,使己方即時(shí)回報(bào)函數(shù)值最大、同時(shí)使對(duì)方即時(shí)回報(bào)函數(shù)值 最小的動(dòng)作;
其中,AA表示脫離角,ATA表示進(jìn)入角;R表示兩架飛機(jī)之間的距離,Rd表示兩架飛機(jī) 之間的相對(duì)最佳距離;k為影響因子,用來(lái)調(diào)整距離和角度的相對(duì)影響; (3)對(duì)飛機(jī)交戰(zhàn)的軌跡采樣,形成采樣點(diǎn)集合X。
3. 根據(jù)權(quán)利要求1所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 所述的步驟2中選取的特征量包括:兩機(jī)之間的歐式距離R,脫離角AA,脫離角的變化率 尤4,脫離角的絕對(duì)值IAA|,進(jìn)入角ATA,進(jìn)入角的變化率4九4,進(jìn)入角的絕對(duì)值|ATA|,偏航 角的偏差HCA,以及偏航角偏差的絕對(duì)值|HCA|。
4. 根據(jù)權(quán)利要求1或3所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在 于,步驟3中所述的前瞻測(cè)試,對(duì)紅方飛機(jī)的每個(gè)待選動(dòng)作根據(jù)當(dāng)前的狀態(tài)x和藍(lán)方飛 機(jī)的決策動(dòng)作,獲得下一狀態(tài)?,然后從狀態(tài)?開(kāi)始,預(yù)測(cè)NMll個(gè)決策步長(zhǎng)之后的未來(lái)狀 態(tài);cWroH〇
5. 根據(jù)權(quán)利要求4所述的一種基于擬合強(qiáng)化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 步驟3中所述的前瞻測(cè)試,對(duì)紅方飛機(jī)的每個(gè)待選動(dòng)作預(yù)測(cè)NMll個(gè)決策步長(zhǎng)之后的未來(lái) 狀態(tài)選取使下式J值最大對(duì)應(yīng)的動(dòng)作作為最佳動(dòng)作;
【文檔編號(hào)】G06F17/50GK104484500SQ201410665956
【公開(kāi)日】2015年4月1日 申請(qǐng)日期:2014年11月19日 優(yōu)先權(quán)日:2014年9月3日
【發(fā)明者】馬耀飛, 馬小樂(lè), 宋曉, 龔光紅 申請(qǐng)人:北京航空航天大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
浠水县| 肇源县| 辽宁省| 德钦县| 商城县| 承德县| 厦门市| 黑河市| 武乡县| 丰都县| 南澳县| 滨海县| 霍城县| 定边县| 金阳县| 军事| 土默特左旗| 广河县| 竹北市| 汉源县| 林州市| 邳州市| 方正县| 翁牛特旗| 寻乌县| 项城市| 铜山县| 本溪| 博罗县| 娱乐| 东阿县| 陆河县| 石门县| 河北省| 临夏市| 桐城市| 新巴尔虎左旗| 门头沟区| 永州市| 辽源市| 阿坝县|