两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng)及方法與流程

文檔序號(hào):40610590發(fā)布日期:2025-01-07 20:53閱讀:12來源:國(guó)知局
一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng)及方法與流程

本發(fā)明屬于飛行器導(dǎo)航、制導(dǎo)與控制,具體地說是一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng)及方法。


背景技術(shù):

1、在現(xiàn)代空間探索中,衛(wèi)星作為重要的探測(cè)工具,承擔(dān)著數(shù)據(jù)收集、環(huán)境監(jiān)測(cè)和科學(xué)實(shí)驗(yàn)等多重任務(wù)。隨著技術(shù)的進(jìn)步,衛(wèi)星的自主控制能力逐漸成為研究的熱點(diǎn)。傳統(tǒng)的衛(wèi)星控制系統(tǒng)多依賴于預(yù)設(shè)的控制算法和規(guī)則,這在面對(duì)復(fù)雜和動(dòng)態(tài)的空間環(huán)境時(shí),往往難以適應(yīng)變化,導(dǎo)致任務(wù)效率低下或失?。?/p>

2、深度強(qiáng)化學(xué)習(xí)(deep?re?i?nforcement?learn?i?ng,drl)作為一種新興的人工智能技術(shù),通過與環(huán)境的交互學(xué)習(xí)最優(yōu)策略,展現(xiàn)出在復(fù)雜決策問題上的強(qiáng)大能力。其核心思想是通過獎(jiǎng)勵(lì)機(jī)制引導(dǎo)智能體在特定環(huán)境中進(jìn)行探索和學(xué)習(xí),從而實(shí)現(xiàn)自主決策。將深度強(qiáng)化學(xué)習(xí)應(yīng)用于衛(wèi)星探索控制系統(tǒng),可以使衛(wèi)星在未知或變化的環(huán)境中,實(shí)時(shí)調(diào)整其行為,以達(dá)到最佳的探索效果;

3、近年來,隨著衛(wèi)星數(shù)量的增加和任務(wù)復(fù)雜性的提升,基于深度強(qiáng)化學(xué)習(xí)的控制方法逐漸受到關(guān)注。這種方法不僅能夠提高衛(wèi)星的自主性和靈活性,還能在多任務(wù)協(xié)同、資源優(yōu)化分配等方面展現(xiàn)出顯著優(yōu)勢(shì)。因此,本領(lǐng)域技術(shù)人員提出了一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng)及其方法,旨在增強(qiáng)系統(tǒng)適應(yīng)性,實(shí)現(xiàn)衛(wèi)星的自主控制,減少對(duì)地面測(cè)控系統(tǒng)的依賴。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題,本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng)及方法,以解決背景技術(shù)中所提出的問題。

2、根據(jù)所公開的第一方面,提出了一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制系統(tǒng),包括感知層、決策層和執(zhí)行層;所述感知層用于集成各設(shè)備數(shù)據(jù),進(jìn)行初步處理;所述決策層用于部署深度強(qiáng)化學(xué)習(xí)模型,并定期進(jìn)行數(shù)據(jù)訓(xùn)練和模型更新;所述執(zhí)行層用于控制衛(wèi)星姿態(tài)和軌道調(diào)整,并進(jìn)行自主故障診斷和恢復(fù)操作;

3、感知與數(shù)據(jù)處理單元,通過集成多源數(shù)據(jù),為決策層提供準(zhǔn)確的環(huán)境模型和動(dòng)態(tài)信息,并進(jìn)行實(shí)時(shí)數(shù)據(jù)處理;

4、決策與學(xué)習(xí)單元,將深度強(qiáng)化學(xué)習(xí)模型在軌道上進(jìn)行實(shí)時(shí)決策,并通過地面站與衛(wèi)星間的數(shù)據(jù)交互進(jìn)行模型更新;

5、執(zhí)行與自主控制單元,執(zhí)行決策層下達(dá)的具體操作命令,自動(dòng)檢測(cè)和響應(yīng)各種故障情況;

6、優(yōu)化單元,用于從原始傳感器數(shù)據(jù)中提取高級(jí)特征,并將復(fù)雜的控制任務(wù)分解為簡(jiǎn)單的子任務(wù),每層專注于不同的控制目標(biāo)。

7、優(yōu)選的,所述深度學(xué)習(xí)模型采用軟actor-cr?it?ic算法進(jìn)行構(gòu)建,其actor網(wǎng)絡(luò)用于生成動(dòng)作的策略網(wǎng)絡(luò)輸入是狀態(tài)s,輸出是動(dòng)作a的概率分布,其網(wǎng)絡(luò)的參數(shù)θ通過策略梯度進(jìn)行優(yōu)化,最大化獎(jiǎng)勵(lì)和熵的組合;cr?it?ic網(wǎng)絡(luò)用于評(píng)估所選擇動(dòng)作的價(jià)值的網(wǎng)絡(luò),其輸入同樣是狀態(tài)s,輸出是動(dòng)作價(jià)值q(s,a),該網(wǎng)絡(luò)的參數(shù)ω通過梯度下降進(jìn)行優(yōu)化,最小化與實(shí)際回報(bào)之間的差異;

8、通過在目標(biāo)函數(shù)中加入一個(gè)熵項(xiàng)h(.)加速學(xué)習(xí)過程,該目標(biāo)函數(shù)表示為:

9、j(θ)=e[r(s,a)+αh(.)]

10、其中,r(s,a)表示即時(shí)獎(jiǎng)勵(lì),α表示溫度參數(shù),用于調(diào)節(jié)熵的重要性,h(.)表示策略輸出動(dòng)作分布的熵;其策略的優(yōu)化是通過調(diào)整參數(shù)θ,最大化目標(biāo)函數(shù)j(θ),通過計(jì)算策略梯度并應(yīng)用梯度上升,溫度參數(shù)α隨著訓(xùn)練進(jìn)行調(diào)整,用于平衡探索和開發(fā)之間的權(quán)衡;價(jià)值函數(shù)的優(yōu)化是通過調(diào)整參數(shù)ω,以最小化均方誤差損失,表示為:

11、

12、其中,v(s′;ω′)表示目標(biāo)價(jià)值網(wǎng)絡(luò);在訓(xùn)練期間,動(dòng)作是根據(jù)當(dāng)前策略網(wǎng)絡(luò)和一個(gè)噪聲分布采樣得到;并且該算法使用雙重延遲回放機(jī)制來存儲(chǔ)和更新狀態(tài)轉(zhuǎn)換樣本。

13、優(yōu)選的,所述感知與數(shù)據(jù)處理單元中包括多源數(shù)據(jù)融合模塊和實(shí)時(shí)數(shù)據(jù)處理模塊,所述多源數(shù)據(jù)融合模塊部署于星載計(jì)算機(jī)中,用于接收來自不同傳感器的數(shù)據(jù),并進(jìn)行預(yù)處理和融合,形成全面的環(huán)境感知;所述實(shí)時(shí)數(shù)據(jù)處理模塊同樣部署于星載計(jì)算機(jī)中,利用邊緣計(jì)算技術(shù)進(jìn)行數(shù)據(jù)的初步處理,減少對(duì)地面站的數(shù)據(jù)傳輸需求并降低通信延遲。

14、優(yōu)選的,所述多源數(shù)據(jù)融合模塊中預(yù)處理步驟包括:s101、對(duì)來自不同傳感器的數(shù)據(jù)進(jìn)行幾何糾正,使其在同一空間坐標(biāo)系下對(duì)齊;s102、進(jìn)行大氣訂正,消除大氣對(duì)傳感器數(shù)據(jù)的影響;s103、對(duì)傳感器數(shù)據(jù)進(jìn)行輻射校正,使數(shù)據(jù)反映為實(shí)際的地表反射率;s104、通過特征匹配和空間變換,使得不同傳感器獲取的影像在空間上對(duì)齊,進(jìn)行空間配準(zhǔn),配準(zhǔn)精度在1~2個(gè)像元內(nèi);

15、所述多源數(shù)據(jù)融合模塊中融合步驟包括:s201、從預(yù)處理后的數(shù)據(jù)中提取地形、氣象條件和地面目標(biāo)特征;s202、將提取的特征進(jìn)行拼接、加權(quán)或組合,形成一個(gè)豐富的特征向量;s203、將多個(gè)獨(dú)立的決策模塊的輸出通過加權(quán)平均方式進(jìn)行集成;s204、通過boost?ing集成學(xué)習(xí),將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行整合,獲得最終預(yù)測(cè)。

16、優(yōu)選的,所述決策與學(xué)習(xí)單元是將drl模型部署于星載計(jì)算機(jī)中,其中輕量化的深度強(qiáng)化學(xué)習(xí)模型在軌道上進(jìn)行實(shí)時(shí)決策,多源數(shù)據(jù)融合模塊將不同來源的特征融合,形成一個(gè)綜合的特征表示,將融合后的特征轉(zhuǎn)換為drl模型處理的狀態(tài)向量,每個(gè)狀態(tài)向量包含全面的環(huán)境信息,再將編碼后的狀態(tài)向量輸入到軟actor-cr?it?ic算法的actor網(wǎng)絡(luò)和crit?ic網(wǎng)絡(luò)中,最后通過地面站與衛(wèi)星間的數(shù)據(jù)交互更新模型,地面站定期將改進(jìn)后的模型參數(shù)上傳至衛(wèi)星,引入最新的訓(xùn)練成果;

17、actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài),輸出一個(gè)動(dòng)作概率分布,代表不同動(dòng)作的可能性;從動(dòng)作概率分布中采樣出一個(gè)具體的動(dòng)作,供衛(wèi)星執(zhí)行;衛(wèi)星控制系統(tǒng)接收到選定的動(dòng)作,將其轉(zhuǎn)換為具體的控制指令,并執(zhí)行;根據(jù)動(dòng)作執(zhí)行后的衛(wèi)星狀態(tài)變化和任務(wù)目標(biāo),計(jì)算即時(shí)獎(jiǎng)勵(lì),同時(shí)更新衛(wèi)星的當(dāng)前狀態(tài),作為下一步?jīng)Q策的輸入;

18、將每次決策的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和后續(xù)狀態(tài)存儲(chǔ)在經(jīng)驗(yàn)回放緩沖區(qū)中,用于模型的離線訓(xùn)練;cr?it?ic網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)和即時(shí)獎(jiǎng)勵(lì),估算動(dòng)作的價(jià)值,并計(jì)算時(shí)間差分誤差;使用時(shí)間差分誤差,通過梯度下降優(yōu)化算法,更新actor網(wǎng)絡(luò)的參數(shù),進(jìn)行策略優(yōu)化;并使用時(shí)間差分誤差,更新cr?it?ic網(wǎng)絡(luò)的參數(shù),進(jìn)行價(jià)值函數(shù)優(yōu)化。

19、優(yōu)選的,所述執(zhí)行與自主控制單元通過控制執(zhí)行模塊接收來自決策層的控制指令,該指令是基于深度學(xué)習(xí)模型和軟actor-cr?it?ic算法生成的,包含具體的動(dòng)作目標(biāo)和優(yōu)化后的控制參數(shù),通過對(duì)指令解碼,將其轉(zhuǎn)換成能夠操作的控制信號(hào);解碼過程中,識(shí)別出指令類型、目標(biāo)動(dòng)作以及參數(shù);根據(jù)解碼后的指令,生成對(duì)應(yīng)的控制信號(hào),不同類型的指令需要不同的控制信號(hào)組合;執(zhí)行動(dòng)作后,衛(wèi)星上的傳感器實(shí)時(shí)采集新的狀態(tài)數(shù)據(jù),包括位置、速度和姿態(tài),并反饋至執(zhí)行與自主控制單元;通過分析反饋數(shù)據(jù),判斷當(dāng)前狀態(tài)是否與指令目標(biāo)一致,若存在偏差,調(diào)整控制信號(hào)以消除誤差。

20、優(yōu)選的,所述執(zhí)行與自主控制單元還通過從衛(wèi)星上的傳感器實(shí)時(shí)采集各類運(yùn)行數(shù)據(jù),以及收集各分系統(tǒng)、設(shè)備的運(yùn)行狀態(tài)信息及網(wǎng)絡(luò)運(yùn)行過程中的日志信息,并對(duì)信息進(jìn)行分類和解析;通過比對(duì)歷史正常數(shù)據(jù)和閾值,識(shí)別出超出正常范圍的異常數(shù)據(jù),標(biāo)記為潛在故障;基于預(yù)定義的規(guī)則庫(kù),對(duì)識(shí)別出的異常數(shù)據(jù)進(jìn)行規(guī)則匹配,自動(dòng)給出初步診斷結(jié)果,當(dāng)診斷出故障,通過自主故障處理模塊立即生成告警信息,包括故障位置、類型、緊急程度;告警信息通過衛(wèi)星通信系統(tǒng)實(shí)時(shí)傳輸?shù)降孛婵刂浦行?;根?jù)診斷結(jié)果,執(zhí)行修復(fù)操作,修復(fù)后,重新采集相關(guān)數(shù)據(jù),驗(yàn)證衛(wèi)星狀態(tài)是否已恢復(fù)正常。

21、優(yōu)選的,所述決策與學(xué)習(xí)單元還通過構(gòu)建多個(gè)狀態(tài)值函數(shù)和動(dòng)作值函數(shù),每個(gè)函數(shù)針對(duì)不同的目標(biāo)進(jìn)行優(yōu)化,即將總體任務(wù)目標(biāo)分解為若干具體的子任務(wù)目標(biāo),為每個(gè)子任務(wù)目標(biāo)構(gòu)建一個(gè)狀態(tài)值函數(shù)vπ(s)或動(dòng)作值函數(shù)qπ(s,a),該函數(shù)根據(jù)特定任務(wù)目標(biāo)進(jìn)行優(yōu)化;在每一步中,系統(tǒng)根據(jù)其行為對(duì)每個(gè)子任務(wù)目標(biāo)的貢獻(xiàn)接收多個(gè)獎(jiǎng)勵(lì)信號(hào)ri,并將獎(jiǎng)勵(lì)信號(hào)進(jìn)行歸一化處理,然后通過動(dòng)態(tài)權(quán)重ωi進(jìn)行加權(quán)求和,形成最終的綜合獎(jiǎng)勵(lì)信號(hào):r=∑iωi·ri,其中權(quán)重ωi根據(jù)任務(wù)需求動(dòng)態(tài)調(diào)整;并利用pbrs技術(shù),通過為每個(gè)狀態(tài)分配一個(gè)“勢(shì)能”值,在不改變最優(yōu)策略的前提下增加或減少某些狀態(tài)的即時(shí)獎(jiǎng)勵(lì);在多目標(biāo)優(yōu)化中,尋求達(dá)到帕累托最優(yōu)前沿,即在所有目標(biāo)之間達(dá)到一種平衡,此時(shí)沒有任何一個(gè)目標(biāo)在不惡化其他目標(biāo)的情況下進(jìn)一步改善;同時(shí)通過實(shí)時(shí)監(jiān)控不同任務(wù)需求和環(huán)境變化,動(dòng)態(tài)調(diào)整各子任務(wù)目標(biāo)的權(quán)重ωi。

22、優(yōu)選的,所述優(yōu)化單元利用深度學(xué)習(xí)技術(shù)從原始傳感器數(shù)據(jù)中提取高級(jí)特征,并壓縮數(shù)據(jù)傳輸,減少帶寬需求;同時(shí)將連續(xù)的動(dòng)作空間離散化,簡(jiǎn)化決策過程,并采用分層控制框架,將復(fù)雜的控制任務(wù)分解為簡(jiǎn)單的子任務(wù),每層專注于不同的控制目標(biāo),簡(jiǎn)化學(xué)習(xí)過程。

23、根據(jù)所公開的第二方面,提出了一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星探索控制方法,具體包括以下步驟:

24、s1、明確衛(wèi)星探索控制的具體任務(wù)目標(biāo),構(gòu)建模擬環(huán)境,該環(huán)境模擬衛(wèi)星在太空中的物理狀態(tài),包括位置、速度、姿態(tài);

25、s2、設(shè)計(jì)狀態(tài)空間和動(dòng)作空間,狀態(tài)空間應(yīng)包含所有必要的衛(wèi)星狀態(tài)信息,動(dòng)作空間則定義衛(wèi)星能夠采取的所有可能動(dòng)作;

26、s3、構(gòu)建多個(gè)狀態(tài)值函數(shù)和動(dòng)作值函數(shù),每個(gè)函數(shù)針對(duì)不同的目標(biāo)進(jìn)行優(yōu)化,即設(shè)計(jì)動(dòng)態(tài)權(quán)重的多目標(biāo)獎(jiǎng)勵(lì)函數(shù),并根據(jù)任務(wù)執(zhí)行過程中收集的數(shù)據(jù),動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)函數(shù)的參數(shù);

27、s4、使用訓(xùn)練環(huán)境對(duì)深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,模型根據(jù)當(dāng)前策略選擇一個(gè)動(dòng)作執(zhí)行,環(huán)境響應(yīng)該動(dòng)作并給出新的狀態(tài)和獎(jiǎng)勵(lì),模型據(jù)此更新策略;

28、s5、將訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型部署到實(shí)際的衛(wèi)星控制系統(tǒng)中,模型根據(jù)實(shí)時(shí)獲取的衛(wèi)星狀態(tài)信息,自主決策并執(zhí)行對(duì)應(yīng)的控制動(dòng)作。

29、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:

30、1、本發(fā)明通過持續(xù)學(xué)習(xí)和優(yōu)化,實(shí)現(xiàn)在不同環(huán)境和突發(fā)情況下的有效控制,不需要依賴于精確的衛(wèi)星物理參數(shù)和軌道參數(shù)等先驗(yàn)知識(shí),具有較強(qiáng)的適應(yīng)能力和自主控制能力。

31、2、本發(fā)明在太空環(huán)境的不穩(wěn)定性及衛(wèi)星可能出現(xiàn)的故障情況下,能夠自主進(jìn)行故障診斷和恢復(fù)操作,保障衛(wèi)星的正常運(yùn)行,并通過優(yōu)化任務(wù)規(guī)劃和調(diào)度策略,顯著提升了任務(wù)執(zhí)行的效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
琼中| 神农架林区| 布拖县| 乃东县| 平顺县| 榕江县| 兰坪| 辰溪县| 盐边县| 曲周县| 罗平县| 三江| 四子王旗| 汽车| 四会市| 弋阳县| 新干县| 疏附县| 隆尧县| 景洪市| 康定县| 闸北区| 平果县| 上杭县| 阳城县| 靖远县| 韶山市| 湖北省| 大姚县| 石河子市| 方正县| 南城县| 英山县| 镇康县| 金秀| 中西区| 宝丰县| 夹江县| 五原县| 祁连县| 镇坪县|