本申請涉及組合優(yōu)化,特別是涉及一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃方法和裝置。
背景技術(shù):
1、多星遍歷訪問序列規(guī)劃問題是一類典型的時變旅行商問題。其中,訪問指空間交會或飛越,旅行商為軌道轉(zhuǎn)移飛行器(orbit?transfer?vehicle,?otv),其需在給定任務(wù)時間內(nèi)遍訪 n個空間目標(biāo)各一次,目標(biāo)為空間碎片、衛(wèi)星或小行星等。otv與各目標(biāo)的空間位置、速度均隨時間連續(xù)變化,因此otv在各目標(biāo)間轉(zhuǎn)移飛行的成本是時間的函數(shù)。tsp固有的組合性和太空目標(biāo)特有的動力學(xué)環(huán)境造成了離散序列變量和連續(xù)時間變量的混合,解空間巨大且局部最優(yōu)多。
2、傳統(tǒng)解決方法分為兩種。第一種將其構(gòu)造為非線性規(guī)劃問題,以每個目標(biāo)被訪問的絕對時刻為變量,序列通過比較時刻早晚獲得,通過梯度法優(yōu)化;由于局部最優(yōu)多,對初值敏感,難以有效獲得最優(yōu)方案。第二種將其構(gòu)造為混合整數(shù)優(yōu)化問題,采用蟻群算法或分支定界等啟發(fā)式算法優(yōu)化訪問順序,同時采用梯度法精確優(yōu)化各段轉(zhuǎn)移時長;可有效收斂,但需大量迭代,求解效率不高。
3、近年諸多航天任務(wù)規(guī)劃領(lǐng)域?qū)W者研究了用神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)解法,快速獲取近最優(yōu)解,在分類、回歸、預(yù)測、博弈等方面取得了顯著效果。奧里奧爾·維尼亞爾斯(oriolvinyals)在2015年提出了基于長短期記憶網(wǎng)絡(luò)和注意力機(jī)制的指針網(wǎng)絡(luò),可解決凸包、delaunay?三角剖分和tsp等經(jīng)典組合優(yōu)化問題,但不適用于多星遍歷訪問。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃方法和裝置。經(jīng)過離線訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)可用于在線快速任務(wù)分析,或多otv對大規(guī)模目標(biāo)遍歷訪問任務(wù)的全局優(yōu)化。
2、一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃方法,所述方法包括:
3、給定空間目標(biāo)在任務(wù)初始時刻的動力學(xué)特征屬性;所述動力學(xué)特征屬性包括:目標(biāo)軌道的半長軸、偏心率、軌道傾角、升交點赤經(jīng)、近地點幅角和任務(wù)起始?xì)v元的真近點角。
4、構(gòu)建基于注意力機(jī)制的智能體模型;所述智能體模型包括排序器和評估器;所述排序器用于生成訪問序列和各段轉(zhuǎn)移時長;所述評估器用于估計多星遍歷訪問總轉(zhuǎn)移成本。
5、采用行動者-評論家框架構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,并定義損失函數(shù)。
6、根據(jù)待規(guī)劃目標(biāo)集、所述強(qiáng)化學(xué)習(xí)環(huán)境以及所述損失函數(shù),采用異步多線程學(xué)習(xí)法對智能體模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的智能體模型。
7、將訓(xùn)練好的智能體模型應(yīng)用于單軌道轉(zhuǎn)移飛行器對多空間目標(biāo)的遍歷訪問序列快速規(guī)劃和轉(zhuǎn)移成本估算,得到單軌道轉(zhuǎn)移飛行器對多個移動目標(biāo)的遍歷訪問序列規(guī)劃結(jié)果和轉(zhuǎn)移成本估算結(jié)果。
8、一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃裝置,所述裝置包括:
9、動力學(xué)特征屬性確定模塊,用于給定空間目標(biāo)在任務(wù)初始時刻的動力學(xué)特征屬性;所述動力學(xué)特征屬性包括:目標(biāo)軌道的半長軸、偏心率、軌道傾角、升交點赤經(jīng)、近地點幅角和任務(wù)起始?xì)v元的真近點角。
10、基于注意力機(jī)制的智能體模型構(gòu)建模塊,用于構(gòu)建基于注意力機(jī)制的智能體模型;所述智能體模型包括排序器和評估器;所述排序器用于生成訪問序列和各段轉(zhuǎn)移時長;所述評估器用于估計多星遍歷訪問總轉(zhuǎn)移成本。
11、基于注意力機(jī)制的智能體模型訓(xùn)練模塊,用于采用行動者-評論家框架構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,并定義損失函數(shù);根據(jù)待規(guī)劃目標(biāo)集、所述強(qiáng)化學(xué)習(xí)環(huán)境以及所述損失函數(shù),采用異步多線程學(xué)習(xí)法對智能體模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的智能體模型。
12、多空間目標(biāo)的遍歷訪問模塊,用于將訓(xùn)練好的智能體模型應(yīng)用于單軌道轉(zhuǎn)移飛行器對多空間目標(biāo)的遍歷訪問序列快速規(guī)劃和轉(zhuǎn)移成本估算,得到單軌道轉(zhuǎn)移飛行器對多個移動目標(biāo)的遍歷訪問序列規(guī)劃結(jié)果和轉(zhuǎn)移成本估算結(jié)果。
13、上述基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃方法和裝置,所述方法根據(jù)要訪問的空間目標(biāo)集的初始動力學(xué)屬性,以時間復(fù)雜度快速計算訪問序列及各段轉(zhuǎn)移時長。構(gòu)建用于生成訪問序列和各段轉(zhuǎn)移時長的排序器;并構(gòu)建用于遍歷訪問總轉(zhuǎn)移成本估計的評估器;采用行動者-評論家框架構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,其中排序器作為行動者,評估器作為評論家,定義行動者和評論家的損失函數(shù);采用異步并行學(xué)習(xí)法訓(xùn)練神經(jīng)網(wǎng)絡(luò),用于訓(xùn)練的空間目標(biāo)數(shù)據(jù)在取值域內(nèi)隨機(jī)生成,從而增強(qiáng)神經(jīng)網(wǎng)絡(luò)的泛化水平。該方法可應(yīng)用于單航天器對多空間目標(biāo)的遍歷訪問序列快速規(guī)劃和成本快速估計中。
1.一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述動力學(xué)特征屬性還包括:目標(biāo)軌道在攝動下升交點赤經(jīng)、近地點幅角和真近點角隨時間的平均變化率。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,構(gòu)建基于注意力機(jī)制的智能體模型,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述排序器中:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)下一個要訪問的目標(biāo),采用梯度法局部搜索轉(zhuǎn)移時長,并計算轉(zhuǎn)移成本,包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述評估器中:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用行動者-評論家框架構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,并定義損失函數(shù),包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)待規(guī)劃目標(biāo)集、所述強(qiáng)化學(xué)習(xí)環(huán)境以及所述損失函數(shù),采用異步多線程學(xué)習(xí)法對智能體模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的智能體模型,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,將訓(xùn)練好的智能體模型應(yīng)用于單軌道轉(zhuǎn)移飛行器對多空間目標(biāo)的遍歷訪問序列快速規(guī)劃和轉(zhuǎn)移成本估算,得到單軌道轉(zhuǎn)移飛行器對多個移動目標(biāo)的遍歷訪問序列規(guī)劃結(jié)果和轉(zhuǎn)移成本估算結(jié)果,包括:
10.一種基于注意力機(jī)制的多星遍歷訪問序列規(guī)劃裝置,其特征在于,所述裝置包括: