本發(fā)明涉及巡檢機器人導航領(lǐng)域,具體涉及一種變電站巡檢機器人路徑規(guī)劃系統(tǒng)。
背景技術(shù):
在電力系統(tǒng)中,電能最基本特點是不能大規(guī)模地存儲,并且電能的生產(chǎn)、輸送、分配、使用都是連續(xù)的。整個電力系統(tǒng)實現(xiàn)網(wǎng)絡(luò)化互聯(lián),并引入市場化的機制,給人們帶來巨大利益,但同時系統(tǒng)的安全穩(wěn)定運行卻面臨巨大的挑戰(zhàn)。電力變電站系統(tǒng)是整個電力系統(tǒng)中生產(chǎn)、輸送以及分配三大核心系統(tǒng)之一,對整個電力系統(tǒng)的安全起著重要的作用。目前對變電站的巡檢方式主要有人工巡檢和機器人巡檢。智能巡檢機器人主要通過遠程控制或者自主控制方式,對變電站室外設(shè)備進行巡視檢測,可代替人工進行一些重復、繁雜、高危險性的巡檢,并能夠完成更準確的常規(guī)化的巡檢任務(wù)。
變電站巡檢機器人是移動機器人中的一種。國外對于移動機器人的研究,不僅起步較早,而且發(fā)展也較快。相對于國外,國內(nèi)對移動機器人的研究開始時間較晚,距離世界前沿技術(shù)水平還相對較遠。但國內(nèi)正在加快移動機器人的探究步伐。在國家"863計劃"項目的支持下,清華大學、哈爾濱工業(yè)大學、中國科學院等研究機構(gòu)均開始對智能移動機器人的研究,并取得一定成果。我國對變電站智能巡檢機器人的研究開始于2002年P(guān)SI,受到了國家“863”計劃的支持。2005年10月,我國第一臺變電站設(shè)備巡檢機器人在長清投入運行,它是由山東電力科學院自主研發(fā)的。2012年2月,中國第一臺軌道式巡檢機器人投入試運行,這標志著中國變電站實體化機器人正處在飛快發(fā)展中,在發(fā)展自主移動機器人技術(shù)水平的同時,也有力地提高了電網(wǎng)系統(tǒng)的智能化水平。目前巡檢機器人在我國得到廣泛應(yīng)用并將在今后國家電網(wǎng)智能化巡檢工程中得到持續(xù)應(yīng)用。截止到2014年,全國至少有27個省、市、自治區(qū)、直轄市采用了變電站巡檢機器人進行巡檢,覆蓋了南方電網(wǎng)、華北電網(wǎng)、華東電網(wǎng)以及西北電網(wǎng)。由此,有必要對變電站巡檢機器人進行功能上的改進或完善。
變電站巡檢機器人巡檢方式可分為正常巡檢和特殊巡檢作業(yè)。正常巡檢作業(yè)即變電站巡檢機器人巡視全部變電站設(shè)備;特殊巡檢作業(yè)即在特殊情況下對某些指定的變電站設(shè)備進行巡視,一般指在高溫天氣、大負荷運行、新設(shè)備投入運行以及冰雹、雷電等惡劣環(huán)境下,對變電站特別設(shè)備進行特殊巡檢。在變電站巡檢機器人進行特殊巡檢時,若采用目前常見的磁軌道等巡檢機器人則不具有靈活性?;谛袨榈淖冸娬狙矙z機器人路徑規(guī)劃實質(zhì)就是傳感器感知的環(huán)境狀態(tài)到執(zhí)行器動作的映射。采用這種技術(shù)的巡檢機器人能夠?qū)ν饨绛h(huán)境變化做出響應(yīng),具有實時、快速的優(yōu)點。因此路徑規(guī)劃性能的優(yōu)劣將直接影響巡檢機器人巡檢工作的效率。強化學習是機器學習重要分支之一,在近幾年重新受到越來越多的關(guān)注,也得到越發(fā)廣泛和復雜的實際應(yīng)用。它通過試錯的方式與環(huán)境進行交互以完成學習。如果環(huán)境對其動作評價為積極的則選擇該動作趨勢加強,否則便會減弱。Agent在不斷訓練的過程中得到最優(yōu)策略。因此強化學習具有自主學習和在線學習的特點,通過訓練可用于機器人路徑規(guī)劃中,目前也已廣泛地應(yīng)用于移動機器人的路徑規(guī)劃問題當中。
雖然強化學習有著諸多優(yōu)點以及值得期待的應(yīng)用前景,但強化學習也存在著收斂速度慢、“維數(shù)災難”、平衡探索與利用、時間信度分配等問題。強化學習收斂速度慢的原因之一是沒有教師信號,只能通過探索并依靠環(huán)境評價逐漸改進以獲得最優(yōu)動作策略。為進一步加快強化學習收斂速度,啟發(fā)式強化學習通過給強化學習注入一定的先驗知識,有效提高強化學習的收斂速度。Torrey等通過遷移學習為強化學習算法注入先驗經(jīng)驗以提高收斂速度;但是遷移學習所注入的先驗知識是固定的,即使有不合理規(guī)則也無法在訓練過程中在線修正。Bianchi等通過給傳統(tǒng)強化學習算法添加啟發(fā)函數(shù),在訓練過程中結(jié)合使用值函數(shù)和啟發(fā)函數(shù)來選擇動作,提出了啟發(fā)式強化學習(Heuristically Accelerated Reinforcement Learning,HARL)算法模型。啟發(fā)式強化學習最重要的特點是在線更新啟發(fā)函數(shù),以不斷增強表現(xiàn)更好的動作的啟發(fā)函數(shù)。方敏等在啟發(fā)式強化學習算法基礎(chǔ)上提出一種基于狀態(tài)回溯的啟發(fā)式強化學習方法,通過引入代價函數(shù)描述重復動作的重要性,結(jié)合動作獎賞及動作代價提出一種新的啟發(fā)函數(shù)定義以進一步提高收斂速度;但是該方法只是針對重復性動作的重要性進行評估。
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提供了一種變電站巡檢機器人路徑規(guī)劃系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種變電站巡檢機器人路徑規(guī)劃系統(tǒng),基于信息強度引導啟發(fā)式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數(shù)據(jù)傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數(shù)據(jù)和目標地點位置數(shù)據(jù)傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數(shù)據(jù)確定行動策略,并向運動控制模塊傳送命令以規(guī)劃路徑。
其中,以巡檢機器人正前方為零度線,七個距離傳感器依次以-90°、-60°、-30°、0°、30°、60°、90°裝配在巡檢機器人體側(cè)。
其中,通過以下步驟完成巡檢機器人獎懲機制的建立:
步驟1:設(shè)定移動獎懲機制:為鼓勵機器人以盡可能少的步數(shù)移動到目標點,每次執(zhí)行一個動作都會產(chǎn)生一個懲罰回報值;同時為鼓勵機器人提前做出判斷,在非必要情況下盡量避免大角度移動,大角度移動的懲罰回報值更大一些。具體設(shè)置為:在動作屬于{-30°,0°,30°}時,懲罰回報值為-0.2;動作屬于{-60°,60°}時,懲罰回報值為-0.5;
步驟2:設(shè)定目標地點獎懲機制:采用RFID標定巡檢機器人與目標設(shè)備的位置;在巡檢機器人每一步動作后,計算當前位置與目標地點之間的距離d,將-d(即令所計算的距離值取反)作為此時的目標回報值;同時,將移動到目標地點的回報值設(shè)置為+100;
步驟3:設(shè)置巡檢機器人避障回報值:采用兩級避障回報值等級:當七個距離傳感器有任何一個測量結(jié)果小于0.1米時,認定機器人已經(jīng)撞到障礙物(包括設(shè)備和墻壁等),此時懲罰回報值為-100,并將此作為終止狀態(tài)退出當前episode進入下一個episode的學習;當七個距離傳感器有任何一個測量結(jié)果大于0.1并且小于半個機器人車身長時,為鼓勵機器人及早避障,設(shè)置此時的懲罰回報值為-2。
其中,所述中控模塊基于以下步驟完成巡檢機器人路徑的規(guī)劃:
步驟1:初始化Agent
初始化狀態(tài)-動作值函數(shù)、啟發(fā)函數(shù);確定目標設(shè)備位置和巡檢所在位置;
步驟2:設(shè)計表H記錄信息強度
將表H定義為四元組<si,ai,p(si,ai),fmax>;其中,si為需要更新信息強度的信息狀態(tài);ai為需要更新信息強度的信息動作;p(si,ai)為更新后的信息強度,信息強度為與適應(yīng)度呈正比的標量;fmax為此前記錄的信息狀態(tài)si適應(yīng)度最大值;
步驟3:更新狀態(tài)-動作值函數(shù)
Q學習狀態(tài)-動作值函數(shù)的更新規(guī)則如下所示:
步驟4:更新適應(yīng)度最大值
將適應(yīng)度值定義為每幕(episode)訓練中Agent從初始狀態(tài)移動到目標狀態(tài)的折扣累計回報;其定義方式為其中,β為適應(yīng)度折扣因子,R為Agent每次移動所獲的回報;當Agent完成一幕訓練所獲得的適應(yīng)度值大于表H中的最大適應(yīng)度時,則進行適應(yīng)度最大值的更新;
步驟5:更新信息強度
若適應(yīng)度最大值更新,則相應(yīng)地更新信息強度,信息強度p(si,ai)的更新規(guī)則如下:
其中,at表示Agent最新情節(jié)的學習中在狀態(tài)si采用的動作,ai表示表H中的信息動作,fmax表示表H中的適應(yīng)度最大值;
步驟6:確定基于信息強度的啟發(fā)函數(shù)
為使所獲得的信息強度大小直接反映在動作選擇上,將信息強度融入到啟發(fā)函數(shù);通過設(shè)置影響量級參數(shù)來控制信息強度對動作選擇的影響程度;啟發(fā)函數(shù)更新方式定義如下:
其中,πp(st)為在信息強度啟發(fā)下的最優(yōu)動作;是通過最大信息強度與信息強度總和比重來表示的該動作的重要性,記為h;U是信息強度對動作選擇的影響量級參數(shù),U越大則信息強度的影響越大;
在以上更新規(guī)則中,只有信息強度啟發(fā)下最優(yōu)動作的啟發(fā)函數(shù)進行更新,作用于動作策略的選擇,非信息素強度啟發(fā)下最優(yōu)動作的啟發(fā)函數(shù)都被設(shè)為0;當信息素強度啟發(fā)下最優(yōu)動作的值函數(shù)小于另一動作時,通過疊加啟發(fā)函數(shù)使動作選擇更加傾向于信息素強度較大的動作,而不是在不完全探索情況下選擇值函數(shù)較大的動作;
步驟7:在啟發(fā)函數(shù)和值函數(shù)作用下確定策略
信息強度引導的啟發(fā)式Q學習的動作選擇策略采用Boltzmann機制,其更新方式規(guī)則如下:
當采用Boltzmann機制時,若當前最大動作值函數(shù)下的動作不是信息素強度下最優(yōu)動作,則通過Q(st,a)+H(st,a),加大信息素強度下最優(yōu)動作的選擇概率;同時使用Boltzmann機制,在不同動作信息素強度差距不大的情況下,使得最大動作值函數(shù)下的動作和信息素強度下最優(yōu)動作的概率相近,從而避免陷入信息素強度下的局部最優(yōu);在信息素強度差距較大的情況下,使得動作選擇概率偏向于信息素強度下最優(yōu)動作,從而有助于算法收斂。
本發(fā)明具有以下有益效果:
采用強化學習的路徑規(guī)劃系統(tǒng)完成特殊天氣等條件下對重點指定設(shè)備進行特殊巡檢任務(wù),避免磁軌道等路徑規(guī)劃方法的軌道維護工作;提出可在線更新的信息強度引導的啟發(fā)式Q學習算法,該算法在啟發(fā)式強化學習算法的基礎(chǔ)上引入依據(jù)每次訓練回報進行在線更新的信息強度,通過結(jié)合強弱程度不同的動作信息強度和狀態(tài)-動作值函數(shù)來確定策略,從而提高算法收斂速度。
附圖說明
圖1為本發(fā)明實施例一種變電站巡檢機器人路徑規(guī)劃系統(tǒng)的系統(tǒng)框圖。
圖2為本發(fā)明實施例中7個距離傳感器的安裝示意圖。
圖3為本發(fā)明實施例中中控模塊規(guī)劃路徑的流程圖。
圖4為本發(fā)明實施例中變電站仿真實驗圖。
圖5為本發(fā)明實施例中累計成功率結(jié)果圖。
圖6為本發(fā)明實施例中算法平均步數(shù)結(jié)果圖。
圖7為本發(fā)明實施例中算法平均累計回報結(jié)果圖。
具體實施方式
為了使本發(fā)明的目的及優(yōu)點更加清楚明白,以下結(jié)合實施例對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,本發(fā)明實施例提供了一種變電站巡檢機器人路徑規(guī)劃系統(tǒng),基于信息強度引導啟發(fā)式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數(shù)據(jù)傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數(shù)據(jù)和目標地點位置數(shù)據(jù)傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數(shù)據(jù)確定行動策略,并向運動控制模塊傳送命令以規(guī)劃路徑。
如圖2所示,以巡檢機器人正前方為零度線,七個距離傳感器依次以-90°、-60°、-30°、0°、30°、60°、90°裝配在巡檢機器人體側(cè),相應(yīng)地,機器人運動模式設(shè)定為向-60°、-30°、0°、30°、60°方向移動。
其中,通過以下步驟完成巡檢機器人獎懲機制的建立:
步驟1:設(shè)定移動獎懲機制:為鼓勵機器人以盡可能少的步數(shù)移動到目標點,每次執(zhí)行一個動作都會產(chǎn)生一個懲罰回報值;同時為鼓勵機器人提前做出判斷,在非必要情況下盡量避免大角度移動,大角度移動的懲罰回報值更大一些。具體設(shè)置為:在動作屬于{-30°,0°,30°}時,懲罰回報值為-0.2;動作屬于{-60°,60°}時,懲罰回報值為-0.5;
步驟2:設(shè)定目標地點獎懲機制:采用RFID標定巡檢機器人與目標設(shè)備的位置;在巡檢機器人每一步動作后,計算當前位置與目標地點之間的距離d,將-d(即令所計算的距離值取反)作為此時的目標回報值;同時,將移動到目標地點的回報值設(shè)置為+100;
步驟3:設(shè)置巡檢機器人避障回報值:采用兩級避障回報值等級:當七個距離傳感器有任何一個測量結(jié)果小于0.1米時,認定機器人已經(jīng)撞到障礙物(包括設(shè)備和墻壁等),此時懲罰回報值為-100,并將此作為終止狀態(tài)退出當前episode進入下一個episode的學習;當七個距離傳感器有任何一個測量結(jié)果大于0.1并且小于半個機器人車身長時,為鼓勵機器人及早避障,設(shè)置此時的懲罰回報值為-2。
如圖3所示,所述中控模塊基于以下步驟完成巡檢機器人路徑的規(guī)劃:
步驟1:初始化Agent
初始化狀態(tài)-動作值函數(shù)、啟發(fā)函數(shù);確定目標設(shè)備位置和巡檢所在位置;
步驟2:設(shè)計表H記錄信息強度
將表H定義為四元組<si,ai,p(si,ai),fmax>;其中,si為需要更新信息強度的信息狀態(tài);ai為需要更新信息強度的信息動作;p(si,ai)為更新后的信息強度,信息強度為與適應(yīng)度呈正比的標量;fmax為此前記錄的信息狀態(tài)si適應(yīng)度最大值;
步驟3:更新狀態(tài)-動作值函數(shù)
Q學習狀態(tài)-動作值函數(shù)的更新規(guī)則如下所示:
步驟4:更新適應(yīng)度最大值
將適應(yīng)度值定義為每幕(episode)訓練中Agent從初始狀態(tài)移動到目標狀態(tài)的折扣累計回報;其定義方式為其中,β為適應(yīng)度折扣因子,R為Agent每次移動所獲的回報;當Agent完成一幕訓練所獲得的適應(yīng)度值大于表H中的最大適應(yīng)度時,則進行適應(yīng)度最大值的更新;
步驟5:更新信息強度
若適應(yīng)度最大值更新,則相應(yīng)地更新信息強度,信息強度p(si,ai)的更新規(guī)則如下:
其中,at表示Agent最新情節(jié)的學習中在狀態(tài)si采用的動作,ai表示表H中的信息動作,fmax表示表H中的適應(yīng)度最大值;
通過以上更新規(guī)則,使信息強度p(si,ai)由適應(yīng)度f與表H中適應(yīng)度最大值fmax的差值程度所決定;當f大于表H中儲存的fmax時,信息強度則需要更新,即表H需要更新;基于上述更新規(guī)則,該算法在保留此前信息強度的同時,使按照適應(yīng)度差值程度更新的信息強度體現(xiàn)出不同信息動作的重要性;
假設(shè)ai∈{a1,a2…aN},且在訓練過程中執(zhí)行am時獲得最大適應(yīng)度f1,表H中適應(yīng)度最大值在更新前為fmax=f0;則按照上式更新結(jié)果如下:(I)若ai=am,則p(si,am)=1;(II)若ai≠am:(1)當p(si,am)=0時,更新后的p(si,am)仍為0;(2)當p(si,am)=1時,更新后的(3)當時,更新后的
步驟6:確定基于信息強度的啟發(fā)函數(shù)
為使所獲得的信息強度大小直接反映在動作選擇上,將信息強度融入到啟發(fā)函數(shù);通過設(shè)置影響量級參數(shù)來控制信息強度對動作選擇的影響程度;啟發(fā)函數(shù)更新方式定義如下:
其中,πp(st)為在信息強度啟發(fā)下的最優(yōu)動作;是通過最大信息強度與信息強度總和比重來表示的該動作的重要性,記為h;U是信息強度對動作選擇的影響量級參數(shù),U越大則信息強度的影響越大;
在以上更新規(guī)則中,只有信息強度啟發(fā)下最優(yōu)動作的啟發(fā)函數(shù)進行更新,作用于動作策略的選擇,非信息素強度啟發(fā)下最優(yōu)動作的啟發(fā)函數(shù)都被設(shè)為0。當信息素強度啟發(fā)下最優(yōu)動作的值函數(shù)小于另一動作時,通過疊加啟發(fā)函數(shù)使動作選擇更加傾向于信息素強度較大的動作,而不是在不完全探索情況下選擇值函數(shù)較大的動作。注意,如上式所示,啟發(fā)函數(shù)并不是直接作用于動作值函數(shù),使動作值函數(shù)發(fā)生變化;而是進行疊加操作,將疊加函數(shù)用于決定動作選擇策略,繼而此情節(jié)學習的回報作用于動作值函數(shù)的更新。
步驟7:在啟發(fā)函數(shù)和值函數(shù)作用下確定策略
信息強度引導的啟發(fā)式Q學習的動作選擇策略采用Boltzmann機制,其更新方式規(guī)則如下:
當采用Boltzmann機制時,若當前最大動作值函數(shù)下的動作不是信息素強度下最優(yōu)動作,則通過Q(st,a)+H(st,a),加大信息素強度下最優(yōu)動作的選擇概率;同時使用Boltzmann機制,在不同動作信息素強度差距不大的情況下,使得最大動作值函數(shù)下的動作和信息素強度下最優(yōu)動作的概率相近,從而避免陷入信息素強度下的局部最優(yōu);在信息素強度差距較大的情況下,使得動作選擇概率偏向于信息素強度下最優(yōu)動作,從而有助于算法收斂。此外,Boltzmann機制使得其他動作也有一定概率被選擇,從而促進算法進行探索。
以變電站環(huán)境作為背景設(shè)置仿真環(huán)境:如圖4所示,實心紅色區(qū)域代表以設(shè)備為主的障礙物,四周代表墻壁障礙。起點位置設(shè)置為(1,1),目標位置設(shè)置為(18,17);目標位置回報值為100,其余位置回報值均按照該位置與目標位置的距離差的大小分布在[0,2]的范圍內(nèi),距離差越小則回報值越大;為鼓勵Agent以最少步數(shù)找到目標位置,Agent每執(zhí)行一個動作,會得到一個-1的回報值;Agent動作空間為{1,2,3,4},分別代表向上、向下、向左、向右;若Agent撞到障礙物或者墻壁,則退回起點,并得到-10的懲罰。
在采用不同方法進行仿真實驗時,均設(shè)置為相同參數(shù),如表1所示。為盡可能保證實驗結(jié)果準確,對每種方法分別進行20次實驗,每次實驗的episode設(shè)置為3000,取該20次實驗的數(shù)據(jù)均值作為實驗結(jié)果進行分析。其中,PSG-HAQL的信息強度影響量級參數(shù)設(shè)置為1.5;HAQL為文獻[8]中的啟發(fā)式Q學習,H-HAQL、L-HAQL的η分別設(shè)置為1.5、0.1,用以與PSG-HAQL作對比實驗。
表1仿真實驗參數(shù)設(shè)置
實驗結(jié)果及分析
采用上述仿真環(huán)境以及參數(shù)設(shè)置,分別采用PSG-HAQL算法、H-HAQL算法、L-HAQL算法、Standard-QL算法進行仿真實驗。
本文給出以下3個參數(shù)描述實驗結(jié)果:
學習過程累計成功率:到達目標位置的學習情節(jié)數(shù)與學習情節(jié)總數(shù)的比值;
每情節(jié)學習所用步數(shù):該情節(jié)學習找到目標位置所用的步數(shù);如果沒有到達目標地點則步數(shù)為0;
每情節(jié)學習所獲得累計回報值:該情節(jié)學習從起始狀態(tài)到達終止狀態(tài)(障礙物或者目標位置)所獲得的累計回報值。
為對四種算法性能憂慮有一個總體的認識,首先觀察學習過程累計成功率曲線,如圖5所示,橫軸表示學習情節(jié)數(shù)episode,縱軸表示成功率。由圖5,PSG-HAQL、H-HAQL的曲線明顯優(yōu)于L-HAQL、Standard-QL的成功率曲線,印證了文獻[8]中啟發(fā)函數(shù)可以加快強化學習算法的學習速度。此外,PSG-HAQL的成功率曲線最早開始上升,且曲線初始階段斜率最大,說明在訓練初期PSG-HAQL到達目標位置的頻率最高;在總成功率上,PSG-HAQL也均高于其他三種算法。
成功率曲線只是總體上針對每情節(jié)學習是否到達目標位置進行統(tǒng)計,并不能直接由此判定每情節(jié)學習四種算法效果。為此統(tǒng)計每情節(jié)學習所用步數(shù),曲線如圖6所示,橫軸表示學習情節(jié)數(shù),縱軸表示每情節(jié)學習所用的步數(shù)。盡管在20次實驗均值的數(shù)據(jù)統(tǒng)計結(jié)果中,PSG-HAQL最先尋找到目標位置;但在實驗中發(fā)現(xiàn),在某一次實驗中四種算法第一次尋找到目標位置所用步數(shù)大小排序并不能確定,即四種算法均有可能最先找到目標位置,這是由于四種算法起始探索方向是隨機的。在圖6中,PSG-HAQL算法由于采用啟發(fā)函數(shù),其策略根據(jù)適應(yīng)度情況選擇動作,所以步數(shù)整體比其他三種都要少;H-HAQL算法雖然也有一個較大的啟發(fā)函數(shù),但較易陷入局部,所以步數(shù)總體情況不如PSG-HAQL;而L-HAQL由于啟發(fā)函數(shù)強度不大,所以和Standard-QL類似,雖然偶爾步數(shù)達到最少,但有較大波動。總體結(jié)果上,PSG-HAQL可最快得到穩(wěn)定的步數(shù)最少的動作選擇策略。
Agent可通過不同路徑到達目標位置,不同路徑所需步數(shù)大多不同;但也有可能不同路徑的步數(shù)相同。為此設(shè)置每情節(jié)學習所獲得累計回報值結(jié)果參數(shù),如圖7所示,橫軸表示學習情節(jié)數(shù),縱軸表示每情節(jié)學習所獲得累計回報值結(jié)果參數(shù)。在圖7中,每情節(jié)學習所獲得累計回報值整體情況和每情節(jié)學習所用步數(shù)曲線相類似。PSG-HAQL大概在情節(jié)數(shù)為400時達到穩(wěn)定,H-HAQL大概在情節(jié)數(shù)為1100時穩(wěn)定,而L-HAQL和Standard-QL則依然波動較大,且并未達到最優(yōu)動作。結(jié)果表明,PSG-HAQL能更快速的得到累計回報值較高的動作策略,其他算法在該時間內(nèi)還無法得到穩(wěn)定的等同回報程度的策略,從而表明PSG-HAQL可有效提高動作選擇策略的收斂速度。
PSG-HAQL算法將蜂群信息傳遞的思想結(jié)合到啟發(fā)式Q學習方法:Agent在訓練過程中不斷獲得不同策略的適應(yīng)度以在線更新該策略信息強度,將信息強度作為Q學習啟發(fā)函數(shù),使Agent有更高概率去選擇信息強度高的策略。所以,信息強度引導的啟發(fā)式Q學習(PSG-HAQL)算法能夠更高效的尋找到最優(yōu)策略,從而進一步縮減訓練時間。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。