本發(fā)明涉及一種自學(xué)習(xí)優(yōu)化編隊(duì)控制方法,特別是涉及植保無(wú)人機(jī)集群自學(xué)習(xí)優(yōu)化編隊(duì)控制方法,屬于自學(xué)習(xí)優(yōu)化編隊(duì)控制方法。
背景技術(shù):
1、由于農(nóng)田面積較大、植保作業(yè)范圍廣闊,單個(gè)無(wú)人機(jī)往往無(wú)法滿(mǎn)足大規(guī)模農(nóng)田的植保需求。因此,需要多個(gè)植保無(wú)人機(jī)協(xié)作完成植保作業(yè)任務(wù)。
2、在這種情況下,如何實(shí)現(xiàn)多個(gè)無(wú)人機(jī)之間的有效協(xié)同工作成為一個(gè)關(guān)鍵問(wèn)題,因此需要研究植保無(wú)人機(jī)群協(xié)同控制問(wèn)題。
3、與此同時(shí),多智能體系統(tǒng)(mas)已廣泛應(yīng)用于智能交通、工業(yè)生產(chǎn)和物聯(lián)網(wǎng)等領(lǐng)域。多智能體編隊(duì)控制的目標(biāo)是實(shí)現(xiàn)多個(gè)智能體之間的協(xié)調(diào)與配合,同時(shí)保持預(yù)定的編隊(duì)來(lái)完成特定的任務(wù)。目前,mas已在農(nóng)業(yè)方面運(yùn)用,即植保無(wú)人機(jī)群技術(shù),但傳統(tǒng)的植保無(wú)人機(jī)群協(xié)同控制方法存在以下缺點(diǎn):
4、資源消耗大,植保無(wú)人機(jī)群協(xié)同控制技術(shù)往往需要較高的計(jì)算和通信資源來(lái)支持無(wú)人機(jī)之間的信息交互和協(xié)同決策。這增加了系統(tǒng)的硬件成本,并可能限制系統(tǒng)的規(guī)模和擴(kuò)展性。植保無(wú)人機(jī)在執(zhí)行任務(wù)時(shí),其測(cè)量模塊、通信模塊、微處理器、執(zhí)行器模塊等都會(huì)消耗大量的能量。傳統(tǒng)的協(xié)同控制方法可能無(wú)法有效地降低這些模塊的能耗,從而縮短系統(tǒng)的使用壽命。
5、環(huán)境適應(yīng)性差,在實(shí)際應(yīng)用中,植保無(wú)人機(jī)群系統(tǒng)可能面臨通信帶寬有限、數(shù)據(jù)丟包、通信延時(shí)等通信限制。傳統(tǒng)的協(xié)同控制方法可能無(wú)法有效地應(yīng)對(duì)這些限制,導(dǎo)致系統(tǒng)性能下降甚至失效。且植保無(wú)人機(jī)群系統(tǒng)通常具有非線(xiàn)性和不確定性,這使得系統(tǒng)在面對(duì)復(fù)雜環(huán)境和突發(fā)情況時(shí)可能表現(xiàn)出較差的魯棒性和適應(yīng)性。
6、植保無(wú)人機(jī)發(fā)生故障時(shí)容錯(cuò)能力差,傳統(tǒng)的植保無(wú)人機(jī)群協(xié)同控制方法往往側(cè)重于系統(tǒng)整體的協(xié)同性能,而忽視了對(duì)單個(gè)植保無(wú)人機(jī)內(nèi)部故障(如執(zhí)行器故障)的實(shí)時(shí)檢測(cè)與診斷,當(dāng)執(zhí)行器發(fā)生故障時(shí),傳統(tǒng)的植保無(wú)人機(jī)群協(xié)同控制方法通常依賴(lài)于高度精確的通信和同步機(jī)制來(lái)確保系統(tǒng)的一致性和協(xié)同性,這導(dǎo)致其缺乏自適應(yīng)性和學(xué)習(xí)能力,可能缺乏足夠的容錯(cuò)控制機(jī)制來(lái)應(yīng)對(duì)執(zhí)行器故障,無(wú)法迅速調(diào)整協(xié)同策略以適應(yīng)新的系統(tǒng)狀態(tài),導(dǎo)致系統(tǒng)性能下降甚至崩潰。
7、針對(duì)以上缺陷,植保無(wú)人機(jī)群中的每個(gè)無(wú)人機(jī)通過(guò)與其他無(wú)人機(jī)的溝通和交互而擁有獨(dú)立的感知和決策能力,因此,編隊(duì)控制需要考慮無(wú)人機(jī)之間的交互、信息交換和協(xié)作策略,此外,必須解決植保無(wú)人機(jī)群中的隨機(jī)性、非線(xiàn)性和不確定性問(wèn)題,這些控制方法僅考慮了植保無(wú)人機(jī)群系統(tǒng)的穩(wěn)定性,而沒(méi)有進(jìn)一步考慮植保無(wú)人機(jī)群的控制性能和高效性,且近年來(lái)的研究?jī)?nèi)容只針對(duì)于共識(shí)控制問(wèn)題,這導(dǎo)致當(dāng)前的植保無(wú)人機(jī)群技術(shù)存在著以下缺陷:
8、1)消耗大量的通信和計(jì)算資源,因?yàn)楝F(xiàn)有的植保無(wú)人機(jī)群技術(shù)需要在每個(gè)采樣時(shí)間更新控制器,大大增加了資源的消耗。
9、2)無(wú)人機(jī)的計(jì)算和通信能力受到限制,在植保無(wú)人機(jī)群中,每個(gè)無(wú)人機(jī)通過(guò)通信網(wǎng)絡(luò)傳輸信息,又因?yàn)槠渫ǔE鋫湮⑻幚砥?,這將限制無(wú)人機(jī)的通信能力,導(dǎo)致信息傳遞不及時(shí)。
10、為此設(shè)計(jì)一種植保無(wú)人機(jī)集群自學(xué)習(xí)優(yōu)化編隊(duì)控制方法來(lái)解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的是為了提供植保無(wú)人機(jī)集群自學(xué)習(xí)優(yōu)化編隊(duì)控制方法。
2、本發(fā)明的目的可以通過(guò)采用如下技術(shù)方案達(dá)到:
3、植保無(wú)人機(jī)集群自學(xué)習(xí)優(yōu)化編隊(duì)控制方法,包括如下步驟:
4、步驟一:基于具有一個(gè)領(lǐng)導(dǎo)者和k個(gè)追隨者的植保無(wú)人機(jī)群,采用無(wú)向通信拓?fù)涿枋龃碇g的互連;
5、步驟二:建立追隨無(wú)人機(jī)i的系統(tǒng)模型;
6、步驟三:基于追隨無(wú)人機(jī)i的系統(tǒng)模型建立編隊(duì)動(dòng)態(tài)誤差計(jì)算;
7、步驟四:建立跟隨無(wú)人機(jī)i的折現(xiàn)最優(yōu)值函數(shù)并滿(mǎn)足hjb方程得到最優(yōu)編隊(duì)控制律;
8、步驟五:利用一種基于強(qiáng)化學(xué)習(xí)的etcrf控制方案來(lái)近似耦合hjb方程的解,確保所有不確定的跟隨者準(zhǔn)確地跟蹤指定編隊(duì)中的領(lǐng)導(dǎo)者軌跡;
9、步驟六:設(shè)計(jì)事件觸發(fā)魯棒編隊(duì)控制器;
10、步驟七:在神經(jīng)網(wǎng)絡(luò)架構(gòu)的背景下,得到追隨無(wú)人機(jī)i的最優(yōu)價(jià)值函數(shù)近似值。
11、優(yōu)選的,在步驟一中無(wú)向通信拓?fù)鋪?lái)描述代理之間的互連具體包括如下步驟:
12、用其中代表代理本身的一組節(jié)點(diǎn);
13、是邊的集合,是加權(quán)鄰接矩陣;
14、當(dāng)且僅當(dāng)智能體i和智能體j直接連接時(shí),則
15、且如果則αij>0,如果則αij=0且
16、令為智能體i的鄰居集合,為無(wú)人機(jī)i及其鄰居的集合,
17、
18、其中為ag的度矩陣,為拉普拉斯矩陣;
19、其中l(wèi)ij=-αij且
20、優(yōu)選的,步驟二關(guān)于追隨無(wú)人機(jī)i的系統(tǒng)模型如下:
21、
22、其中是系統(tǒng)狀態(tài);
23、是第i個(gè)跟隨無(wú)人機(jī)的控制輸入;
24、是執(zhí)行器故障匹配的不確定性;
25、和是非線(xiàn)性系統(tǒng)函數(shù)。
26、優(yōu)選的,系統(tǒng)函數(shù)和在包含if,i(0)=0的緊湊集合ω上是利普希茨連續(xù)的,且系統(tǒng)(1)可穩(wěn)定在ω上;
27、動(dòng)態(tài)不確定性滿(mǎn)足其中是已知函數(shù)且領(lǐng)航無(wú)人機(jī)的動(dòng)態(tài)可表示為:
28、
29、其中是系統(tǒng)狀態(tài);
30、是可微函數(shù)。
31、優(yōu)選的,步驟三中動(dòng)態(tài)誤差計(jì)算包括如下:
32、(1)公式的名義形式由下式給出:
33、
34、第i個(gè)跟隨無(wú)人機(jī)的編隊(duì)誤差提供為:
35、
36、其中向量常數(shù)ni表示無(wú)人機(jī)i和領(lǐng)航無(wú)人機(jī)之間的形成模式,并且ci≥0表示釘扎增益,因此,形成誤差的動(dòng)態(tài)計(jì)算為:
37、
38、第i個(gè)跟隨無(wú)人機(jī)的新的價(jià)值函數(shù)表示為:
39、
40、其中γ是正常數(shù),效用函數(shù)定義為
41、
42、其中θ是一個(gè)正常數(shù),和是正定矩陣。
43、優(yōu)選的,追隨無(wú)人機(jī)i的哈密量表示為:
44、
45、跟隨無(wú)人機(jī)i的折現(xiàn)最優(yōu)值函數(shù)為:
46、
47、滿(mǎn)足hjb方程:
48、
49、其中是一組可接受的控制,得到最優(yōu)編隊(duì)控制律:
50、
51、根據(jù)(8)公式和(9)公式,可以得到耦合的hjb方程為:
52、
53、優(yōu)選的,在步驟六中,在事件觸發(fā)機(jī)制中,跟隨無(wú)人機(jī)i的采樣狀態(tài)表示為:
54、
55、其中γk表示第k個(gè)采樣時(shí)刻。因此,相應(yīng)的采樣形成誤差為:
56、
57、事件觸發(fā)誤差表示為:
58、
59、基于(9)公式、(11)公式和(12)公式,跟隨無(wú)人機(jī)i的etcof控制律為:
60、
61、且系統(tǒng)函數(shù)是有界的,即:
62、
63、其中是正常數(shù)。
64、基于具有動(dòng)態(tài)不確定性的跟隨無(wú)人機(jī)i(1)公式、(2)公式、(15)公式以及(14)公式提供的etcof控制律,如果滿(mǎn)足觸發(fā)條件:
65、
66、其中λ是設(shè)計(jì)參數(shù),那么,跟隨無(wú)人機(jī)i的形成誤差具有漸進(jìn)穩(wěn)定性。
67、優(yōu)選的,步驟七中,在神經(jīng)網(wǎng)絡(luò)架構(gòu)的背景下,追隨無(wú)人機(jī)i的最優(yōu)價(jià)值函數(shù)近似為:
68、
69、其中為理想權(quán)重向量,為激活函數(shù),hc是隱藏層神經(jīng)元個(gè)數(shù),為逼近誤差。進(jìn)一步有:
70、
71、近似值函數(shù)表示為:
72、
73、其中表示最佳權(quán)重的估計(jì),接下來(lái)得到:
74、
75、根據(jù)(14)公式和(17)公式,近似etcof控制律重寫(xiě)為:
76、
77、結(jié)合(14)公式和(19)公式,近似etcof控制律為:
78、
79、根據(jù)(10)公式和(22)公式,近似哈密頓量為:
80、
81、通過(guò)最小化目標(biāo)函數(shù)評(píng)判神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整律為:
82、
83、其中ξc>0且學(xué)習(xí)率為:
84、
85、考慮第i個(gè)名義跟隨無(wú)人機(jī)(3)公式,評(píng)判家神經(jīng)網(wǎng)絡(luò)權(quán)值更新規(guī)則為(24)公式,則評(píng)判家神經(jīng)網(wǎng)絡(luò)權(quán)重估計(jì)誤差具有一致最終有界性。
86、本發(fā)明的有益技術(shù)效果:
87、本發(fā)明提供的植保無(wú)人機(jī)集群自學(xué)習(xí)優(yōu)化編隊(duì)控制方法,提高無(wú)人機(jī)系統(tǒng)的性能和適應(yīng)性。該專(zhuān)利技術(shù)可以通過(guò)基于rl的etcrf來(lái)實(shí)現(xiàn)系統(tǒng)性能的最大化,植保無(wú)人機(jī)可以通過(guò)與環(huán)境的交互學(xué)習(xí)到最優(yōu)的控制策略,以減少控制成本,提高系統(tǒng)效率。且系統(tǒng)具有更強(qiáng)的適應(yīng)性,可以根據(jù)環(huán)境的變化和系統(tǒng)的需求進(jìn)行自適應(yīng)調(diào)整,這使得植保無(wú)人機(jī)群系統(tǒng)能夠更好地應(yīng)對(duì)動(dòng)態(tài)環(huán)境和不確定性因素,從而提高系統(tǒng)的穩(wěn)定性和魯棒性。
88、提高農(nóng)業(yè)生產(chǎn)效率和穩(wěn)定性。植保無(wú)人機(jī)群系統(tǒng)通過(guò)協(xié)同控制,能夠?qū)崿F(xiàn)農(nóng)業(yè)設(shè)備的自動(dòng)化作業(yè),能夠顯著提高農(nóng)業(yè)生產(chǎn)效率,減少人力成本,同時(shí)降低人為操作失誤的風(fēng)險(xiǎn)。植保無(wú)人機(jī)群系統(tǒng)的容錯(cuò)編隊(duì)控制方案能夠在部分智能體出現(xiàn)故障時(shí),通過(guò)重新分配任務(wù)和調(diào)整控制策略,確保整個(gè)系統(tǒng)仍然能夠正常運(yùn)行,從而保障農(nóng)業(yè)生產(chǎn)的穩(wěn)定性和連續(xù)性。
89、優(yōu)化資源配置與減少浪費(fèi)。設(shè)計(jì)的etcrf控制器僅在觸發(fā)時(shí)刻更新,使得植保無(wú)人機(jī)群系統(tǒng)可以實(shí)時(shí)計(jì)算并節(jié)省通信資源且系統(tǒng)可以根據(jù)監(jiān)測(cè)數(shù)據(jù)自動(dòng)調(diào)整作業(yè)參數(shù),能夠?qū)崿F(xiàn)對(duì)農(nóng)業(yè)資源的精準(zhǔn)管理和動(dòng)態(tài)調(diào)度,從而實(shí)現(xiàn)資源的優(yōu)化配置和高效利用。
90、應(yīng)對(duì)復(fù)雜多變的環(huán)境。植保無(wú)人機(jī)群系統(tǒng)通過(guò)動(dòng)態(tài)調(diào)整編隊(duì)和控制策略,能夠適應(yīng)不同的復(fù)雜環(huán)境,并通過(guò)協(xié)同作業(yè)和智能決策,減少災(zāi)害對(duì)農(nóng)業(yè)生產(chǎn)的影響,提高農(nóng)業(yè)生產(chǎn)的抗災(zāi)能力。