NL2027701B1

NL2027701B1 - Point-to-point tracking control method for multi-agent trajectory-updating iterative learning

Info

Publication number: NL2027701B1
Application number: NL2027701A
Authority: NL
Inventors: Liu Chenglin; Luo Yujuan
Original assignee: Univ Jiangnan
Priority date: 2020-06-19
Filing date: 2021-03-03
Publication date: 2022-03-15
Also published as: CN111722628A; CN111722628B; NL2027701A

Claims

Conclusies

1. Werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten, omvattende de stappen van het: stap 1 het construeren van een model van meerdere discreet heterogeen multi-agentsysteem; stap 2 het analyseren van een informatie-uitwisselingsrelatie tussen agenten in het discrete heterogene multi-agentsysteem, en het construeren van een communicatietopologiestructuur van het multi-agentsysteem met behulp van een gerichte graaf, waarbij slechts één of meerdere volg-agenten in staat zijn leidersinformatie te verwerven, en een communicatietopologiediagram gevormd door door een leider en een volger omvat één opspannende boom met de leider als een hoofdknooppunt; stap 3 het geven van een initiële toestand van alle volg-agenten; stap 4 het ontwerpen van een doeltraject-updatemethode volgens een verwacht positiepunt, het oplossen van parameters van de doeltraject- updatemethode, en het updaten van een doeltraject om het mogelijk te maken dat een nieuw doeltraject asymptotisch convergeert naar een systeemuitvoer; en stap 5 het ontwerpen van een P-type iteratief leerproces gebaseerd op het bijwerken van het doeltraject voor de volg-agenten, en het oplossen van parameters van het P-type iteratieve leerproces, om volledige tracering van de verwachte puntpositie binnen een beperkte tijd in het multi-agentsysteem te implementeren.

2. De werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten volgens conclusie 1, waarbij in stap 1 een model van een discreet heterogeen mutli-agentsysteem gevormd is door n verschillende agenten: 20 fax +1) = Axe (t) + Brug (1) (1 Vilt) = Cil) ’

waarbij k staat voor het aantal iteraties, / staat voor de i% agent, i = 1,2, -,n, en t €[0,N] is een bemonsteringstijdstip binnen één periode; x;,(t) € RP, u(t) ER , en y(t) ER™ duiden respectievelijk een staat, een besturingsinput en een systeemoutput van de agent i; en A; € RPPPt, B; € RPT, en C; € R™Pi zijn matrices met een overeenkomstig aantal dimensies, het is gedefinieerd dat 20 = [Pi Oi, al (D]T en w(t) = OE OT, n= Die, vi, vl (OTT, zodanig dat het systeem (1) in een compacte matrixvorm wordt geschreven als: [rale +1) = Ax (t) + Buy (t) (2). ye) = Cxy(t) waarbij A =diag{d, Az, Ax} , B=diag{ByB,-,B,} , en C= diag{C,, Co, Co}; het systeem (2) wordt omgezet in een input-output matrixmodel gebaseerd op een tijdsequentie: Vi = Pug + Qx, (0) (3), waarbij yi = DO, y (1), =, 3 (M]" en wy = [1,(0), up (1), tee (NJ, 0 0 0 0 «0 CB 0 0 0 0 : CAB CB 0 0 | en CA’B CAB CB 0 «0 CAN-1B CAN-2B CAN-3B u CB 0 Q=I[c cA CA? CA3 - CAV en tijdpunten T = Í{t,t,, tu} die moeten worden gevolgd, worden gegeven, waarbij bij voorkeur een controlemethode wordt gebruikt om het volgen van het verwachte positiepunt in het multi-agentsysteem te implementeren, dat is, Virlts) > Valts), s=12-,M, en OSt <t; < + <ty SN, waarbij yalts) het verwachte positiepunt is; het verwachte positiepunt yg(ts) wordt beschouwd als gegenereerd door een virtuele leider, s =1,2--,M; en n agenten in het systeem worden beschouwd als volgers, en slechts enkele volg-agenten kunnen direct de leider-informatie verkrijgen

3. De werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten volgens conclusie 1 of 2 , waarbij in stap 2, de gerichte graaf G = (V,E, A) wordt gebruikt om de topologiestructuur van het multi-agentsysteem aan te duiden, waarbij een knooppuntset van V ={1,2,,n} van de graaf G overeenkomt met de 7 agenten, en een randset ESVxV van de graaf G overeenkomt met informatieuitwisseling en overdracht onder de agenten, het gewicht van een rand isa; 20 en a; =0 (i,j EV), en een matrix A = [a;;] € R™™ js een gewogen aangrenzende matrix; als knooppunt j in staat is om informatie van knooppunt 7 te verkrijgen in de gerichte graaf, wordt een knooppuntverbindingsrand aangegeven door e; = (Lj) EE; als e; EE, een element in de gewogen aangrenzende matrix a;; = 0 is, of anders is het element 0, en a; =0, en Vi € V: een naburige verzameling van de agent i is N; ={j € V:(i,j) EE}; en een Laplaciaanse matrix van de graaf G is L=D A= [&;] € R™™ en een matrix D is een gradenmatrix van de graaf G, waarbij in de formule: Ly = (2204 py en j D= diag{¥7., a, i =1, em}, en in de gerichte graaf CG, een gericht pad van knooppunt i; naar knooppunt i is een geordende reeks (iz), ,lis1,is) van een serie van randen; als één knooppunt i één gericht pad heeft naar alle andere knooppunten in de gerichte graaf G, is het knooppunt i een wortelknooppunt, en als de graaf G een wortelknooppunt heeft, heeft de gerichte graaf één opspannende boom. na het toevoegen van een leider, vormen de 7 volg-agenten en de leider een graaf G = {0 UG}, informatieoverdracht tussen de agent i en de leider wordt aangeduid als s;, s; > 0 geeft aan dat de agent een relatie heeft met de leider, en s; = 0 geeft aan dat de agent geen relatie heeft met de leider; en in de gerichte graaf G, als er één gerichte opgespannen boom is met de leider als hoofdknooppunt, geeft dit aan dat de leider een gericht pad heeft naar alle volt-agenten.

4. De werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten volgens een van de conclusies 1-3 , waarbij in stap 3 een initiële toestandherstelvoorwaarde van alle volg-agenten is: xi (0) =0 (4).

5. De werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten volgens een van de conclusies 1-4 | waarbij in stap 4 de doeltraject-updatemethode als volgt is: Bia (=v (+R (0) f(t), (5), waarbij T;x+1(t) een doeltraject is van de i agent verkregen na het leren en bijwerken van een ks iteratie, y,(t) een traject is dat door de verwachte puntpositie yalts) gaat , A (1)=(t=1)(t=1,)-(t=1,). en f(t) zijn discrete functies; laat (0 = DD OT FO = [AQ LO, (OI, H (1) =diag{h (1).h (1). 1, (1)}, en Yo(®) = ya(©,ya(®), ~, ya(OI", Formule (4) wordt omgezet in: Tear (8) = Ya (©) + H(O)f (0) (6); Formule (6) wordt herschreven naar een op een tijdsequentie gebaseerde vorm: Teer = Va + Hf (7), waarbij Tt = [eer Ta (DTe 1 (NDT, Ya = [Y,(0), Y, (1), tty Ya (NT, H = diag{H(0),H(1),---,H(N)}, en f=1f(0), FQ, FN]; omdat punt-naar-punt tracering vereist dat de waarde van een doeltraject op een tijdstip T = {t;,t,, +, ty} waarvoor tracering in elke update vereist is consistent wordt gehouden met die van een bepaald punt verwacht wordt, dat wil zeggen, 1y;(ts) = Valts), wordt Formule (7) verder omgezet naar een doeltraject op elk bemonsteringspunt: Teer = Te +Hf (8); laat f = F(x — ye), waarbij F een reële diagonal matrix is, Formule (8) wordt genoteerd als: Thor = FHF re) (9); laat A, = HF, omdat een matrix H en een matrix F beide diagonal matrices zijn, is A; ook een reële diagonale matrix, en A (0) 0 “ee 0 A = | 0 Ae (1) u 0 waarbij 0 0 a) Aart) 0 oe 0 in de formule, A,(t)= | 0 Aak) . 0 | ‚ de doeltraject- 0 0 Ank) updatemethode (9) wordt omgekeerd naar: Terr = Tk + Akke) (10); het traceren van een vast traject door gebruik te maken van een iteratief leeralgoritme vereist dat als het aantal iteraties toeneemt, de systeemoutput Vix(t) asymptotisch convergeert naar een vast traject y,(t), dat wil zeggen IVa Verl lye zel (11); een huidig doeltraject-update algoritme is om een nieuw doeltraject 7;g(t) asymptotisch te laten convergeren naar de systeemoutput y(t), dat wil zeggen, Iris Vell Slk yell (12); en voor een punt-naar-punt tracering regelprobleem, wordt het doeltraject- update algoritme gebruikt Txs = Tr + A(x — yi), en als aan |! +24 =1 wordt voldaan en Agvoldoet aan = < Aix) < 0,t € [ONNT kan [ri — AO =O0teT ’

Vill < Ir — vill worden verkregen, en T geeft tijdstippen T = {t;,t5, ++, ty} aan die moeten worden gevolgd.

6. De werkwijze voor een punt-naar-punt traceer-regelmethode voor iteratief leren bij het bijwerken van het traject van meerdere agenten volgens een van de conclusies 1-5, waarbij in stap 5 het P-type iteratief leerproces gebaseerd op het bijwerken van het doeltraject als volgt is: eerst, het wordt gegeven da teen traceerafwijking van elke agent is: eik = Tilt) — Vilt) (13), jn) = y(t) VO, JEN, (14), waarbij e;,(t) een afwijking representeert tussen de output van de agent i tijdens de &“° iteratie en een doeltraject verkregen na iteratief bijwerken, en e(t) staat voor een afwijking tussen de agent en de naastgelegen agenten daarvan tijdens de 4“ iteratie; laat &;,(t) informatie aanduiden die ontvangen of gemeten is door de agent i tijdens de &““ iteratie, wordt verkregen dat: diel) = jen aijeijn(t) + sie (8) (15), waarbij a;; de weging is van een rand, en s; is een koppelweging tussen de agent; en de leider; omdat ex (t) = e;,(t) — e‚x(t), wordt Formule (15) omgezet naar: diel) = Xen, ij (e(t) — ej (t)) + se, (8) (16); het is gedefinieerd dat e(t) = [erx(6, esp (t), +, nk ()]T en &()= Ee), E20), En «OTT, en door gebruik te maken van grafentheorie, is het mogelijk om Formule (16) te schrijven als: GM =(L+®Iy)e(® (17), waarbij S = diag{s,,S2, Sn}, L een Laplaciaanse matrix is van G, en Im noteert een m X m-dimensionale eenheidsmatrix;

Formule (17) wordt ook geschreven in een op tijdsequentie gebaseerde vorm, dat wil zeggen:

$e = Mex (18),

waarbij ex = [er(0), ec (1), ‚er (NI, & = [§,(0), & (1), +, Eel], en

SM = diag{(L +S) ® Imn}nxen:

waarbij bij voorkeur gebruik wordt gemaakt van het P-type iteractieve leerproces voor elke volg-agent om een traceercontroleprobleem van een verwacht punt in het multi-agentsysteem op te lossen, en een iteratieve leermethode wordt als volgt weergegeven:

Upger1 = wp) + liëix+i() (19),

waarbij I; € RTP? een leertoename is;

laat u(t) = [01 (0), uz 1 (2), ne (0) en E(t) = [£16 (6), E20 (D), EO], Formule (19) wordt omgezet naar:

Up (8) = up (8) + P&k41(t) (20),

waarbij P = diag{l'y, 5, Li},

vervolgens, laat Ze = [64(0),& (1), +, & (NT en Uk = [u (0), u, (1), ++, wu, (NT, Formule (20) wordt omgezet naar:

Uppy = U +E (20),

waarbij P = diag{T'}yxn;

Formule (18) wordt ingevuld in Formule (21) om een iteratief-lerende regelmethode te verkrijgen:

Ug+1 = U +I Mey; (22);

een iteratieve leermethode op basis van het bijwerken van het doeltraject die vanuit Formule (10) en Formule (22) verkregen kan worden is:

Ur = Up + PMegy1 (23): en

Ther = Tx + Acre — Vp)

Voor het discrete heterogene multi-agentsysteem (1), onder invloed van de iteratieve leermethode (23) gebaseerd op het bijwerken van het doeltraject, als een ongelijkheid ||(I + GPM)! <1 waar is, terwijl de iteraties doorgaan, convergeert een outputtraject van een volger naar een verwacht punt, dat wil zeggen, als k >, Yx+1(ts) = Valts).