WO2015079191A2

WO2015079191A2 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents

Info

Publication number: WO2015079191A2
Application number: PCT/FR2015/000001
Authority: WO
Inventors: Jennifer RENOUX
Original assignee: Airbus Ds Sas
Priority date: 2013-11-05
Filing date: 2015-01-05
Publication date: 2015-06-04
Also published as: WO2015079191A3; WO2015079191A8

Abstract

L'invention a pour objet un procédé de décision multiagents qui permet d'assurer une certaine synchronisation entre les agents, et notamment le fait que les agents arrivent à collecter des connaissances sur les autres agents en plus de connaissances sur le système. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, et un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.

Description

PROCEDE PERMETTANT D'OBTENIR UN SYSTEME DE TENUE DE SITUATION ACTIVE DÉCENTRALISÉE MULTIAGENTS

Domaine de l'invention

La présente invention concerne un procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.

Etat de la technique et problèmes techniques rencontrés Dans l'état de la technique, comment définissons-nous la tenue de situation active ? En fait, la tenue de situation a pour but de répondre à la question : « qu'est-il en train de se passer dans un environnement donné ? »

Si l'on considère l'exemple illustré à la figure 1 , il s'agit d'un bâtiment 10 en feu composé de sept zones, respectivement référencée 1 , 2, 3, 4, 5, 6 et 7, reliées selon une topologie connue. Le nombre de personnes présentes dans le bâtiment est également connu, mais la position de chacune de ces personnes dans ledit bâtiment est inconnue. Un système de tenue de situation, dans un exemple tel que celui de la figure 1 , doit pouvoir indiquer à l'opérateur les zones de départ de feu et les positions de chacune des personnes dans lesdites zones. Ce système de tenue de situation est mis en œuvre par un système robotisé 11 , 12, capable de donner des informations notamment relative au fait qu'un départ de feu est en cours dans les zones 2 et 6, mais également le fait que des victimes 13, 14, 15, 16 sont présentes dans les zones 3, 4, 6 et 7.

Ce genre de système robotisé, connu de l'homme de l'art, est habituellement, traité à l'aide d'une représentation globale tel qu'illustrée à la figure 2. En effet, dans cette représentation globale, on considère un processus 21 de décision central et commun pour l'ensemble des robots, encore appelés agents 22, 23, 24. Ce processus de décision décide des actions à effectuer pour chacun des robots et communique ces actions.

Cependant cette représentation selon la figure 2 dispose d'un certain nombre d'inconvénients, le premier étant le manque de robustesse. Dans le cas où, par exemple, le processus 21 de décision central tombe en panne, c'est l'ensemble du système 20 qui est mis à mal. En outre cette représentation est extrêmement sujette aux problèmes de communication et surtout n'est pas adapté pour résoudre des problèmes plus complexes.

Pour pallier à l'ensemble des problèmes précédemment cités, une modélisation locale est utilisée. Le système robotisé 20 est alors décentralisé (référencé 30 sur la figure 3) de sorte que chaque agent 21 , 22, 23 dispose de son propre processus de décision 31 , 32, 33. Chaque agent 21 , 22, 23 devient ainsi autonome.

Par conséquent, dans cette modélisation, si un agent 21 , 22, 23 tombe en panne ou sort de la couverture de communication, le reste du système peut alors continuer à fonctionner.

Il existe donc un besoin de faire de la tenue de situation active décentralisée, autrement dit, d'améliorer la connaissance globale sur une situation en effectuant un ensemble d'actions, choisies localement. Pour atteindre cet objectif, les agents ne se contentent pas de recevoir de l'information, ils vont également à la recherche d'informations. De même, les agents sont aptes à communiquer entre eux pour échanger de l'information pertinente et améliorer la construction du monde ou de leur environnement. Ainsi, un agent qui recevra une information de la part d'un autre agent pourra modifier son plan d'actions en tenant compte de cette nouvelle information.

Considérons qu'un environnement est représenté par un ensemble de « points d'intérêt », correspondant à la connaissance que l'on cherche à déterminer. Dans l'exemple selon la figure 1 , les points d'intérêt correspondraient par analogie à la position des départs de feu et à la position des victimes. En considérant que ces points d'intérêt sont modélisés par des variables aléatoires, nous obtenons donc : - sept variables aléatoires pour les départs de feu correspondant aux sept zones possibles avec comme valeur ou état possible « feu » ou « non feu », et

- quatre variables aléatoires correspondant aux quatre personnes présentes dans le bâtiment, avec comme valeurs possibles les sept numéros de zone où une personne peut se retrouver.

Chaque agent 11 , 12 du système 30 dispose de croyances sur son environnement. Ces croyances sont des distributions de probabilité sur les variables aléatoires du système correspondant à la probabilité de la variable X ayant la valeur xi.

Par exemple, si un agent a comme croyance :

{(zone7 = feu, 0.7), (zone7 = nonFeu, 0.3)},

cela signifie que selon les informations dont dispose l'agent, la probabilité que la zone 7 soit en feu est de 0.7 et que la probabilité que la zone 7 ne soit pas en feu est de 0.3.

Cependant, dans le cas d'un système multi-agents, il existe un problème de synchronisation des informations entre agents. Autrement dit, les agents disposent chacun d'un ensemble d'informations sur une situation données, cet ensemble s'étant construit lors d'actions et de communications précédentes. Par conséquent, les agents peuvent avoir des croyances différentes. Il est donc important qu'ils hiérarchisent ou mettent des priorités sur les différentes informations dans le but de préndre la bonne décision en fonction de leurs croyances respectives, mais également en fonction des croyances des autres agents. Des questions concrètent se posent alors, comme le choix d'une action quand les croyances des différents agents divergent (un agent doit-il rapporter un fait qu'il croit vrai alors qu'il sait que l'autre agent le croit faux ?). Les agents doivent également choisir les informations à communiquer et quand les communiquer afin de ne pas saturer le réseau de communication d'informations inutiles.

Exposé de l'invention

La présente invention vise à résoudre l'ensemble des inconvénients de l'état de la technique. Pour cela, l'invention propose un procédé de décision multiagents qui permet d'assurer une certaine synchronisation entre les agents, et notamment le fait que les agents arrivent à collecter des connaissances sur les autres agents en plus de connaissances sur le système. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, et un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.

Brève description des figures

L'invention sera mieux comprise à la lecture de description qui suit et à l'examen des figures qui l'accompagnent. Celles-ci ne sont présentées qu'à titre illustratif, mais nullement limitatif de l'invention. Les figures montrent :

- Figure 1 : une représentation schématique d'un bâtiment en feu ;

- Figure 2 : une représentation globale d'un système robotisé, selon l'état de la technique ;

- Figure 3 : une représentation schématique d'un système robotisé décentralisé, selon un mode de réalisation de l'invention ;

Description de l'invention

On note dès à présent que les figures ne sont pas à l'échelle.

Les réalisations suivantes sont des exemples. Bien que la description se réfère à un ou plusieurs modes de réalisation, ceci ne signifie pas nécessairement que chaque référence concerne le même mode de réalisation, ou que les caractéristiques s'appliquent seulement à un seule mode de réalisation. De simples caractéristiques de différents modes de réalisation peuvent également être combinées pour fournir d'autres réalisations.

Plus précisément, l'invention propose que les agents disposent, en plus de leurs propres croyances sur l'environnement, de croyances concernant les croyances des autres agents du système.

En effet, reprenons l'exemple décrit précédemment selon la figure 1 , où des points d'intérêt correspondent par analogie à la position de départs de feu et à la position de victimes. En considérant, notamment, que ces points d'intérêt sont modélisés par des variables aléatoires, où :

- sept variables aléatoires correspondent respectivement aux départs de feu, soit une variable par zone avec comme valeur ou état possible « feu » ou « non feu », et - quatre variables aléatoires correspondent respectivement aux quatre personnes présentes dans le bâtiment, avec comme valeurs possibles les sept numéros de zone où une personne peut se retrouver.

On peut donc considérer, d'après cet exemple, qu'un agent qui aurait pour croyance {(zone7SelonJ = feu, 0.9), (zone7SelonJ = nonFeu, 0.1 )} signifie que cet agent croit que selon l'agent J, la probabilité que la zone 7 soit en feu est de 0.9 et la probabilité qu'elle ne soit pas en feu est de 0.1.

Il est à noter que du fait que nous soyons dans une représentation locale, et donc que les croyances d'un agent concernant les croyances des autres agents (dans l'exemple les croyances de l'agent sur l'agent J) sont des approximations des croyances réelles des autres agents (dans l'exemple, une approximation des croyances de l'agent J). La notion de mise à jour des croyances de chaque agent sera abordée par la suite.

Dans un système dont le but est d'améliorer la connaissance d'un environnement, il s'avère important que les agents récoltent des informations pertinentes concernant cet environnement. Or, la pertinence d'une information pour un agent est une notion qui n'est pas définie dans l'état de la technique.

En effet, on entend par pertinence d'une information pour un agent, l'intérêt qu'un agent peut porter à ladite information.

Dans le cadre d'une application de tenue de situation, on définit qu'une information est pertinente pour un agent si elle est nouvelle pour cet agent, ou si elle lui permet de confirmer une croyance antérieure.

La notion de nouveauté d'une information est bien évidemment dépendante de l'état de croyance de l'agent à l'instant courant. Afin de déterminer si une information est nouvelle pour un agent ou non, il faut donc comparer son état de croyance avant l'obtention de cette information par rapport à son état de croyance après l'obtention de cette information.

Si les deux états de croyance diffèrent au-delà d'un certain seuil, alors on considère que l'information est nouvelle. Ce seuil doit être adapté en fonction des besoins des applications.

Par exemple, dans un contexte de surveillance de zone en feu, la moindre petite modification de l'environnement peut avoir des effets importants (fragilisation d'un plafond qui peut s'effondrer, personne qui se relève au lieu de rester au sol...) et doit être considérée rapidement pour permettre une action rapide. Dans ce cas, le seuil définissant que deux états de croyances sont différents est très faible. Une information sera donc considérée comme nouvelle à partir du moment où elle reflète un changement dans l'environnement, même faible.

En revanche, dans un cadre de surveillance de foule il est inutile de communiquer toutes les secondes qu'un individu X a bougé. Au contraire, cela serait contre-productif. Il faut donc que la différence entre deux états de croyances soit plus significative pour considérer que ces états sont réellement différents. Les informations ne sont donc considérées comme nouvelles que si elles reflètent un changement significatif de l'environnement.

Les états de croyances des agents correspondant à des distributions de probabilité sur des points d'intérêt, la différence qui existe entre deux croyances peut être calculée en utilisant des mesures comme le ratio de Kullback-Leibler, qui permet de calculer la différence entre deux distributions de probabilité.

D_KL(P(X) \ \Q(X)) = X ^(**)

Comme les systèmes considérés sont des systèmes dynamiques, les valeurs des variables aléatoires représentant les points d'intérêt peuvent changer au cours du temps. Dans le cas du bâtiment en feu, une variable aléatoire « état de l'escalier » qui aurait pour valeur « bon » pourrait être amenée à changer par l'action du feu et passer à « détruit ». Dans ce cas, même si l'agent a comme croyance que l'escalier est en bon état, toute observation concernant cet escalier et qui donnerait « détruit » sera considérée par l'agent comme nouvelle et donc considérée comme pertinente. Ce procédé permet donc bien de prendre en compte des observations qui pourraient corriger une croyance devenue fausse avec le temps, même si ces observations sont contradictoires avec les croyances de l'agent.

Une information peut être pertinente si, bien qu'elle ne soit pas nouvelle, elle permet de confirmer à un agent que ses croyances sont exactes. Par soucis de simplicité, on appellera par la suite une telle information une information « précisante ». Pour cela, on vérifie si l'état de croyance de l'agent après prise en compte de l'information est suffisamment discriminé, c'est-à-dire si les distributions de probabilités ne sont pas proches de la loi de distribution Normale.

Cette vérification peut se faire en utilisant des mesures d'entropie de la littérature, comme l'entropie négative de Shannon.

n

H(X) = - _/ P(x_i) log P(x_i)

Plus l'état de croyance, après prise en compte de l'information, a une entropie faible, plus cet état de croyance est précis. Les informations pertinentes sont celles qui permettent une plus grande précision de l'état de croyance. Une fois encore, il est nécessaire de définir un seuil dépendant de l'application à partir duquel un état de croyance est considéré comme suffisamment précis et donc l'observation qui a permis cet état est considérée comme pertinente.

A partir des deux définitions précédentes, il devient donc possible de donner à une information un degré de pertinence pour un agent i. Ce degré de pertinence sera calculé en utilisant le degré de nouveauté et le degré de « précision » d'une information, pondérés par des coefficients en fonction de l'intérêt (nouveauté ou précision) que l'on souhaite mettre en avant. Afin que le résultat soit borné, on applique une transformation à la différence d'entropies.

Le degré de pertinence selon l'invention sera définit comme suit :

New information Nous allons maintenant décrire un processus de décision d'un agent, selon un mode de réalisation de l'invention. Derrière le terme agent, on entend une entité caractérisé par le fait qu'elle est au moins partiellement autonome, et qui peut être un processus, un robot, ..etc. Un agent est apte à décider des actions qu'il a à effectuer en fonction de ce que ses actions peuvent lui apporter. Il calcule donc pour chaque suite d'actions possible, l'espérance de gain correspondant, et choisit la suite d'action qui possède la meilleure espérance de gain.

Le gain apporté par une action est modélisé par une fonction de récompense. L'agent obtient un gain s'il effectue une action précise dans un état de l'environnement précis. Or dans le cas de la tenue de situation active, le gain obtenu ne dépend pas de l'état de l'environnement mais de l'état de croyance de l'agent.

En effet, ce qui est intéressant dans le cadre de l'invention, c'est que l'agent améliore son état de croyance. Autrement dit, l'agent possède une connaissance de plus en plus accrue de l'environnement.

Le gain obtenu par l'agent doit donc dépendre de l'action qu'il effectue dans un état de croyance particulier. Cependant, toute action a un coût et l'intérêt d'une action doit être mis en relation avec ce coût. La récompense totale pour un agent donné de faire une action donnée, dans un état de croyance donné est donc un ratio coût/bénéfice.

Pour l'action d'explorer son environnement, on attend de l'agent qu'il explore une zone parce qu'il ne sait pas ce qu'il s'y passe, ou parce qu'il n'est pas sûr de savoir. L'agent doit donc obtenir un gain pour l'action d'explorer une zone donnée si cela lui a rapporté une information pertinente.

Une solution est de relier directement gain et pertinence en faisant en sorte que le gain obtenu soit la valeur de pertinence de l'information.

Cependant, l'agent ne sait pas à l'avance avec certitude quelle information il va obtenir en effectuant cette action. Il peut cependant posséder un modèle lui donnant les probabilités d'obtenir une information donnée. L'agent doit donc calculer son espérance de gain pour chaque action en fonction de la probabilité d'obtenir une information et le gain que cette information apporte.

Comme mentionné précédemment, toute action a un coût et l'action d'explorer peut être très coûteuse(en temps, en batterie, en essence,... etc) pour une pertinence qui « n'en vaut pas la peine ».

La fonction de récompense doit donc introduire une balance bénéfice/coût. La solution la plus simple est de faire une différence entre l'espérance de gain et le coût de l'action, mais d'autres formules sont possibles.

Which observation mightl receive if ! perform this action ?

R(b_i)t, Explore(Xk))

Cost ofperfoimingthis action

Concernant l'action de communiquer ou non une information, on attend de l'agent qu'il communique une information qu'il jugera pertinente pour l'agent auquel il va la communiquer.

Ainsi, un agent devra s'appuyer sur les croyances qu'il a des croyances des autres agents pour savoir si une information est pertinente pour un autre agent que lui. On peut donc également relier directement gain et pertinence : le gain obtenu par l'agent qui communique l'information est égal au degré de pertinence de cette information pour l'agent qui la reçoit.

Une fois encore, communiquer à un coût (notamment en termes de bande passante, par exemple) et le gain obtenu avec la communication doit être mis en relation avec le coût de cette communication. Une différence peut encore être utilisée.

R(bi_tt , Communicaie(ok , · ) ~ relj(ok)

~&Communiça.te(o_k , ₇· )

Costof performing this action

A partir des récompenses ainsi définie, on peut utiliser différentes techniques d'optimisations présentes dans la littérature pour déterminer la meilleure suite d'actions possible.

Les croyances des agents sont bien évidemment impactées par les actions desdits agents. Rappelons que chaque agent dispose de croyances concernant l'environnement mais aussi de croyances concernant les croyances des autres agents. Or les méthodes de mise à jour de ces deux types de croyances divergent.

Un agent va mettre à jour ses croyances à trois moments :

1- quand il va recevoir une nouvelle information suite à une exploration ; 2- quand il va recevoir une nouvelle information communiquée par un autre agent ;

3- quand il va communiquer une information à un autre agent.

Dans le premier cas, l'agent va mettre à jour ses propres croyances concernant l'environnement.

Dans le deuxième cas, l'agent reçoit une information de la part d'un autre agent. Il doit donc mettre ses propres croyances à jour. Cependant, cela signifie que l'agent qui a communiqué l'information connaît cette information. L'agent qui la reçoit doit donc également mettre à jour les croyances qu'il a sur les croyances de l'agent émetteur de l'information.

Dans le troisième cas, on suppose que la mise à jour suite à la découverte de l'information a déjà été faite (résultante de l'action d'explorer). En revanche, en communiquant l'information à un autre agent, on suppose que l'agent qui la reçoit va la prendre en compte et modifier ses propres croyances. Il faut donc que l'agent qui envoie l'information modifie ses croyances concernant les croyances de l'agent qui reçoit l'information.

Si on reprend l'exemple du bâtiment en feu, supposons un agent A explorant la zone 7 et découvrant un départ de feu. L'agent A va mettre à jour ses propres croyances concernant cette zone mais ne peut pas présumer des croyances d'un agent B. Par la suite, l'agent A décide de communiquer à l'agent B l'information qu'il y a un départ de feu en zone 7. Comme l'agent A et l'agent B ont le même mécanisme de décision, on peut raisonnablement supposer que l'agent B va prendre en compte cette information. Dans ce cas, l'agent A doit mettre à jour les croyances qu'il a des croyances de l'agent B. Enfin, l'agent B qui reçoit l'information comme quoi il y a un départ de feu dans la zone 7 va mettre à jour ses propres croyances, mais il sait également que l'agent A a cette information (puisque l'agent A l'a communiquée). L'agent B va donc mettre à jour les croyances qu'il a sur les croyances de l'agent A.

Les différents procédés présentés précédemment ont été présentés essentiellement dans le cadre d'une application de surveillance de bâtiment en feu. Cependant, n'étant pas limitatifs et restrictifs à ces applications, ils sont applicables à de nombreux autre cas de surveillance (tel qu'une foule, ou un site sensible,..) en ajustant les différents paramètres. Ils peuvent également être appliqués à des cas de tenue de situation non physiques, mais numériques comme par exemple la recherche dans des documents multimédias, ou encore la surveillance de sites internet suspects.

Claims

REVENDICATIONS

1 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents comportant les étapes suivantes :

- une détermination des croyances d'un agent,

- une détermination d'une information pertinente,

- un mécanisme de décision permettant à l'agent de choisir la meilleure action possible, et

- une mise à jour des croyances de l'agent en fonction de l'action choisie.

2 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents selon la revendication 1 , caractérisé en ce que, en qui concerne l'étape de détermination des croyances d'un agent, afin d'améliorer la connaissance d'un environnement, chaque agent récolte en plus de ses propres croyances sur un environnement, des croyances concernant les autres agents du système en fonction de la pertinence des informations.

3 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, une information est pertinente pour un agent si elle est nouvelle pour cet agent, ou si elle lui permet de confirmer une croyance antérieure. 4 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, la nouveauté d'une information est dépendante de l'état de croyance d'un agent à un instant courant, et est obtenue en comparant l'état de croyance de l'agent avant l'obtention de cette information par rapport à son état de croyance après l'obtention de cette information.

5 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, si les deux états de croyance diffèrent au-delà d'un certain seuil, alors on considère que l'information est nouvelle.

6 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, les états de croyances des agents correspondent à des distributions de probabilité sur des points d'intérêt, la différence existant entre deux croyances peut être calculée en utilisant des mesures telles que le ratio de Kullback-Leibler, afin de calculer la différence entre deux distributions de probabilité :

7 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, l'on donne à une information un degré de pertinence pour un agent i, ledit degré de pertinence étant calculé en utilisant le degré de nouveauté et le degré de « précision » d'une information, pondérés par des coefficients en fonction de l'intérêt que l'on souhaite mettre en avant :

Precisîng information

New information 8 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que le processus de décision d'un agent, s'effectue :

- en calculant pour chaque suite d'action possible une espérence de gain correspondant, et

- en choisissant la suite d'action qui possède la meilleure espérance de gain, de sorte que le gain apporté par une action soit modélisé par une fonction de récompense, où l'agent obtient un gain s'il effectue une action précise dans un état de croyance particulier. 9 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, l'agent calcule son espérance de gain pour chaque action en fonction de la probabilité d'obtenir une information et en fonction du gain que cette information apporte.

10 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que la mise à jour des croyances de l'agent s'effectue lorsque :

o l'agent reçoit une nouvelle information suite à une exploration ;

o l'agent reçoit une nouvelle information communiquée par un autre agent ;

o l'agent communique une information à un autre agent.

11 - Agent de type entité au moins partiellement autonome, tel qu'un processus, ou un robot, apte à décider des actions qu'il a à effectuer en fonction de ce que ses actions peuvent lui apporter, en calculant pour chaque suite d'actions possible, une espérance de gain correspondant, et en choisissant la suite d'action qui possède la meilleure espérance de gain, caractérisé en ce qu'il est apte à mettre en œuvre le procédé selon l'une quelconque des revendications précédentes.