WO2015079191A2 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents - Google Patents

Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents Download PDF

Info

Publication number
WO2015079191A2
WO2015079191A2 PCT/FR2015/000001 FR2015000001W WO2015079191A2 WO 2015079191 A2 WO2015079191 A2 WO 2015079191A2 FR 2015000001 W FR2015000001 W FR 2015000001W WO 2015079191 A2 WO2015079191 A2 WO 2015079191A2
Authority
WO
WIPO (PCT)
Prior art keywords
agent
information
obtaining
beliefs
action
Prior art date
Application number
PCT/FR2015/000001
Other languages
English (en)
Other versions
WO2015079191A3 (fr
WO2015079191A8 (fr
Inventor
Jennifer RENOUX
Original Assignee
Airbus Ds Sas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Airbus Ds Sas filed Critical Airbus Ds Sas
Publication of WO2015079191A2 publication Critical patent/WO2015079191A2/fr
Publication of WO2015079191A3 publication Critical patent/WO2015079191A3/fr
Publication of WO2015079191A8 publication Critical patent/WO2015079191A8/fr

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1682Dual arm manipulator; Coordination of several manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Definitions

  • the present invention relates to a method for obtaining a multiagents decentralized active situation holding system. This process is organized in several stages such as determining the beliefs of an agent, determining a relevant information, a decision-making mechanism allowing the agent to choose the best possible action and updating the beliefs. agent depending on the chosen action.
  • FIG. 1 it is a building 10 on fire composed of seven zones, respectively referenced 1, 2, 3, 4, 5, 6 and 7, connected according to a topology known.
  • the number of people present in the building is also known, but the position of each of these people in the building is unknown.
  • a situation-keeping system in an example such as that of FIG. 1, must be able to indicate to the operator the fire departure zones and the positions of each of the persons in said zones.
  • This situation-keeping system is implemented by a robotic system 11, 12, capable of giving information in particular relating to the fact that a fire is in progress in zones 2 and 6, but also the fact that victims 13, 14, 15, 16 are present in zones 3, 4, 6 and 7.
  • this representation according to Figure 2 has a number of disadvantages, the first being the lack of robustness. In the case where, for example, the central decision process fails, the entire system 20 is damaged. In addition this representation is extremely subject to communication problems and above all is not suitable for solving more complex problems.
  • the robotic system 20 is then decentralized (referenced 30 in Figure 3) so that each agent 21, 22, 23 has its own decision process 31, 32, 33. Each agent 21, 22, 23 thus becomes autonomous.
  • agents are not content to receive information, they are also looking for information.
  • agents are able to communicate with each other to exchange relevant information and improve the construction of the world or their environment.
  • an agent who receives information from another agent may modify his action plan taking into account this new information.
  • Each agent 11, 12 of the system 30 has beliefs about its environment. These beliefs are probability distributions on the random variables of the system corresponding to the probability of the variable X having the value xi.
  • the probability that zone 7 is on fire is 0.7 and the probability that zone 7 is not on fire is 0.3.
  • agents each have a set of information on a given situation, this set being built during previous actions and communications.
  • agents may have different beliefs. It is therefore important that they prioritize or prioritize the various pieces of information in order to pre-select the right decision based on their respective beliefs, but also according to the beliefs of the other agents. Concrete questions then arise, such as the choice of an action when the beliefs of different agents diverge (should an agent report a fact that he believes is true when he knows the other agent thinks he is wrong?) . Agents must also choose what information to communicate and when to communicate it so as not to saturate the communication network with unnecessary information.
  • the present invention aims to solve all the disadvantages of the state of the art.
  • the invention proposes a multi-agent decision method which makes it possible to ensure a certain synchronization between the agents, and in particular the fact that the agents manage to collect knowledge of other agents in addition to knowledge about the system.
  • This process is organized in several steps such as determining the beliefs of an agent, determining relevant information, and a decision-making mechanism that allows the agent to choose the best possible action and update the information. beliefs of the agent depending on the chosen action.
  • FIG. 1 a schematic representation of a building on fire
  • FIG. 2 a global representation of a robotic system, according to the state of the art
  • FIG. 3 a schematic representation of a decentralized robotic system, according to one embodiment of the invention.
  • the invention proposes that agents have, in addition to their own beliefs about the environment, beliefs about the beliefs of other agents in the system.
  • - seven random variables correspond respectively to the fire starts, one variable per zone with the value or possible state "fire” or “fire”, and - four random variables correspond respectively to the four persons present in the building, with as possible values the seven zone numbers where a person can meet.
  • the slightest change in the environment can have significant effects (weakening of a ceiling that can collapse, someone who gets up instead of staying on the ground .. .) and must be considered quickly for allow quick action.
  • the threshold defining that two states of beliefs are different is very small. Information will therefore be considered new from the moment it reflects a change in the environment, even if it is weak.
  • the difference between two beliefs can be calculated using measures such as the Kullback-Leibler ratio, which makes it possible to calculate the difference between two distributions. of probability.
  • the values of the random variables representing the points of interest may change over time.
  • a random variable "state of the staircase” that would have the value "good” could be brought to change by the action of the fire and go to "destroyed".
  • any observation concerning this staircase and that would give "destroyed” will be considered by the agent as new and therefore considered relevant. This method therefore makes it possible to take into account observations that could correct a belief that has become false over time, even if these observations are contradictory to the beliefs of the agent.
  • Information may be relevant if, although it is not new, it can confirm to an agent that his beliefs are accurate. For the sake of simplicity, this information will be called “precise” information. For that, one checks if the state of belief of the agent after taking into account of the information is sufficiently discriminated, that is to say if the distributions of probabilities are not close to the law of distribution Normal.
  • This verification can be done using entropy measurements of the literature, such as Shannon's negative entropy.
  • the relevant information is that which allows a greater precision of the state of belief.
  • agent we mean an entity characterized by the fact that it is at least partially autonomous, and which can be a process, a robot, etc.
  • An agent is able to decide what actions to take depending on what his actions can bring him. He therefore calculates for each sequence of possible actions, the corresponding expectation of gain, and chooses the action sequence that has the best expectation of gain.
  • the gain provided by an action is modeled by a reward function.
  • the agent gains a gain if he performs a specific action in a specific environmental state.
  • the gain obtained does not depend on the state of the environment but on the state of belief of the agent.
  • the gain obtained by the agent must therefore depend on the action he performs in a particular state of belief. However, any action has a cost and the interest of an action must be related to this cost. The total reward for a given agent to do a given action in a given belief state is therefore a cost / benefit ratio.
  • the agent For the purpose of exploring his environment, the agent is expected to explore a zone because he does not know what is going on there, or because he is not sure he knows . The agent must therefore obtain a gain for the action of exploring a given area if it has brought him relevant information.
  • One solution is to directly relate gain and relevance by ensuring that the gain obtained is the value of relevance of the information.
  • the agent does not know in advance with certainty what information he will get by performing this action. However, he may have a model that gives him the probabilities of obtaining a given piece of information. The agent must calculate his expectation of gain for each action based on the probability of obtaining information and the gain that information brings.
  • any action has a cost and the action of exploring can be very expensive (in time, in battery, in essence, ... etc) for a relevance that "is not worth it”.
  • the reward function must therefore introduce a benefit / cost balance.
  • the simplest solution is to make a difference between the expectation of gain and the cost of the action, but other formulas are possible.
  • the agent is expected to communicate information that it deems relevant for the agent to whom it will communicate.
  • an agent will have to rely on beliefs that he has beliefs of other agents to know if information is relevant to another agent than him.
  • gain and relevance the gain obtained by the agent who communicates the information is equal to the degree of relevance of this information for the agent who receives it.
  • the agent will update his own beliefs about the environment.
  • the agent receives information from another agent. He must therefore update his own beliefs. However, this means that the agent who communicated the information knows this information. The receiving officer must also update the beliefs he has about the beliefs of the information sender.
  • Agent A If we take the example of the building on fire, suppose an agent A exploring zone 7 and discovering a start of fire. Agent A will update his own beliefs about this area but can not assume the beliefs of Officer B. Subsequently, Agent A decides to convey to Agent B the information that there is At the start of a fire in zone 7. Since agent A and agent B have the same decision mechanism, it is reasonable to assume that agent B will take this information into account. In this case, the agent A must update the beliefs that he has of the beliefs of the agent B. Finally, the agent B who receives the information like that there is a fire departure in the zone 7 will update his own beliefs, but he also knows that Agent A has this information (since Agent A has communicated it). Agent B will update his beliefs about Agent A's beliefs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Feedback Control In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention a pour objet un procédé de décision multiagents qui permet d'assurer une certaine synchronisation entre les agents, et notamment le fait que les agents arrivent à collecter des connaissances sur les autres agents en plus de connaissances sur le système. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, et un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.

Description

PROCEDE PERMETTANT D'OBTENIR UN SYSTEME DE TENUE DE SITUATION ACTIVE DÉCENTRALISÉE MULTIAGENTS
Domaine de l'invention
La présente invention concerne un procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.
Etat de la technique et problèmes techniques rencontrés Dans l'état de la technique, comment définissons-nous la tenue de situation active ? En fait, la tenue de situation a pour but de répondre à la question : « qu'est-il en train de se passer dans un environnement donné ? »
Si l'on considère l'exemple illustré à la figure 1 , il s'agit d'un bâtiment 10 en feu composé de sept zones, respectivement référencée 1 , 2, 3, 4, 5, 6 et 7, reliées selon une topologie connue. Le nombre de personnes présentes dans le bâtiment est également connu, mais la position de chacune de ces personnes dans ledit bâtiment est inconnue. Un système de tenue de situation, dans un exemple tel que celui de la figure 1 , doit pouvoir indiquer à l'opérateur les zones de départ de feu et les positions de chacune des personnes dans lesdites zones. Ce système de tenue de situation est mis en œuvre par un système robotisé 11 , 12, capable de donner des informations notamment relative au fait qu'un départ de feu est en cours dans les zones 2 et 6, mais également le fait que des victimes 13, 14, 15, 16 sont présentes dans les zones 3, 4, 6 et 7.
Ce genre de système robotisé, connu de l'homme de l'art, est habituellement, traité à l'aide d'une représentation globale tel qu'illustrée à la figure 2. En effet, dans cette représentation globale, on considère un processus 21 de décision central et commun pour l'ensemble des robots, encore appelés agents 22, 23, 24. Ce processus de décision décide des actions à effectuer pour chacun des robots et communique ces actions.
Cependant cette représentation selon la figure 2 dispose d'un certain nombre d'inconvénients, le premier étant le manque de robustesse. Dans le cas où, par exemple, le processus 21 de décision central tombe en panne, c'est l'ensemble du système 20 qui est mis à mal. En outre cette représentation est extrêmement sujette aux problèmes de communication et surtout n'est pas adapté pour résoudre des problèmes plus complexes.
Pour pallier à l'ensemble des problèmes précédemment cités, une modélisation locale est utilisée. Le système robotisé 20 est alors décentralisé (référencé 30 sur la figure 3) de sorte que chaque agent 21 , 22, 23 dispose de son propre processus de décision 31 , 32, 33. Chaque agent 21 , 22, 23 devient ainsi autonome.
Par conséquent, dans cette modélisation, si un agent 21 , 22, 23 tombe en panne ou sort de la couverture de communication, le reste du système peut alors continuer à fonctionner.
Il existe donc un besoin de faire de la tenue de situation active décentralisée, autrement dit, d'améliorer la connaissance globale sur une situation en effectuant un ensemble d'actions, choisies localement. Pour atteindre cet objectif, les agents ne se contentent pas de recevoir de l'information, ils vont également à la recherche d'informations. De même, les agents sont aptes à communiquer entre eux pour échanger de l'information pertinente et améliorer la construction du monde ou de leur environnement. Ainsi, un agent qui recevra une information de la part d'un autre agent pourra modifier son plan d'actions en tenant compte de cette nouvelle information.
Considérons qu'un environnement est représenté par un ensemble de « points d'intérêt », correspondant à la connaissance que l'on cherche à déterminer. Dans l'exemple selon la figure 1 , les points d'intérêt correspondraient par analogie à la position des départs de feu et à la position des victimes. En considérant que ces points d'intérêt sont modélisés par des variables aléatoires, nous obtenons donc : - sept variables aléatoires pour les départs de feu correspondant aux sept zones possibles avec comme valeur ou état possible « feu » ou « non feu », et
- quatre variables aléatoires correspondant aux quatre personnes présentes dans le bâtiment, avec comme valeurs possibles les sept numéros de zone où une personne peut se retrouver.
Chaque agent 11 , 12 du système 30 dispose de croyances sur son environnement. Ces croyances sont des distributions de probabilité sur les variables aléatoires du système correspondant à la probabilité de la variable X ayant la valeur xi.
Par exemple, si un agent a comme croyance :
{(zone7 = feu, 0.7), (zone7 = nonFeu, 0.3)},
cela signifie que selon les informations dont dispose l'agent, la probabilité que la zone 7 soit en feu est de 0.7 et que la probabilité que la zone 7 ne soit pas en feu est de 0.3.
Cependant, dans le cas d'un système multi-agents, il existe un problème de synchronisation des informations entre agents. Autrement dit, les agents disposent chacun d'un ensemble d'informations sur une situation données, cet ensemble s'étant construit lors d'actions et de communications précédentes. Par conséquent, les agents peuvent avoir des croyances différentes. Il est donc important qu'ils hiérarchisent ou mettent des priorités sur les différentes informations dans le but de préndre la bonne décision en fonction de leurs croyances respectives, mais également en fonction des croyances des autres agents. Des questions concrètent se posent alors, comme le choix d'une action quand les croyances des différents agents divergent (un agent doit-il rapporter un fait qu'il croit vrai alors qu'il sait que l'autre agent le croit faux ?). Les agents doivent également choisir les informations à communiquer et quand les communiquer afin de ne pas saturer le réseau de communication d'informations inutiles.
Exposé de l'invention
La présente invention vise à résoudre l'ensemble des inconvénients de l'état de la technique. Pour cela, l'invention propose un procédé de décision multiagents qui permet d'assurer une certaine synchronisation entre les agents, et notamment le fait que les agents arrivent à collecter des connaissances sur les autres agents en plus de connaissances sur le système. Ce procédé s'articule en plusieurs étapes telles qu'une détermination des croyances d'un agent, une détermination d'une information pertinente, et un mécanisme de décision permettant à l'agent de choisir la meilleure action possible et la mise à jour des croyances de l'agent en fonction de l'action choisie.
Brève description des figures
L'invention sera mieux comprise à la lecture de description qui suit et à l'examen des figures qui l'accompagnent. Celles-ci ne sont présentées qu'à titre illustratif, mais nullement limitatif de l'invention. Les figures montrent :
- Figure 1 : une représentation schématique d'un bâtiment en feu ;
- Figure 2 : une représentation globale d'un système robotisé, selon l'état de la technique ;
- Figure 3 : une représentation schématique d'un système robotisé décentralisé, selon un mode de réalisation de l'invention ;
Description de l'invention
On note dès à présent que les figures ne sont pas à l'échelle.
Les réalisations suivantes sont des exemples. Bien que la description se réfère à un ou plusieurs modes de réalisation, ceci ne signifie pas nécessairement que chaque référence concerne le même mode de réalisation, ou que les caractéristiques s'appliquent seulement à un seule mode de réalisation. De simples caractéristiques de différents modes de réalisation peuvent également être combinées pour fournir d'autres réalisations.
Plus précisément, l'invention propose que les agents disposent, en plus de leurs propres croyances sur l'environnement, de croyances concernant les croyances des autres agents du système.
En effet, reprenons l'exemple décrit précédemment selon la figure 1 , où des points d'intérêt correspondent par analogie à la position de départs de feu et à la position de victimes. En considérant, notamment, que ces points d'intérêt sont modélisés par des variables aléatoires, où :
- sept variables aléatoires correspondent respectivement aux départs de feu, soit une variable par zone avec comme valeur ou état possible « feu » ou « non feu », et - quatre variables aléatoires correspondent respectivement aux quatre personnes présentes dans le bâtiment, avec comme valeurs possibles les sept numéros de zone où une personne peut se retrouver.
On peut donc considérer, d'après cet exemple, qu'un agent qui aurait pour croyance {(zone7SelonJ = feu, 0.9), (zone7SelonJ = nonFeu, 0.1 )} signifie que cet agent croit que selon l'agent J, la probabilité que la zone 7 soit en feu est de 0.9 et la probabilité qu'elle ne soit pas en feu est de 0.1.
Il est à noter que du fait que nous soyons dans une représentation locale, et donc que les croyances d'un agent concernant les croyances des autres agents (dans l'exemple les croyances de l'agent sur l'agent J) sont des approximations des croyances réelles des autres agents (dans l'exemple, une approximation des croyances de l'agent J). La notion de mise à jour des croyances de chaque agent sera abordée par la suite.
Dans un système dont le but est d'améliorer la connaissance d'un environnement, il s'avère important que les agents récoltent des informations pertinentes concernant cet environnement. Or, la pertinence d'une information pour un agent est une notion qui n'est pas définie dans l'état de la technique.
En effet, on entend par pertinence d'une information pour un agent, l'intérêt qu'un agent peut porter à ladite information.
Dans le cadre d'une application de tenue de situation, on définit qu'une information est pertinente pour un agent si elle est nouvelle pour cet agent, ou si elle lui permet de confirmer une croyance antérieure.
La notion de nouveauté d'une information est bien évidemment dépendante de l'état de croyance de l'agent à l'instant courant. Afin de déterminer si une information est nouvelle pour un agent ou non, il faut donc comparer son état de croyance avant l'obtention de cette information par rapport à son état de croyance après l'obtention de cette information.
Si les deux états de croyance diffèrent au-delà d'un certain seuil, alors on considère que l'information est nouvelle. Ce seuil doit être adapté en fonction des besoins des applications.
Par exemple, dans un contexte de surveillance de zone en feu, la moindre petite modification de l'environnement peut avoir des effets importants (fragilisation d'un plafond qui peut s'effondrer, personne qui se relève au lieu de rester au sol...) et doit être considérée rapidement pour permettre une action rapide. Dans ce cas, le seuil définissant que deux états de croyances sont différents est très faible. Une information sera donc considérée comme nouvelle à partir du moment où elle reflète un changement dans l'environnement, même faible.
En revanche, dans un cadre de surveillance de foule il est inutile de communiquer toutes les secondes qu'un individu X a bougé. Au contraire, cela serait contre-productif. Il faut donc que la différence entre deux états de croyances soit plus significative pour considérer que ces états sont réellement différents. Les informations ne sont donc considérées comme nouvelles que si elles reflètent un changement significatif de l'environnement.
Les états de croyances des agents correspondant à des distributions de probabilité sur des points d'intérêt, la différence qui existe entre deux croyances peut être calculée en utilisant des mesures comme le ratio de Kullback-Leibler, qui permet de calculer la différence entre deux distributions de probabilité.
DKL(P(X) \ \Q(X)) = X ^(**)
Comme les systèmes considérés sont des systèmes dynamiques, les valeurs des variables aléatoires représentant les points d'intérêt peuvent changer au cours du temps. Dans le cas du bâtiment en feu, une variable aléatoire « état de l'escalier » qui aurait pour valeur « bon » pourrait être amenée à changer par l'action du feu et passer à « détruit ». Dans ce cas, même si l'agent a comme croyance que l'escalier est en bon état, toute observation concernant cet escalier et qui donnerait « détruit » sera considérée par l'agent comme nouvelle et donc considérée comme pertinente. Ce procédé permet donc bien de prendre en compte des observations qui pourraient corriger une croyance devenue fausse avec le temps, même si ces observations sont contradictoires avec les croyances de l'agent.
Une information peut être pertinente si, bien qu'elle ne soit pas nouvelle, elle permet de confirmer à un agent que ses croyances sont exactes. Par soucis de simplicité, on appellera par la suite une telle information une information « précisante ». Pour cela, on vérifie si l'état de croyance de l'agent après prise en compte de l'information est suffisamment discriminé, c'est-à-dire si les distributions de probabilités ne sont pas proches de la loi de distribution Normale.
Cette vérification peut se faire en utilisant des mesures d'entropie de la littérature, comme l'entropie négative de Shannon.
n
H(X) = - / P(xi) log P(xi)
Plus l'état de croyance, après prise en compte de l'information, a une entropie faible, plus cet état de croyance est précis. Les informations pertinentes sont celles qui permettent une plus grande précision de l'état de croyance. Une fois encore, il est nécessaire de définir un seuil dépendant de l'application à partir duquel un état de croyance est considéré comme suffisamment précis et donc l'observation qui a permis cet état est considérée comme pertinente.
A partir des deux définitions précédentes, il devient donc possible de donner à une information un degré de pertinence pour un agent i. Ce degré de pertinence sera calculé en utilisant le degré de nouveauté et le degré de « précision » d'une information, pondérés par des coefficients en fonction de l'intérêt (nouveauté ou précision) que l'on souhaite mettre en avant. Afin que le résultat soit borné, on applique une transformation à la différence d'entropies.
Le degré de pertinence selon l'invention sera définit comme suit :
Figure imgf000008_0001
New information Nous allons maintenant décrire un processus de décision d'un agent, selon un mode de réalisation de l'invention. Derrière le terme agent, on entend une entité caractérisé par le fait qu'elle est au moins partiellement autonome, et qui peut être un processus, un robot, ..etc. Un agent est apte à décider des actions qu'il a à effectuer en fonction de ce que ses actions peuvent lui apporter. Il calcule donc pour chaque suite d'actions possible, l'espérance de gain correspondant, et choisit la suite d'action qui possède la meilleure espérance de gain.
Le gain apporté par une action est modélisé par une fonction de récompense. L'agent obtient un gain s'il effectue une action précise dans un état de l'environnement précis. Or dans le cas de la tenue de situation active, le gain obtenu ne dépend pas de l'état de l'environnement mais de l'état de croyance de l'agent.
En effet, ce qui est intéressant dans le cadre de l'invention, c'est que l'agent améliore son état de croyance. Autrement dit, l'agent possède une connaissance de plus en plus accrue de l'environnement.
Le gain obtenu par l'agent doit donc dépendre de l'action qu'il effectue dans un état de croyance particulier. Cependant, toute action a un coût et l'intérêt d'une action doit être mis en relation avec ce coût. La récompense totale pour un agent donné de faire une action donnée, dans un état de croyance donné est donc un ratio coût/bénéfice.
Pour l'action d'explorer son environnement, on attend de l'agent qu'il explore une zone parce qu'il ne sait pas ce qu'il s'y passe, ou parce qu'il n'est pas sûr de savoir. L'agent doit donc obtenir un gain pour l'action d'explorer une zone donnée si cela lui a rapporté une information pertinente.
Une solution est de relier directement gain et pertinence en faisant en sorte que le gain obtenu soit la valeur de pertinence de l'information.
Cependant, l'agent ne sait pas à l'avance avec certitude quelle information il va obtenir en effectuant cette action. Il peut cependant posséder un modèle lui donnant les probabilités d'obtenir une information donnée. L'agent doit donc calculer son espérance de gain pour chaque action en fonction de la probabilité d'obtenir une information et le gain que cette information apporte.
Comme mentionné précédemment, toute action a un coût et l'action d'explorer peut être très coûteuse(en temps, en batterie, en essence,... etc) pour une pertinence qui « n'en vaut pas la peine ».
La fonction de récompense doit donc introduire une balance bénéfice/coût. La solution la plus simple est de faire une différence entre l'espérance de gain et le coût de l'action, mais d'autres formules sont possibles.
Which observation mightl receive if ! perform this action ?
R(bi)t, Explore(Xk))
Figure imgf000010_0001
Cost ofperfoimingthis action
Concernant l'action de communiquer ou non une information, on attend de l'agent qu'il communique une information qu'il jugera pertinente pour l'agent auquel il va la communiquer.
Ainsi, un agent devra s'appuyer sur les croyances qu'il a des croyances des autres agents pour savoir si une information est pertinente pour un autre agent que lui. On peut donc également relier directement gain et pertinence : le gain obtenu par l'agent qui communique l'information est égal au degré de pertinence de cette information pour l'agent qui la reçoit.
Une fois encore, communiquer à un coût (notamment en termes de bande passante, par exemple) et le gain obtenu avec la communication doit être mis en relation avec le coût de cette communication. Une différence peut encore être utilisée.
R(bitt , Communicaie(ok , · ) ~ relj(ok)
~&Communiça.te(ok , 7· )
Costof performing this action
A partir des récompenses ainsi définie, on peut utiliser différentes techniques d'optimisations présentes dans la littérature pour déterminer la meilleure suite d'actions possible.
Les croyances des agents sont bien évidemment impactées par les actions desdits agents. Rappelons que chaque agent dispose de croyances concernant l'environnement mais aussi de croyances concernant les croyances des autres agents. Or les méthodes de mise à jour de ces deux types de croyances divergent.
Un agent va mettre à jour ses croyances à trois moments :
1- quand il va recevoir une nouvelle information suite à une exploration ; 2- quand il va recevoir une nouvelle information communiquée par un autre agent ;
3- quand il va communiquer une information à un autre agent.
Dans le premier cas, l'agent va mettre à jour ses propres croyances concernant l'environnement.
Dans le deuxième cas, l'agent reçoit une information de la part d'un autre agent. Il doit donc mettre ses propres croyances à jour. Cependant, cela signifie que l'agent qui a communiqué l'information connaît cette information. L'agent qui la reçoit doit donc également mettre à jour les croyances qu'il a sur les croyances de l'agent émetteur de l'information.
Dans le troisième cas, on suppose que la mise à jour suite à la découverte de l'information a déjà été faite (résultante de l'action d'explorer). En revanche, en communiquant l'information à un autre agent, on suppose que l'agent qui la reçoit va la prendre en compte et modifier ses propres croyances. Il faut donc que l'agent qui envoie l'information modifie ses croyances concernant les croyances de l'agent qui reçoit l'information.
Si on reprend l'exemple du bâtiment en feu, supposons un agent A explorant la zone 7 et découvrant un départ de feu. L'agent A va mettre à jour ses propres croyances concernant cette zone mais ne peut pas présumer des croyances d'un agent B. Par la suite, l'agent A décide de communiquer à l'agent B l'information qu'il y a un départ de feu en zone 7. Comme l'agent A et l'agent B ont le même mécanisme de décision, on peut raisonnablement supposer que l'agent B va prendre en compte cette information. Dans ce cas, l'agent A doit mettre à jour les croyances qu'il a des croyances de l'agent B. Enfin, l'agent B qui reçoit l'information comme quoi il y a un départ de feu dans la zone 7 va mettre à jour ses propres croyances, mais il sait également que l'agent A a cette information (puisque l'agent A l'a communiquée). L'agent B va donc mettre à jour les croyances qu'il a sur les croyances de l'agent A.
Les différents procédés présentés précédemment ont été présentés essentiellement dans le cadre d'une application de surveillance de bâtiment en feu. Cependant, n'étant pas limitatifs et restrictifs à ces applications, ils sont applicables à de nombreux autre cas de surveillance (tel qu'une foule, ou un site sensible,..) en ajustant les différents paramètres. Ils peuvent également être appliqués à des cas de tenue de situation non physiques, mais numériques comme par exemple la recherche dans des documents multimédias, ou encore la surveillance de sites internet suspects.

Claims

REVENDICATIONS
1 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents comportant les étapes suivantes :
- une détermination des croyances d'un agent,
- une détermination d'une information pertinente,
- un mécanisme de décision permettant à l'agent de choisir la meilleure action possible, et
- une mise à jour des croyances de l'agent en fonction de l'action choisie.
2 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents selon la revendication 1 , caractérisé en ce que, en qui concerne l'étape de détermination des croyances d'un agent, afin d'améliorer la connaissance d'un environnement, chaque agent récolte en plus de ses propres croyances sur un environnement, des croyances concernant les autres agents du système en fonction de la pertinence des informations.
3 - Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, une information est pertinente pour un agent si elle est nouvelle pour cet agent, ou si elle lui permet de confirmer une croyance antérieure. 4 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, la nouveauté d'une information est dépendante de l'état de croyance d'un agent à un instant courant, et est obtenue en comparant l'état de croyance de l'agent avant l'obtention de cette information par rapport à son état de croyance après l'obtention de cette information.
5 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, si les deux états de croyance diffèrent au-delà d'un certain seuil, alors on considère que l'information est nouvelle.
6 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, les états de croyances des agents correspondent à des distributions de probabilité sur des points d'intérêt, la différence existant entre deux croyances peut être calculée en utilisant des mesures telles que le ratio de Kullback-Leibler, afin de calculer la différence entre deux distributions de probabilité :
Figure imgf000014_0001
7 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, l'on donne à une information un degré de pertinence pour un agent i, ledit degré de pertinence étant calculé en utilisant le degré de nouveauté et le degré de « précision » d'une information, pondérés par des coefficients en fonction de l'intérêt que l'on souhaite mettre en avant :
Precisîng information
Figure imgf000014_0002
New information 8 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que le processus de décision d'un agent, s'effectue :
- en calculant pour chaque suite d'action possible une espérence de gain correspondant, et
- en choisissant la suite d'action qui possède la meilleure espérance de gain, de sorte que le gain apporté par une action soit modélisé par une fonction de récompense, où l'agent obtient un gain s'il effectue une action précise dans un état de croyance particulier. 9 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que, l'agent calcule son espérance de gain pour chaque action en fonction de la probabilité d'obtenir une information et en fonction du gain que cette information apporte.
10 - Procédé permettant d'obtenir un système de tenue de situation active décentralisé multiagents selon l'une quelconque des revendications précédentes caractérisé en ce que la mise à jour des croyances de l'agent s'effectue lorsque :
o l'agent reçoit une nouvelle information suite à une exploration ;
o l'agent reçoit une nouvelle information communiquée par un autre agent ;
o l'agent communique une information à un autre agent.
11 - Agent de type entité au moins partiellement autonome, tel qu'un processus, ou un robot, apte à décider des actions qu'il a à effectuer en fonction de ce que ses actions peuvent lui apporter, en calculant pour chaque suite d'actions possible, une espérance de gain correspondant, et en choisissant la suite d'action qui possède la meilleure espérance de gain, caractérisé en ce qu'il est apte à mettre en œuvre le procédé selon l'une quelconque des revendications précédentes.
PCT/FR2015/000001 2013-11-05 2015-01-05 Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents WO2015079191A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1302561 2013-11-05
FR1302561 2013-11-05

Publications (3)

Publication Number Publication Date
WO2015079191A2 true WO2015079191A2 (fr) 2015-06-04
WO2015079191A3 WO2015079191A3 (fr) 2015-10-29
WO2015079191A8 WO2015079191A8 (fr) 2015-12-17

Family

ID=52997468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2015/000001 WO2015079191A2 (fr) 2013-11-05 2015-01-05 Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents

Country Status (1)

Country Link
WO (1) WO2015079191A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376310A (zh) * 2018-02-06 2018-08-07 深圳前海大观信息技术有限公司 建筑物火灾风险等级评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428544A (en) * 1990-11-05 1995-06-27 Norm Pacific Automation Corporation Traffic information inter-vehicle transference and navigation system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376310A (zh) * 2018-02-06 2018-08-07 深圳前海大观信息技术有限公司 建筑物火灾风险等级评估方法

Also Published As

Publication number Publication date
WO2015079191A3 (fr) 2015-10-29
WO2015079191A8 (fr) 2015-12-17

Similar Documents

Publication Publication Date Title
FR3017691A1 (fr) Lampe electrique portative dotee d'un systeme de communication sans-fil
EP2924609A1 (fr) Procédé d'enrolement de données dans une base pour la protection desdites données
FR2760548A1 (fr) Procede de planification de requetes d'un satellite par recuit simule contraint
EP3824389A1 (fr) Procédé de coordination d'une pluralité de serveurs de gestion d'équipements
WO2011101407A1 (fr) Procédé d'authentification biométrique, système d'authentification et programme correspondant
EP0454535A1 (fr) Système neuronal de classification et procédé de classification utilisant un tel système
WO2015079191A2 (fr) Procédé permettant d'obtenir un système de tenue de situation active décentralisée multiagents
WO2014072535A1 (fr) Procede d'identification
WO2019129568A1 (fr) Procede de traitement pour la detection, la caracterisation et le suivi multi-cibles et dispositif associe
EP3385899A1 (fr) Procédé de détection en temps réel d'une scène par un appareil et appareil correspondant
FR3028114A1 (fr) Procede de diagnostic d'un systeme photovoltaique
WO2005029118A1 (fr) Procede pour detecter la presence ou l’absence d’un terminal mobile sur un chemin
EP3471449A1 (fr) Procédé d'apprentissage de coefficients d'estimation de la population, et procédé d'estimation de la population
EP3000224B1 (fr) Procédé d'auto-adaptation d'une qualité de signal, dispositifs et programme d'ordinateur correspondants
CN113902137B (zh) 流式模型训练方法、装置、计算机设备及存储介质
FR2962241A1 (fr) Verification de la mise en fonction d'un equipement embarque dans un vehicule
FR3066296A1 (fr) Procede de controle de detection, avec filtrage, de scenes par un appareil, par exemple un appareil de communication sans fil, et appareil correspondant
EP3835985A1 (fr) Procédé de surveillance de données transitant par un équipement utilisateur
WO2022123172A1 (fr) Procédés de détermination d'une structure anonyme de données, procédés de comptage de données, dispositif et système pour la mise en œuvre de tels procédés
EP2939047B1 (fr) Système de cartographies de déplacements
EP1034476A1 (fr) Procede de verification du fonctionnement d'un systeme
EP4068724A1 (fr) Procédé de détection d'anomalies dans un système d'information, programme informatique et système de détection d'anomalies mettant en oeuvre un tel procédé
EP4325903A1 (fr) Procédé de détermination d'un itinéraire d'un terminal mobile à partir de données relatives à une pluralité d évènements réseau impliquant ledit terminal mobile, dispositif et programme d ordinateur correspondant
FR3136870A1 (fr) Procédé de traitement d’une interface d’utilisateur configurée pour communiquer avec un terminal de communication.
WO2021105332A1 (fr) Procede de determination automatique de parametres d'un reseau de neurones artificiels et microcontroleur pour la mise en œuvre du procede

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15717946

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15717946

Country of ref document: EP

Kind code of ref document: A2