LU101606B1

LU101606B1 - Path planning method and system based on combination of safety evacuation signs and reinforcement learning

Info

Publication number: LU101606B1
Application number: LU101606A
Authority: LU
Inventors: Lei Lv; Limei Zhou; Xiukai Zhao; Chen Lv; Guijuan Zhang; Hong Liu
Original assignee: Univ Shandong
Priority date: 2019-04-11
Filing date: 2020-01-27
Publication date: 2020-05-27
Also published as: CN109974737A; CN109974737B

Claims

Revendications lu101606

1. Une méthode de planification des trajectoires basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : étape 1 : établissement et tramage d'un modèle de scénario de simulation bidimensionnel, et initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel étape 2 : effectuer la planification du cheminement en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage Q-Learning ; ol le processus spécifique de l'étape 2 est : étape 2.1 : initialisation à 0 des valeurs Q correspondant aux agents respectifs dans un tableau de valeurs Q ; étape 2.2 : acquisition d'informations sur l'état de chaque agent au moment présent, calcul d'une | récompense correspondante, et sélection d'une action ayant une grande valeur Q correspondante pour déplacer chaque agent ; étape 2.3 : calcul d'une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mise à jour de la table des valeurs Q, évaluation de la convergence de la table des valeurs Q et, le cas échéant, obtention d'une séquence de cheminement optimale ; sinon, passage à l'étape suivante ; et étape 2.4 : réception et agrégation des informations environnementales d'entrée envoyées par chaque agent et des informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribution des informations agrégées à chaque agent pour réaliser le partage des informations, et passage à l'étape 2.2.

2. La méthode de planification du cheminement basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 2.3, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme ry: 2, arriver à la sortie 1, action optimale r=< 0, action de groupe -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents Eee eelu101606

3. La méthode de planification de trajectoire basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.

4. La méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation ‘ 15 de sécurité.

5. Un système de planification des trajectoires basé sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : un module d'initialisation du modèle de scénario de simulation bidimensionnelle, configuré pour établir et tramer un modèle de scénario de simulation bidimensionnelle, et initialiser les obstacles, les agents et les signes d'évacuation de sécurité dans le modèle de scénario de simulation | bidimensionnelle ; et un module de planification de trajectoire, configure pour effectuer la planification de trajectoire en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage en ligne ; dans lequel le module de planification des trajectoires comprend : | 25 un module d'initialisation de la table de valeurs Q, configure pour initialiser à 0 les valeurs Q correspondant aux agents respectifs dans une table de valeurs Q ; | un module de déplacement des agents, configuré pour acquérir des informations sur l'état de chaque agent au moment présent, calculer une récompense correspondante et sélectionner une action ayant | une grande valeur Q correspondante pour déplacer chaque agent ; | 30 un module d'évaluation de la convergence des tables de valeurs Q, configuré pour calculer une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mettre à jour la table ese,

de valeurs Q, évaluer si la table de valeurs Q converge et obtenir une séquence de cheminémBhg06 optimale lorsque la table de valeurs Q converge ; et un module de partage d'informations, configuré pour recevoir et agréger, lorsque la table des valeurs Q ne converge pas, les informations environnementales d'entrée envoyées par chaque agent et les informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribuer les informations agrégées à chaque agent pour réaliser le partage d'informations, continuer ; à déplacer chaque agent en fonction de la valeur Q pour mettre à jour la table des valeurs Q, et juger si la table des valeurs Q mise à jour converge.

6. Le système de planification des trajectoires basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le module de jugement de la convergence de la table des valeurs Q, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme Fr: 2, arriver à la sortie ; 1, action optimale r=< 0, action de groupe | -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents .

7. Le système de planification de trajectoire basé sur une combinaison de signes d'évacuation de | sécurité et d'apprentissage de renforcement selon la revendication 5, où dans le tableau des valeurs Q, ; 20 le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : ; définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de ; la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.

8. Le système de planification du cheminement basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le tableau des valeurs Q, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation de sécurité.

9. Un support de stockage lisible par ordinateur, sur lequel est stocké un programme informati¢is,606 dans lequel, lorsque le programme est exécuté par un processeur, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1 à 4 sont mises en œuvre.

10. Dispositif informatique, comprenant une mémoire, un processeur, et un programme informatique stocké sur la mémoire et exécutable sur le processeur, dans lequel, lorsque le processeur exécute le programme, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1-4 sont mises en œuvre.