LU101606B1 - Path planning method and system based on combination of safety evacuation signs and reinforcement learning - Google Patents

Path planning method and system based on combination of safety evacuation signs and reinforcement learning Download PDF

Info

Publication number
LU101606B1
LU101606B1 LU101606A LU101606A LU101606B1 LU 101606 B1 LU101606 B1 LU 101606B1 LU 101606 A LU101606 A LU 101606A LU 101606 A LU101606 A LU 101606A LU 101606 B1 LU101606 B1 LU 101606B1
Authority
LU
Luxembourg
Prior art keywords
agent
safety evacuation
agents
path planning
value table
Prior art date
Application number
LU101606A
Other languages
English (en)
Inventor
Lei Lv
Limei Zhou
Xiukai Zhao
Chen Lv
Guijuan Zhang
Hong Liu
Original Assignee
Univ Shandong
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Shandong filed Critical Univ Shandong
Application granted granted Critical
Publication of LU101606B1 publication Critical patent/LU101606B1/en

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Claims (10)

Revendications lu101606
1. Une méthode de planification des trajectoires basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : étape 1 : établissement et tramage d'un modèle de scénario de simulation bidimensionnel, et initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel étape 2 : effectuer la planification du cheminement en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage Q-Learning ; ol le processus spécifique de l'étape 2 est : étape 2.1 : initialisation à 0 des valeurs Q correspondant aux agents respectifs dans un tableau de valeurs Q ; étape 2.2 : acquisition d'informations sur l'état de chaque agent au moment présent, calcul d'une | récompense correspondante, et sélection d'une action ayant une grande valeur Q correspondante pour déplacer chaque agent ; étape 2.3 : calcul d'une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mise à jour de la table des valeurs Q, évaluation de la convergence de la table des valeurs Q et, le cas échéant, obtention d'une séquence de cheminement optimale ; sinon, passage à l'étape suivante ; et étape 2.4 : réception et agrégation des informations environnementales d'entrée envoyées par chaque agent et des informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribution des informations agrégées à chaque agent pour réaliser le partage des informations, et passage à l'étape 2.2.
2. La méthode de planification du cheminement basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 2.3, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme ry: 2, arriver à la sortie 1, action optimale r=< 0, action de groupe -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents Eee eelu101606
3. La méthode de planification de trajectoire basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.
4. La méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation ‘ 15 de sécurité.
5. Un système de planification des trajectoires basé sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : un module d'initialisation du modèle de scénario de simulation bidimensionnelle, configuré pour établir et tramer un modèle de scénario de simulation bidimensionnelle, et initialiser les obstacles, les agents et les signes d'évacuation de sécurité dans le modèle de scénario de simulation | bidimensionnelle ; et un module de planification de trajectoire, configure pour effectuer la planification de trajectoire en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage en ligne ; dans lequel le module de planification des trajectoires comprend : | 25 un module d'initialisation de la table de valeurs Q, configure pour initialiser à 0 les valeurs Q correspondant aux agents respectifs dans une table de valeurs Q ; | un module de déplacement des agents, configuré pour acquérir des informations sur l'état de chaque agent au moment présent, calculer une récompense correspondante et sélectionner une action ayant | une grande valeur Q correspondante pour déplacer chaque agent ; | 30 un module d'évaluation de la convergence des tables de valeurs Q, configuré pour calculer une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mettre à jour la table ese,
de valeurs Q, évaluer si la table de valeurs Q converge et obtenir une séquence de cheminémBhg06 optimale lorsque la table de valeurs Q converge ; et un module de partage d'informations, configuré pour recevoir et agréger, lorsque la table des valeurs Q ne converge pas, les informations environnementales d'entrée envoyées par chaque agent et les informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribuer les informations agrégées à chaque agent pour réaliser le partage d'informations, continuer ; à déplacer chaque agent en fonction de la valeur Q pour mettre à jour la table des valeurs Q, et juger si la table des valeurs Q mise à jour converge.
6. Le système de planification des trajectoires basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le module de jugement de la convergence de la table des valeurs Q, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme Fr: 2, arriver à la sortie ; 1, action optimale r=< 0, action de groupe | -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents .
7. Le système de planification de trajectoire basé sur une combinaison de signes d'évacuation de | sécurité et d'apprentissage de renforcement selon la revendication 5, où dans le tableau des valeurs Q, ; 20 le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : ; définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de ; la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.
8. Le système de planification du cheminement basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le tableau des valeurs Q, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation de sécurité.
9. Un support de stockage lisible par ordinateur, sur lequel est stocké un programme informati¢is,606 dans lequel, lorsque le programme est exécuté par un processeur, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1 à 4 sont mises en œuvre.
10. Dispositif informatique, comprenant une mémoire, un processeur, et un programme informatique stocké sur la mémoire et exécutable sur le processeur, dans lequel, lorsque le processeur exécute le programme, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1-4 sont mises en œuvre.
LU101606A 2019-04-11 2020-01-27 Path planning method and system based on combination of safety evacuation signs and reinforcement learning LU101606B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289774.3A CN109974737B (zh) 2019-04-11 2019-04-11 基于安全疏散标志和强化学习结合的路径规划方法及系统

Publications (1)

Publication Number Publication Date
LU101606B1 true LU101606B1 (en) 2020-05-27

Family

ID=67084173

Family Applications (1)

Application Number Title Priority Date Filing Date
LU101606A LU101606B1 (en) 2019-04-11 2020-01-27 Path planning method and system based on combination of safety evacuation signs and reinforcement learning

Country Status (2)

Country Link
CN (1) CN109974737B (fr)
LU (1) LU101606B1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN115454074A (zh) * 2022-09-16 2022-12-09 北京华电力拓能源科技有限公司 一种疏散路径规划方法、装置、计算机设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110726416A (zh) * 2019-10-23 2020-01-24 西安工程大学 一种基于障碍区域扩张策略的强化学习路径规划方法
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111353260B (zh) * 2020-03-08 2023-01-10 苏州浪潮智能科技有限公司 一种基于强化学习的计算网格并行区域划分方法和装置
CN111523731A (zh) * 2020-04-24 2020-08-11 山东师范大学 一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统
CN112215328B (zh) * 2020-10-29 2024-04-05 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN112558601B (zh) * 2020-11-09 2024-04-02 广东电网有限责任公司广州供电局 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统
CN112327890A (zh) * 2020-11-10 2021-02-05 中国海洋大学 一种基于whca*算法的水下多机器人路径规划
CN113050641B (zh) * 2021-03-18 2023-02-28 香港中文大学(深圳) 一种路径规划方法及相关设备
CN113448425B (zh) * 2021-07-19 2022-09-09 哈尔滨工业大学 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统
CN113639755B (zh) * 2021-08-20 2024-09-06 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113946428B (zh) * 2021-11-02 2024-06-07 Oppo广东移动通信有限公司 一种处理器动态控制方法、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10142909B2 (en) * 2015-10-13 2018-11-27 The Board Of Trustees Of The University Of Alabama Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas
CN107403049B (zh) * 2017-07-31 2019-03-19 山东师范大学 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统
CN107464021B (zh) * 2017-08-07 2019-07-23 山东师范大学 一种基于强化学习的人群疏散仿真方法、装置
CN109540151B (zh) * 2018-03-25 2020-01-17 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN109101694B (zh) * 2018-07-16 2019-05-28 山东师范大学 一种安全疏散标志引导的人群行为仿真方法及系统
CN109214065B (zh) * 2018-08-14 2019-05-28 山东师范大学 基于多Agent共享Q表的人群疏散仿真方法及系统
CN109086550B (zh) * 2018-08-27 2019-05-28 山东师范大学 基于多Agent共享Q学习的疏散仿真方法及系统
CN109543285B (zh) * 2018-11-20 2023-05-09 山东师范大学 一种融合数据驱动与强化学习的人群疏散仿真方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113218400B (zh) * 2021-05-17 2022-04-19 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN115454074A (zh) * 2022-09-16 2022-12-09 北京华电力拓能源科技有限公司 一种疏散路径规划方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109974737A (zh) 2019-07-05
CN109974737B (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
LU101606B1 (en) Path planning method and system based on combination of safety evacuation signs and reinforcement learning
JP7324893B2 (ja) 車両走行制御方法及び装置
Theocharous et al. Approximate planning with hierarchical partially observable Markov decision process models for robot navigation
CN110415521A (zh) 交通数据的预测方法、装置和计算机可读存储介质
CN110795833B (zh) 基于猫群算法的人群疏散仿真方法、系统、介质及设备
CN109101694A (zh) 一种安全疏散标志引导的人群行为仿真方法及系统
CN111881625A (zh) 一种基于深度强化学习的人群疏散仿真方法及系统
CN109901578A (zh) 一种控制多机器人的方法、装置及终端设备
KR20140137068A (ko) 피난 시뮬레이션 시스템 및 그 제공방법
US20190026949A1 (en) Personnel movement simulation and control
CN112416323A (zh) 控制代码的生成方法、运行方法、装置、设备及存储介质
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
CN104008562B (zh) 一种面向用户规划的虚拟人群仿真框架
EP3907679A1 (fr) Navigation et séquençage améliorés d&#39;une flotte de robots
CN109731338A (zh) 游戏中的人工智能训练方法及装置、存储介质及电子装置
CN117806340A (zh) 基于强化学习的空域训练飞行路径自动规划方法和装置
Ünal et al. Generating emergency evacuation route directions based on crowd simulations with reinforcement learning
Martins et al. Heuristically-accelerated reinforcement learning: A comparative analysis of performance
Wang et al. Object behavior simulation based on behavior tree and multi-agent model
Rodriguez et al. Utilizing roadmaps in evacuation planning
Sudkhot et al. A crowd simulation in large space urban
CN115285147A (zh) 无人车的驾驶决策方法、装置及无人车
Costa et al. Data Mining applied to the navigation task in autonomous robots
Yıldırım et al. A Comparative Study of Optimization Algorithms for Global Path Planning of Mobile Robots
Godoy et al. Online learning for multi-agent local navigation

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20200527