LU101606B1 - Path planning method and system based on combination of safety evacuation signs and reinforcement learning - Google Patents
Path planning method and system based on combination of safety evacuation signs and reinforcement learning Download PDFInfo
- Publication number
- LU101606B1 LU101606B1 LU101606A LU101606A LU101606B1 LU 101606 B1 LU101606 B1 LU 101606B1 LU 101606 A LU101606 A LU 101606A LU 101606 A LU101606 A LU 101606A LU 101606 B1 LU101606 B1 LU 101606B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- agent
- safety evacuation
- agents
- path planning
- value table
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
- G01C21/206—Instruments for performing navigational calculations specially adapted for indoor navigation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3446—Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Alarm Systems (AREA)
Claims (10)
1. Une méthode de planification des trajectoires basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : étape 1 : établissement et tramage d'un modèle de scénario de simulation bidimensionnel, et initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel étape 2 : effectuer la planification du cheminement en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage Q-Learning ; ol le processus spécifique de l'étape 2 est : étape 2.1 : initialisation à 0 des valeurs Q correspondant aux agents respectifs dans un tableau de valeurs Q ; étape 2.2 : acquisition d'informations sur l'état de chaque agent au moment présent, calcul d'une | récompense correspondante, et sélection d'une action ayant une grande valeur Q correspondante pour déplacer chaque agent ; étape 2.3 : calcul d'une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mise à jour de la table des valeurs Q, évaluation de la convergence de la table des valeurs Q et, le cas échéant, obtention d'une séquence de cheminement optimale ; sinon, passage à l'étape suivante ; et étape 2.4 : réception et agrégation des informations environnementales d'entrée envoyées par chaque agent et des informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribution des informations agrégées à chaque agent pour réaliser le partage des informations, et passage à l'étape 2.2.
2. La méthode de planification du cheminement basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 2.3, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme ry: 2, arriver à la sortie 1, action optimale r=< 0, action de groupe -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents Eee eelu101606
3. La méthode de planification de trajectoire basée sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.
4. La méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 1, dans laquelle à l'étape 1, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation ‘ 15 de sécurité.
5. Un système de planification des trajectoires basé sur une combinaison de panneaux d'évacuation de sécurité et d'apprentissage de renforcement, comprenant : un module d'initialisation du modèle de scénario de simulation bidimensionnelle, configuré pour établir et tramer un modèle de scénario de simulation bidimensionnelle, et initialiser les obstacles, les agents et les signes d'évacuation de sécurité dans le modèle de scénario de simulation | bidimensionnelle ; et un module de planification de trajectoire, configure pour effectuer la planification de trajectoire en combinaison avec les panneaux d'évacuation de sécurité et un algorithme d'apprentissage en ligne ; dans lequel le module de planification des trajectoires comprend : | 25 un module d'initialisation de la table de valeurs Q, configure pour initialiser à 0 les valeurs Q correspondant aux agents respectifs dans une table de valeurs Q ; | un module de déplacement des agents, configuré pour acquérir des informations sur l'état de chaque agent au moment présent, calculer une récompense correspondante et sélectionner une action ayant | une grande valeur Q correspondante pour déplacer chaque agent ; | 30 un module d'évaluation de la convergence des tables de valeurs Q, configuré pour calculer une récompense instantanée de chaque agent déplacé vers le nouvel emplacement, mettre à jour la table ese,
de valeurs Q, évaluer si la table de valeurs Q converge et obtenir une séquence de cheminémBhg06 optimale lorsque la table de valeurs Q converge ; et un module de partage d'informations, configuré pour recevoir et agréger, lorsque la table des valeurs Q ne converge pas, les informations environnementales d'entrée envoyées par chaque agent et les informations environnementales d'état, d'action, de récompense et de sortie correspondantes, puis distribuer les informations agrégées à chaque agent pour réaliser le partage d'informations, continuer ; à déplacer chaque agent en fonction de la valeur Q pour mettre à jour la table des valeurs Q, et juger si la table des valeurs Q mise à jour converge.
6. Le système de planification des trajectoires basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le module de jugement de la convergence de la table des valeurs Q, la récompense instantanée de chaque agent déplacé vers le nouvel emplacement est fixée comme Fr: 2, arriver à la sortie ; 1, action optimale r=< 0, action de groupe | -1, action de base (négatif pour l'agent de trouver rapidement un chemin sans s'attarder) -2, entrer en collision avec des obstacles ou d'autres agents .
7. Le système de planification de trajectoire basé sur une combinaison de signes d'évacuation de | sécurité et d'apprentissage de renforcement selon la revendication 5, où dans le tableau des valeurs Q, ; 20 le processus de tramage d'un modèle de scénario de simulation bidimensionnel est : ; définir le modèle de scénario de simulation bidimensionnel comme une région de M*N, tramage de ; la région, et numérotation de chaque grille, où M et N sont tous deux des entiers positifs.
8. Le système de planification du cheminement basé sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon la revendication 5, dans lequel, dans le tableau des valeurs Q, le processus d'initialisation des obstacles, des agents et des signes d'évacuation de sécurité dans le modèle de scénario de simulation bidimensionnel comprend : définir les agents comme des points de masse ayant une masse mais pas de volume, et définir une région circulaire d'un rayon préétabli centrée sur les agents comme région de détection de collision ; fixer le nombre, l'emplacement et la taille de la région des obstacles ; et fixer le nombre, l'emplacement, la taille de la région et le contenu indiqué des panneaux d'évacuation de sécurité.
9. Un support de stockage lisible par ordinateur, sur lequel est stocké un programme informati¢is,606 dans lequel, lorsque le programme est exécuté par un processeur, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1 à 4 sont mises en œuvre.
10. Dispositif informatique, comprenant une mémoire, un processeur, et un programme informatique stocké sur la mémoire et exécutable sur le processeur, dans lequel, lorsque le processeur exécute le programme, les étapes de la méthode de planification du cheminement basée sur une combinaison de signes d'évacuation de sécurité et d'apprentissage de renforcement selon l'une quelconque des revendications 1-4 sont mises en œuvre.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289774.3A CN109974737B (zh) | 2019-04-11 | 2019-04-11 | 基于安全疏散标志和强化学习结合的路径规划方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
LU101606B1 true LU101606B1 (en) | 2020-05-27 |
Family
ID=67084173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
LU101606A LU101606B1 (en) | 2019-04-11 | 2020-01-27 | Path planning method and system based on combination of safety evacuation signs and reinforcement learning |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109974737B (fr) |
LU (1) | LU101606B1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113218400A (zh) * | 2021-05-17 | 2021-08-06 | 太原科技大学 | 一种基于深度强化学习的多智能体导航算法 |
CN115454074A (zh) * | 2022-09-16 | 2022-12-09 | 北京华电力拓能源科技有限公司 | 一种疏散路径规划方法、装置、计算机设备及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110673637B (zh) * | 2019-10-08 | 2022-05-13 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110726416A (zh) * | 2019-10-23 | 2020-01-24 | 西安工程大学 | 一种基于障碍区域扩张策略的强化学习路径规划方法 |
CN111026272B (zh) * | 2019-12-09 | 2023-10-31 | 网易(杭州)网络有限公司 | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 |
CN111353260B (zh) * | 2020-03-08 | 2023-01-10 | 苏州浪潮智能科技有限公司 | 一种基于强化学习的计算网格并行区域划分方法和装置 |
CN111523731A (zh) * | 2020-04-24 | 2020-08-11 | 山东师范大学 | 一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统 |
CN112215328B (zh) * | 2020-10-29 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN112558601B (zh) * | 2020-11-09 | 2024-04-02 | 广东电网有限责任公司广州供电局 | 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统 |
CN112327890A (zh) * | 2020-11-10 | 2021-02-05 | 中国海洋大学 | 一种基于whca*算法的水下多机器人路径规划 |
CN113050641B (zh) * | 2021-03-18 | 2023-02-28 | 香港中文大学(深圳) | 一种路径规划方法及相关设备 |
CN113448425B (zh) * | 2021-07-19 | 2022-09-09 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113639755B (zh) * | 2021-08-20 | 2024-09-06 | 江苏科技大学苏州理工学院 | 一种基于深度强化学习的火灾现场逃生-救援联合系统 |
CN113946428B (zh) * | 2021-11-02 | 2024-06-07 | Oppo广东移动通信有限公司 | 一种处理器动态控制方法、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10142909B2 (en) * | 2015-10-13 | 2018-11-27 | The Board Of Trustees Of The University Of Alabama | Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas |
CN107403049B (zh) * | 2017-07-31 | 2019-03-19 | 山东师范大学 | 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统 |
CN107464021B (zh) * | 2017-08-07 | 2019-07-23 | 山东师范大学 | 一种基于强化学习的人群疏散仿真方法、装置 |
CN109540151B (zh) * | 2018-03-25 | 2020-01-17 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN109101694B (zh) * | 2018-07-16 | 2019-05-28 | 山东师范大学 | 一种安全疏散标志引导的人群行为仿真方法及系统 |
CN109214065B (zh) * | 2018-08-14 | 2019-05-28 | 山东师范大学 | 基于多Agent共享Q表的人群疏散仿真方法及系统 |
CN109086550B (zh) * | 2018-08-27 | 2019-05-28 | 山东师范大学 | 基于多Agent共享Q学习的疏散仿真方法及系统 |
CN109543285B (zh) * | 2018-11-20 | 2023-05-09 | 山东师范大学 | 一种融合数据驱动与强化学习的人群疏散仿真方法和系统 |
-
2019
- 2019-04-11 CN CN201910289774.3A patent/CN109974737B/zh active Active
-
2020
- 2020-01-27 LU LU101606A patent/LU101606B1/en active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113218400A (zh) * | 2021-05-17 | 2021-08-06 | 太原科技大学 | 一种基于深度强化学习的多智能体导航算法 |
CN113218400B (zh) * | 2021-05-17 | 2022-04-19 | 太原科技大学 | 一种基于深度强化学习的多智能体导航算法 |
CN115454074A (zh) * | 2022-09-16 | 2022-12-09 | 北京华电力拓能源科技有限公司 | 一种疏散路径规划方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109974737A (zh) | 2019-07-05 |
CN109974737B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
LU101606B1 (en) | Path planning method and system based on combination of safety evacuation signs and reinforcement learning | |
JP7324893B2 (ja) | 車両走行制御方法及び装置 | |
Theocharous et al. | Approximate planning with hierarchical partially observable Markov decision process models for robot navigation | |
CN110415521A (zh) | 交通数据的预测方法、装置和计算机可读存储介质 | |
CN110795833B (zh) | 基于猫群算法的人群疏散仿真方法、系统、介质及设备 | |
CN109101694A (zh) | 一种安全疏散标志引导的人群行为仿真方法及系统 | |
CN111881625A (zh) | 一种基于深度强化学习的人群疏散仿真方法及系统 | |
CN109901578A (zh) | 一种控制多机器人的方法、装置及终端设备 | |
KR20140137068A (ko) | 피난 시뮬레이션 시스템 및 그 제공방법 | |
US20190026949A1 (en) | Personnel movement simulation and control | |
CN112416323A (zh) | 控制代码的生成方法、运行方法、装置、设备及存储介质 | |
CN113790729B (zh) | 一种基于强化学习算法的无人天车路径规划方法及装置 | |
CN104008562B (zh) | 一种面向用户规划的虚拟人群仿真框架 | |
EP3907679A1 (fr) | Navigation et séquençage améliorés d'une flotte de robots | |
CN109731338A (zh) | 游戏中的人工智能训练方法及装置、存储介质及电子装置 | |
CN117806340A (zh) | 基于强化学习的空域训练飞行路径自动规划方法和装置 | |
Ünal et al. | Generating emergency evacuation route directions based on crowd simulations with reinforcement learning | |
Martins et al. | Heuristically-accelerated reinforcement learning: A comparative analysis of performance | |
Wang et al. | Object behavior simulation based on behavior tree and multi-agent model | |
Rodriguez et al. | Utilizing roadmaps in evacuation planning | |
Sudkhot et al. | A crowd simulation in large space urban | |
CN115285147A (zh) | 无人车的驾驶决策方法、装置及无人车 | |
Costa et al. | Data Mining applied to the navigation task in autonomous robots | |
Yıldırım et al. | A Comparative Study of Optimization Algorithms for Global Path Planning of Mobile Robots | |
Godoy et al. | Online learning for multi-agent local navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Effective date: 20200527 |