WO2020180014A2 - 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 - Google Patents
심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 Download PDFInfo
- Publication number
- WO2020180014A2 WO2020180014A2 PCT/KR2020/001692 KR2020001692W WO2020180014A2 WO 2020180014 A2 WO2020180014 A2 WO 2020180014A2 KR 2020001692 W KR2020001692 W KR 2020001692W WO 2020180014 A2 WO2020180014 A2 WO 2020180014A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- agent
- information
- network
- learning
- actor
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 title abstract description 10
- 230000006399 behavior Effects 0.000 claims abstract description 16
- 238000004088 simulation Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 163
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/0274—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0289—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Definitions
- the following description relates to a learning method and system of an autonomous driving agent based on deep reinforcement learning.
- Korean Patent Registration No. 10-1539270 discloses a hybrid reaction path planning method based on sensor fusion for collision avoidance and autonomous driving.
- Most of the mobile robot autonomous driving methods consist of a global planner and a local planner/control policy.
- the global planner uses the global structure of the entire environment to create a trajectory or waypoint. Then, the local planner or control policy follows the global plan, avoiding collisions with unexpected, dynamic obstacles such as pedestrians.
- DRL deep reinforcement learning
- DRL Deep Reinforcement Learning
- Limited field of view by allowing the agent to acquire information about the environment outside the current field of view through previous sensor values stored in the recurrent neural network by utilizing the memory of a recurrent neural network such as LSTM (Long-Short Term Memory). It provides an agent learning method and system capable of enabling more effective autonomous driving even for an agent having an agent.
- LSTM Long-Short Term Memory
- An agent learning method of a computer device including at least one processor, wherein the agent through an actor-critic algorithm in a simulation for deep reinforcement learning (DRL) by the at least one processor Including the step of learning, the learning step, the actor-critical algorithm, the first information to the actor network, which is an evaluation network that determines the behavior of the agent, how much the action helps to maximize a preset reward.
- DRL deep reinforcement learning
- a computer program stored on a computer-readable recording medium for executing the method on the computer device.
- a computer-readable recording medium in which a program for executing the method is recorded on a computer device is provided.
- actor-critical algorithm in the simulation for deep reinforcement learning (DRL) deep reinforcement learning (DRL)
- DRL deep reinforcement learning
- the actor-critical algorithm evaluates how helpful the action is in maximizing a preset reward by adding first information to the actor network, which is an evaluation network that determines the behavior of the agent.
- the second information is input to a critic, which is a value network, and the second information includes the first information and additional information.
- DRL Deep Reinforcement Learning
- FIG. 1 is a diagram showing an example of a mobile robot platform according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating an example of an LSTM-LMC architecture according to an embodiment of the present invention.
- FIG. 3 is a diagram showing an example of a CNN-based memoryless model according to a comparative example of the present invention.
- FIG 4 shows an example of a SUNCG 2D simulator according to an embodiment of the present invention.
- FIG. 5 is a diagram illustrating an example of analysis scenarios according to an embodiment of the present invention.
- FIG. 6 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
- FIG. 7 is a flowchart showing an example of an agent learning method according to an embodiment of the present invention.
- FIG. 1 is a diagram showing an example of a mobile robot platform according to an embodiment of the present invention.
- the mobile robot platform 100 according to the present embodiment shows an example in which one Intel Realsense D435 depth camera with 90° FOV and one NVIDIA Jetson TX2 are mounted as processors.
- DRL-based approaches are being studied extensively to solve this problem, and in this DRL approach, agents can learn how to directly map sensor inputs to robot speed from data collected through interaction with the environment.
- Recently, some prior art has proposed a DRL agent capable of autonomous driving in a complex indoor environment using RGB-D images. Although this prior art has shown remarkable results in simulation experiments, it is difficult to deploy in the real world due to a large difference between RGB-D scenes and a lack of ability to avoid dynamic obstacles in various environments. Other prior art techniques have come up with more realistic solutions.
- the prior art that proposed a social awareness collision avoidance method showed robust performance in the real world, a clear measurement of the location and speed of another agent (or pedestrian) is required.
- the DRL agent of the prior art using raw lidar data combines a probabilistic roadmap and DRL to enable long-distance autonomous driving across a complex environment, but a complex real environment due to the consideration of only static obstacles. Esau was difficult to use.
- the agents could be successfully deployed in the real world, but an expensive lidar to maintain a wide FOV (180° to 220°). Demand equipment.
- a low-cost depth camera with limited FOV may be used instead of an expensive lidar device.
- the approach of MADDPG is extended by providing information about the environment as well as other agent information to the critic.
- the LSTM-LMC architecture according to embodiments of the present invention will be described. After that, details of the training environment and the dynamic randomization technique according to an embodiment of the present invention will be described.
- Reinforcement learning is a method of learning how to control the robot by itself so that the artificial intelligence agent interacts directly in the simulation or in the real world, maximizing the reward specified by the developer, without creating the robot's control algorithm.
- Deep reinforcement learning refers to a model that performs reinforcement learning using a deep neural network (DNN).
- POMDP Partially Observed Markov Decision Process
- the SAC algorithm can be selected for robustness to hyperparameters, sample efficient learning in a continuous operating space, and desirable search properties.
- the agent s current linearity and angular velocity 2 Vectors are used. These rates can be standardized in the range [-1,1].
- r i is the distance to the i-th waypoint
- ⁇ i is the polar coordinate angle [ r 1 , sin ( ⁇ 1 ), cos ( ⁇ 1 ), r 2 ,... cos( ⁇ 5 )] representing the relative distance and angle of the next 5 stops 15 vectors can be used.
- Reward r may be composed of five terms as shown in Equation 3 below.
- the threshold can be set at 0.6 meters.
- r rotation is a penalty for a large angular velocity and can be defined as in Equation 4 below.
- w may be the angular velocity in radians of the agent.
- r safety is a small penalty that allows agents to avoid obstacles in advance as possible and can be defined as in Equation 5 below.
- Obs may be a set of all obstacles in the environment including other agents.
- s core x and score y may be defined as in Equations 6 and 7 below.
- d x and d y may be relative displacements between the agent and o i in the x and y axes.
- an LSTM-LMC When the FOV is limited, there is significant patient observability for the DRL agent. Partial observability makes it difficult to estimate accurate state-action values and may lead to suboptimal decision making.
- an LSTM-LMC In order to overcome this possibility of partial observation, an LSTM-LMC according to this embodiment may be utilized.
- 2 is a diagram illustrating an example of an LSTM-LMC architecture according to an embodiment of the present invention.
- 'F' may indicate a filter size
- 'S' may indicate a stride
- 'O' may indicate an output channel.
- the same architecture can be used for actor networks, Q networks and V networks.
- the actor network may refer to an evaluation network that determines the behavior of an AI agent, and the critique including the Q network and the V network may refer to a value network that evaluates how helpful the behavior is in maximizing the reward.
- the local-map branch to provide the local-map feature was not used in the actor network.
- LSTM agent Recurrent Neural Network is a deep learning model for learning data that changes over time, such as time-series data, and is a reference point (t) and the next point (t). It is an artificial neural network constructed by connecting the network to +1).
- DNN deep neural network
- the LSTM type recurrent neural network is a representative model for solving this problem.
- the agent can be given memory capabilities. As analyzed in later experiments, memory can play an important role in collision avoidance by implicitly building the expression of the surrounding environment and the dynamics of moving obstacles. LSTM alone can significantly improve the performance of agents with limited FOV in later experiments.
- the LSTM (and LSTM-LMC) agent can be trained by sampling a 200-step trajectory in an experience replay.
- the trajectory may be sampled at random points of the episode, and the state of the LSTM may be set to '0' at the beginning of each trajectory.
- LMC Local-Map Critic
- M i,j represents an agent
- M i,j,1:3 can encode the standardized heading, linear velocity and angular velocity.
- the network architecture of the LSTM-LMC model is shown in FIG. 2 described above.
- a depth scan and velocity can be projected onto a vector of the same size using a fully connected layer, and an elementwise product can be applied to these two vectors to obtain observation features.
- critic Q network and V network
- the local map tensor passes through three convolution layers and global average pooling is applied to implement the local map feature.
- the observation feature, local map feature, and concatenation of the waypoint can then be used as inputs to the LSTM.
- the output of the LSTM layer can pass through a fully connected layer, followed by a policy output layer or a value output layer.
- the local map feature is not used by actors and may have additional motion inputs to the LSTM of the Q network.
- a Gaussian policy with a hyperbolic tanh squashing function can be used.
- FIG. 3 is a diagram showing an example of a CNN-based memoryless model according to a comparative example of the present invention.
- the CNN model when d scan is the size of the depth scan vector, the depth scan vector ( ) To match the shape of the velocity vector ( 2 ) can be tiled. Then this tiled vector is the depth scan vector ( ) And the size It can be a phosphorus matrix.
- One network input tensor( ) this matrix can be accumulated in the last three time steps. This tensor can pass through the three convolutional layers and flatten to get the observation function. The observation function can then be connected to the waypoint, going through two fully connected layers, and then through the output layer.
- SUNCG 2D environment A 2D multi-agent autonomous driving simulator was implemented for an experiment according to an embodiment of the present invention.
- 4 shows an example of a SUNCG 2D simulator according to an embodiment of the present invention.
- black areas represent obstacles
- colored circles represent agents (robots)
- colored lines represent global planner plans.
- 4 shows an example of starting an episode with a probability of 0.33 (right) on a blank map.
- 1,000 random layer plans can be extracted from the SUNCG dataset, and 75 maps can be manually selected as a learning environment.
- Mobile robotic autonomous driving can also benefit from this randomization technology.
- the following randomization can be applied to the simulator. Because the real-world noise that a mobile robot may encounter is usually not consistent within an episode, it is possible to resample noise from all time steps.
- Timescale randomization In the simulator, one time step can be set to 0.15 seconds. However, accurate control frequency cannot be expected in real hardware. This may not be good for autonomous mobile robots because timescale noise causes the dynamics of moving objects, including the robot itself, to be incorrectly estimated. To overcome this, we can add N (0, 0.05) seconds to every time step in the simulator.
- the trained agent was evaluated in 100 evaluation episodes.
- the random seed of the evaluation session was modified so that all agents were evaluated on the same map with the same starting position and initial target position.
- the evaluation results can be summarized as shown in Table 2 below.
- Table 2 shows the performance of agents with various FOVs and architectures. As shown in Table 2, as the FOV decreased, the performance of the CNN (memoryless) agent sharply declined. On the other hand, the LSTM-LMC agent with an FOV of 90° outperformed all other agents, even the CNN agent with an FOV of 180°, in terms of the number of routes/goals passed. The LSTM agent outperformed the CNN agent at 120°, but not the 180° agent. However, the LSTM agent had the highest survival rate until the end of the episode.
- the proposed method implicitly builds a robust and accurate model for the surrounding environment and the dynamics of other agents, we hypothesize that it shows better performance than other methods.
- the hypothesis is verified by analyzing the behavior of the trained agent in the controlled scenario as follows.
- FIG. 5 is a diagram illustrating an example of analysis scenarios according to an embodiment of the present invention.
- the upper part shows a scenario in which the route is blocked due to an unexpected wall on the route
- the interruption shows an intersection scenario that moves vertically across another agent
- the lower part shows a passage to avoid other agents facing each other. It shows an example of the movement of agents according to the scenario.
- the dark lines represent the path from the global planner
- the bright lines represent the agents' trajectories
- the numbers represent time steps.
- the LSTM-LMC FOV 90° according to an embodiment of the present invention shows excellent performance in bypassing walls and symmetry breaking between agents.
- Blocked path scenario We designed a'blocked path scenario' to check whether the proposed agent remembers the environment structure.
- the upper part of FIG. 5 relates to a blocked route scenario.
- the blocked route scenario the route of the global planner is blocked by a wall. There are randomly placed slits at the top or bottom of the wall, so the agent has to explore which side is open, remembering that the original path was blocked.
- Table 3 the agent of LSTM-LMC FOV 90° according to an embodiment of the present invention achieved the highest success rate.
- the agent of LSTM-LMC FOV 90° efficiently navigated both sides of the wall, and did not return to the original path when the blocked original path leaves the FOV.
- CNN agents attempted to return to their original route as soon as the blocked original route was out of their FOV.
- the LSTM agent was able to traverse the blocked path, but it did not outperform the best CNN agent (CNN FOV 180°).
- the CNN agent often failed to break the symmetry in both scenarios (crossing and passing) as shown in the middle and bottom of FIG. 5.
- the LSTM-LMC FOV 90° according to an embodiment of the present invention showed stable symmetry in all episodes.
- a hardware experiment was conducted to confirm the performance of the agent learning method according to an embodiment of the present invention in the real world.
- FIG. 6 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
- the agent learning method according to embodiments of the present invention may be executed by the computer device 600 illustrated in FIG. 6.
- the computer device 600 may include a memory 610, a processor 620, a communication interface 630, and an input/output interface 640.
- the memory 610 is a computer-readable recording medium and may include a permanent mass storage device such as a random access memory (RAM), read only memory (ROM), and a disk drive.
- RAM random access memory
- ROM read only memory
- a non-destructive large-capacity recording device such as a ROM and a disk drive may be included in the computer device 600 as a separate permanent storage device separated from the memory 610.
- an operating system and at least one program code may be stored in the memory 610.
- These software components may be loaded into the memory 610 from a computer-readable recording medium separate from the memory 610.
- a separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, disk, tape, DVD/CD-ROM drive, and memory card.
- software components may be loaded into the memory 610 through a communication interface 630 other than a computer-readable recording medium.
- software components may be loaded into the memory 610 of the computer device 600 based on a computer program installed by files received through the network 660.
- the processor 620 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. Commands may be provided to the processor 620 by the memory 610 or the communication interface 630. For example, the processor 620 may be configured to execute a command received according to a program code stored in a recording device such as the memory 610.
- the communication interface 630 may provide a function for the computer device 600 to communicate with other devices (eg, storage devices described above) through the network 660. For example, a request, command, data, file, etc., generated by the processor 620 of the computer device 600 according to a program code stored in a recording device such as the memory 610, is transmitted to the network according to the control of the communication interface 630. 660) can be transferred to other devices. Conversely, signals, commands, data, files, etc. from other devices may be received by the computer device 600 through the communication interface 630 of the computer device 600 via the network 660. Signals, commands, data, etc. received through the communication interface 630 may be transmitted to the processor 620 or the memory 610, and the file may be a storage medium (described above) that the computer device 600 may further include. Permanent storage).
- other devices eg, storage devices described above
- the input/output interface 640 may be a means for an interface with the input/output device 650.
- the input device may include a device such as a microphone, a keyboard, or a mouse
- the output device may include a device such as a display or a speaker.
- the input/output interface 640 may be a means for interfacing with a device in which functions for input and output are integrated into one, such as a touch screen.
- the input/output device 650 may be configured with the computer device 600 and one device.
- the computer device 600 may include fewer or more components than the components of FIG. 6. However, there is no need to clearly show most of the prior art components.
- the computer device 600 may be implemented to include at least a portion of the input/output device 650 described above, or may further include other components such as a transceiver and a database.
- the communication method is not limited, and not only a communication method using a communication network (for example, a mobile communication network, wired Internet, wireless Internet, broadcasting network) that the network 660 can include, but also Bluetooth or NFC (Near Field Communication) Short-range wireless communication, such as, may also be included.
- the network 660 includes a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). , Internet, and the like.
- PAN personal area network
- LAN local area network
- CAN campus area network
- MAN metropolitan area network
- WAN wide area network
- BBN broadband network
- the network 660 may include any one or more of a network topology including a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree or a hierarchical network, etc. Not limited.
- FIG. 7 is a flowchart showing an example of an agent learning method according to an embodiment of the present invention.
- the agent learning method according to the present embodiment may be performed by the computer device 600 described above as an example.
- the processor 620 of the computer device 600 may be implemented to execute a code of an operating system included in the memory 610 or a control instruction according to the code of at least one program.
- the processor 620 is the computer device 600 so that the computer device 600 performs the steps 710 to 750 included in the method of FIG. 7 according to a control command provided by the code stored in the computer device 600. Can be controlled.
- the computer device 600 may learn an agent through an actor-critical algorithm in a simulation for deep reinforcement learning. For example, the computer device 600 sends first information to an actor network, which is an evaluation network that determines the behavior of an agent in an actor-critical algorithm, and critic, which is a value network that evaluates how helpful the agent's behavior is in maximizing a preset reward. You can enter the second information. In this case, the second information includes first information and additional information. As a specific embodiment for learning of such an agent, the following steps 710 to 750 may be performed by the computer device 600.
- an actor network which is an evaluation network that determines the behavior of an agent in an actor-critical algorithm
- critic which is a value network that evaluates how helpful the agent's behavior is in maximizing a preset reward.
- the second information includes first information and additional information.
- the following steps 710 to 750 may be performed by the computer device 600.
- the computer device 600 may generate information for simulation through dynamic randomization that adds noise to at least one of a depth scan, an agent speed, and a time scale. This dynamic randomization has been described in detail above.
- the computer device 600 may implement the observation feature by applying a component dot product to vectors of the same size in which the depth scan and the velocity are projected among the generated information.
- the computer device 600 may implement a local-map feature by applying global average pooling to a local map tensor that has passed through a plurality of convolutional layers.
- the computer device 600 may input observation characteristics and destinations into an actor network, which is an evaluation network that determines an agent's behavior in an actor-critical algorithm.
- the observation feature and the waypoint may correspond to the above-described first information.
- the computer device 600 may input observation features, waypoints, and local-map features into critic, which is a value network that evaluates how helpful the agent's actions in the actor-critical algorithm is in maximizing a preset reward.
- the local-map feature may correspond to the above-described additional information.
- the computer device 600 may input the observation feature and the waypoint as the first information into the actor network, and input the observation feature and the waypoint as the first information, and the local-map feature as the additional information to the critic.
- the local-map feature may be implemented by applying global average pooling to a local map tensor that has passed through a plurality of convolutional layers.
- the local-map feature may include information on at least one of an overall obstacle arrangement situation, a speed of a moving obstacle, and a target of the moving obstacle.
- the observation feature may be implemented by applying an elementwise product to vectors of the same size in which the depth scan and the velocity are projected. The waypoint can be set randomly.
- the computer device 600 may input time-series data in which information input from each of the actor network and critic is concatenated into a recursive neural network included in each of the actor network and critic.
- the computer device 600 may learn to operate by obtaining information on an environment outside the current field of view through a previous sensor value stored in the recurrent neural network.
- the recurrent neural network may include a long-short term memory (LSTM) type recurrent neural network.
- LSTM long-short term memory
- the simulation for deep reinforcement learning information that is difficult to obtain in the real world among the policy network and value network of the actor-critical algorithm is provided.
- the value network used for learning can improve the performance of the policy network by enabling more accurate evaluation of the value of the agent's behavior.
- the agent can acquire information about the environment outside the current field of view through previous sensor values stored in the recurrent neural network. Even agents with limited vision can be made more effective in autonomous driving.
- the system or device described above may be implemented as a hardware component or a combination of a hardware component and a software component.
- the devices and components described in the embodiments are, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, such as one or more general purpose computers or special purpose computers.
- the processing device may execute an operating system (OS) and one or more software applications executed on the operating system.
- OS operating system
- the processing device may access, store, manipulate, process, and generate data in response to the execution of software.
- the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include.
- the processing device may include a plurality of processors or one processor and one controller.
- other processing configurations are possible, such as a parallel processor.
- the software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device.
- Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodyed in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.
- the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
- the computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination.
- the medium may be one that continuously stores a program executable by a computer, or temporarily stores a program for execution or download.
- the medium may be a variety of recording means or storage means in a form in which a single piece of hardware or several pieces of hardware are combined.
- the medium is not limited to a medium directly connected to a computer system, but may be distributed on a network.
- Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magnetic-optical media such as floptical disks, and And a ROM, RAM, flash memory, and the like, and may be configured to store program instructions.
- examples of other media include an app store that distributes applications, a site that supplies or distributes various software, and a recording medium or storage medium managed by a server.
- Examples of program instructions include not only machine language codes such as those produced by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Optics & Photonics (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템을 개시한다. 일실시예에 따른 에이전트 학습 방법은, 심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서 액터-크리틱(actor-critic) 알고리즘을 통해 에이전트를 학습시키는 단계를 포함할 수 있다. 이때, 학습시키는 단계는, 상기 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 상기 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력하는 것을 특징으로 할 수 있다. 여기서, 상기 제2 정보는 상기 제1 정보와 추가 정보를 포함할 수 있다.
Description
아래의 설명은 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템에 관한 것이다.
최근, 점점 더 많은 수의 모바일 로봇들이 생활 공간에 배치되고 있다. 모바일 로봇은 배달, 감시, 안내와 같은 서비스를 제공한다. 이러한 서비스를 제공하기 위해서는 복잡하고 혼잡한 환경에서 안전한 자율주행이 필수적이다. 예를 들어, 한국등록특허 제10-1539270호는 충돌회피 및 자율주행을 위한 센서융합 기반 하이브리드 반응 경로 계획 방법을 개시하고 있다.
대부분의 모바일 로봇 자율주행 방법은 글로벌 플래너 및 로컬 플래너/컨트롤 정책으로 구성된다. 글로벌 플래너는 전체 환경의 글로벌 구조를 사용하여 궤적 또는 경유지를 생성한다. 그리고 나서, 로컬 플래너나 컨트롤 정책은 보행자들과 같은 예기치 않은, 역동적인 장애물과의 충돌을 피하면서 글로벌 플랜을 따른다.
로컬 플래너(또는 컨트롤 정책)의 경우 인공 포텐셜 필드, 동적 윈도우 접근과 같은 접근방식이 널리 사용된다. 그러나 이러한 규칙 기반 알고리즘의 대부분은 국소 최소치(local minima)에 고착되거나, 정확한 지도에 대한 과도한 의존성, 그리고 다양한 환경에서의 일반화 결여 등과 같은 문제를 겪는 것으로 알려져 있다.
이러한 문제를 극복하기 위해, 심층 강화 학습(Deep Reinforcement Learning, DRL) 기반의 컨트롤 접근방식들이 제안되었다. 이러한 접근법은 환경과 상호작용을 통해 센서 입력을 로봇 속도에 직접 매핑하는 최적의 파라미터를 학습할 수 있다. 이러한 심층 강화 학습 접근방식이 유망한 결과를 보여주었지만, 기존 방법에서는 오직 통계적이고 시뮬레이션된 환경만 고려하거나 넓은 시야(Field Of View, FOV)를 필요로 하기 때문에 비싼 라이다 장치를 사용해야 하는 문제점이 있다.
심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서, 액터-크리틱 알고리즘의 정책망과 가치망 중 가치망에 실세계에서 얻기 힘들지만 학습에 도움이 되는 정보를 시뮬레이션의 상태에서 직접 추출해 제공함으로써, 학습 시 사용되는 가치망에서는 에이전트의 행동의 가치에 대한 더 정확한 평가를 내릴 수 있도록 하여 정책망의 성능을 향상시킬 수 있는 에이전트 학습 방법 및 시스템을 제공한다.
LSTM(Long-Short Term Memory)과 같은 순환 신경망(Recurrent Neural Network)의 메모리를 활용하여 에이전트가 현재 시야 밖의 환경에 대한 정보를 순환 신경망에 저장된 이전의 센서 값을 통해 획득할 수 있도록 함으로써, 제한된 시야를 갖는 에이전트도 보다 효과적으로 자율주행이 가능하도록 할 수 있는 에이전트 학습 방법 및 시스템을 제공한다.
적어도 하나의 프로세서를 포함하는 컴퓨터 장치의 에이전트 학습 방법에 있어서, 상기 적어도 하나의 프로세서에 의해, 심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서 액터-크리틱(actor-critic) 알고리즘을 통해 에이전트를 학습시키는 단계를 포함하고, 상기 학습시키는 단계는, 상기 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 상기 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력하고, 상기 제2 정보는 상기 제1 정보와 추가 정보를 포함하는 것을 특징으로 하는 에이전트 학습 방법을 제공한다.
컴퓨터 장치와 결합되어 상기 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.
상기 방법을 컴퓨터 장치에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체를 제공한다.
상기 방법을 통해 학습된 에이전트가 탐재된 모바일 로봇 플랫폼을 제공한다.
컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서 액터-크리틱(actor-critic) 알고리즘을 통해 에이전트를 학습시키고, 상기 에이전트를 학습시키기 위해, 상기 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 상기 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력하고, 상기 제2 정보는 상기 제1 정보와 추가 정보를 포함하는 것을 특징으로 하는 컴퓨터 장치를 제공한다.
심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서, 액터-크리틱 알고리즘의 정책망과 가치망 중 가치망에 실세계에서 얻기 힘들지만 학습에 도움이 되는 정보를 시뮬레이션의 상태에서 직접 추출해 제공함으로써, 학습 시 사용되는 가치망에서는 에이전트의 행동의 가치에 대한 더 정확한 평가를 내릴 수 있도록 하여 정책망의 성능을 향상시킬 수 있다.
LSTM(Long-Short Term Memory)과 같은 순환 신경망(Recurrent Neural Network)의 메모리를 활용하여 에이전트가 현재 시야 밖의 환경에 대한 정보를 순환 신경망에 저장된 이전의 센서 값을 통해 획득할 수 있도록 함으로써, 제한된 시야를 갖는 에이전트도 보다 효과적으로 자율주행이 가능하도록 할 수 있다.
도 1은 본 발명의 일실시예에 따른 모바일 로봇 플랫폼의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 LSTM-LMC 아키텍처의 예를 도시한 도면이다.
도 3은 본 발명의 비교예에 따른 CNN 기반 메모리리스 모델의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 SUNCG 2D 시뮬레이터의 예를 나타내고 있다.
도 5는 본 발명의 일실시예에 있어서, 분석 시나리오들의 예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 있어서, 컴퓨터 장치의 예를 도시한 블록도이다.
도 7은 본 발명의 일실시예에 따른 에이전트 학습 방법의 예를 도시한 흐름도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
모바일 로봇은 인간에게 서비스를 제공하기 위해 복잡하고 붐비는 환경에서 자유롭게 자율주행할 수 있어야 한다. 이러한 자율주행 능력을 위해 심층 강화 학습(Deep Reinforcement Learning, DRL) 기반 방식이 점점 주목받고 있다. 그러나 기존의 DRL 방식은 넓은 시야(Field Of View, FOV)가 필요하므로 비싼 라이다(lidar) 장치를 사용해야 한다. 본 명세서에서는 FOV가 제한된 저렴한 뎁스(depth) 카메라로 고가의 라이다 장치를 대체할 가능성에 대해 검토한다. 첫번째로 본 명세서에서는 DRL 에이전트에서 제한된 시야의 영향을 분석한다. 두번째로 FOV가 제한된 복잡한 환경에서 효율적인 자율주행을 학습하는 새로운 DRL 방법인 로컬맵 크리틱(Local-Map Critic)을 가진 LSTM(Long-Short Term Memory) 에이전트(이하, 'LSTM-LMC')를 제안한다. 마지막으로, 본 명세서에서는 다이내믹 무작위화(dynamics randomization) 방법을 도입하여 현실세계에서 DRL 에이전트의 견고성을 개선한다. 본 명세서에서는 FOV가 제한된 방법이 메모리가 한정되지만 FOV가 넓은 방법을 능가할 수 있다는 것을 보이며, 주변 환경과 다른 에이전트의 다이내믹을 암묵적으로 모델링하는 것을 학습한다는 것을 경험적으로 증명한다. 또한, 본 명세서에서는 하나의 뎁스 카메라를 가진 로봇이 본 발명의 실시예들에 따른 방법을 사용하여 복잡한 실세계를 자율주행할 수 있다는 것을 보여준다. 도 1은 본 발명의 일실시예에 따른 모바일 로봇 플랫폼의 예를 도시한 도면이다. 본 실시예에 따른 모바일 로봇 플랫폼(100)은 90° FOV를 탑재한 인텔 리얼센스(Intel Realsense) D435 뎁스 카메라 하나와 NVIDIA Jetson TX2 하나를 프로세서로 탑재한 예를 나타내고 있다.
1. 관련 연구
A. 모바일 로봇 자율주행을 위한 DRL 방법
모바일 로봇 자율주행에 대한 종래의 접근법들은 인간공학적으로 설계된 하이퍼 파라미터와 규칙에 의존하기 때문에, 하이퍼 파라미터 또는 국소 최소치(local minima)에 대한 민감도와 같은 문제로 인해 복잡하고 다이내믹한 환경에서 종종 실패한다.
DRL 기반 접근법이 이러한 문제를 해결하기 위해 광범위하게 연구되고 있으며, 이러한 DRL 접근방식에서 에이전트는, 환경과의 상호작용을 통해 수집된 데이터로부터 센서 입력을 로봇 속도에 직접 매핑하는 방법을 학습할 수 있다. 최근, 일부 종래기술에서는 RGB-D 이미지를 사용하여 복잡한 실내 환경을 자율주행할 수 있는 DRL 에이전트를 제안했다. 이러한 종래기술은 시뮬레이션 실험에서는 주목할 만한 결과를 보였음에도 불구하고, 다양한 환경에서 RGB-D 장면들 간의 큰 차이와 동적 장애물을 피할 수 있는 능력 부족으로 인해 실세계에 배치하기가 어렵다. 다른 종래기술들은 좀 더 현실적인 해결책을 제시했다. 사회적 인식 충돌 회피 방법을 제안한 종래기술은 실세계에서 강인한 성능을 보였음에도 불구하고, 다른 에이전트(또는 보행자)의 위치 및 속도에 대한 명확한 측정이 요구된다. 라이다의 원자료(raw lidar data)를 사용하는 종래기술의 DRL 에이전트는 확률론적 로드맵과 DRL을 결합하여, 복잡한 환경 전반에 걸쳐 장거리 자율주행을 가능케 하였으나, 정적인 장애물만을 고려한 관계로 복잡한 실제 환경에서는 사용이 어려웠다. 한편, 붐비는 환경에서 자율주행하는 방법을 학습할 수 있는 DRL 에이전트를 제안한 종래기술에서는 에이전트들을 실세계에 성공적으로 배치할 수 있었지만, 넓은 FOV(180° 내지 220°)를 유지하기 위해 고가의 라이다 장비를 요구한다.
본 발명의 실시예들에서는 고가의 라이다 장치 대신 FOV가 제한된 저가의 뎁스 카메라를 사용할 수 있다.
B. 멀티-에이전트 DRL
최근 멀티-에이전트 설정에 대한 DRL 방법이 주목받고 있다. 복수의 에이전트 간의 암묵적인 통신 프로토콜을 학습할 수 있는 신경망 아키텍처는 에이전트가 통신이나 중앙집중식 컨트롤러가 없는 에이전트보다 더 나은 성능을 보였음에도 불구하고, 인간 로봇 상호작용 시나리오에서는 불가능한 다이렉트 메시징을 서로 필요로 한다. 다른 에이전트들의 정보를 크리틱에게만 제공하는 MADDPG(Multi-Agent Deep Deterministic Policy Gradient) 방법의 알고리즘은 테스트 시간에 명시적인 메시지 교환 없이 협력 행동이 나타날 수 있다는 것을 보여줌으로써, 붐비는 환경에서의 자율주행과 같은 인간-로봇 상호작용 상황에서 사용될 수 있는 가능성을 열어 주었다.
본 발명의 일실시예에서는 크리틱에게 다른 에이전트의 정보뿐만 아니라 환경에 대한 정보를 더 제공함으로써 MADDPG의 접근 방식을 확장한다.
C. 다이내믹 무작위화를 이용한 실세계에서 DRL 에이전트의 직접 배치
게임 도메인에서 DRL 방법이 큰 성공을 하였지만, 실세계의 로봇 작업에 DRL 에이전트를 배치하는 것은 실세계와 시뮬레이터의 차이 때문에 더 어려운 것으로 여겨진다. 이 차이는 DRL 에이전트들이 시뮬레이터에서 훈련을 받은 후 정밀한 튜닝 없이 배치될 때에, 에이전트들의 성능을 크게 저하시킨다. 이 문제를 해결하기 위해, 시뮬레이터에서 다이내믹 무작위화가 사용되었다. 이러한 다이내믹 무작위화는 네발 달린 로봇의 운동이나 로봇 팔을 사용한 물체 조작과 같은 실제 로봇 작업에 있어 에이전트의 견고성을 향상시킬 수 있다. 본 발명의 일실시예에서는 시뮬레이션에서의 센서 노이즈, 휠 드리프트 및 컨트롤 주파수를 무작위화하여, 모바일 로봇 자율주행 작업에서 다이내믹 무작위화가 미치는 영향을 조사하였다.
2. 접근
이하에서는 심층 강화 학습 프레임워크에 대해 간략하게 설명한 후, 본 발명의 실시예들에 따른 LSTM-LMC 아키텍처를 설명한다. 그 후 본 발명의 일실시예에 따른 훈련 환경과 다이내믹 무작위화 기술에 대한 세부사항을 설명한다.
A. 심층 강화 학습
강화 학습은 일례로, 로봇의 제어 알고리즘을 사람이 직접 만들지 않고 인공지능 에이전트가 시뮬레이션 또는 실세계에서 직접 상호작용하며 개발자가 지정해준 보상(reward)를 최대화 하도록 스스로 로봇의 제어 방법을 학습하는 방법이다. 심층 강화 학습은 심층 신경망(Deep Neural Network, DNN)를 사용하여 강화학습을 하는 모델을 말한다.
제한된 FOV와 다른 에이전트의 상태에 대한 불확실성으로 인한 부분적인 관찰 가능성(observability)으로 인해, 일실시예에 따른 환경은 POMDP(Partially Observed Markov Decision Process)로 모델링될 수 있다. POMDP는 6개의 튜플들(
S,
A,
P,
R, Ω,
O)로 구성되며, 여기서
S는 상태 공간(state space),
A는 동작 공간(action space),
P는 전환 확률(transition probability), R은 보상 함수(reward function), Ω는 관측 공간(observation space),
O는 관측 확률(observation probability)이다.
강화 학습의 목표는 아래 수학식 1의 감소된 리턴
G를 극대화하는 에이전트의 정책 π(
a, o)=
p(
a|o)을 학습하는 것이다.
최근, 심층 신경망은 강화 학습 에이전트의 정책 파라미터 또는 가치 함수를 학습하기 위해 널리 사용된다. 본 실시예에서는 아래 수학식 2와 같이 나타나는 리턴
G와 함께 확률론적 정책의 엔트로피를 공동적으로 최대화하는 SAC(Soft Action-Critical) 알고리즘을 사용한다.
SAC 알고리즘은 하이퍼 파라미터에 대한 견고성, 연속적인 동작 공간에서 샘플 효율 학습(sample efficient learning), 바람직한 탐색 속성을 위해 선택될 수 있다.
B. 문제 설정
1) 관측 공간 : 에이전트의 관측
o를 위해, 다양한 수평 FOV(90°, 120°, 180°)를 가진 라이다 데이터와 유사한 슬라이스 포인트 클라우드(Sliced Point Clouds)를 사용한다. 우선, 뎁스 이미지에서 포인트 클라우드를 계산하고, 포인트 클라우드를 수평으로 잘라 바닥과 천장을 제거하여 길이를 줄일 수 있다. 그런 다음, 잘린 클라우드 포인트를 5° 간격으로 수직으로 균일하게 자르고, 각 세그먼트에서 가장 가까운 점으로부터의 거리를 선택하여 (
18,
24,
36) 벡터를 만든다. 이 벡터를 이후 '뎁스 스캔(depth scan)'이라고 부를 것이다.
또한,
r
i가 i 번째 경유지(waypoint)까지의 거리이고,
θ
i가 극좌표 각도인 [
r
1, sin(
θ
1), cos(
θ
1),
r
2, … cos(
θ
5)]의 형태에서 다음 5개 경유지의 상대 거리와 각도를 나타내는
15 벡터가 사용될 수 있다.
2) 동작 공간 : 에이전트의 동작
a에 대해, 선속도 및 각속도를 구하기 위해
2 벡터를 사용한다. 이 에이전트의 선속도는 [0, 1] m/s 범위이고 각속도는 [-90, 90] °/s 범위 내에 있다. [-1,1] 범위에 있는 표준화된 속도가 신경망의 출력으로 사용될 수 있다.
3) 보상 함수 : 보상
r은 다음 수학식 3과 같은 다섯 가지 용어로 구성될 수 있다.
r base = -0.05는 에이전트들이 가장 짧은 경로를 따르도록 하기 위해 모든 타임스텝에서 주어지는 작은 네거티브 기본 보상일 수 있다.
r collision = -20은 에이전트들이 벽이나 다른 에이전트들과 충돌할 때 에이전트 들에게 페널티를 주는 충돌 보상일 수 있다.
r waypoint = 3은 에이전트와 다음 경유지 사이의 거리가 1 미터 미만일 때 에이전트에 주어질 수 있다. 최종 경유지(목표)의 경우, 임계값이 0.6 미터로 설정될 수 있다.
r rotation은 큰 각속도에 대한 패널티로서 아래 수학식 4와 같이 정의될 수 있다.
여기서
w는 에이전트의 라디안 각속도일 수 있다.
r safety는 에이전트들이 가능한 한 사전에 장애물을 피하도록 하는 작은 페널티이며 다음 수학식 5와 같이 정의될 수 있다.
여기서
Obs는 다른 에이전트를 포함한 환경에서의 모든 장애물의 집합일 수 있다. s
core
x 및
score
y 는 다음 수학식 6 및 수학식 7과 같이 정의될 수 있다.
여기서,
d
x와
d
y는 x축과 y축에서 에이전트와
o
i 사이의 상대 변위일 수 있다.
C. LSTM-LMC
FOV가 제한되면, DRL 에이전트에 대한 상당한 부분 관찰 가능성(patial observability)이 생긴다. 부분 관찰 가능성은 정확한 상태-동작 값의 추정을 어렵게 하며, 차선의 의사결정을 초래할 수 있다. 이러한 부분 관찰 가능성을 극복하기 위해, 본 실시예에 따른 LSTM-LMC가 활용될 수 있다. 도 2는 본 발명의 일실시예에 따른 LSTM-LMC 아키텍처의 예를 도시한 도면이다. 콘볼루션 레이어에서 'F'는 필터 사이즈, 'S'는 스트라이드(stride), 'O'는 출력 채널을 의미할 수 있다. 액터(actor) 네트워크, Q 네트워크 및 V 네트워크에 동일한 아키텍처를 사용할 수 있다. 액터 네트워크는 인공지능 에이전트의 행동을 결정하는 평가망을, Q 네트워크와 V 네트워크를 포함하는 크리틱은 해당 행동이 보상(reward)를 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망을 의미할 수 있다. 로컬-맵 특징을 제공하기 위한 로컬-맵 브랜치(local-map branch)는 액터 네트워크에서 사용되지 않았다.
1) LSTM 에이전트 : 순환 신경망(Recurrent Neural Network)는 시계열 데이터(time-series data)와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 딥 러닝 모델로, 기준 시점(t)와 다음 시점(t+1)에 네트워크를 연결하여 구성한 인공 신경망이다. 그러나, 매 시점에 심층 신경망(DNN)이 연결되어 있을 경우, 오래 전의 데이터에 의한 기울기 값이 소실되는 문제(vanishing gradient problem)로 학습이 어려워진다. LSTM 방식의 순환 신경망은 이러한 문제를 해결하기 위한 대표적인 모델이다. 이러한 LSTM을 사용함에 따라 에이전트에 메모리 능력이 주어질 수 있다. 이후 실험에서 분석된 바와 같이, 메모리는 주변 환경의 표현과 움직이는 장애물의 다이내믹을 암묵적으로 구축함으로써 충돌 회피에 중요한 역할을 할 수 있다. LSTM 만으로도 이후 실험에서 FOV가 제한된 에이전트의 성능을 크게 향상시킬 수 있다. 경험 리플레이(experience replay)에서 200-스텝 궤적을 샘플링하여 LSTM(및 LSTM-LMC) 에이전트를 훈련시킬 수 있다. 궤적은 에피소드의 랜덤 포인트에서 샘플링될 수 있으며, LSTM의 상태는 각 궤적의 시작 부분에서 '0'으로 설정될 수 있다.
2) 로컬-맵 크리틱(Local-Map Critic, LMC) : 다른 에이전트의 동작과 같은 추가 정보를 크리틱에 포함시키면, 멀티-에이전트 DRL의 성능이 향상될 수 있다. 액터가 추가 정보를 요구하지 않고 크리틱은 대개 훈련이 완료된 후에 사용되지 않기 때문에, 비싼 추가 정보 없이 이 접근법으로 훈련된 에이전트를 배치할 수 있다. 단지 다른 에이전트들의 동작 대신에 주변 지역의 2D 로컬맵을 크리틱에게 줌으로써 이 접근법을 확장시킬 수 있다. 로컬맵
M은 에이전트 주변의 10m × 10m 영역을 다룬다. 이는 사이즈(39 × 39 × 4)인 텐서(tensor)로서,
M
i,j,k의 값은 다음 수학식 8과 같이 정의될 수 있다.
M i,j가 에이전트를 나타내는 경우,
M
i,j,1:3는 표준화된 헤딩, 선속도 및 각속도를 인코딩할 수 있다.
3) 네트워크 아키텍처 : LSTM-LMC 모델의 네트워크 아키텍처는 앞서 설명한 도 2에 나타나 있다. 먼저 완전히 연결된 레이어를 사용하여 동일한 사이즈의 벡터에 뎁스 스캔과 속도를 투영하고, 이 두 벡터에 성분 내적(elementwise product)을 적용하여 관찰 특징을 얻을 수 있다. 크리틱(Q 네트워크 및 V 네트워크)에서 로컬 맵 텐서가 3개의 콘볼루션 레이어를 통과하고 글로벌 에버리지 풀링을 적용하여 로컬 맵 특징을 구현할 수 있다. 그런 다음 관찰 특징, 로컬 맵 특징 및 경유지의 연결(concatenation)이 LSTM의 입력으로 사용될 수 있다. LSTM 레이어의 출력은 완전히 연결된 레이어를 통과하고, 이어서 정책 출력 레이어 또는 가치 출력 레이어를 통과할 수 있다. 로컬 맵 특징은 액터에서 사용되지 않으며 Q 네트워크의 LSTM에는 추가의 동작 입력을 가질 수 있다. 정책 출력을 위해, 하이퍼볼릭 탄젠트 스쿼싱 함수(tanh squashing function)를 가진 가우시안 정책(Gaussian policy)이 사용될 수 있다.
또한 비교 실험을 위해 (90°, 120°, 180°)의 FOV를 가진 CNN 기반 메모리리스(memoryless) 모델이 구현되었다. 도 3은 본 발명의 비교예에 따른 CNN 기반 메모리리스 모델의 예를 도시한 도면이다. CNN 모델의 경우,
d
scan이 뎁스 스캔 벡터의 크기일 때, 뎁스 스캔 벡터(
)의 모양과 매치되도록 속도 벡터(
2)를 타일링할 수 있다. 그런 다음 이 타일링된 벡터는 뎁스 스캔 벡터(
)와 연결되어 사이즈가
인 매트릭스가 될 수 있다. 하나의 네트워크 입력 텐서(
)를 얻기 위해 최근 세 개의 타임스텝에서 이 매트릭스가 쌓일 수 있다. 이 텐서는 3개의 콘볼루션 레이어를 통과하여 관찰 기능을 얻기 위해 편평화될 수 있다. 그런 다음 관찰 기능은 경유지에 연결되고, 완전히 연결된 2개의 레이어를 통과한 다음 출력 레이어를 통과할 수 있다.
D. SUNCG 2D 시뮬레이터 및 다이내믹 무작위화
1) SUNCG 2D 환경 : 2D 멀티-에이전트 자율주행 시뮬레이터가 본 발명의 일실시예에 따른 실험을 위해 구현되었다. 도 4는 본 발명의 일실시예에 따른 SUNCG 2D 시뮬레이터의 예를 나타내고 있다. 도 4에서 검은 영역은 장애물을 나타내고 있으며, 색을 갖는 서클은 에이전트(로봇)을 상징하며, 색을 갖는 선은 글로벌 플래너의 플랜들이다. 도 4는 빈 지도에서 0.33(오른쪽)의 확률로 에피소드를 시작한 예를 나타내고 있다. SUNCG 데이터셋에서 1,000개의 랜덤 층 플랜들이 추출될 수 있으며, 75개의 지도가 학습 환경으로서 수동으로 선택될 수 있다.
2) 훈련 시나리오 : 각 훈련 에피소드마다, 데이터셋의 75개 지도 중 무작위 환경이 샘플링될 수 있다. 초기 실험에서는 움직이는 장애물을 피하는 것이 정적인 장애물을 피하는 것보다 더 어렵다는 것이 발견되었다. 따라서, 움직이는 장애물만 있는 작은 빈 지도(도 3의 오른쪽)가 확률 0.33으로 선택되도록 하여 움직이는 장애물을 피하는 능력을 강화할 수 있다. 지도가 선택되면, 최대 20개의 에이전트가 임의의 위치에 배치되고 무작위 목표 위치가 에이전트에 지정될 수 있다. 그 다음, 환경은 (1m × 1m) 셀 격자 형태로 표시될 수 있으며, 각 에이전트에 대한 경유지를 dijkstra 알고리즘을 이용하여 추출할 수 있다. 각 에이전트에서, 이 에피소드는 장애물과 충돌하거나 1,000번의 타임스텝이 지나갈 때 끝이 나도록 설정되었다. 에이전트가 목표에 도달하면, 새로운 무작위 목표와 경유지를 에이전트에 할당하였다.
3) 다이내믹 무작위화 : 실세계의 다이내믹 및 관찰은 시뮬레이터의 다이내믹 및 관찰과는 다르다. 또한, 실세계의 다이내믹과 관찰은 노이즈가 매우 많다. 이러한 차이와 노이즈는 종종 시뮬레이터에서 훈련된 에이전트가 실제 환경에서 제대로 작동하지 못하게 한다. 이 문제를 해결하기 위해, 학습된 정책의 견고성을 개선하기 위해 시뮬레이터의 관찰과 다이내믹을 무작위화했다.
모바일 로봇 자율주행 또한 이러한 무작위화 기술의 혜택을 받을 수 있다. 시뮬레이터에는 다음과 같은 무작위화가 적용될 수 있다. 모바일 로봇이 마주칠 수 있는 실세계의 노이즈는 대개 한 에피소드 내에서 일관되지 않기 때문에, 모든 타임스텝의 노이즈를 다시 샘플링할 수 있다.
· 스캔 노이즈 : 실세계 스캔 데이터는 시뮬레이터의 데이터보다 더 노이즈가 많으며, 뎁스 이미지는 라이다 데이터보다 더 노이즈가 많다고 알려져 있다. 따라서 모든 뎁스 스캔 값에
N(0, 0.1)을 더한다.
· 속도 무작위화 : 실세계에서 로봇은 휠 드리프트, 모터 제어기 에러, 마찰 등으로 인해 입력과 동일한 속도로 이동하지 않는다. 이에 대처하기 위해, 로봇에 이를 적용하기 전에, 입력속도를
N(1, 0.1)과 곱할 수 있다. 또한, 실세계의 모터는 속도를 즉시 변경할 수 없으므로, 타임스텝
t에서의 에이전트의 속도를
로 설정할 수 있다. 여기서
v
t는 에이전트로부터의 커맨드를 노이즈와 곱한 값이고,
는 로봇에 적용되는 실제 속도이다.
· 타임스케일 무작위화 : 시뮬레이터에서 하나의 타임스텝을 0.15초로 설정할 수 있다. 그러나 실제 하드웨어에서는 정확한 제어 빈도를 기대할 수 없다. 이것은 타임스케일 노이즈가 로봇 자체를 포함한 움직이는 물체의 다이내믹을 잘못 추정하게 하기 때문에, 모바일 로봇 자율주행에 좋지 않을 수 있다. 이를 극복하기 위해 시뮬레이터의 모든 타임스텝에
N(0, 0.05)초를 추가할 수 있다.
실세계의 관찰 및 다이내믹 노이즈가 CNN 에이전트보다 LSTM-LMC 에이전트에 더 큰 영향을 미친다고 가정할 수 있다. 왜냐하면 LSTM-LMC 에이전트는 노이즈에서 발생하는 에러가 누적되도록 더 긴 히스토리를 고려하기 때문이다. 이후 실험 섹션에서 이러한 무작위화의 효과를 자세히 논의할 것이다.
3. 실험
표 I에 열거된 하이퍼 파라미터로 다섯 가지 유형의 에이전트(FOV가 90°, 120°, 180°인 CNN 에이전트, FOV가 90°인 LSTM 에이전트, FOV가 90°인 LSTM-LMC 에이전트)를 훈련시켰다.
각 에이전트는 300만개의 환경 스텝에 맞게 훈련되었다.
A. 성능
100회의 평가 에피소드에서 훈련된 에이전트가 평가되었다. 평가 세션의 무작위 시드를 수정하여 모든 에이전트가 동일한 출발 위치와 초기 목표 포지션을 가지고 동일한 맵에서 평가되도록 하였다. 평가 결과는 다음 표 2와 같이 요약될 수 있다.
표 2는 다양한 FOV와 아키텍처를 갖는 에이전트들의 성능을 나타내고 있다. 표 2에 나타난 바와 같이, FOV가 감소함에 따라 CNN(메모리리스) 에이전트의 성능은 급격히 하락했다. 반면, FOV가 90°인 LSTM-LMC 에이전트는 통과된 경유지/목표의 개수 측면에서 다른 모든 에이전트, 심지어 FOV가 180°인 CNN 에이전트보다 성능이 우수했다. LSTM 에이전트는 120°인 CNN 에이전트는 능가했지만 180°인 에이전트를 능가하지는 못했다. 하지만, LSTM 에이전트는 에피소드가 끝날 때까지 가장 높은 생존율을 보였다.
B. 분석
제안하는 방법이 암묵적으로 주변 환경 및 다른 에이전트의 다이내믹에 대한 강력하고 정확한 모델을 구축하기 때문에, 다른 방법보다 우수한 성능을 보여준다고 가설을 세운다. 이하에서는 다음과 같이 통제된 시나리오에서 훈련된 에이전트의 행동을 분석하여 가설을 검증한다.
도 5는 본 발명의 일실시예에 있어서, 분석 시나리오들의 예를 도시한 도면이다. 도 5에서 상단은 경로상에 예정에 없던 벽이 생겨 경로가 차단된 경우의 시나리오를, 중단은 다른 에이전트와 수직으로 가로질러 이동하는 교차 시나리오를, 하단은 마주보고 오는 다른 에이전트를 피하도록 하는 통과 시나리오에 따른 에이전트들의 움직임의 예를 나타내고 있다. 어두운 선들은 글로벌 플래너로부터의 경로를, 밝은 선들은 에이전트들의 궤도를, 숫자들은 타임스텝들을 각각 나타내고 있다. 본 발명의 일실시예에 따른 LSTM-LMC FOV 90°는 에이전트들 사이의 벽과 대칭 깨짐(symmetry breaking)을 우회하는데 있어 탁월한 성능을 보여준다.
1) 차단된 경로 시나리오: 제안된 에이전트가 환경 구조를 기억하는지 확인하기 위해 '차단된 경로 시나리오'를 설계했다. 도 5의 상단은 차단된 경로 시나리오에 관한 것으로, 차단된 경로 시나리오에서 글로벌 플래너의 경로는 벽에 의해 차단된다. 벽의 상단이나 하단에 무작위로 배치된 슬릿(slit)이 있어, 원래 경로가 차단된 것을 기억하면서, 에이전트는 어떤 면이 열려 있는지 탐색해야 한다. 50개의 에피소드 동안, 아래 표 3에 나타난 바와 같이, 본 발명의 일실시예에 따른 LSTM-LMC FOV 90°의 에이전트가 가장 높은 성공률을 달성했다.
정성적으로, 본 발명의 일실시예에 따른 LSTM-LMC FOV 90°의 에이전트는 벽의 양쪽을 효율적으로 탐색했고, 차단된 원래 경로가 FOV를 벗어날 때 원래 경로로 돌아가지 않았다. 반면 CNN 에이전트들은 차단된 원래 경로가 그들의 FOV 밖으로 벗어나자마자 그들의 원래 경로로 복귀하려 했다. LSTM 에이전트는 차단된 경로를 통과할 수 있었지만, 최고의 CNN 에이전트(CNN FOV 180°)를 능가하지는 못했다.
2) 교차 & 통과 시나리오 : 움직이는 장애물의 다이내믹 모델링에 있어서 메모리와 로컬-맵 크리틱의 영향을 확인하기 위해, '교차'(도 5의 중단) 및 '통과'(도 5의 하단) 실험을 실시하였다. 교차 시나리오에서 두 명의 에이전트가 직교 경로(파란색 에이전트는 위나 아래 쪽에 무작위로 위치함)를 추구하고, 에이전트는 동일한 경로를 따르지만 통과 시나리오에서는 반대 방향으로 따른다. 에이전트들은 두 시나리오 모두에서 대칭을 깨기 위해 다른 에이전트의 미래 경로를 모델링해야 한다. 각 에이전트에 대해 각 시나리오를 50회 실시했으며, 결과는 앞서 표 3에 요약되어 있다. LSTM-LMC 및 LSTM 에이전트는 교차 시나리오에서 가장 높은 성공률을 달성했고, 모든 에이전트들이 통과 시나리오에서 성공률 측면에서 잘 수행되었다. 그러나 정성적으로 CNN 에이전트는 도 5의 중단 및 하단에 나타난 바와 같이 종종 양 시나리오(교차 및 통과)에서 대칭을 깨지 못했다. 반대로, 본 발명의 일실시예에 따른 LSTM-LMC FOV 90°에서는 모든 에피소드들에서 안정된 대칭을 보여주었다.
C. 하드웨어 실험
실세계에서 본 발명의 일실시예에 따른 에이전트 학습 방법의 성능을 확인하기 위해 하드웨어 실험을 진행하였다.
1) 하드웨어 설정: 도 1을 통해 설명한 바와 같이 4개의 바퀴를 갖는 모바일 로봇 플랫폼을 구축했다. 이러한 모바일 로봇 플랫폼에는 NVIDIA Jetson TX-2가 메인 프로세서로 탑재됐으며, FOV가 90°인 Intel Realsense D435 RGB-D 카메라 1대가 장착됐다. 본 실험에서, 에이프릴태그(Apriltag)와 휠 주행거리 측정기가 로컬리제이션을 위해 사용되었다. 하지만, 로컬리제이션을 위해 GPS, 초광대역(ultrawideband) 또는 비주얼 로컬리제이션(visual localization)과 같은 다른 방법이 사용될 수도 있다. 이러한 모바일 로봇 플랫폼에는 본 발명의 실시예들에 따른 학습 방법에 의해 학습된 에이전트가 탑재될 수 있다.
2) 시뮬레이터에서 다이내믹 무작위화의 효과 : 실제 실내환경에서 무작위 훈련을 실시하거나 하지 않고, CNN 에이전트와 LSTM-LMC 에이전트들을 배치하였다. FOV가 제한된 에이전트들에게, 환경은 좁은 통로, 많은 커브, 그리고 계단이나 얇은 기둥과 같은 복잡한 장애물을 가지고 있기 때문에 환경은 상당히 어렵다. 또한, 노이즈가 많은 로컬리제이션은 안정적인 자율주행을 방해한다. 각 에이전트에 대해 3가지 실험을 수행했으며 결과는 아래 표 4와 같이 나타났다.
무작위화를 하거나 하지 않은 CNN 에이전트는 둘 다 성능이 좋지 않고, 에피소드 초기 단계에서 장애물과 충돌한다. 또한, CNN 에이전트는 다이내믹 무작위화로부터 의미 있는 장점을 보여주지 못했다. 한편, 예상했던 대로, 다이내믹 무작위화가 없는 LSTM-LMC 에이전트는 실세계의 노이즈로부터 더 많은 어려움을 겪었다. 노이즈는 불안정한 움직임을 보이면서 충돌이나 느린 자율주행을 일으킨다. 다이내믹 무작위화를 사용하는 LSTM-LMC 에이전트는 안정적인 성능을 보인 유일한 에이전트였다.
3) 혼잡한 실세계 환경에서의 자율주행 : 실제 환경에서 본 발명의 일실시예에 따른 에이전트 학습 방법의 전반적인 성능을 확인하기 위해, 혼잡한 환경에 다이내믹 무작위화를 사용하는 LSTM-LMC 에이전트를 배치했다. 로봇은 7m의 직선 경로를 반복했고, 2명의 참가자가 교차, 통과하거나 로봇의 경로를 방해했다. 이 로봇은 방해를 받는 상황에서도 12개의 연속된 경로(약 84m)를 완주할 수 있었다.
도 6은 본 발명의 일실시예에 있어서, 컴퓨터 장치의 예를 도시한 블록도이다. 일례로, 본 발명의 실시예들에 따른 에이전트 학습 방법은 도 6을 통해 도시된 컴퓨터 장치(600)에 의해 실행될 수 있다. 이러한 컴퓨터 장치(600)는 도 6에 도시된 바와 같이, 메모리(610), 프로세서(620), 통신 인터페이스(630) 그리고 입출력 인터페이스(640)를 포함할 수 있다. 메모리(610)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(610)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(600)에 포함될 수도 있다. 또한, 메모리(610)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(610)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(610)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(630)를 통해 메모리(610)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(660)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(600)의 메모리(610)에 로딩될 수 있다.
프로세서(620)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(610) 또는 통신 인터페이스(630)에 의해 프로세서(620)로 제공될 수 있다. 예를 들어 프로세서(620)는 메모리(610)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(630)은 네트워크(660)를 통해 컴퓨터 장치(600)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(600)의 프로세서(620)가 메모리(610)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(630)의 제어에 따라 네트워크(660)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(660)를 거쳐 컴퓨터 장치(600)의 통신 인터페이스(630)를 통해 컴퓨터 장치(600)로 수신될 수 있다. 통신 인터페이스(630)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(620)나 메모리(610)로 전달될 수 있고, 파일 등은 컴퓨터 장치(600)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
입출력 인터페이스(640)는 입출력 장치(650)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(640)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(650)는 컴퓨터 장치(600)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(600)는 도 6의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(600)는 상술한 입출력 장치(650) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
통신 방식은 제한되지 않으며, 네트워크(660)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 블루투스(Bluetooth)나 NFC(Near Field Communication)와 같은 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(660)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(660)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
도 7은 본 발명의 일실시예에 따른 에이전트 학습 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 에이전트 학습 방법은 일례로 앞서 설명한 컴퓨터 장치(600)에 의해 수행될 수 있다. 예를 들어, 컴퓨터 장치(600)의 프로세서(620)는 메모리(610)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(620)는 컴퓨터 장치(600)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(600)가 도 7의 방법이 포함하는 단계들(710 내지 750)을 수행하도록 컴퓨터 장치(600)를 제어할 수 있다.
기본적으로 컴퓨터 장치(600)는 심층 강화 학습을 위한 시뮬레이션상에서 액터-크리틱 알고리즘을 통해 에이전트를 학습시킬 수 있다. 일례로, 컴퓨터 장치(600)는 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 에이전트의 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력할 수 있다. 이때, 제2 정보는 제1 정보와 추가 정보를 포함 이러한 에이전트의 학습을 위한 구체적인 일실시예로, 아래 단계들(710 내지 750)이 컴퓨터 장치(600)에 의해 수행될 수 있다.
단계(710)에서 컴퓨터 장치(600)는 뎁스 스캔, 에이전트의 속도 및 타임스케일 중 적어도 하나에 노이즈를 추가하는 다이내믹 무작위화를 통해 시뮬레이션을 위한 정보를 생성할 수 있다. 이러한 다이내믹 무작위화에 대해서는 앞서 자세히 설명한 바 있다.
단계(720)에서 컴퓨터 장치(600)는 생성된 정보 중 뎁스 스캔과 속도가 투영된 동일한 사이즈의 벡터들에 성분 내적을 적용하여 관찰 특징을 구현할 수 있다.
단계(730)에서 컴퓨터 장치(600)는 복수의 콘볼루션 레이어를 통과한 로컬 맵 텐서(tensor)에 글로벌 에버리지 풀링을 적용하여 로컬-맵 특징을 구현할 수 있다.
단계(740)에서 컴퓨터 장치(600)는 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 관찰 특징 및 경유지를 입력할 수 있다. 여기서 관찰 특징과 경유지는 상술한 제1 정보에 대응할 수 있다.
단계(750)에서 컴퓨터 장치(600)는 액터-크리틱 알고리즘에서 에이전트의 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 관찰 특징, 경유지 및 로컬-맵 특징을 입력할 수 있다. 여기서, 로컬-맵 특징은 상술한 추가 정보에 대응할 수 있다. 다시 말해, 컴퓨터 장치(600)는 제1 정보로서 관찰 특징 및 경유지를 액터 네트워크에 입력하고, 제1 정보로서의 관찰 특징 및 경유지와 추가 정보로서의 로컬-맵 특징을 크리틱에 입력할 수 있다.
여기서, 로컬-맵 특징은 복수의 콘볼루션 레이어를 통과한 로컬 맵 텐서(tensor)에 글로벌 에버리지 풀링을 적용하여 구현될 수 있다. 예를 들어, 로컬-맵 특징은 전체 장애물 배치 상황, 이동하는 장애물의 속도 및 상기 이동하는 장애물의 목표 중 적어도 하나의 정보를 포함할 수 있다. 또한, 관찰 특징은 뎁스 스캔과 속도가 투영된 동일한 크기의 벡터들에 성분 내적(elementwise product)을 적용하여 구현될 수 있다. 경유지는 랜덤하게 설정될 수 있다.
단계(760)에서 컴퓨터 장치(600)는 액터 네트워크와 크리틱 각각에서 입력된 정보들이 연결(concatenation)된 시계열적인 데이터를 액터 네트워크와 크리틱 각각이 포함하는 순환 신경망에 입력할 수 있다. 이때, 컴퓨터 장치(600)는 순환 신경망에 저장된 이전의 센서 값을 통해 에이전트가 현재 시야 밖의 환경에 대한 정보를 획득하여 동작하도록 학습할 수 있다. 일례로, 순환 신경망은 LSTM(Long-Short Term Memory) 방식의 순환 신경망을 포함할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서, 액터-크리틱 알고리즘의 정책망과 가치망 중 가치망에 실세계에서 얻기 힘들지만 학습에 도움이 되는 정보를 시뮬레이션의 상태에서 직접 추출해 제공함으로써, 학습 시 사용되는 가치망에서는 에이전트의 행동의 가치에 대한 더 정확한 평가를 내릴 수 있도록 하여 정책망의 성능을 향상시킬 수 있다. 또한, LSTM(Long-Short Term Memory)과 같은 순환 신경망(Recurrent Neural Network)의 메모리를 활용하여 에이전트가 현재 시야 밖의 환경에 대한 정보를 순환 신경망에 저장된 이전의 센서 값을 통해 획득할 수 있도록 함으로써, 제한된 시야를 갖는 에이전트도 보다 효과적으로 자율주행이 가능하도록 할 수 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
Claims (12)
- 적어도 하나의 프로세서를 포함하는 컴퓨터 장치의 에이전트 학습 방법에 있어서,상기 적어도 하나의 프로세서에 의해, 심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서 액터-크리틱(actor-critic) 알고리즘을 통해 에이전트를 학습시키는 단계를 포함하고,상기 학습시키는 단계는,상기 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 상기 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력하고,상기 제2 정보는 상기 제1 정보와 추가 정보를 포함하는 것을 특징으로 하는 에이전트 학습 방법.
- 제1항에 있어서,상기 학습시키는 단계는,상기 제1 정보로서 관찰 특징 및 경유지를 상기 액터 네트워크에 입력하고, 상기 제1 정보로서의 상기 관찰 특징 및 상기 경유지와 상기 추가 정보로서의 로컬-맵 특징을 상기 크리틱에 입력하는 것을 특징으로 하는 에이전트 학습 방법.
- 제2항에 있어서,상기 로컬-맵 특징은 복수의 콘볼루션 레이어를 통과한 로컬 맵 텐서(tensor)에 글로벌 에버리지 풀링을 적용하여 구현되는 것을 특징으로 하는 에이전트 학습 방법.
- 제2항에 있어서,상기 로컬-맵 특징은 전체 장애물 배치 상황, 이동하는 장애물의 속도 및 상기 이동하는 장애물의 목표 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 에이전트 학습 방법.
- 제2항에 있어서,상기 관찰 특징은 뎁스 스캔과 속도가 투영된 동일한 크기의 벡터들에 성분 내적(elementwise product)을 적용하여 구현되는 것을 특징으로 하는 에이전트 학습 방법.
- 제1항에 있어서,상기 액터 네트워크 및 상기 크리틱 각각은 시계열적인 데이터를 입력으로 받는 순환 신경망(Recurrent Neural Network)을 포함하고,상기 학습시키는 단계는,상기 순환 신경망에 저장된 이전의 센서 값을 통해 상기 에이전트가 현재 시야 밖의 환경에 대한 정보를 획득하여 동작하도록 학습시키는 것을 특징으로 하는 에이전트 학습 방법.
- 제6항에 있어서,상기 순환 신경망은 LSTM(Long-Short Term Memory) 방식의 순환 신경망을 포함하는 것을 특징으로 하는 에이전트 학습 방법.
- 제1항에 있어서,상기 학습시키는 단계는,뎁스 스캔, 에이전트의 속도 및 타임스케일 중 적어도 하나에 노이즈를 추가하는 다이내믹 무작위화(dynamics randomization)를 통해 상기 시뮬레이션을 위한 정보를 생성하는 것을 특징으로 하는 에이전트 학습 방법.
- 컴퓨터 장치와 결합되어 제1항 내지 제8항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 제1항 내지 제8항 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체.
- 제1항 내지 제8항 어느 한 항의 방법을 통해 학습된 에이전트가 탑재된 모바일 로봇 플랫폼.
- 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서에 의해,심층 강화 학습(Deep Reinforcement Learning, DRL)을 위한 시뮬레이션상에서 액터-크리틱(actor-critic) 알고리즘을 통해 에이전트를 학습시키고,상기 에이전트를 학습시키기 위해, 상기 액터-크리틱 알고리즘에서 에이전트의 행동을 결정하는 평가망인 액터 네트워크에 제1 정보를, 상기 행동이 기설정된 보상을 최대화하는데 얼마나 도움이 되는가를 평가하는 가치망인 크리틱에 제2 정보를 입력하고,상기 제2 정보는 상기 제1 정보와 추가 정보를 포함하는 것을 특징으로 하는 컴퓨터 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021552641A JP7271702B2 (ja) | 2019-03-05 | 2020-02-06 | 深層強化学習に基づく自律走行エージェントの学習方法およびシステム |
EP20765632.3A EP3936963A4 (en) | 2019-03-05 | 2020-02-06 | AUTONOMOUS DRIVING AGENT TRAINING METHOD AND SYSTEM BASED ON DEEP REINFORCEMENT LEARNING |
US17/466,450 US20210397961A1 (en) | 2019-03-05 | 2021-09-03 | Method and system for training autonomous driving agent on basis of deep reinforcement learning |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190025284A KR102267316B1 (ko) | 2019-03-05 | 2019-03-05 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
KR10-2019-0025284 | 2019-03-05 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/466,450 Continuation US20210397961A1 (en) | 2019-03-05 | 2021-09-03 | Method and system for training autonomous driving agent on basis of deep reinforcement learning |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2020180014A2 true WO2020180014A2 (ko) | 2020-09-10 |
WO2020180014A3 WO2020180014A3 (ko) | 2020-12-03 |
Family
ID=72338692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2020/001692 WO2020180014A2 (ko) | 2019-03-05 | 2020-02-06 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210397961A1 (ko) |
EP (1) | EP3936963A4 (ko) |
JP (1) | JP7271702B2 (ko) |
KR (1) | KR102267316B1 (ko) |
WO (1) | WO2020180014A2 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112180927A (zh) * | 2020-09-27 | 2021-01-05 | 安徽江淮汽车集团股份有限公司 | 一种自动驾驶时域构建方法、设备、存储介质及装置 |
CN113110101A (zh) * | 2021-04-20 | 2021-07-13 | 济南大学 | 一种生产线移动机器人聚集式回收入库仿真方法及系统 |
CN113359771A (zh) * | 2021-07-06 | 2021-09-07 | 贵州大学 | 一种基于强化学习的智能自动驾驶控制方法 |
CN115361301A (zh) * | 2022-10-09 | 2022-11-18 | 之江实验室 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
CN117291845A (zh) * | 2023-11-27 | 2023-12-26 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117993580A (zh) * | 2024-04-03 | 2024-05-07 | 中国民航大学 | 一种基于多智能体协作的停机位分配方法、设备及介质 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
US20210295130A1 (en) * | 2020-03-19 | 2021-09-23 | Mohammad Rasoolinejad | Artificial intelligent agent rewarding method determined by social interaction with intelligent observers |
KR102461831B1 (ko) * | 2021-01-13 | 2022-11-03 | 부경대학교 산학협력단 | 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법 |
CN113253612B (zh) * | 2021-06-01 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶控制方法、装置、设备及可读存储介质 |
CN114397817A (zh) * | 2021-12-31 | 2022-04-26 | 上海商汤科技开发有限公司 | 网络训练、机器人控制方法及装置、设备及存储介质 |
CN114372563A (zh) * | 2022-01-10 | 2022-04-19 | 四川大学 | 基于混合脉冲强化学习网络结构的机器人控制方法及系统 |
CN114104005B (zh) * | 2022-01-26 | 2022-04-19 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114594793B (zh) * | 2022-03-07 | 2023-04-25 | 四川大学 | 一种基站无人机的路径规划方法 |
KR102670927B1 (ko) * | 2022-04-01 | 2024-05-30 | 전북대학교산학협력단 | 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼 |
CN115454085B (zh) * | 2022-09-26 | 2024-08-16 | 北京易航远智科技有限公司 | 基于导航地图的自动驾驶控制方法及自动驾驶控制装置 |
KR102689449B1 (ko) * | 2022-09-29 | 2024-07-30 | 국방과학연구소 | 복수의 위성을 제어하는 장치 및 그의 동작 방법 |
CN116202550B (zh) * | 2023-05-06 | 2023-07-11 | 华东交通大学 | 融合改进势场与动态窗口的汽车路径规划方法 |
CN117824663B (zh) * | 2024-03-05 | 2024-05-10 | 南京思伽智能科技有限公司 | 一种基于手绘场景图理解的机器人导航方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101539270B1 (ko) | 2015-02-27 | 2015-07-24 | 군산대학교산학협력단 | 충돌회피 및 자율주행을 위한 센서융합 기반 하이브리드 반응 경로 계획 방법, 이를 수행하기 위한 기록 매체 및 이동로봇 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108027897B (zh) * | 2015-07-24 | 2022-04-12 | 渊慧科技有限公司 | 利用深度强化学习的连续控制 |
WO2018071392A1 (en) | 2016-10-10 | 2018-04-19 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
CN110235148B (zh) * | 2016-11-03 | 2024-03-19 | 渊慧科技有限公司 | 训练动作选择神经网络 |
DK3535705T3 (da) * | 2016-11-04 | 2022-05-30 | Deepmind Tech Ltd | Forstærkningslæring med hjælpeopgaver |
JP2018126797A (ja) * | 2017-02-06 | 2018-08-16 | セイコーエプソン株式会社 | 制御装置、ロボットおよびロボットシステム |
JP6856575B2 (ja) * | 2017-05-12 | 2021-04-07 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | 能動的探索なしの強化学習に基づく制御ポリシー学習及び車両制御方法 |
-
2019
- 2019-03-05 KR KR1020190025284A patent/KR102267316B1/ko active IP Right Grant
-
2020
- 2020-02-06 JP JP2021552641A patent/JP7271702B2/ja active Active
- 2020-02-06 EP EP20765632.3A patent/EP3936963A4/en active Pending
- 2020-02-06 WO PCT/KR2020/001692 patent/WO2020180014A2/ko unknown
-
2021
- 2021-09-03 US US17/466,450 patent/US20210397961A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101539270B1 (ko) | 2015-02-27 | 2015-07-24 | 군산대학교산학협력단 | 충돌회피 및 자율주행을 위한 센서융합 기반 하이브리드 반응 경로 계획 방법, 이를 수행하기 위한 기록 매체 및 이동로봇 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112180927A (zh) * | 2020-09-27 | 2021-01-05 | 安徽江淮汽车集团股份有限公司 | 一种自动驾驶时域构建方法、设备、存储介质及装置 |
CN113110101A (zh) * | 2021-04-20 | 2021-07-13 | 济南大学 | 一种生产线移动机器人聚集式回收入库仿真方法及系统 |
CN113110101B (zh) * | 2021-04-20 | 2022-06-21 | 济南大学 | 一种生产线移动机器人聚集式回收入库仿真方法及系统 |
CN113359771A (zh) * | 2021-07-06 | 2021-09-07 | 贵州大学 | 一种基于强化学习的智能自动驾驶控制方法 |
CN115361301A (zh) * | 2022-10-09 | 2022-11-18 | 之江实验室 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
US12021751B2 (en) | 2022-10-09 | 2024-06-25 | Zhejiang Lab | DQN-based distributed computing network coordinate flow scheduling system and method |
CN117291845A (zh) * | 2023-11-27 | 2023-12-26 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117291845B (zh) * | 2023-11-27 | 2024-03-19 | 成都理工大学 | 一种点云地面滤波方法、系统、电子设备及存储介质 |
CN117993580A (zh) * | 2024-04-03 | 2024-05-07 | 中国民航大学 | 一种基于多智能体协作的停机位分配方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102267316B1 (ko) | 2021-06-21 |
WO2020180014A3 (ko) | 2020-12-03 |
JP7271702B2 (ja) | 2023-05-11 |
KR20200108527A (ko) | 2020-09-21 |
EP3936963A2 (en) | 2022-01-12 |
JP2022524494A (ja) | 2022-05-06 |
EP3936963A4 (en) | 2023-01-25 |
US20210397961A1 (en) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020180014A2 (ko) | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 | |
Francis et al. | Long-range indoor navigation with PRM-RL | |
Chen et al. | Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety | |
Van Den Berg et al. | Interactive navigation of multiple agents in crowded environments | |
JP7130062B2 (ja) | 経路決定方法 | |
CN113433937B (zh) | 基于启发式探索的分层导航避障系统、分层导航避障方法 | |
Kästner et al. | Deep-reinforcement-learning-based semantic navigation of mobile robots in dynamic environments | |
KR20210063791A (ko) | 장애물의 특성을 고려한 dqn 및 slam 기반의 맵리스 내비게이션 시스템 및 그 처리 방법 | |
Lei et al. | A bio-inspired neural network approach to robot navigation and mapping with nature-inspired algorithms | |
Xu et al. | Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data | |
Lambert et al. | Tsukuba challenge 2017 dynamic object tracks dataset for pedestrian behavior analysis | |
Xue et al. | Navigation system with SLAM-based trajectory topological map and reinforcement learning-based local planner | |
Xu et al. | Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning | |
Kohlbrecher et al. | Robocuprescue 2014-robot league team hector Darmstadt (Germany) | |
JPH07225612A (ja) | 時間軸を探索空間に取り入れた経路探索方法,及び装置 | |
WO2023054929A1 (ko) | 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램 | |
Lu et al. | LPNet: A reaction-based local planner for autonomous collision avoidance using imitation learning | |
Silva et al. | Simulation-based usability evaluation of visually impaired outdoor navigation using sensor fusion | |
Nada et al. | Teleoperated Autonomous Vehicle | |
Ochs et al. | One Stack to Rule them All: To Drive Automated Vehicles, and Reach for the 4th level | |
Liu et al. | Research on real-time positioning and map construction technology of intelligent car based on ROS | |
Kangutkar et al. | ROS navigation stack for smart indoor agents | |
Jönsson et al. | Monte-carlo tree search in continuous action spaces for autonomous racing: F1-tenth | |
JP7459238B2 (ja) | ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム | |
Nayyar et al. | Aiding emergency evacuations using obstacle-aware path clearing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20765632 Country of ref document: EP Kind code of ref document: A2 |
|
ENP | Entry into the national phase |
Ref document number: 2021552641 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2020765632 Country of ref document: EP Effective date: 20211005 |