WO2023013126A1 - 情報処理装置、学習モデル、及び情報処理方法 - Google Patents

情報処理装置、学習モデル、及び情報処理方法 Download PDF

Info

Publication number
WO2023013126A1
WO2023013126A1 PCT/JP2022/009057 JP2022009057W WO2023013126A1 WO 2023013126 A1 WO2023013126 A1 WO 2023013126A1 JP 2022009057 W JP2022009057 W JP 2022009057W WO 2023013126 A1 WO2023013126 A1 WO 2023013126A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
obstacle
controlled device
position information
information processing
Prior art date
Application number
PCT/JP2022/009057
Other languages
English (en)
French (fr)
Inventor
キリル ファンヘールデン
良 寺澤
康宏 松田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023013126A1 publication Critical patent/WO2023013126A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Definitions

  • This technology relates to an information processing device, a learning model, and an information processing method.
  • neural networks have been used for motion planning of controlled devices such as robots.
  • Patent Literature 1 For example, in the techniques disclosed in Patent Literature 1, Patent Literature 2, Non-Patent Literature 1, and Non-Patent Literature 2, machine learning is performed in the neural network by inputting map data regarding the environment around the robot into the neural network. is disclosed.
  • Patent Document 1 Patent Document 2, Non-Patent Document 1, and Non-Patent Document 2
  • the entire environment is input to the neural network as map data. Therefore, there tends to be more neurons for grasping the environment. As the number of neurons increases, the problem arises that the processing time required for the neural network to learn and infer increases.
  • Non-Patent Document 2 a 3D voxel map, which is a feature amount of the entire environment, is compressed into a data set, but the above problem is not solved because the entire environment is still grasped.
  • the main purpose of the present technology is to provide an information processing device, a learning model, and an information processing method that reduce the learning time and estimation time by reducing the size of the neural network.
  • an information processing device comprising a learning model that outputs the position information that is input and updated so that the controlled device avoids the obstacle and moves to the destination.
  • the learning model may output the position information for each step in which the controlled device moves.
  • the location information may include coordinate information where the controlled device is located.
  • the position information may include orientation information of the controlled device.
  • the learning model may be a neural network.
  • the controlled device may be a robot.
  • the obstacle information may include the distance and direction from each of the plurality of links that the robot has to the nearest obstacle.
  • the control apparatus may further include an obstacle information generation unit that acquires environment information about an environment around the controlled device and generates the obstacle information.
  • the obstacle information generator may generate the obstacle information using a signed distance field.
  • the obstacle information generation unit may convert an occupancy grid into a Voronoi grid and generate the obstacle information based on the Voronoi grid.
  • the information processing device may further include a storage unit that stores the obstacle information, and the learning model may receive the obstacle information stored in the storage unit and output the position information.
  • the present technology includes current position information of a controlled device, target position information including position information of a movement destination of the controlled device, and obstacles including the distance and direction from the controlled device to the nearest obstacle.
  • a learning model receives information and outputs updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • the present technology includes a computer learning using a learning model, and the learning model includes target position information including current position information of a controlled device and position information of a movement destination of the controlled device. , and obstacle information including the distance and direction from the controlled device to the nearest obstacle is input, and the position updated so that the controlled device avoids the obstacle and moves to the destination An information processing method for outputting information is provided.
  • the present technology it is possible to provide an information processing device, a learning model, and an information processing method that reduce the learning time and estimation time by reducing the size of the neural network.
  • the effects described herein are not necessarily limited, and may be any of the effects described for the present technology.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to an embodiment of the present technology
  • FIG. It is a block diagram showing an example of hardware composition of an information processor concerning one embodiment of this art.
  • 1 is a block diagram showing a configuration example of an information processing device according to an embodiment of the present technology;
  • FIG. It is a schematic diagram showing an example of processing of an obstacle information generation part concerning one embodiment of this art.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to an embodiment of the present technology;
  • FIG. 2 is a flowchart illustrating an example of an information processing method according to an embodiment of the present technology;
  • neural networks are used for motion planning of controlled devices such as robots.
  • 3D or 2D map data about the environment around the controlled device is input to this neural network.
  • voxel data, polygon data, or pixel data are used as map data.
  • This map data generally contains information about the entire environment. In order to capture many features of the environment with high resolution, large size map data is required. Since information about the entire environment is input to the neural network, there is a problem that the number of neurons in the input layer increases and the size of the neural network increases accordingly. As a result, the processing time for neural networks to learn and infer increases.
  • Example 1 of Information Processing Apparatus current position information of a controlled device, target position information including position information of a movement destination of the controlled device, and obstacle information including the distance and direction from the controlled device to the closest obstacle are Provided is an information processing device comprising a learning model that outputs the position information that is input and updated so that the controlled device avoids the obstacle and moves to the destination.
  • FIG. 1 is a conceptual diagram illustrating a learning model 11 included in an information processing device according to an embodiment of the present technology.
  • a learning model 11 included in an information processing apparatus according to an embodiment of the present technology includes target position information including current position information I1 of a controlled device and position information of a destination of the controlled device. I2 and obstacle information I3 including the distance and direction of the closest obstacle from the controlled device are input. Then, the learning model 11 outputs the position information O1 updated so that the controlled device avoids the obstacle and moves to the destination.
  • the position information I1, I2, and O1 that are input to the learning model 11 and output by the learning model 11 include coordinate information where the controlled device is located.
  • the coordinate information can be X, Y, and Z coordinates in 3D space or X and Y coordinates in 2D space.
  • the position information I1, I2, and O1 includes attitude information of the controlled device.
  • the posture information may be, for example, quaternions of a plurality of joints included in the controlled device.
  • the target position information I2 input to the learning model 11 includes position information of the movement destination of the controlled device.
  • the controlled device moves toward this destination.
  • the target position information I2 may be input by the user, or may be determined autonomously by the controlled device.
  • the controlled device may be, for example, a robot.
  • the robots include, for example, industrial robots, cleaning robots, autonomous robot agents, self-driving robots, self-driving cars, and the like.
  • robots include all robots that move around obstacles.
  • the obstacle information I3 input to the learning model 11 includes the distance and direction from each of the multiple links provided by the robot to the closest obstacle. This will be described with reference to FIG. FIG. 2 is a schematic diagram illustrating processing of an information processing device according to an embodiment of the present technology. As shown in FIG. 2, a distance vector V indicates the distance and direction from each of the plurality of links L of the robot R to the surface of the nearest obstacle O. As shown in FIG. This distance vector V can be input to the learning model 11 as the obstacle information I3.
  • the learning model 11 can output position information for each step in which the controlled device moves.
  • the learning model 11 does not output a series of moving routes consisting of a plurality of steps, but inputs the obstacle information I3 and outputs the updated position information O1 for each step.
  • the controlled device avoids the obstacle and moves to the destination. Since a series of movement routes consisting of a plurality of steps is not output, the size of output data is reduced. As a result, the size of the learning model 11 is further reduced.
  • a learning model 11 can be generated using data including the position information updated so that the controlled device avoids the obstacle and moves to the destination.
  • the method of generating the learning model 11 is not particularly limited, for example, supervised learning using teacher data in which the obstacle information I3 and the position information O1 are associated may be used.
  • reinforcement learning that provides rewards when avoiding obstacles and moving may be used.
  • reinforcement learning for example, Bandit algorithm, Q-learning, Salsa, Monte Carlo method, etc. can be used.
  • an artificial neural network (ANN: Artificial Neural Network), a deep neural network (DNN: Deep Neural Network), a convolutional neural network (CNN: Convolutional Neural Network), a recurrent neural network (RNN: Recurrent Neural Network), etc.
  • various neural networks may be used. Decision tree learning such as ID3 or random forest, association rule learning, or the like may be used.
  • Genetic Programming GP
  • Inductive Logic Programming ILP
  • Fuzzy Algorithm Fuzzy Algorithm
  • Evolutionary Algorithm (EA), Reinforcement Learning
  • Clustering Bayesian Network, etc.
  • it may be a combination of these techniques or a technique developed by using deep learning technology.
  • FIG. 3 is a block diagram showing a configuration example of the information processing device 100 according to an embodiment of the present technology.
  • an information processing device 100 according to an embodiment of the present technology includes an input unit 20, a learning unit 10, and an output unit 30. Note that this configuration is merely an example, and can be flexibly modified according to specifications and operations.
  • the input unit 20 accepts information to be input to the learning model 11.
  • This information includes, for example, position information of the controlled device, user operation information, obstacle information, image information, and the like.
  • the learning unit 10 has a function of learning position information using a learning model.
  • the learning unit 10 performs learning based on obstacle information including the distance and direction from the controlled device to the nearest obstacle, and updates so that the controlled device avoids the obstacle and moves to the destination. output the position information received.
  • the output unit 30 drives the controlled device based on the position information O1 output by the learning model 11 . As a result, the controlled device changes its position and attitude.
  • the information processing apparatus 100 may include a control unit that controls each component.
  • This control unit can be realized by using, for example, a CPU or a GPU.
  • the information processing device 100 can be realized by using programs and hardware.
  • a hardware configuration of the information processing apparatus 100 will be described with reference to FIG.
  • FIG. 4 is a block diagram showing a hardware configuration example of the information processing device 100 according to an embodiment of the present technology.
  • the information processing apparatus 100 can include a GPU 101, a RAM 102, a storage 103, a display section 104, a communication section 105, an input section 20, an output section 30, and the like as components. Each component is connected by a bus as a data transmission line, for example.
  • the GPU 101 controls each component of the information processing device 100 .
  • the GPU 101 can also function as the learning unit 10 .
  • the learning model 11 is implemented by, for example, a program.
  • the GPU 101 functions as the learning unit 10 by reading this program.
  • the RAM 102 temporarily stores, for example, programs executed by the GPU 101.
  • the storage 103 stores various data necessary for processing by the GPU 101, such as learning models.
  • the storage 103 can be realized by using a storage device or the like, for example.
  • the display unit 104 displays information to the user.
  • the display unit 104 is implemented by, for example, an LCD (Liquid Crystal Display) or an OLED (Organic Light-Emitting Diode).
  • the communication unit 105 receives information transmitted from the controlled device.
  • the communication unit 105 has a function of communicating via an information communication network using communication technologies such as Wi-Fi, Bluetooth (registered trademark), and LTE (Long Term Evolution).
  • the input unit 20 can be realized by using, for example, a sensor, camera, keyboard, mouse, touch panel, joystick, or the like.
  • Sensors include, for example, optical sensors including imaging sensors and infrared sensors, acceleration sensors, gyro sensors, geomagnetic sensors, heat sensors, vibration sensors, GNSS (Global Navigation Satellite System) signal receivers, and the like.
  • optical sensors including imaging sensors and infrared sensors, acceleration sensors, gyro sensors, geomagnetic sensors, heat sensors, vibration sensors, GNSS (Global Navigation Satellite System) signal receivers, and the like.
  • the output unit 30 can be realized by using, for example, a motor.
  • the information processing apparatus 100 is, for example, a robot, a smartphone terminal, a tablet terminal, a mobile phone terminal, a PDA (Personal Digital Assistant), a PC (Personal Computer), a server, or a wearable terminal (HMD: Head Mounted Display, glasses-type HMD, watch-type terminal, band-type terminal, etc.).
  • a robot for example, a robot, a smartphone terminal, a tablet terminal, a mobile phone terminal, a PDA (Personal Digital Assistant), a PC (Personal Computer), a server, or a wearable terminal (HMD: Head Mounted Display, glasses-type HMD, watch-type terminal, band-type terminal, etc.).
  • the information processing device may be provided in the controlled device. That is, the learning model can be provided in a robot, which is an example of a controlled device.
  • the information processing device may further include an obstacle information generation unit that acquires environment information about an environment around the controlled device and generates the obstacle information.
  • an obstacle information generation unit that acquires environment information about an environment around the controlled device and generates the obstacle information.
  • FIG. 5 is a block diagram showing a configuration example of the information processing device 100 according to an embodiment of the present technology.
  • the information processing device 100 according to an embodiment of the present technology further includes an obstacle information generation unit 40.
  • the obstacle information generation unit 40 acquires the environment information about the environment around the controlled device obtained by the input unit 20, and generates the obstacle information.
  • the obstacle information generator 40 can be realized by using a GPU, for example.
  • the means for generating obstacle information is not particularly limited, for example, the obstacle information generation unit 40 can generate the obstacle information using a signed distance field (SDF).
  • SDF signed distance field
  • the SDF stores a distance grid in 3D space.
  • the distance grid contains distances to the nearest obstacles.
  • the technique described in Non-Patent Document 3 below can be used to calculate a distance grid based on 3D mesh data.
  • Non-Patent Document 3 “Generating Signed Distance Fields From Triangle Meshes”, IMM-TECHNICAL REPORT, 2002
  • the obstacle information generation unit 40 can convert an occupancy grid into a Voronoi grid and generate the obstacle information based on the Voronoi grid.
  • FIG. 6 is a schematic diagram showing an example of processing of the obstacle information generation unit 40 according to an embodiment of the present technology.
  • the obstacle information generation unit 40 converts the occupancy grid (FIG. 6A) obtained from, for example, a camera with a depth sensor or LiDER into a Voronoi grid (FIG. 6B).
  • a free space cell that does not contain an obstacle is given the number given to the closest cell among the numbers given to the cells that include the obstacle O.
  • the occupancy grid can be converted to a Voronoi grid using the technique described in Non-Patent Document 4 below.
  • Non-Patent Document 4 T.Cao, K.Tang, A.Mohamed, T.Tan, “Parallel Banding Algorithm to Compute Exact Distance Transform with the GPU”, Association for Computing Machinery, 2010, pp.83-90
  • the obstacle information generator 40 calculates the distance between each free space cell and the cell containing the nearest obstacle indicated by the number assigned to this cell, thereby obtaining the distance A grid (FIG. 6C) can be generated.
  • the distance from any point in the distance grid to the obstacle can be calculated.
  • This calculation method is not particularly limited, but in 2D space, for example, a bilinear interpolation method can be used. In 3D space, for example, Trilinear Interpolation can be used.
  • FIG. 7 is a schematic diagram showing an example of processing of the obstacle information generation unit 40 according to an embodiment of the present technology. As shown in FIG. 7, the distance from point P to the nearest obstacle is calculated to be 2.5.
  • a distance vector indicating the distance and direction from any point in the distance grid to the nearest obstacle is obtained by calculating the gradient of that point.
  • a distance vector is obtained by multiplying the distance and the normalization (gradient). Normalization here refers to normalization of the vector length to make the length equal to one.
  • a finite difference method and a gradient formula are used to obtain the gradient.
  • An information processing apparatus further includes a storage unit that stores the obstacle information, and the learning model is input with the obstacle information stored in the storage unit and Location information can be output.
  • FIG. 8 is a block diagram showing a configuration example of the information processing device 100 according to an embodiment of the present technology.
  • the information processing device 100 according to an embodiment of the present technology includes a storage unit 50 that stores obstacle information.
  • the learning model 11 receives obstacle information stored in the storage unit 50, and can output position information updated based on the obstacle information.
  • the storage unit 50 can be realized by using, for example, a storage device.
  • the processing speed of the information processing device 100 is improved because there is no need to acquire environment information about the environment surrounding the controlled device.
  • the storage unit 50 can store the shape of the obstacle as a whole.
  • the input of obstacle information from the input unit 20 is omitted.
  • the processing speed of the information processing apparatus 100 is improved.
  • a learning model according to an embodiment of this technology can be implemented by a program.
  • This program may be stored in another computer or computer system.
  • the computer can use cloud services that provide the functions of this program. Examples of cloud services include SaaS (Software as a Service), IaaS (Infrastructure as a Service), and PaaS (Platform as a Service).
  • SaaS Software as a Service
  • IaaS Infrastructure as a Service
  • PaaS Platinum as a Service
  • the learning model may be stored in an edge server.
  • a trained model trained in the cloud may be stored in the edge server, or a learning model stored in the edge server may be trained.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (e.g. floppy disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g. magneto-optical discs), Compact Disc Read Only Memory (CD-ROM), CD-ROM Includes R, CD-R/W, semiconductor memory (e.g. mask ROM, programmable ROM (PROM), erasable PROM (EPROM), flash ROM, random access memory (RAM)).
  • the program may also be delivered to the computer on any type of transitory computer readable medium. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. Transitory computer-readable media can deliver the program to the computer via wired communication channels, such as electrical wires and optical fibers, or wireless communication channels.
  • the present technology includes a computer learning using a learning model, wherein the learning model includes current position information of a controlled device, target position information including position information of a movement destination of the controlled device, and Obstacle information including the distance and direction from the controlled device to the nearest obstacle is input, and the controlled device receives the updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • the learning model includes current position information of a controlled device, target position information including position information of a movement destination of the controlled device, and Obstacle information including the distance and direction from the controlled device to the nearest obstacle is input, and the controlled device receives the updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • FIG. 9 is a flowchart illustrating an example of an information processing method according to an embodiment of the present technology.
  • an information processing method according to an embodiment of the present technology includes learning by a computer using a learning model (step S1).
  • the learning model includes current position information of the controlled device, target position information including position information of the movement destination of the controlled device, and obstacle information including the distance and direction from the controlled device to the nearest obstacle. is input, and the controlled device outputs the updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • the information processing method according to one embodiment of the present technology can use the technology according to the other embodiments described above. Therefore, the description for the second time is omitted.
  • this technique can also take the following structures.
  • Current position information of the controlled device, target position information including position information of the destination of the controlled device, and obstacle information including the distance and direction from the controlled device to the nearest obstacle are inputted,
  • An information processing apparatus comprising a learning model that outputs the position information updated so that the controlled device avoids the obstacle and moves to the destination.
  • the learning model outputs the position information for each step of movement of the controlled device;
  • the location information includes coordinate information where the controlled device is located;
  • the position information includes attitude information of the controlled device;
  • the learning model is a neural network; The information processing device according to any one of [1] to [4].
  • the controlled device is a robot; The information processing device according to any one of [1] to [5].
  • the obstacle information includes the distance and direction from each of the plurality of links provided by the robot to the nearest obstacle, The information processing device according to [6].
  • [8] Further comprising an obstacle information generation unit that acquires environment information about the environment around the controlled device and generates the obstacle information.
  • the obstacle information generator generates the obstacle information using a signed distance field.
  • the obstacle information generation unit converts an occupancy grid into a Voronoi grid, and generates the obstacle information based on the Voronoi grid.
  • the information processing device according to [8]. [11] further comprising a storage unit that stores the obstacle information;
  • the learning model receives the obstacle information stored in the storage unit and outputs the position information.
  • the information processing device according to any one of [1] to [10]. [12] Current position information of the controlled device, target position information including position information of the destination of the controlled device, and obstacle information including the distance and direction from the controlled device to the nearest obstacle are inputted, A learning model for outputting the updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • the learning model includes current position information of the controlled device, target position information including position information of the movement destination of the controlled device, and obstacle information including the distance and direction from the controlled device to the nearest obstacle. is input, and the controlled device outputs the updated position information so that the controlled device avoids the obstacle and moves to the destination.
  • Current position information of the controlled device, target position information including position information of the destination of the controlled device, obstacle information including the distance and direction from the controlled device to the closest obstacle, and the controlled device A learning model generating method for generating a learning model using data including the position information updated so that the moves to the destination while avoiding the obstacle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮すること。 被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。

Description

情報処理装置、学習モデル、及び情報処理方法
 本技術は、情報処理装置、学習モデル、及び情報処理方法に関する。
 従来、例えばロボットなどの被制御装置のモーションプランニングにニューラルネットワークが用いられている。
 例えば特許文献1、特許文献2、非特許文献1、及び非特許文献2において開示されている技術では、ロボットの周囲の環境に関するマップデータをニューラルネットワークに入力することにより、ニューラルネットワークに機械学習させることが開示されている。
国際公開第2019/239680号 特開2018-190241号公報
L.Bouhalassa,L.Benchikh,Z.Ahmed-Foitih,K.Bouzgou,"Path Planning of the Manipulator Arm FANUC Based on Soft Computing Techniques",International Review of Automatic Control,2020,13 (4) ,pp.171-181 A. H. Qureshi,J. Dong,A. Choe,M.C.Yip,"Neural Manipulation Planning on Constraint Manifolds",IEEE Robotics and Automation Letters,2020,Vol.5,No.4,pp.6089-6096
 しかし、上記の特許文献1、特許文献2、非特許文献1、及び非特許文献2においては、環境全体をマップデータとしてニューラルネットワークに入力している。そのため、環境を把握するためのニューロンが多くなる傾向にある。ニューロンが多くなると、ニューラルネットワークが学習したり推測したりする処理時間が長くなるという問題が生じる。非特許文献2では、環境全体の特徴量である3Dボクセルマップをデータセットに圧縮しているが、環境全体を把握することには変わりがないため、上記の問題が解決されていない。
 そこで、本技術は、ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮する情報処理装置、学習モデル、及び情報処理方法を提供することを主目的とする。
 本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。
 前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力してよい。
 前記位置情報は、前記被制御装置が位置する座標情報を含んでよい。
 前記位置情報は、前記被制御装置の姿勢情報を含んでよい。
 前記学習モデルは、ニューラルネットワークであってよい。
 前記被制御装置は、ロボットであってよい。
 前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含んでよい。
 前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備えてよい。
 前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成してよい。
 前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成してよい。
 前記情報処理装置は、前記障害物情報を記憶する記憶部をさらに備えており、前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力してよい。
 また、本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを提供する。
 また、本技術は、コンピュータが、学習モデルを用いて学習すること、を含み、前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。
 本技術によれば、ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮する情報処理装置、学習モデル、及び情報処理方法を提供できる。なお、ここに記載された効果は、必ずしも限定されるものではなく、本技術について説明されているいずれかの効果であってもよい。
本技術の一実施形態に係る情報処理装置が備える学習モデル11について説明する概念図である。 本技術の一実施形態に係る情報処理装置の処理を説明する概略図である。 本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。 本技術の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。 本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。 本技術の一実施形態に係る障害物情報生成部の処理の一例を示す概略図である。 本技術の一実施形態に係る障害物情報生成部の処理の一例を示す概略図である。 本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。 本技術の一実施形態に係る情報処理方法の一例を示すフローチャートである。
 以下、本技術を実施するための好適な実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が限定されることはない。また、本技術は、下記の実施例及びその変形例のいずれかを組み合わせることができる。
 特に断りがない限り、図面において、「上」とは図中の上方向又は上側を意味し、「下」とは、図中の下方向又は下側を意味し、「左」とは図中の左方向又は左側を意味し、「右」とは図中の右方向又は右側を意味する。また、図面を用いた説明においては、同一又は同等の要素又は部材には同一の符号を付し、重複する説明は省略する。
 説明は以下の順序で行う。
 1.本技術の概要
 2.第1の実施形態(情報処理装置の例1)
 3.第2の実施形態(情報処理装置の例2)
 4.第3の実施形態(情報処理装置の例3)
 5.第4の実施形態(学習モデルの例)
 6.第5の実施形態(情報処理方法の例)
<1.本技術の概要>
 従来、例えばロボットなどの被制御装置のモーションプランニングに、ニューラルネットワークが用いられている。このニューラルネットワークには、被制御装置の周囲の環境に関する3D又は2Dのマップデータが入力される。マップデータとして、例えば、ボクセルデータ、ポリゴンデータ、又はピクセルデータなどが用いられている。
 このマップデータには環境全体に関する情報が含まれていることが一般的である。環境の多くの特徴を高解像度でとらえるために、大きなサイズのマップデータが必要となっている。環境全体に関する情報がニューラルネットワークに入力されるため、入力層のニューロンが多くなり、それに応じてニューラルネットワークのサイズが大きくなるという問題がある。その結果、ニューラルネットワークが学習したり推測したりする処理時間が長くなる。
 本技術では、環境全体に関する情報が含まれるマップデータではなく、例えばロボットなどの被制御装置から最も近い障害物までの距離と方向を含む障害物情報が学習モデルに入力される。これにより、学習モデルのサイズが大幅に小さくなる。その結果、学習モデルによる学習時間及び推測時間が大幅に短縮される。また、学習及び推測などの処理に用いられるリソースが限られる小型ロボットにおいても、高速な処理が可能となる。
<2.第1の実施形態(情報処理装置の例1)>
 本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。
 本技術の一実施形態に係る情報処理装置が備える学習モデルについて、図1を参照しつつ説明する。図1は、本技術の一実施形態に係る情報処理装置が備える学習モデル11について説明する概念図である。図1に示されるとおり、本技術の一実施形態に係る情報処理装置が備える学習モデル11は、被制御装置の現在の位置情報I1、前記被制御装置の移動先の位置情報を含む目標位置情報I2、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報I3が入力される。そして、学習モデル11は、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報O1を出力する。
 学習モデル11に入力され、学習モデル11が出力する位置情報I1、I2、及びO1は、前記被制御装置が位置する座標情報を含む。前記座標情報は、3D空間におけるX、Y、及びZ座標でありうるし、2D空間におけるX及びY座標でありうる。
 あるいは、位置情報I1、I2、及びO1は、前記被制御装置の姿勢情報を含む。前記姿勢情報は、例えば、被制御装置が備える複数の関節のそれぞれのクォータニオンなどでありうる。
 学習モデル11に入力される目標位置情報I2は、被制御装置の移動先の位置情報を含む。被制御装置は、この移動先に向かって移動する。目標位置情報I2は、ユーザによって入力されてもよいし、被制御装置が自律的に決定してもよい。
 前記被制御装置は、例えばロボットであってよい。前記ロボットには、例えば、産業用ロボット、掃除用ロボット、自律ロボットエージェント、自動運転ロボット、自動運転車などが含まれる。その他、ロボットには、障害物を回避して移動するあらゆるロボットが含まれる。
 学習モデル11に入力される障害物情報I3は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む。このことについて図2を参照しつつ説明する。図2は、本技術の一実施形態に係る情報処理装置の処理を説明する概略図である。図2に示されるとおり、ロボットRが備える複数のリンクLのそれぞれから最も近い障害物Oの表面までの距離と方向が距離ベクトルVで示されている。この距離ベクトルVが、障害物情報I3として学習モデル11に入力されることができる。
 さらに、学習モデル11は、被制御装置が移動するステップ毎に位置情報を出力することができる。つまり、学習モデル11は、複数のステップからなる一連の移動経路を出力するのではなく、ステップ毎に、障害物情報I3が入力され、更新された位置情報O1を出力する。この障害物情報I3の入力と、ステップ毎の位置情報O1の出力が繰り返されることにより、被制御装置は障害物を回避して移動先に移動する。複数のステップからなる一連の移動経路を出力しないため、出力データのサイズが小さくなる。その結果、学習モデル11のサイズがさらに小さくなる。
 このように、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報、及び前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を含むデータを用いて、学習モデル11を生成することができる。学習モデル11の生成方法は特に限定されないが、例えば、障害物情報I3と位置情報O1とが関連付けられている教師データを用いた教師あり学習が用いられてよい。あるいは、障害物を回避して移動したときに報酬を与える強化学習が用いられてもよい。強化学習として、例えばバンディットアルゴリズム、Q学習、サルサ、モンテカルロ法などが用いられることができる。
 学習モデル11の様態は特に限定されないが、例えば、人工ニューラルネットワーク(ANN:Artificial Neural Network)、ディープニューラルネットワーク(DNN:Deep Neural Network)、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)など、各種のニューラルネットワークが用いられてよい。ID3やランダムフォレストなどの決定木学習、相関ルール学習などが用いられてもよい。あるいは、あるいは、遺伝的プログラミング(GP:Genetic Programming)、帰納論理プログラミング(ILP:Inductive Logic Programming)、ファジィアルゴリズム、進化的アルゴリズム(EA:Evolutionary Algorithm)、強化学習(Reinforcement Learning)、サポートベクターマシン(SVM:Support Vector Machine)、クラスタリング(Clustering)、ベイジアンネットワーク(Bayesian Network)などが用いられてよい。さらには、これらの手法を組み合わせたものや、これらを深層学習(Deep Learning)の技術を用いて発展させたものであってもよい。
 本技術の一実施形態に係る情報処理装置の構成例について図3を参照しつつ説明する。図3は、本技術の一実施形態に係る情報処理装置100の構成例を示すブロック図である。図3に示されるとおり、本技術の一実施形態に係る情報処理装置100は、入力部20、学習部10、及び出力部30を備える。なお、この構成はあくまで一例であり、仕様や運用に応じて柔軟に変形されることができる。
 入力部20は、学習モデル11に入力する情報を受け付ける。この情報には、例えば、被制御装置の位置情報、ユーザによる操作情報、障害物情報、画像情報などが含まれる。
 学習部10は、学習モデルを用いて、位置情報を学習する機能を有する。学習部10は、被制御装置から最も近い障害物までの距離と方向を含む障害物情報に基づく学習を行い、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する。
 出力部30は、学習モデル11が出力した位置情報O1に基づいて、被制御装置を駆動させる。これにより、被制御装置は、位置や姿勢を変更する。
 図示を省略するが、情報処理装置100は、それぞれの構成要素を制御する制御部を備えていてよい。この制御部は、例えばCPUやGPUなどが用いられることにより実現できる。
 本技術の一実施形態に係る情報処理装置100は、プログラム及びハードウェアを利用することによって実現できる。情報処理装置100のハードウェア構成について図4を参照しつつ説明する。図4は、本技術の一実施形態に係る情報処理装置100のハードウェア構成例を示すブロック図である。図4に示されるとおり、情報処理装置100は、構成要素として、GPU101、RAM102、ストレージ103、表示部104、通信部105、入力部20、及び出力部30などを備えることができる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
 GPU101は、情報処理装置100のそれぞれの構成要素を制御する。GPU101は、学習部10として機能することもできる。学習モデル11は、例えばプログラムにより実現される。GPU101はこのプログラムを読み込むことにより学習部10として機能する。
 RAM102は、例えば、GPU101により実行されるプログラム等を一時的に記憶する。
 ストレージ103は、学習モデルなど、GPU101の処理に必要な様々なデータを記憶する。ストレージ103は、例えばストレージデバイス等を利用することにより実現されうる。
 表示部104は、ユーザに対して情報を表示する。表示部104は、例えばLCD(Liquid Crystal Display)またはOLED(Organic Light-Emitting Diode)等により実現される。
 通信部105は、被制御装置から送信された情報を受信する。通信部105は、例えばWi-Fi、Bluetooth(登録商標)、LTE(Long Term Evolution)等の通信技術を利用して、情報通信ネットワークを介して通信する機能を有する。
 入力部20は、例えば、センサ、カメラ、キーボード、マウス、タッチパネル、ジョイスティックなどが用いられることにより実現できる。センサには、例えば、撮像センサや赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信機などが含まれる。
 出力部30は、例えばモータなどが用いられることにより実現できる。
 本技術の一実施形態に係る情報処理装置100は、例えば、ロボット、スマートフォン端末、タブレット端末、携帯電話端末、PDA(Personal Digital Assistant)、PC(Personal Computer)、サーバ、またはウェアラブル端末(HMD:Head Mounted Display、メガネ型HMD、時計型端末、バンド型端末等)などのコンピュータでありうる。
 また、本技術の一実施形態に係る情報処理装置は、被制御装置に備えられていてよい。つまり、学習モデルは、被制御装置の一例であるロボットに備えられることができる。
 本技術の第1の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。
<3.第2の実施形態(情報処理装置の例2)>
 本技術の一実施形態に係る情報処理装置は、前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備えることができる。このことについて図5を参照しつつ説明する。図5は、本技術の一実施形態に係る情報処理装置100の構成例を示すブロック図である。図5に示されるとおり、本技術の一実施形態に係る情報処理装置100は、障害物情報生成部40をさらに備えている。障害物情報生成部40は、入力部20が得た前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する。障害物情報生成部40は、例えばGPUなどが用いられることにより実現できる。
 障害物情報を生成する手段は特に限定されないが、例えば、障害物情報生成部40は、符号付き距離場(SDF:Signed Distance Field)を用いて前記障害物情報を生成することができる。
 SDFは、3D空間における距離グリッド(Distance grid)を記憶している。距離グリッドは、最も近い障害物までの距離を含む。例えば以下の非特許文献3において説明されている技術を用いて、3Dのメッシュデータに基づいて、距離グリッドを算出できる。
 <非特許文献3>
 “Generating Signed Distance Fields From Triangle Meshes”, IMM-TECHNICAL REPORT, 2002
 あるいは、障害物情報生成部40は、占有グリッド(Occupancy grid)をボロノイグリッド(Voronoi grid)に変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成することができる。
 このことについて図6を参照しつつ説明する。図6は、本技術の一実施形態に係る障害物情報生成部40の処理の一例を示す概略図である。
 障害物情報生成部40は、例えば深度センサ付きカメラやLiDERなどから得られた占有グリッド(図6A)を、ボロノイグリッド(図6B)に変換する。
 図6Aに示される占有グリッドでは、障害物Oを含むセルが黒く塗りつぶされている。
 図6Bに示されるボロノイグリッドは、障害物Oを含むセルに一意の番号が付与されている。この図では、3つのセルが障害物Oを含んでおり、上から順に一意の番号が付与されている。
 障害物を含まない自由空間セルには、障害物Oを含むセルに付与された番号のうち、最も近いセルに付与された番号が付与されている。
 例えば以下の非特許文献4において説明されている技術を用いて、占有グリッドをボロノイグリッドに変換できる。
 <非特許文献4>
 T.Cao, K.Tang, A.Mohamed, T.Tan, “Parallel Banding Algorithm to Compute Exact Distance Transform with the GPU”, Association for Computing Machinery, 2010, pp.83-90
 障害物情報生成部40は、このボロノイグリッドに基づいて、それぞれの自由空間セルと、このセルに付与された番号が示す、最も近い障害物を含むセルと、の距離を算出することにより、距離グリッド(図6C)を生成できる。
 距離グリッドが生成されると、距離グリッド内の任意のポイントから障害物までの距離を算出できる。この算出方法は特に限定されないが、2D空間では、例えばバイリニア補完法(Bilinear Interpolation)などが用いられることができる。3D空間では、例えばトリリニア補完法(Trilinear Interpolation)などが用いられることができる。
 バイリニア補完法を用いて距離を算出した結果について図7を参照しつつ説明する。図7は、本技術の一実施形態に係る障害物情報生成部40の処理の一例を示す概略図である。図7に示されるとおり、ポイントPから最も近い障害物までの距離は2.5と算出されている。
 距離グリッド内の任意のポイントから最も近い障害物までの距離と方向を示す距離ベクトルは、そのポイントの勾配の算出により得られる。距離ベクトルは、距離及び正規化(勾配)の乗算により得られる。ここで正規化とは、長さを1に等しくするためのベクトル長の正規化をいう。差分法(Finite difference method)及び勾配式(gradient formula)が用いられることにより、勾配が得られる。
 本技術の第2の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。
<4.第3の実施形態(情報処理装置の例3)>
 本技術の一実施形態に係る情報処理装置は、前記障害物情報を記憶する記憶部をさらに備えており、前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力することができる。このことについて図8を参照しつつ説明する。図8は、本技術の一実施形態に係る情報処理装置100の構成例を示すブロック図である。図8に示されるとおり、本技術の一実施形態に係る情報処理装置100は、障害物情報を記憶する記憶部50を備えている。学習モデル11は、記憶部50に記憶されている障害物情報が入力され、前記障害物情報に基づいて更新された位置情報を出力することができる。記憶部50は、例えばストレージデバイスなどが用いられることにより実現できる。
 被制御装置の周囲の環境に関する環境情報を取得する必要がないため、情報処理装置100の処理速度が向上する。例えば、コの字型の障害物があるとき、この障害物全体の形状を記憶部50が記憶できる。これにより、入力部20からの障害物情報の入力が省略される。その結果、情報処理装置100の処理速度が向上する。
 本技術の第3の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。
<5.第4の実施形態(学習モデルの例)>
 本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを提供する。この学習モデルについては、第1の実施形態などにおいて説明したため、再度の説明を省略する。
 本技術の一実施形態に係る学習モデルは、プログラムにより実現できる。このプログラムは、ほかのコンピュータ又はコンピュータシステムに格納されてもよい。この場合、コンピュータは、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばSaaS(Software as a Service)、IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)等が挙げられる。
 あるいは、学習モデルは、エッジサーバに格納されてもよい。クラウドで学習した学習済みモデルがエッジサーバに格納されてもよいし、エッジサーバに格納された学習モデルが学習してもよい。
 さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。
 本技術の第4の実施形態に係る学習モデルについて説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。
<6.第5の実施形態(情報処理方法の例)>
 本技術は、コンピュータが、学習モデルを用いて学習すること、を含み、前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。
 本技術の一実施形態に係る情報処理方法について図9を参照しつつ説明する。図9は、本技術の一実施形態に係る情報処理方法の一例を示すフローチャートである。図9に示されるとおり、本技術の一実施形態に係る情報処理方法は、コンピュータが、学習モデルを用いて学習すること(ステップS1)を含む。前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。
 本技術の一実施形態に係る情報処理方法は、上述した他の実施形態に係る技術を利用できる。そのため、再度の説明を省略する。
 本技術の第5の実施形態に係る情報処理方法について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。
 なお、本技術に係る実施形態は、上述した各実施形態及に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 また、本技術は、以下のような構成を取ることもできる。
[1]
 被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置。
[2]
 前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力する、
 [1]に記載の情報処理装置。
[3]
 前記位置情報は、前記被制御装置が位置する座標情報を含む、
 [1]又は[2]に記載の情報処理装置。
[4]
 前記位置情報は、前記被制御装置の姿勢情報を含む、
 [1]から[3]のいずれか一つに記載の情報処理装置。
[5]
 前記学習モデルは、ニューラルネットワークである、
 [1]から[4]のいずれか一つに記載の情報処理装置。
[6]
 前記被制御装置は、ロボットである、
 [1]から[5]のいずれか一つに記載の情報処理装置。
[7]
 前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む、
 [6]に記載の情報処理装置。
[8]
 前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備える、
 [1]から[7]のいずれか一つに記載の情報処理装置。
[9]
 前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成する、
 [8]に記載の情報処理装置。
[10]
 前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成する、
 [8]に記載の情報処理装置。
[11]
 前記障害物情報を記憶する記憶部をさらに備えており、
 前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力する、
 [1]から[10]のいずれか一つに記載の情報処理装置。
[12]
 被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデル。
[13]
 コンピュータが、学習モデルを用いて学習すること、を含み、
 前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法。
[14]
 被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報、及び前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を含むデータを用いて、学習モデルを生成する学習モデル生成方法。
 I1 現在の位置情報
 I2 目標位置情報
 I3 障害物情報
 O1 位置情報
 100 情報処理装置
 10 学習部
 11 学習モデル
 20 入力部
 30 出力部
 40 障害物情報生成部
 50 記憶部
 S1 学習モデルを用いて学習すること

Claims (13)

  1.  被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置。
  2.  前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力する、
     請求項1に記載の情報処理装置。
  3.  前記位置情報は、前記被制御装置が位置する座標情報を含む、
     請求項1に記載の情報処理装置。
  4.  前記位置情報は、前記被制御装置の姿勢情報を含む、
     請求項1に記載の情報処理装置。
  5.  前記学習モデルは、ニューラルネットワークである、
     請求項1に記載の情報処理装置。
  6.  前記被制御装置は、ロボットである、
     請求項1に記載の情報処理装置。
  7.  前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む、
     請求項6に記載の情報処理装置。
  8.  前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備える、
     請求項1に記載の情報処理装置。
  9.  前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成する、
     請求項8に記載の情報処理装置。
  10.  前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成する、
     請求項8に記載の情報処理装置。
  11.  前記障害物情報を記憶する記憶部をさらに備えており、
     前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力する、
     請求項1に記載の情報処理装置。
  12.  被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデル。
  13.  コンピュータが、学習モデルを用いて学習すること、を含み、
     前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法。
PCT/JP2022/009057 2021-08-02 2022-03-03 情報処理装置、学習モデル、及び情報処理方法 WO2023013126A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021126389 2021-08-02
JP2021-126389 2021-08-02

Publications (1)

Publication Number Publication Date
WO2023013126A1 true WO2023013126A1 (ja) 2023-02-09

Family

ID=85155494

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009057 WO2023013126A1 (ja) 2021-08-02 2022-03-03 情報処理装置、学習モデル、及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2023013126A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119815A (ja) * 1991-10-28 1993-05-18 Toshiba Corp 神経回路網を用いた障害物回避方法
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
US5347459A (en) * 1993-03-17 1994-09-13 National Research Council Of Canada Real time collision detection
US8406989B1 (en) * 2009-02-13 2013-03-26 Hrl Laboratories, Llc Method for adaptive obstacle avoidance for articulated redundant robot arm
JP2013145497A (ja) * 2012-01-16 2013-07-25 Hitachi Ltd 搬入経路計画システム
US9205562B1 (en) * 2014-08-29 2015-12-08 Google Inc. Integration of depth points into a height map
WO2020157863A1 (ja) * 2019-01-30 2020-08-06 日本電気株式会社 制御装置、制御方法および記録媒体
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
JPH05119815A (ja) * 1991-10-28 1993-05-18 Toshiba Corp 神経回路網を用いた障害物回避方法
US5347459A (en) * 1993-03-17 1994-09-13 National Research Council Of Canada Real time collision detection
US8406989B1 (en) * 2009-02-13 2013-03-26 Hrl Laboratories, Llc Method for adaptive obstacle avoidance for articulated redundant robot arm
JP2013145497A (ja) * 2012-01-16 2013-07-25 Hitachi Ltd 搬入経路計画システム
US9205562B1 (en) * 2014-08-29 2015-12-08 Google Inc. Integration of depth points into a height map
WO2020157863A1 (ja) * 2019-01-30 2020-08-06 日本電気株式会社 制御装置、制御方法および記録媒体
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット

Similar Documents

Publication Publication Date Title
Bency et al. Neural path planning: Fixed time, near-optimal path generation via oracle imitation
US20200030979A1 (en) Mixed Reality Assisted Spatial Programming of Robotic Systems
EP3795307B1 (en) Improvements related to generating a robot control policy from demonstrations collected via kinesthetic teaching of a robot
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
Alexis et al. Uniform coverage structural inspection path–planning for micro aerial vehicles
KR102511004B1 (ko) 다중 로봇의 주행 제어 장치 및 방법
CN112106073A (zh) 使用网格代码执行导航任务
US20190219972A1 (en) System and method for context-driven predictive simulation selection and use
Vladareanu et al. The navigation of mobile robots in non-stationary and non-structured environments
Toma et al. Waypoint planning networks
JP6489923B2 (ja) 行動制御システム、及びそのプログラム
Shoushtary et al. Team robot motion planning in dynamics environments using a new hybrid algorithm (honey bee mating optimization-tabu list)
Flowers et al. A Spatio-Temporal Prediction and Planning Framework for Proactive Human–Robot Collaboration
WO2023013126A1 (ja) 情報処理装置、学習モデル、及び情報処理方法
Filaretov et al. Autonomous mobile university robots AMUR: Technology and applications to extreme robotics
WO2021171353A1 (ja) 制御装置、制御方法及び記録媒体
Xu et al. Automated labeling for robotic autonomous navigation through multi-sensory semi-supervised learning on big data
JP7480975B2 (ja) 移動経路生成装置、移動装置、移動経路生成方法、及びプログラム
JP7235060B2 (ja) 経路計画装置、経路計画方法、及びプログラム
Lu et al. Flight with limited field of view: A parallel and gradient-free strategy for micro aerial vehicle
JP2009274180A (ja) ロボット動作計画方法及び装置
Tzafestas Teleplanning by human demonstration for VR-based teleoperation of a mobile robotic assistant
CN114571460A (zh) 机器人控制方法、装置及存储介质
US11534909B2 (en) Displaying method of robot simulator
Korayem et al. Dynamic optimal payload path planning of mobile manipulators among moving obstacles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22852555

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE