WO2021171768A1 - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 - Google Patents

情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 Download PDF

Info

Publication number
WO2021171768A1
WO2021171768A1 PCT/JP2020/048315 JP2020048315W WO2021171768A1 WO 2021171768 A1 WO2021171768 A1 WO 2021171768A1 JP 2020048315 W JP2020048315 W JP 2020048315W WO 2021171768 A1 WO2021171768 A1 WO 2021171768A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional
information
partial observation
low
encoder
Prior art date
Application number
PCT/JP2020/048315
Other languages
English (en)
French (fr)
Inventor
由香 有木
良 寺澤
拓也 成平
利充 坪井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021171768A1 publication Critical patent/WO2021171768A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the technology disclosed in this specification (hereinafter referred to as "the present disclosure") relates to an information processing device and an information processing method for processing information related to a robot path, a computer program, and an observation device.
  • the robot recognizes the environment based on the image of the camera, plans a route to a given destination and moves autonomously, or moves the manipulator while avoiding obstacles to grasp the target object.
  • a mobile robot has been proposed that uses a camera and a calculation function to determine a self-position and a rotation angle, as well as the presence or absence of an obstacle, and corrects a path (see, for example, Patent Document 1).
  • An object of the present disclosure is to provide an information processing device, an information processing method, a computer program, and an observation device that process information related to a robot's path.
  • the first aspect of the disclosure is A three-dimensional encoder that encodes high-dimensional environmental information into low-dimensional environmental information, A partial observation encoder that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space, A three-dimensional decoder that reconstructs high-dimensional environmental information from low-dimensional space environmental information and low-dimensional space partial observation information, It is an information processing device provided with.
  • the three-dimensional encoder uses the first neural network model to encode high-dimensional environmental information into environment information in a low-dimensional space. Further, the partial observation encoder uses the second neural network model to encode the partial observation information of partially observing the environment into the partial observation information of the low-dimensional space. Further, the three-dimensional decoder reconstructs high-dimensional environmental information from the environmental information in the low-dimensional space and the partial observation information in the low-dimensional space by using the trained third neural network model.
  • the information processing device further includes a discriminator that identifies the difference between the environmental information reconstructed by the three-dimensional decoder and the original high-dimensional environmental information. Then, the first to third neural networks are trained so that the difference identified by the classifier is minimized.
  • the information processing device may further include a map generation unit that generates a map based on the environmental information reconstructed by the three-dimensional decoder.
  • the map generation unit generates an obstacle map that outputs the robot's route plan with respect to the input of the robot's destination based on the robot's empirical rule.
  • the second aspect of the present disclosure is A three-dimensional encoding step that encodes high-dimensional environmental information into low-dimensional environmental information, A partial observation encoding step that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space, A three-dimensional decoding step that reconstructs high-dimensional environmental information from low-dimensional environmental information and partial observation information in low-dimensional space. It is an information processing method having.
  • the third aspect of the present disclosure is A three-dimensional encoder that encodes high-dimensional environmental information into low-dimensional environmental information, A partial observation encoder that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space. A three-dimensional decoder that reconstructs high-dimensional environmental information from low-dimensional environmental information and partial observation information in low-dimensional space.
  • the computer program according to the third aspect of the present disclosure defines a computer program written in a computer-readable format so as to realize a predetermined process on the computer.
  • a collaborative action is exerted on the computer, and the same action as the information processing device according to the first aspect of the present disclosure. The effect can be obtained.
  • the fourth aspect of the present disclosure is A sensor that partially observes the surrounding environment and A partial observation encoder that encodes the partial observation information observed by the sensor into partial observation information in a low-dimensional space.
  • An output unit that outputs the information encoded by the partial observation encoder to the outside, It is an observation device equipped with.
  • FIG. 1 is a diagram showing a functional configuration of the information processing device 100.
  • FIG. 2 is a diagram showing an environment (bookshelf) used in the experiment.
  • FIG. 3 is a diagram showing the environment (cluttered table) used in the experiment.
  • FIG. 4 is a diagram showing an environment map that serves as training data.
  • FIG. 5 is a diagram showing an environment map generated from the training data shown in FIG. 4 using only VAE.
  • FIG. 6 is a diagram showing an environment map generated by using VAE-GAN from the training data shown in FIG.
  • FIG. 7 is a diagram showing a partial observation result of a bookshelf (see FIG. 2) taken with a camera having a narrow field of view.
  • FIG. 8 is a diagram showing an environment map generated using only VAE from the partial observation results shown in FIG. 7.
  • FIG. 9 is a diagram showing an environment map generated by using VAE-GAN from the partial observation results shown in FIG. 7.
  • FIG. 10 is a diagram showing a heuristic map generated by HMNet from an environment map generated using VAE-GAN.
  • FIG. 11 is a diagram showing a hardware configuration example of the information processing device 100.
  • FIG. 12 is a diagram showing a functional configuration example (modification example) of the information processing device 100.
  • a robot that avoids contact and collision with obstacles by estimating high-definition information of a wide field of view or the entire environment from partial observation results using a sensor with a narrow field of view such as a camera or LiDAR. It is for route planning.
  • VAE-GAN which is a combination of a variational autoencoder (VAE: Variational Auto-Encoder) and a hostile generation network (GAN: Generative Adversarial Network), is used to obtain the surrounding environment from partial observation information. Generate.
  • the partial observation information is an image taken by a camera or point cloud data measured by LiDAR or the like.
  • This disclosure is a technology that creates a surrounding environment that satisfies partial observations, rather than recognizing an object or environment.
  • the route planning of the robot may be actually performed.
  • Japanese Patent Application No. 2019-42678 which has already been assigned to the applicant, discloses a method for accelerating route planning from the surrounding environment based on the empirical rule that a robot has searched for a route.
  • the present disclosure can be evaluated by planning the path of the robot from the surrounding environment generated by the present disclosure using this method.
  • This disclosure is a framework for estimating the surrounding environment from partially observed information.
  • the framework according to the present disclosure is mainly applied to manipulation, but it is also easy to combine with grip.
  • VAE Variational Auto-Encoder
  • the framework according to the present disclosure combines a compact latent space of a three-dimensional variational autoencoder (Volumetric VAE) with a hostile generation network (GAN), and variously observes a partially observed image or a point cloud as an input. It expresses the 3D surrounding environment.
  • the structure of the neural network according to the present disclosure is similar to that of VAE-3DGAN.
  • the surrounding environment reconstructed by the present disclosure becomes input data for the information processing device disclosed in the above-mentioned Japanese Patent Application No. 2019-42678, and the information processing device makes the obstacle map based on the empirical rule of the robot at high speed. Can be generated. If you enter the destination in this obstacle map, you can get a route plan.
  • FIG. 1 shows an example of a functional configuration of an information processing apparatus 100 that generates a surrounding environment from partial observation data according to the present disclosure. Note that FIG. 1 shows the configuration of the information processing device 100 including the map generation unit 105 that generates an obstacle map based on the empirical rule of the robot from the surrounding environment generated by the present disclosure.
  • the information processing device 100 includes a three-dimensional encoder (Volumetric Encoder) 101, a three-dimensional decoder (Volumetric Decoda) 102, a classifier (Discrimator) 103, and a partial observation encoder (Volumetric or Image Encoder) 104.
  • a three-dimensional encoder Volumetric Encoder
  • a three-dimensional decoder Volumetric Decoda
  • Discrimator classifier
  • 103 partial observation encoder
  • the three-dimensional encoder 101, the three-dimensional decoder 102, and the partial observation encoder 104 are each composed of a neural network such as CNN. First, it is assumed that each neural network of the three-dimensional encoder 101, the three-dimensional decoder 102, and the partial observation encoder 104 has been learned, and each function will be described.
  • the three-dimensional encoder 101 inputs the 3D point cloud data 111 of the surrounding environment and encodes it in the low-dimensional space (or latent space) 112.
  • the 3D point cloud data 111 input to the three-dimensional encoder 101 is a high-dimensional space composed of, for example, 64 ⁇ 64 ⁇ 64 voxels.
  • the three-dimensional encoder 101 encodes the input high-dimensional space data into a 3D point cloud of, for example, a 200-dimensional low-dimensional space 112.
  • the low-dimensional space 112 is the above-mentioned "compact latent space”.
  • the three-dimensional decoder 102 inputs the 3D point cloud data of the low-dimensional space 112 to reconstruct the 3D point cloud data 113 of the surrounding environment of the original high-dimensional space.
  • a variational autoencoder VAE is configured by the combination of the three-dimensional encoder 101 and the three-dimensional decoder 102.
  • the partial observation encoder 104 inputs the partial observation data 114 such as the two-dimensional image taken by the camera and the 3D point cloud data of the partial observation result measured by using LiDAR or the like, and inputs the partial observation data 114 to the partial environment of the low-dimensional space 112. Encode into 3D point cloud data.
  • the field of view of sensors such as cameras and LiDAR is narrow. Therefore, only the partial observation data of the surrounding environment is input to the partial observation encoder 104.
  • the neural network of the partial observation encoder 104 is learned so as to encode the partial observation result in a low-dimensional space in association with the entire surrounding environment. Further, the neural network of the three-dimensional decoder 102 is learned so as to decode the low-dimensional spatial data of the partial observation result not as the partial observation result but as the entire original surrounding environment. Therefore, when an image of the partial environment or 3D point cloud data is input to the partial observation encoder 104 and the low-dimensional spatial data is estimated, the stereoscopic decoder 102 reconstructs the entire surrounding environment corresponding to the partial environment. be able to.
  • the 3D decoder 102 reconstructs the original high-dimensional surrounding environment data from the low-dimensional spatial data of the surrounding environment or the partial observation result of the surrounding environment.
  • the map generation unit 105 generates an obstacle map 115 based on the empirical rule of the robot from the surrounding environment data reconstructed by the three-dimensional decoder 102. By inputting the destination of the robot in the obstacle map, it is possible to plan the route from the current value of the robot to the destination.
  • the classifier 103 is used at the time of learning, obtains the difference between the peripheral environment reconstructed by the 3D decoder 102 and the peripheral environment of the teacher data, and feeds it back to the 3D encoder 101, the 3D decoder 102, and the partial observation encoder 104.
  • the three-dimensional encoder 101, the three-dimensional decoder 102, and the partial observation encoder 104 learn the neural network based on the data fed back from the classifier 103.
  • learning of each neural network of the three-dimensional encoder 101, the three-dimensional decoder 102, and the partial observation encoder 104 will be described.
  • learning is performed so that the encoding of the surrounding environment by the three-dimensional encoder 101 and the encoding of the partial observation result by the partial observation encoder 104 are associated with each other.
  • the three-dimensional encoder 101 inputs the 3D point cloud data of the surrounding environment as learning data, and estimates the 3D point cloud data in the low-dimensional space.
  • the 3D decoder 102 reconstructs the 3D point cloud data of the surrounding environment of the original high-dimensional space from the 3D point cloud data of the low-dimensional space estimated by the 3D encoder 101.
  • the classifier 103 obtains the difference between the peripheral environment reconstructed by the 3D decoder 102 and the peripheral environment of the learning data input to the 3D encoder 101, and feeds it back to the 3D encoder 101. Then, the neural network of the three-dimensional encoder 101 is learned so that the difference fed back from the classifier 103 becomes small.
  • the learning of the neural network of the 3D encoder 101 is stopped.
  • the three-dimensional encoder 101 inputs the 3D point cloud data of the surrounding environment as learning data, and estimates the 3D point cloud data in the low-dimensional space.
  • the 3D decoder 102 reconstructs the 3D point cloud data of the surrounding environment of the original high-dimensional space from the 3D point cloud data of the low-dimensional space estimated by the 3D encoder 101.
  • the classifier 103 obtains the difference between the peripheral environment reconstructed by the 3D decoder 102 and the peripheral environment of the learning data input to the 3D encoder 101, and feeds it back to the 3D decoder 102.
  • the neural network of the three-dimensional decoder 102 is learned so that the difference fed back from the classifier 103 becomes small.
  • the three-dimensional encoder 101, the three-dimensional decoder 102, and the classifier 103 form a VAE-GAN. Since the VAE-GAN according to the present disclosure handles 3D environmental information, it can also be called a VAE-3DGAN.
  • the partial observation encoder 104 inputs the partial observation result of the surrounding environment as the learning data to the three-dimensional encoder 101 as the learning data, and estimates the 3D point cloud data in the low-dimensional space with respect to the partial observation result.
  • the partial observation results are a two-dimensional image of a narrow field of view taken by a camera and 3D point cloud data of a narrow field of view measured using LiDAR or the like.
  • the stereoscopic decoder 102 reconstructs the 3D point cloud data of the surrounding environment of the original high-dimensional space, which is the training data for the stereoscopic encoder 101, from the 3D point cloud data of the partial observation result estimated by the partial observation encoder 104.
  • the classifier 103 obtains the difference between the peripheral environment reconstructed by the stereoscopic decoder 102 and the peripheral environment of the learning data input to the stereoscopic encoder 101, and feeds it back to the partial observation encoder 104. Then, the neural network of the partial observation encoder 104 is trained so that the difference fed back from the classifier 103 becomes small.
  • the partial observation encoder 104 is incorporated in the information processing device 100, and is a 3D image of a two-dimensional image taken by an external camera or a partial observation result measured by using LiDAR or the like.
  • the point cloud data is taken into the information processing apparatus 100 and encoded.
  • the partial observation encoder 104 may be incorporated in an observation device such as an external camera of the information processing device 100 or LiDAR (see FIG. 12).
  • the observation device transmits the 3D point cloud data of the partial environment of the low-dimensional space 112 encoded by the partial observation encoder 104 to the information processing device 100. By inputting, it has substantially the same function as the system configuration example shown in FIG.
  • VAE variational auto-encoder
  • the functional configuration of the information processing device 100 is configured using a variational auto-encoder (VAE).
  • VAE variational auto-encoder
  • the autoencoder is a generative model that extracts features with an overwhelmingly lower number of dimensions than the input sample.
  • Variational Auto-Encoders are an extension of autoencoders and are one of the most popular generative models that have recently emerged.
  • a typical variational autoencoder consists of an encoder that expresses the input as a feature in the latent space and a decoder that reproduces the original dimension from the latent space.
  • the encoder E (x) encodes the input x into the latent variable z
  • the decoder D (z) generates an estimate of the input x from the latent variable z.
  • the weighting coefficients of the encoder and the decoder are learned so that the error between the input x and the estimated value of x output by the decoder D (z) is minimized.
  • the input referred to here corresponds to the 3D point cloud data 111 of the surrounding environment in FIG. 1
  • the encoder corresponds to the three-dimensional encoder 101
  • the latent space corresponds to the low-dimensional space 112
  • the decoder corresponds to the three-dimensional decoder 102. ..
  • variable autoencoder approximates the encoder E (x) as a posterior distribution q (z
  • the vanilla autoencoder uses a deterministic function for the encoder E (x).
  • Variational Auto-Encoders normalize encoders by imposing prior distributions on the latent distribution p (z). Usually, z to N (0, I) are selected.
  • the variational autoencoder loss is the sum of the expected log-likelihood (reconstruction error) and the regularization term of the initial distribution.
  • the stochastic gradient descent variable Bayes (SGVB) algorithm shown in Eq. (1) below is used for learning the encoder and decoder.
  • a Generative Adversarial Network is an artificial intelligence implemented by a neural network consisting of two networks, a generator network and a discriminator network.
  • the purpose of the hostile generation network is to find a binary classifier that gives the best possible distinction between the true data and the generated data, while at the same time encouraging the generation network to fit into the true data distribution. .. Therefore, the present disclosure aims to maximize or minimize the binary cross entropy based on the following equation (2).
  • x follows the training sample and z to p (z) with respect to the identification network and the generation network.
  • the generation network referred to here corresponds to the three-dimensional encoder 101 and the three-dimensional decoder 102 in FIG. 1, and the identification network corresponds to the classifier 103.
  • GAN Generative Adversarial Network
  • VAE-GAN combines the advantages of GAN, a high-quality generative model, with VAE, a method of generating an encoder that encodes data into latent space z.
  • VAE-GAN is an error term for VAE reconstruction (expected log-likelihood) from the above equation (1). Replace with the rebuild error represented by the GAN discriminator. To achieve this, Dis l (x) indicates the first layer of the hidden layer of the classifier.
  • the Gauss observation model is as shown in the following equation (3).
  • VAE-GAN for partially observed embedded networks is that latent vectors are used for multimodal inputs.
  • the partial observation embedded network is trained to predict the latent variable z in the latent space of VAE-GAN from the input of the partial observation result. Will be.
  • the collected dataset of partial point clouds or images and the corresponding 3D environment are the training data of the partial observation embedded network. Due to the limited training data, it is desirable to reduce the expected number of unknowns for more robust training of partially observed embedded networks.
  • linear mapping and kernel standard correlation analysis kCCA
  • kCCA linear mapping and kernel standard correlation analysis
  • the map generation unit 105 uses this disclosure for HMNets and route planning to finally be found from the 3D environment generated by the VAE-GAN described above that minimizes search costs.
  • the search cost referred to here is represented by the number of vertices visited or tried during the search.
  • the map generation unit 105 generates an obstacle map 115 based on the empirical rule of the robot from the surrounding environment data reconstructed by the three-dimensional decoder 102.
  • the method by which the map generation unit 105 generates an obstacle map is also referred to as "HMNet” in the present specification.
  • the HMNet considers an environment that includes a binary obstacle map as an input, and uses CNN to predict the experience value at each node v in the graph called an "experience map (heuristic map)".
  • the predicted experience map is used as a quick reference table for querying the experience value h (v, ⁇ ) during the graph search based on the request of the planner (here, “TS-RRT”).
  • NS the request of the planner
  • HMNet can perform direct learning by minimizing the square error between the prediction and the target Cost-to-Go value.
  • the cost-to-value of the apex is defined as the cumulative cost along the shortest path to the goal.
  • the cost-to-go value can be calculated by the TSS-RRT algorithm.
  • the learning of HMNet is executed by minimizing the loss function shown in the following equation (5).
  • Mask M is, for example, an area occupied or surrounded by an obstacle.
  • the trained HMNet is a heuristic function with a 3D environment and target position estimated by VAE-GAN.
  • map generation unit 105 For details of the map generation unit 105, refer to Japanese Patent Application No. 2019-42678, which has already been assigned to the applicant.
  • the resolution of the depth sensor and the grid size of the robot's surrounding environment were fixed at 0.025 meters, 65 x 57 x 57 voxels.
  • This grid size was set to 64 x 64 x 64 voxels for VAE-GAN training.
  • the generator G (corresponding to the 3D encoder 101 in FIG. 1) randomly samples a 200-dimensional latent vector z from a stochastic latent space, 64 ⁇ 64 representing a 3D voxel space. Map to x64 cubes.
  • the classifier D (corresponding to the classifier 103 in FIG. 1) outputs a reliability value D (x) indicating whether the 3D object input x is a real number or a composite.
  • the classifier is basically a mirror of the generator. Use binary cross entropy as the classification loss. The details of the implementation are described below.
  • VAE Variational Auto-Encoder
  • GAN (3) Generator (GAN): The generator consists of five complete convolution layers. The number of channels in each convolution layer is ⁇ 512,256,128,64,1 ⁇ , the kernel size is ⁇ 4,4,4,4 ⁇ , and the stride is ⁇ 1,2,2,2,2 ⁇ .
  • An activation function ReLU Repfectified Liner Unit
  • a batch normalization layer are used between the ends of the convolutional layer and the sigmoid layer.
  • the input from VAE to GAN is a 200-dimensional vector, and the output of GAN is a 64 ⁇ 64 ⁇ 64 matrix with a value of [0,1].
  • the classifier consists of five three-dimensional convolution layers.
  • the number of channels of each three-dimensional convolution layer is ⁇ 64,128,512,1 ⁇
  • the kernel size is ⁇ 4,4,4,4 ⁇
  • the stride is ⁇ 2,2,2,2,1 ⁇ .
  • a leaky ReLU layer having a parameter of 0.2 and a batch normalization layer are arranged between the three-dimensional folding layers, and a sigmoid layer is arranged at the end.
  • Training Adaptive training strategies are used for training. For each batch, the classifier is updated if the accuracy of the last batch is not greater than 80.
  • the structure of the neural network architecture is adopted from the viewpoint of HMNet, extended convolution, and encoder-decoder. Such a structure makes it possible to extract global and local spatial contexts from spatially consistent maps of 3D input maps and outputs, which is suitable for realizing the present disclosure.
  • the convolutional module is applied three times to generate a feature map with a small spatial dimension and a wide spatial context.
  • the convolution module consists of three 3x3x3 convolutions, each convolution followed by batch normalization and Leaky ReLU.
  • a stride of 2 is used for the first convolution, and the expansion coefficient of the convolution kernel increases from 1 to 3.
  • the number of convolution channels in the three convolution modules increases as 16, 32, and 64, respectively.
  • the deconvolution module is applied 3 times in the decoder part as well.
  • This deconvolution module is similar to the convolution module described above, except that the first convolution is replaced by a 4x4x4 deconvolution with an upscaling factor of 2.
  • the three module convolution channels are 32, 16, and 16, respectively, and output a single channel as a heuristic map, except for the last deconvolution module convolution.
  • HMNet Graphic Processing Unit
  • Fig. 2 and Fig. 3 show the environment and target position of these problems, respectively.
  • Problems A and B above are two test data sets as described in the experimental setup in Section I-1 above.
  • the environment of Problem C which has never been seen in HMNet, is intended to verify the generality of the framework according to the present disclosure and has the same spatial structure as Problem B.
  • FIG. 4 shows an environment map that serves as training data.
  • This training data is 3D point cloud data input to the VAE and VAE-GAN encoders.
  • FIG. 5 shows an environment map generated using only VAE. This environment map is the result of compressing the environment map shown in FIG. 4 into a latent space with an encoder and then reconstructing it with a decoder. As can be seen from FIG. 5, the environment map generated using only VAE is noisy.
  • FIG. 6 shows an environment map generated using VAE-GAN.
  • VAE does not have sufficient reconstruction error.
  • VAE-GAN gives the VAE the best identification of the VAE-generated environmental map from the original training data and trains the VAE so that the generated environmental map matches the training data. .. Therefore, the environment map generated using the VAE-GAN shown in FIG. 6 is closer to the training data shown in FIG.
  • the average planning time when the plan was executed 30 times was evaluated.
  • the planner's execution was given up to 10 seconds to complete, and the success rate for each planner was also evaluated.
  • FIG. 7 shows the results of partial observation of a bookshelf (see FIG. 2) taken with a camera having a narrow field of view.
  • FIG. 8 shows an environment map (3D point cloud data) generated using only VAE from the partial observation results shown in FIG. 7.
  • FIG. 9 shows an environment map (3D point cloud data) generated by using VAE-GAN from the partial observation results shown in FIG. 7.
  • FIG. 10 shows a heuristic map generated by HMNet from an environment map (see FIG. 9) generated using VAE-GAN.
  • FIG. 10 shows the heuristic values in the vertical section of the heuristic map in the XYZ coordinate system, including the target position.
  • the vector field represented by the arrow is the negative gradient of the heuristic value in this plane. Such a vector field flows mainly toward the destination while avoiding obstacles.
  • some heuristic maps have vertices with incorrect heuristics, this map is still available through a combination of searches in search algorithms such as HM-TS-RRT. With reference to FIG. 10, it can be seen that most vertices of the heuristic map have reasonable heuristic values, and the heuristic map obtained from HMNet can provide useful clues to the planner.
  • new map generation models can be provided by incorporating partial observations into VAE and VAE-GAN.
  • VAE and VAE-GAN By utilizing the features of 3D-CNN, it is possible to provide an HMNet that learns a heuristic map from the experience of motion, which can be applied to a high-speed motion planner.
  • the HM-TS-RRTs introduced herein perform exploitation and guided searches instead of pure searches of heuristic maps from HMNets.
  • FIG. 11 shows a specific hardware configuration example for realizing the information processing apparatus 100 shown in FIG.
  • the illustrated information processing device 100 includes a processor 1101, a ROM (Read Only Memory) 1102, a RAM (Random Access Memory) 1103, a host bus 1104, a bridge 1105, an external bus 1106, an interface 1107, and an input device. It includes a 1108, an output device 1109, a storage 1110, a drive 1111, a connection port 1112, and a communication device 1113.
  • a configuration that does not include a part of the illustrated components or a configuration that further includes other components (not shown) is also realized.
  • the processor 1101 functions as, for example, an arithmetic processing unit or a control device, executes various programs recorded in the ROM 1102, the RAM 1103, the storage 1110, or the removable recording medium 1121, and generally operates each component in the information processing device 100. Or control a part of it.
  • the three-dimensional encoder 101, the three-dimensional decoder 102, the classifier 103, the partial observation encoder 104, and the map generation unit 105 shown in FIG. 1 are functional modules realized by the processor 1101 executing a program.
  • the ROM 1102 is a memory that non-volatilely stores programs read into the processor 1101 and data used for calculations.
  • the RAM 1103 is used to read a program executed by the processor 1101 from the storage 1110 or the removable recording medium 1121, and temporarily store work data such as various parameters that are appropriately changed when the processor 1101 executes the program.
  • the memory to be used.
  • the host bus 1104 is a transmission line capable of high-speed data transmission, and interconnects the processor 1101, the ROM 1102, and the RAM 1103.
  • the external bus 1106 is a transmission line having a relatively low data transmission speed, and an interface 1107 for connecting various components is connected to the external bus 1106.
  • the bridge 1105 interconnects the host bus 1104 and the external bus 1106.
  • the components connected to the interface 1107 are an input device 1108, an output device 1109, a drive 1111, a connection port 1112, and a communication device 1113.
  • the input device 1108 is, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like. Further, the input device 1108 may include a remote controller for transmitting an infrared signal or a wireless signal and a receiver thereof. Further, the input device 1109 may include a voice input device such as a microphone.
  • the output device 1109 can visually or audibly notify the user of information, including a display device such as a liquid crystal display (LCD) and an organic EL (Electro Luminescent) display, and an audio output device such as a speaker and headphones. Possible devices are included. Further, the output device 1109 may include a device such as a vibration device capable of notifying the user of information by a tactile stimulus. Further, the output device 1109 may include a multifunction terminal such as a printer, a multifunction device, a smartphone or a tablet.
  • a display device such as a liquid crystal display (LCD) and an organic EL (Electro Luminescent) display
  • an audio output device such as a speaker and headphones. Possible devices are included.
  • the output device 1109 may include a device such as a vibration device capable of notifying the user of information by a tactile stimulus.
  • the output device 1109 may include a multifunction terminal such as a printer, a multifunction device, a smartphone or a tablet.
  • Drive 1111 is a device that reads information recorded on the removable recording medium 1121 or writes information on the removable recording medium 1121.
  • the removable recording medium 1121 is, for example, at least one of a DVD (Digital Paris Disc) disc, a Blu-ray (registered trademark) disc, a semiconductor memory, and the like. Further, the removable recording medium 1121 may be an IC card or an electronic device equipped with a non-contact IC chip.
  • connection port 1112 is, for example, a USB (Inversal Serial Bus) port. Further, the connection port 1112 may be an IEEE1394 port, a SCSI (SCSI Computer Interface) port, an RS-232C port, or an HDMI (registered trademark) (High-Definition Multimedia Interface) port.
  • USB Inversal Serial Bus
  • connection port 1112 may be an IEEE1394 port, a SCSI (SCSI Computer Interface) port, an RS-232C port, or an HDMI (registered trademark) (High-Definition Multimedia Interface) port.
  • the externally connected device 1122 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like. Further, in the case where the information processing device 100 has a system configuration as shown in FIG. 12, an observation device such as a camera or LiDAR is used as one of the externally connected devices 1122 and is external to the information processing device 100 via the connection port 1112. Be connected.
  • the communication device 1113 is a device for connecting the information processing device 100 to a network, and is, for example, a communication interface card for a wired LAN (Local Area Network), a wireless LAN, a Modem (registered trademark), or a WUSB (Wireless USB). , A router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, and the like.
  • a communication interface card for a wired LAN (Local Area Network), a wireless LAN, a Modem (registered trademark), or a WUSB (Wireless USB).
  • a router for optical communication a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, and the like.
  • the present disclosure can be applied to route planning in various mobile devices that operate autonomously such as robots, drones, and autonomous vehicles, and route planning of manipulators that grip objects.
  • a three-dimensional encoder that encodes high-dimensional environmental information into low-dimensional environmental information
  • a partial observation encoder that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space
  • a three-dimensional decoder that reconstructs high-dimensional environmental information from low-dimensional space environmental information and low-dimensional space partial observation information
  • the three-dimensional encoder uses the first neural network model to encode high-dimensional environmental information into environment information in a low-dimensional space.
  • the partial observation encoder uses the second neural network model to encode the partial observation information of the partial observation of the environment into the partial observation information of the low-dimensional space.
  • the three-dimensional decoder reconstructs high-dimensional environmental information from low-dimensional space environmental information and low-dimensional space partial observation information using a trained third neural network model.
  • the three-dimensional encoder and the three-dimensional decoder constitute a variational autoencoder.
  • the information processing device according to any one of (1) to (3) above.
  • the three-dimensional encoder, the three-dimensional decoder, and the classifier constitute a hostile generation network.
  • the first to third neural networks are trained so that the difference between the environmental information reconstructed by the three-dimensional decoder and the original high-dimensional environmental information identified by the classifier is minimized.
  • the information processing device according to any one of (3) and (5) above.
  • a map generation unit that generates a map based on the environmental information reconstructed by the three-dimensional decoder.
  • the map generation unit generates an obstacle map based on the empirical rule of the robot.
  • the information processing device according to (7) above.
  • the map generation unit generates a new map from the obstacle map and the destination of the robot.
  • the information processing device according to (8) above.
  • a three-dimensional encoding step for encoding high-dimensional environmental information into low-dimensional environmental information A partial observation encoding step that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space, A three-dimensional decoding step that reconstructs high-dimensional environmental information from low-dimensional environmental information and partial observation information in low-dimensional space.
  • Information processing method having.
  • a three-dimensional encoder that encodes high-dimensional environmental information into low-dimensional environmental information.
  • a partial observation encoder that encodes partial observation information that partially observes the environment into partial observation information in low-dimensional space.
  • a three-dimensional decoder that reconstructs high-dimensional environmental information from low-dimensional environmental information and partial observation information in low-dimensional space.
  • a sensor that partially observes the surrounding environment and A partial observation encoder that encodes the partial observation information observed by the sensor into partial observation information in a low-dimensional space.
  • An output unit that outputs the information encoded by the partial observation encoder to the outside, An observation device equipped with.
  • 100 Information processing device, 101 ... Solid encoder 102 ... Solid decoder, 103 ... Discriminator, 104 ... Partially observable encoder 105 ... Map generator 1101 ... Processor 1102 ... ROM 1103 ... RAM 1104 ... Host bus, 1105 ... Bridge, 1106 ... External bus 1107 ... Interface, 1108 ... Input device 1109 ... Output device, 1110 ... Storage, 1111 ... Drive 1112 ... Connection port, 1113 ... Communication device 1121 ... Removable recording medium, 1122 ... Externally connected device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

部分観測情報から周辺環境を生成する情報を処理する情報処理装置を提供する。 情報処理装置は、高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダを具備する。情報処理装置は、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える。

Description

情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置
 本明細書で開示する技術(以下、「本開示」とする)は、ロボットの経路に関する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置に関する。
 最近、ロボットやドローンなどの移動体装置に普及が進んでいる。ロボットは、カメラの画像に基づいて環境認識して、与えられた目的地までの経路を計画して自律的に移動したり、障害物を回避しながらマニピュレータを移動させて目標とする物体を把持したりする。例えば、カメラと演算機能を用いて自己位置と回転角度、さらには障害物有無を判断し、経路を補正する移動ロボットが提案されている(例えば、特許文献1を参照のこと)。
特開2014-219824号公報
 本開示の目的は、ロボットの経路に関する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置を提供することにある。
 本開示の第1の側面は、
 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置である。
 前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードする。また、前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする。また、前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する。
 第1の側面に係る情報処理装置は、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える。そして、前記識別器が識別する差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う。
 第1の側面に係る情報処理装置は、前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備えてもよい。前記マップ生成部は、ロボットの経験則に基づいて、ロボットの目的地の入力に対するロボットの経路計画を出力する障害物マップを生成する、
 また、本開示の第2の側面は、
 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法である。
 また、本開示の第3の側面は、
 高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラムである。
 本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
 また、本開示の第4の側面は、
 周囲環境を部分観測するセンサーと、
 前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
 前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置である。
 本開示によれば、部分観測情報から周辺環境を生成する情報を処理する情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、情報処理装置100の機能的構成を示した図である。 図2は、実験に使用した環境(本棚)を示した図である。 図3は、実験に使用した環境(散らかったテーブル)を示した図である。 図4は、トレーニング用データとなる環境マップを示した図である。 図5は、図4に示したトレーニング用データからVAEのみを用いて生成された環境マップを示した図である。 図6は、図4に示したトレーニング用データからVAE-GANを用いて生成された環境マップを示した図である。 図7は、本棚(図2を参照のこと)を視野の狭いカメラで撮影した部分観察結果を示した図である。 図8は、図7に示した部分観察結果からVAEのみを用いて生成された環境マップを示した図である。 図9は、図7に示した部分観察結果からVAE-GANを用いて生成された環境マップを示した図である。 図10は、HMNetがVAE-GANを用いて生成された環境マップから生成したヒューリスティックマップを示した図である。 図11は、情報処理装置100のハードウェア構成例を示した図である。 図12は、情報処理装置100の機能的構成例(変形例)を示した図である。
 以下、図面を参照しながら本開示に係る技術について、以下の順に従って説明する。
A.概要
B.導入
C.フレームワーク
D.VAEについて
E.GANについて
F.VAE-GANについて
G.部分観測組み込みネットワークについて
H.HMNet及びプランニングについて
I.実験
J.結果
K.結論
L.ハードウェア構成例
A.概要
 狭い空間や雑多な障害物が散らばる環境におけるロボットやマニピュレータの経路計画は難しい問題である。一般に、ロボットはカメラやLiDAR(Light Detection and Ranging)といった環境を測定するセンサーを装備しているが、これらのセンサーの視界は狭いため、狭い視野で煩雑な環境下でロボットが動くことが期待されている。そこで、本開示では、ロボットが視野外の状況を推定し、その推定結果に基づいて障害物との接触や衝突を回避しながら移動するための情報処理について提案する。
 本開示では、カメラやLiDARなどの視野が狭いセンサーを利用した部分的な観測結果から、広視野又は環境全体の高精細な情報を推定して、障害物との接触や衝突を回避するロボットの経路計画を行うものである。具体的には、本開示では、変分オートエンコーダ(VAE:Variational Auto-Encoder)に敵対的生成ネットワーク(GAN:Generative Adversarial Network)を組み合わせたVAE-GANを用いて、部分観測情報から周辺環境を生成する。部分観測情報は、カメラで撮影した画像や、LiDARなどで計測した点群のデータである。
 本開示は、物体や環境を認識するというよりも、部分観測を満たす周辺環境を生成する技術である。本開示により生成された周辺環境を評価するために、実際にロボットの経路計画を行うようにしてもよい。例えば、本出願人に既に譲渡されている特願2019-42678号明細書には、ロボットが経路を探索してきた経験則に基づいて周辺環境から経路計画を高速化する方法について開示している。この方法を用いて本開示により生成した周辺環境からロボットの経路計画を行うことで、本開示を評価することができる。
B.導入
 最近、視覚を含んだ経路計画に関する深層学習に関する研究が進んでおり、ロボットのマニピュレータの操作、把持、移動などのアプリケーションで成果を挙げている。これらのアプリケーションは、ロボットの操作がデカルト空間(T空間)で実行されるものとして考慮される。煩雑な環境下で物体を把持するような多くのアプリケーションでは、通常、ロボットのゴール姿勢よりもむしろゴール位置を指定して、ロボットがそのゴール位置にエンドエフェクタを移動させるように経路計画を行う。したがって、プランナーは実行可能な経路と所望のゴール位置に対応するゴール姿勢を同時に見つけることができるので、T空間で解決を探索するのが当然である。さらに、T空間内で経路計画を行うことによって、環境情報を直接活用することができる。T空間内で計画を行う利点を得るために、環境情報を効率的に得ることが重要な問題である。多くの視覚に基づく行動計画では、この問題に触れていないが、トップダウンカメラの平面操作に制限しているため、多くの実際のシナリオでは不十分である。また、ロボットのビジョンシステムの視野(例えば、リアルセンスのような)は狭い。広範囲の詳細なマップを作成するには、時間を要する。
 本開示は、部分観測した情報から周辺環境を推定するフレームワークである。本開示に係るフレームワークは、主に手さばき(manipulation)に適用されるが、把持(grasp)と組み合わせることも容易である。
 最近のコンピュータグラフィックスの分野では、3Dオブジェクトの生成並びに再構築が盛んである。使用するニューラルネットワークをすべて畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)で構成して3Dオブジェクトを生成する研究が最も盛んである。これらの研究では、トレーニング用データセットからのみ3Dオブジェクトを生成する。
 さまざまな3Dヘアスタイルを変分オートエンコーダ(VAE)のコンパクトな潜在空間を通じて暗に表現する研究もなされている。この研究では、end-to-endの3Dヘアスタイル推定を実現するために、2Dの入力画像のみからVAE潜在空間内の符号を予測するように、追加の埋め込みネットワークのトレーニングを行う。
 これに対し、本開示に係るフレームワークは、立体変分オートエンコーダ(Volumetric VAE)のコンパクトな潜在空間を敵対的生成ネットワーク(GAN)と組み合わせて、部分観測した画像又は点群を入力としてさまざまな3D周辺環境を表現するものである。本開示に係るニューラルネットワークの構造は、VAE-3DGANに近い面もある。本開示によって再構築された周辺環境は、前述した特願2019-42678号明細書で開示される情報処理装置に対する入力データとなり、この情報処理装置によってロボットの経験則に基づく障害物マップを高速に生成することができる。この障害物マップに目的地を入力すれば、経路計画を得ることができる。
C.フレームワーク
 図1には、本開示に係る、部分観測データから周辺環境を生成する情報処理装置100の機能的構成例を示している。なお、図1では、本開示により生成された周辺環境から、ロボットの経験則に基づく障害物マップを生成するマップ生成部105を含めて、情報処理装置100の構成を示している。
 情報処理装置100は、立体エンコーダ(Volumetric Encoder)101と、立体デコーダ(Volumetric Decoder)102と、識別器(Discriminator)103と、部分観測エンコーダ(Volumetric or Image Encoder)104を備えている。
 立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104は、それぞれCNNなどのニューラルネットワークで構成される。まず、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104の各ニューラルネットワークが学習済みであるものとして、各々の機能について説明する。
 立体エンコーダ101は、周囲環境の3D点群データ111を入力して、低次元空間(又は、潜在空間)112にエンコードする。立体エンコーダ101に入力される3D点群データ111は、例えば64×64×64ボクセルからなる高次元空間である。立体エンコーダ101は、入力された高次元空間データを例えば200次元の低次元空間112の3D点群にエンコードする。低次元空間112は、上述した「コンパクトな潜在空間」のことである。そして、立体デコーダ102は、低次元空間112の3D点群データを入力して、元の高次元空間の周囲環境の3D点群データ113を再構築する。立体エンコーダ101と立体デコーダ102の組み合わせにより、変分オートエンコーダ(VAE)が構成される。
 部分観測エンコーダ104は、カメラが撮影した2次元イメージや、LiDARなどを用いて計測された部分観測結果の3D点群データなどの部分観測データ114を入力して、低次元空間112の部分環境の3D点群データにエンコードする。カメラやLiDARなどのセンサーの視野は狭い。したがって、部分観測エンコーダ104には、周囲環境の部分観測データのみが入力される。
 本実施形態では、部分観測エンコーダ104のニューラルネットワークは、周辺環境全体と対応付けて部分観測結果を低次元空間にエンコードするように学習が行われている。また、立体デコーダ102のニューラルネットワークは、部分観測結果の低次元空間データを、部分観測結果ではなく元の周辺環境全体をデコードするように学習が行われている。したがって、部分観測エンコーダ104に部分環境の画像や3D点群データが入力され、その低次元空間データが推定された場合には、立体デコーダ102は、部分環境に対応する周辺環境全体を再構築することができる。
 要するに、立体デコーダ102は、周辺環境又は周辺環境の部分観測結果の低次元空間データから、元の高次元の周辺環境データを再構築する。マップ生成部105は、立体デコーダ102が再構築した周辺環境データから、ロボットの経験則に基づく障害物マップ115を生成する。障害物マップにロボットの目的地を入力すると、ロボットの現在値から目的地までの経路計画を行うことができる。
 識別器103は、学習時に使用され、立体デコーダ102が再構築した周辺環境と教師データの周辺環境との差分を求め、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104にフィードバックする。立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104は、識別器103からフィードバックされたデータに基づいて、ニューラルネットワークの学習を行う。
 続いて、立体エンコーダ101と、立体デコーダ102と、部分観測エンコーダ104の各ニューラルネットワークの学習について説明する。本実施形態では、立体エンコーダ101による周辺環境のエンコードと、部分観測エンコーダ104による部分観測結果のエンコードを対応付けるように学習が行われる。
 立体エンコーダ101のニューラルネットワークの学習を行うときには、立体デコーダ102のニューラルネットワークの学習を停止する。立体エンコーダ101は、学習データとなる周辺環境の3D点群データを入力して、低次元空間の3D点群データを推定する。立体デコーダ102は、立体エンコーダ101が推定した低次元空間の3D点群データから、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、立体エンコーダ101にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、立体エンコーダ101のニューラルネットワークの学習が行われる。
 また、立体デコーダ102のニューラルネットワークの学習を行うときには、立体エンコーダ101のニューラルネットワークの学習を停止する。立体エンコーダ101は、学習データとなる周辺環境の3D点群データを入力して、低次元空間の3D点群データを推定する。立体デコーダ102は、立体エンコーダ101が推定した低次元空間の3D点群データから、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、立体デコーダ102にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、立体デコーダ102のニューラルネットワークの学習が行われる。立体エンコーダ101と、立体デコーダ102と、識別器103で、VAE-GANを構成する。本開示に係るVAE-GANは、3D環境情報を扱うことから、VAE-3DGANと呼ぶこともできる。
 また、部分観測エンコーダ104のニューラルネットワークの学習を行うときには、立体エンコーダ101及び立体デコーダ102のニューラルネットワークの学習を停止する。部分観測エンコーダ104は、学習データとして、立体エンコーダ101への学習データとなる周辺環境の部分観測結果を入力して、その部分観測結果に対する低次元空間の3D点群データを推定する。部分観測結果は、カメラが撮影した狭い視野の2次元イメージや、LiDARなどを用いて計測された狭い視野の3D点群データである。立体デコーダ102は、部分観測エンコーダ104が推定した部分観測結果の3D点群データから、立体エンコーダ101への学習データである、元の高次元空間の周囲環境の3D点群データを再構築する。識別器103は、立体デコーダ102が再構築した周辺環境と立体エンコーダ101に入力された学習データの周辺環境との差分を求め、部分観測エンコーダ104にフィードバックする。そして、識別器103からフィードバックされる差分が小さくなるように、部分観測エンコーダ104のニューラルネットワークの学習が行われる。
 なお、部分観測エンコーダ104は、図1に示したシステム構成では、情報処理装置100内に組み込まれ、外部のカメラが撮影した2次元イメージや、LiDARなどを用いて計測された部分観測結果の3D点群データを情報処理装置100に取り込んでエンコードを行う。他のシステム構成例として、情報処理装置100の外部のカメラやLiDARなどの観測装置に部分観測エンコーダ104が組み込まれてもよい(図12を参照のこと)。この場合、観測装置は、カメラやLiDARなどのセンサーによって観測された周囲環境の部分観測データを部分観測エンコーダ104によってエンコードした低次元空間112の部分環境の3D点群データを、情報処理装置100に入力することで、図1に示したシステム構成例と実質的に同様の機能を有する。
D.VAEについて
 情報処理装置100の機能的構成は、変分オートエンコーダ(VAE)を利用して構成される。オートエンコーダは入力サンプルよりも圧倒的に次元数の低い特徴を抽出する生成モデルである。変分オートエンコーダは、オートエンコーダの拡張であり、最近出現した人気のある生成モデルの1つである。
 典型的な変分オートエンコーダは、入力を潜在空間上の特徴量で表すエンコーダと、潜在空間から元の次元を再現するデコーダからなる。エンコーダE(x)は、入力xを潜在変数zにエンコードし、デコーダD(z)は潜在変数zから入力xの推定値を生成する。そして、入力xとデコーダD(z)が出力するxの推定値との誤差が最小となるように、エンコーダ及びデコーダの重み係数が学習される。ここで言う入力は、図1中の周辺環境の3D点群データ111に対応し、エンコーダは立体エンコーダ101に対応し、潜在空間は低次元空間112に対応し、デコーダは立体デコーダ102に対応する。
 変数オートエンコーダは、エンコーダE(x)を事後分布q(z|x)として近似し、事前分布から潜在変数zをサンプリングして新しいxの推定値を生成する。ちなみに、バニラオートエンコーダはエンコーダE(x)に決定的関数を用いる。変分オートエンコーダは、潜在分布p(z)に事前分布を課すことによって、エンコーダを正規化する。通常、z乃至N(0,I)が選択される。変分オートエンコーダの損失は、期待される対数尤度(再構成誤差)と初期分布の正則化項との合計を引いたものである。エンコーダとデコーダの学習には、下式(1)に示す、確率的勾配変数ベイズ(SGVB)アルゴリズムが用いられる。
Figure JPOXMLDOC01-appb-M000001
E.GANについて
 敵対的生成ネットワーク(GAN)は、生成(generator)ネットワークと識別(discriminator)ネットワークの2つのネットワークで構成される、ニューラルネットワークにより実装される人工知能である。生成ネットワークGen(z)は、潜在変数zをデータ空間にマッピングし、識別ネットワークは確率y=Dis(x)∈[0,1](但し、xは現実のトレーニング用サンプルである)と確率1-y(但し、xはx=Gen(z)からz~p(z)の範囲で本開示に係るモデルを使って生成される)を割り当てる。敵対的生成ネットワークの目的は、真のデータと生成されたデータとの可能な限り最良の識別を与えると同時に、生成ネットワークが真のデータ分布に適合するように促すバイナリ分類器を見つけることにある。したがって、本開示では、下式(2)に基づいて、バイナリクロスエントロピーを最大化又は最小化することを目指す。
Figure JPOXMLDOC01-appb-M000002
 上式(2)において、識別ネットワーク及び生成ネットワークに関して、xはトレーニングサンプルとz~p(z)に従う。
 ここで言う生成ネットワークは、図1中の立体エンコーダ101及び立体デコーダ102に対応し、識別ネットワークは識別器103に対応する。
F.VAE-GANについて
 敵対的生成ネットワーク(GAN)の魅力的な特性は、イメージ又は3Dオブジェクトの豊富な類似性メトリックをイメージでないものから識別できるように、暗黙的に学習する必要がある点である。識別ネットワークに、イメージ又は3Dオブジェクトの性質を学習させて、変分オートエンコーダのより抽象的な再構築誤差に転送できるようにするべきである。VAE-GANは、高品質の生成モデルであるGANの利点と、データを潜在空間zにエンコードするエンコーダを生成するメソッドであるVAEを組み合わせたものである。
 VAEはイメージや不変量を持つその他の信号に対する要素毎の再構成誤差が十分でないので、VAE-GANは、上式(1)中からVAEの再構築(予想される対数尤度)のエラー項を、GANの識別器において表される再構築エラーに置き換える。これを実現するには、Disl(x)が識別器の隠れ層の第l層を示すようにする。ガウス観察モデルは、下式(3)に示す通りである。
Figure JPOXMLDOC01-appb-M000003
 したがって、VAE-GANの尤度は下式(4)に示す通りである。
Figure JPOXMLDOC01-appb-M000004
G.部分観測組み込みネットワークについて
 VAE-GANの1つの利点は、マルチモーダル入力に潜在ベクトルが用いられることである。エンドツーエンドのシングルビュー3D環境推定を実現するために、本開示では、部分観察結果の入力から、VAE-GANの潜在空間における潜在変数zを予測するように、部分観測組み込みネットワークのトレーニングが行われる。
 部分的な点群又は画像の収集されたデータセットと、対応する3D環境が、部分観測組み込みネットワークのトレーニング用データである。トレーニング用データは限られているので、部分観測埋め込みネットワークのより堅牢なトレーニングのために予測される未知数の数を削減することが望ましい。本開示では、線形マッピングとカーネル標準の相関解析(kCCA)を使用して、組み込みネットワークの潜在と3D環境の実行可能空間の潜在変数z表現をマッピングする。確率的にサンプリングされた潜在変数z~N(zμ,zσ)の代わりに線形マッピングとカーネル標準の相関解析(kCCA)を使用することによって、組み込み家庭におけるランダム性を排除する点に留意されたい。本開示に係る部分観測組み込みパイプラインは、図1に示した情報処理装置100内では、部分観測組み込みネットワークは部分観測エンコーダ104に対応する。
H.HMNet及び経路計画について
 本開示を利用して、上述したVAE-GANによって生成された3D環境から探索コストを最小にする、より効率的なヒューリスティック関数を最終的に見つけることができる。ここで言う探索コストは、探索の間に訪れ又は試行した頂点の数で表される。具体的には、図1に示す情報処理装置100において、マップ生成部105は、立体デコーダ102が再構築した周辺環境データから、ロボットの経験則に基づく障害物マップ115を生成する。
 マップ生成部105が障害物マップを生成する手法のことを、本明細書では「HMNet」とも呼ぶ。HMNetは、バイナリ障害物マップを入力として含む環境を考察して、CNNを用いて「経験マップ(heuristic map)」と呼ぶグラフ内の各ノードvにおける経験値を予測する。予測された経験マップは、プランナー(ここでは、「TS-RRT」とする)の要求に基づいてグラフ探索を行う最中に、経験値h(v,φ)の問合せ用の早見表として使用される。
 HMNetは、予測と目標のCost-to-Go値の二乗誤差を最小化することによって直接学習を行うことができる。頂点のCost-to-valueは、ゴールへの最短経路に沿った累積コストとして定義される。TSS-RRTアルゴリズムにより、cost-to-go値を計算することができる。HMNetの学習は、下式(5)に示す損失関数を最小にすることで実行される。
Figure JPOXMLDOC01-appb-M000005
 マスクMは、例えば障害物により占有され又は囲まれた領域である。学習済みのHMNetは、VAE-GANによって推定された3D環境と目標位置を持つヒューリスティック関数である。
 なお、マップ生成部105の詳細については、本出願人に既に譲渡されている特願2019-42678号明細書を参照されたい。
I.実験
 本開示に係るフレームワーク(図1を参照のこと)の一般性及び有効性を検証するために、モバイルマニピュレータを用いてデータセットの収集と評価を実施した。本開示に係る手法を現実のロボット及び環境に直接適用するために、この実験では、実際の深度センサーから得られた実世界のデータを環境情報に用いた。実験の詳細なセットアップ及び実験について、以下で説明する。
I-1.実験セットアップ
(1)ハードウェアのセットアップ
 実験に使用されるモバイルマニピュレータは、モバイルプラットフォームに搭載された2本のアームを備え、合計で25DoF(Degrees of Freedom)を持つ。すべての実験で、対象関節グループは、3DoFを持つ胴体関節と7DoFを持つ右腕関節のセット(合計で10DoF)である。周辺環境を検出するために、頭部に深度カメラが搭載されている。
(2)データセット
 経路計画を行う対象の環境として、仕切りを持つ本棚や、雑多な物体が散らばるテーブルを選択した。オクトマップを用いた深度センサーを使って捕捉された3D占有グリッドマップをトレーニング用データとする。さらに、シミュレーションキッチン環境をトレーニング用データに選択する。データセットの収集では、32ケースの本棚環境が深度カメラによって測定された。各ケースで、3D占有グリッドマップが構築された。
(3)実装の詳細
 すべての実験を通じて、深度センサーの解像度とロボットの周囲環境のグリッドサイズは、0.025メートル、65×57×57ボクセルに固定された。このグリッドサイズをVAE-GANのトレーニング用に64×64×64ボクセルにした。3D VAE-GANでは、生成器G(図1中の立体エンコーダ101に対応する)は、確率的潜在空間からランダムにサンプルされた、200次元の潜在ベクトルzを、3Dボクセル空間を表す64×64×64のキューブにマップする。識別器D(図1中の識別器103に対応する)は、3Dオブジェクト入力xは実数又は合成のいずれであるかを示す信頼性値D(x)を出力する。識別器は、基本的に、生成器をミラーリングしたものである。分類損失としてバイナリクロスエントロピーを使用する。実装の詳細を以下に述べる。
(1)ネットワークアーキテクチャ: 
(2)変分オートエンコーダ(VAE):
 VAEは、2つの完全結合アフィン層であるエンコーダ及びデコーダと、オリジナルのソフト+関数から置き換えたEluからなる。VAEからの出力は、200次元ベクトルのガウス確率密度のパラメータである。VAEへの入力は、[0,1]の値を持つ64×64×64行列である。
(3)生成器(GAN):
 生成器は、5つの完全な畳み込み層からなる。各畳み込み層のチャネル数は{512,256,128,64,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{1,2,2,2,2}である。畳み込み層とシグモイド層の終端の間には、活性化関数ReLU(Rectified Linear Unit)及びバッチ正規化層が用いられる。VAEからGANへの入力は200次元ベクトルであり、GANの出力は[0,1]の値を持つ64×64×64行列である。
(4)識別器(GAN):
 識別器は、5つの立体畳み込み層からなる。各立体畳み込み層のチャネル数は{64,128,512,1}、カーネルサイズは{4,4,4,4,4}、ストライドは{2,2,2,2,1}である。各立体畳み層の間には、パラメータ0.2のleaky ReLU層とバッチ正規化層が配置され、終端にシグモイド層が配置されている。
(5)トレーニング:
 トレーニングには、適応的トレーニング戦略が用いられる。各バッチで、最後のバッチの精度が80より高くなければ、識別器は更新される。
(6)生成器学習率:0.0025
(7)識別器学習率:10-5
(8)バッチサイズ:20
(9)β=0.5のAdamによる最適化
 HMNet、拡張畳み込み、及びエンコーダ-デコーダの観点から、ニューラルネットワークアーキテクチャの構造が採用されている。このような構造によれば、3D入力マップと出力の空間的に一貫したマップから、グローバル及びローカルな空間コンテキストを抽出することができるので、本開示を実現するのに適している。
 エンコーダのCNNでは、畳み込みモジュールを3回適用して、小さい空間次元と広い空間コンテキストを持つ特徴マップを生成する。畳み込みモジュールは、3個の3×3×3畳み込みからなり、各々の畳み込みの後にはバッチ正規化とLeaky ReLUが続く。最初の畳み込みには2のストライドが用いられ、畳み込みカーネルの膨張係数は1から3に増加する。3つの畳み込みモジュールの畳み込みチャネル数は、それぞれ16、32、及び64として増加する。
 デコーダ部分でも逆畳み込みモジュールが3回適用される。この逆畳み込みモジュールは、最初の畳み込みが2のアップスケーリング係数を持つ4×4×4の逆畳み込みに置き換えられる以外は、上述の畳み込みモジュールと同様である。3つのモジュールの畳み込みチャネルはそれぞれ32、16、及び16であり、最後の逆畳み込みモジュールの畳み込みを除いて、単一のチャネルをヒューリスティックマップとして出力する。
 トレーニング中、データセットから20の入力が抽出され、確率的勾配降下ステップのミニバッチが作成される。確率的勾配降下アルゴリズムとして、α=0.0001、β1=0.9、及びβ2=0.999を持つAdamが用いられる。2つの損失の重みは、w1=1.0、w2=10-5である。インテル社製のCPU(Central Processing Unit)であるCore i7-K7700 4.2GHzと、CNN用にGPU(Graphic Processing Unit)であるシングルGTX 1080Ti上で、トレーニングと評価を実行した。HMNetのトレーニング時間は約3時間である。
I-2.パフォーマンス評価
(1)計画シナリオ:
 本開示に係る手法を、3つの異なるシナリオでテストしてみた。
A)仕切りのある本棚の環境における簡単な問題と部分観察。
B)散らかったテーブルとキッチンの異なる環境における比較的難しい問題。
 図2及び図3には、これらの問題の環境と目標位置をそれぞれ示している。
 上記の問題A及びBは、上記I-1項の実験セットアップで説明した通りの2つのテストデータセットである。問題Cの環境は、HMNetには決して見られたことがないが、本開示に係るフレームワークの一般性を検証することを意図したものであり、問題Bと同様の空間的構造を持つ。
(2)アルゴリズムのセットアップ:
 本開示を適用したプランナーであるHM-TS-RRTを用いて、推定環境のヒューリスティックを部分環境のみと比較した。HM-TS-RRTのパラメータは、p=0.4、r=60である。この実験では、各プランナーについて計画を30回試行したときの平均計画時間と経路長を比較して、計画時間の機能として成功率を評価した。プランナーの実行には完了するまでに最大10秒が与えられ、成功した計画の時間を平均化した。
J.結果
 まず、各々の問題において、VAE及びVAE-GANを用いて生成されたヒューリスティックマップについて評価した。次いで、平均再構築誤差を再構築した環境と比較した。VAEのみを用いて生成された環境マップは、ノイズが多い。一方、VAE-GANを用いて生成したマップは、トレーニング用データに近似している。
 図4には、トレーニング用データとなる環境マップを示している。このトレーニング用データは、VAE及びVAE-GANのエンコーダに入力される3D点群データである。図5には、VAEのみを用いて生成された環境マップを示している。この環境マップは、図4に示した環境マップをエンコーダで潜在空間に圧縮した後、デコーダで再構築した結果である。図5から分かるように、VAEのみを用いて生成された環境マップは、ノイズが多い。
 また、図6には、VAE-GANを用いて生成された環境マップを示している。VAEは再構成誤差が十分でない。これに対し、VAE-GANは、VAEにより生成された環境マップが元のトレーニング用データとの最良の識別をVAEに与え、生成された環境マップがトレーニング用データに適合するようにVAEをトレーニングする。したがって、図6に示すVAE-GANを用いて生成された環境マップは、図4に示したトレーニング用データにより近づいている。
 本開示に係る手法を検証するために、以下の2つの評価を行った。
(1)HMNetからのヒューリスティックマップと部分観察のみのデータとの比較。
(2)HMNetからのヒューリスティックマップと部分観察のみのデータの各々についてのHM-TS-RRTの比較。
 各プランナーについて計画を30回実行したときの平均計画時間を評価した。プランナーの実行には完了するまでに最大10秒が与えられ、各プランナーについての成功率も評価した。
J-1.部分観察からのヒューリスティックの評価
 図7には、本棚(図2を参照のこと)を視野の狭いカメラで撮影した部分観察結果を示している。図8には、図7に示した部分観察結果からVAEのみを用いて生成された環境マップ(3D点群データ)を示している。また、図9には、図7に示した部分観察結果からVAE-GANを用いて生成された環境マップ(3D点群データ)を示している。
 そして、図10には、HMNetが、VAE-GANを用いて生成された環境マップ(図9を参照のこと)から生成したヒューリスティックマップを示している。図10は、XYZ座標系におけるヒューリスティックマップの垂直断面におけるヒューリスティック値を示しており、目標位置も含んでいる。矢印で表されているベクトル場は、この平面におけるヒューリスティック値の負の勾配である。このようなベクトル場は、障害物を回避しながら、主に目的地に向かって流れる。ヒューリスティックマップの中には誤ったヒューリスティクスを持つ頂点もあるが、このマップは、HM-TS-RRTのような探索アルゴリズムにおいて探索の組み合わせにより依然として利用可能である。図10を参照すると、ヒューリスティックマップのほとんどの頂点は合理的なヒューリスティック値を持つことが分かり、HMNetから得られたヒューリスティックマップがプランナーに役に立つ手掛かりを提供することができる。
K.結論
 本開示によれば、部分観察をVAE及びVAE-GANに組み込むことによって、新規マップ生成モデルを提供することができる。3D-CNNの特徴を活用することによって、高速モーションプランナーに適用することができる、モーションの経験からヒューリスティックマップを学習するHMNetを提供することができる。本明細書で紹介したHM-TS-RRTは、HMNetからのヒューリスティックマップの純粋な探索に代えて、搾取とガイド付き探索を実行する。
 実験結果によって、本開示に係る手法は、ローカルトラップや狭い通路の問題などの困難な問題でも、同様の分散を持つ平均計画時間という面では、よりよいパフォーマンスを持つことが示された。実験結果は、問題がトレーニングサンプルと同様の空間構造を持つときに、本明細書で説明した学習のアプローチにより、新しい計画シナリオを一般化することができるということも意味する。しかしながら、さまざまな環境において本開示に係るフレームワークの一般化パフォーマンスを定量的に評価することは困難である。ドメイン適応(転移学習)は、さまざまな環境で一般化を増加するための解決策の1つである。転移学習や強化学習などの他の方法でHMNetをトレーニングすることも考えられる。
L.ハードウェア構成例
 図11には、図1に示した情報処理装置100を実現する具体的なハードウェア構成例を示している。図示の情報処理装置100は、プロセッサ1101と、ROM(Read Only Memory)1102と、RAM(Random Access Memory)1103と、ホストバス1104と、ブリッジ1105と、外部バス1106と、インターフェース1107と、入力装置1108と、出力装置1109と、ストレージ1110と、ドライブ1111と、接続ポート1112と、通信装置1113を備えている。但し、図11に示したすべての構成要素が情報処理装置100に必須とは限らず、図示した構成要素の一部を含まない構成や、図示しない他の構成要素をさらに含む構成も実現する。
 プロセッサ1101は、例えば演算処理装置又は制御装置として機能し、ROM1102、RAM1103、ストレージ1110、又はリムーバブル記録媒体1121に記録された各種プログラムを実行して、情報処理装置100内の各構成要素の動作全般又はその一部を制御する。図1に示した、立体エンコーダ101、立体デコーダ102、識別器103、部分観測エンコーダ104、及びマップ生成部105は、プロセッサ1101がプログラムを実行することによって実現される機能モジュールである。
 ROM1102は、プロセッサ1101に読み込まれるプログラムや演算に用いるデータなどを不揮発的に格納するメモリである。RAM1103は、プロセッサ1101が実行するプログラムをストレージ1110やリムーバブル記録媒体1121から読み込んだり、プロセッサ1101がプログラムを実行する際に適宜変化する各種パラメータなどの作業データを一時的に格納したりするために使用されるメモリである。
 ホストバス1104は、高速なデータ伝送が可能な伝送路であり、プロセッサ1101と、ROM1102と、RAM1103を相互接続する。一方、外部バス1106は、比較的データ伝送速度が低速な伝送路であり、種々の構成要素を接続するインターフェース1107が接続されている。ブリッジ1105は、ホストバス1104と外部バス1106を相互接続する。
 図11に示す構成例では、インターフェース1107に接続される構成要素は、入力装置1108と、出力装置1109と、ドライブ1111と、接続ポート1112と、通信装置1113である。
 入力装置1108は、例えば、マウスやキーボード、タッチパネル、ボタン、スイッチ、レバーなどである。また、入力装置1108は、赤外線信号や無線信号を送信するリモートコントローラとその受信機を含んでいてもよい。また、入力装置1109は、マイクロフォンなどの音声入力装置を含んでいてもよい。
 出力装置1109は、液晶表示ディスプレイ(LCD)や有機EL(Electro Luminescent)ディスプレイなどの表示装置、スピーカやヘッドホンなどの音声出力装置を始め、ユーザに対し視覚的又は聴覚的に情報を通知することが可能な装置が含まれる。また、出力装置1109は、触覚刺激によりユーザに情報を通知することが可能な振動デバイスなどの装置を含んでいてもよい。また、出力装置1109は、プリンタや複合機、スマートフォンやタブレットなどの多機能端末を含んでいてもよい。
 ドライブ1111は、リムーバブル記録媒体1121に記録された情報を読み出し、又はリムーバブル記録媒体1121に情報を書き込む装置である。
 リムーバブル記録媒体1121は、例えば、DVD(Digital Versatile Disc)ディスク、Blu-ray(登録商標)ディスク、並びに半導体メモリなどのうち少なくとも1つである。また、リムーバブル記録媒体1121は、非接触ICチップを搭載したICカードや電子機器などであってもよい。
 接続ポート1112は、例えばUSB(Iniversal Serial Bus)ポートである。また、接続ポート1112は、IEEE1394ポート、SCSI(Small Computer System Interface)ポート、RS-232Cポート、HDMI(登録商標)(High-Definition Multimedia Interface)ポートであってもよい。
 外部接続機器1122は、例えばプリンタ、携帯音楽プレイヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダなどである。また、情報処理装置100が図12に示したようなシステム構成の場合には、カメラやLiDARなどの観測装置は、外部接続機器1122の1つとして、接続ポート1112経由で情報処理装置100に外部接続される。
 通信装置1113は、情報処理装置100をネットワークに接続するための装置であり、例えば、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信インターフェースカード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデムなどである。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本開示は、ロボットやドローン、自動運転車など自律動作するさまざまな移動体装置における経路計画、物体を把持するマニピュレータの経路計画などに適用することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
を具備する情報処理装置。
(2)前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードし、
 前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードし、
 前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する、
上記(1)に記載の情報処理装置。
(3)前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える、
上記(2)に記載の情報処理装置。
(4)前記立体エンコーダ及び前記立体デコーダは変分オートエンコーダを構成する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)前記立体エンコーダ、前記立体デコーダ、及び前記識別器は、敵対的生成ネットワークを構成する、
上記(3)に記載の情報処理装置。
(6)前記識別器によって識別された、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う、
上記(3)又は(5)のいずれかに記載の情報処理装置。
(7)前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備える、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)前記マップ生成部は、ロボットの経験則に基づく障害物マップを生成する、
上記(7)に記載の情報処理装置。
(9)前記マップ生成部は、前記障害物マップとロボットの目的地から新たなマップを生成する、
上記(8)に記載の情報処理装置。
(10)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
を有する情報処理方法。
(11)高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
 環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
 低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
(12)周囲環境を部分観測するセンサーと、
 前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
 前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
を具備する観測装置。
 100…情報処理装置、101…立体エンコーダ
 102…立体デコーダ、103…識別器、104…部分観測エンコーダ 
 105…マップ生成部
 1101…プロセッサ、1102…ROM、1103…RAM
 1104…ホストバス、1105…ブリッジ、1106…外部バス
 1107…インターフェース、1108…入力装置
 1109…出力装置、1110…ストレージ、1111…ドライブ
 1112…接続ポート、1113…通信装置
 1121…リムーバブル記録媒体、1122…外部接続機器

Claims (12)

  1.  高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダと、
     環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
     低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダと、
    を具備する情報処理装置。
  2.  前記立体エンコーダは、第1のニューラルネットワークモデルを用いて、高次元の環境情報を低次元空間の環境情報にエンコードし、
     前記部分観測エンコーダは、第2のニューラルネットワークモデルを用いて、環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードし、
     前記立体デコーダは、学習済みの第3のニューラルネットワークモデルを用いて、低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する、
    請求項1に記載の情報処理装置。
  3.  前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分を識別する識別器をさらに備える、
    請求項2に記載の情報処理装置。
  4.  前記立体エンコーダ及び前記立体デコーダは変分オートエンコーダ(Variational Auto-Encoder)を構成する、
    請求項1に記載の情報処理装置。
  5.  前記立体エンコーダ、前記立体デコーダ、及び前記識別器は、VAE-GANを構成する、
    請求項3に記載の情報処理装置。
  6.  前記識別器によって識別された、前記立体デコーダが再構築した環境情報と元の高次元の環境情報の差分が最小となるように、前記第1乃至第3のニューラルネットワークの学習を行う、
    請求項3に記載の情報処理装置。
  7.  前記立体デコーダが再構築した環境情報に基づいてマップを生成するマップ生成部をさらに備える、
    請求項1に記載の情報処理装置。
  8.  前記マップ生成部は、ロボットの経験則に基づく障害物マップを生成する、
    請求項7に記載の情報処理装置。
  9.  前記マップ生成部は、前記障害物マップとロボットの目的地から新たなマップを生成する、
    請求項8に記載の情報処理装置。
  10.  高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコードステップと、
     環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコードステップと、
     低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコードステップと、
    を有する情報処理方法。
  11.  高次元の環境情報を低次元空間の環境情報にエンコードする立体エンコーダ、
     環境を部分的に観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダ、
     低次元空間の環境情報並びに低次元空間の部分観測情報から高次元の環境情報を再構築する立体デコーダ、
    としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータプログラム。
  12.  周囲環境を部分観測するセンサーと、
     前記センサーが観測した部分観測情報を低次元空間の部分観測情報にエンコードする部分観測エンコーダと、
     前記部分観測エンコーダがエンコードした情報を外部に出力する出力部と、
    を具備する観測装置。
PCT/JP2020/048315 2020-02-27 2020-12-23 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 WO2021171768A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-031819 2020-02-27
JP2020031819A JP2021135770A (ja) 2020-02-27 2020-02-27 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置

Publications (1)

Publication Number Publication Date
WO2021171768A1 true WO2021171768A1 (ja) 2021-09-02

Family

ID=77489927

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/048315 WO2021171768A1 (ja) 2020-02-27 2020-12-23 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置

Country Status (2)

Country Link
JP (1) JP2021135770A (ja)
WO (1) WO2021171768A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190320934A1 (en) * 2018-04-18 2019-10-24 Siemens Healthcare Gmbh Medical image acquisition with sequence prediction using deep learning
WO2019239680A1 (ja) * 2018-06-15 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法
WO2019244513A1 (ja) * 2018-06-22 2019-12-26 日本電信電話株式会社 センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム
JP2020500759A (ja) * 2016-12-02 2020-01-16 バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト 単眼動画データに基づく車両の挙動推定システム及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020500759A (ja) * 2016-12-02 2020-01-16 バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト 単眼動画データに基づく車両の挙動推定システム及び方法
US20190320934A1 (en) * 2018-04-18 2019-10-24 Siemens Healthcare Gmbh Medical image acquisition with sequence prediction using deep learning
WO2019239680A1 (ja) * 2018-06-15 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法
WO2019244513A1 (ja) * 2018-06-22 2019-12-26 日本電信電話株式会社 センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SMITH, EDWARD, DAVID MEGER: "Improved adversarial systems for 3D object generation and reconstruction", ARXIV, 30 October 2017 (2017-10-30), pages 2 - 5, XP081294656, Retrieved from the Internet <URL:https://arxiv.org/pdf/1707.09557v3> [retrieved on 20210322] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Also Published As

Publication number Publication date
JP2021135770A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
US11325252B2 (en) Action prediction networks for robotic grasping
US20230150127A1 (en) Optimizing policy controllers for robotic agents using image embeddings
KR102318772B1 (ko) 도메인 분리 뉴럴 네트워크들
Ding et al. Sim-to-real transfer for optical tactile sensing
CN105144196B (zh) 用于计算相机或对象姿态的方法和设备
JP5555207B2 (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
US11853895B2 (en) Mirror loss neural networks
Zhao et al. Zero-shot object goal visual navigation
Marban et al. Estimation of interaction forces in robotic surgery using a semi-supervised deep neural network model
JP2014085933A (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN116343012B (zh) 基于深度马尔可夫模型的全景图像扫视路径预测方法
CN115053238A (zh) 自适应共蒸馏模型
US20220402125A1 (en) System and method for determining a grasping hand model
WO2021171768A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置
Li et al. DeformNet: Latent Space Modeling and Dynamics Prediction for Deformable Object Manipulation
Rezazadeh et al. KINet: Unsupervised Forward Models for Robotic Pushing Manipulation
Wu et al. Video driven adaptive grasp planning of virtual hand using deep reinforcement learning
Tian et al. View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
Ju et al. Enhancing human–robot communication with a comprehensive language-conditioned imitation policy for embodied robots in smart cities
Malek-Podjaski et al. Adversarial Attention for Human Motion Synthesis
KR102540560B1 (ko) 랜덤 포레스트를 사용한 손 자세의 계층적 추정 방법, 이를 수행하기 위한 기록 매체 및 장치
US20230282031A1 (en) Pose prediction for articulated object
Sun et al. Adversarial imitation learning-based network for category-level 6D object pose estimation
Ruiz Simulating to Learn: Using Adaptive Simulation to Train, Test and Understand Neural Networks
WO2023167718A1 (en) Pose prediction for articulated object

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921473

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20921473

Country of ref document: EP

Kind code of ref document: A1