WO2020075252A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2020075252A1
WO2020075252A1 PCT/JP2018/037841 JP2018037841W WO2020075252A1 WO 2020075252 A1 WO2020075252 A1 WO 2020075252A1 JP 2018037841 W JP2018037841 W JP 2018037841W WO 2020075252 A1 WO2020075252 A1 WO 2020075252A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
dimensional
information
images
unit
Prior art date
Application number
PCT/JP2018/037841
Other languages
English (en)
French (fr)
Inventor
健 宮本
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2019511509A priority Critical patent/JP6541920B1/ja
Priority to PCT/JP2018/037841 priority patent/WO2020075252A1/ja
Priority to TW108106457A priority patent/TW202014993A/zh
Publication of WO2020075252A1 publication Critical patent/WO2020075252A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to an information processing device, a program, and an information processing method.
  • Non-Patent Document 1 in order to prepare a large number of images of a specific target, after creating a foreground image by rendering a three-dimensional model of the target from a plurality of positions and angles, a plurality of background images prepared in advance are prepared. A method of creating a large amount of images by pasting together is proposed.
  • Non-Patent Document 1 With the technology described in Non-Patent Document 1, the generated image was not similar to the image actually observed by the camera for the following two reasons. As a result, there is a problem in recognition accuracy when learning these images.
  • the first reason is the quality problem of the 3D model that the texture set in the 3D model is different from what is actually observed.
  • the second reason is that the viewpoint and angle for rendering the 3D model are not set properly, so that an image that cannot be observed in reality is created. For example, a large amount of images that cannot be observed in reality, such as a chair floating up in the air in an inverted state, are created.
  • one or more embodiments of the present invention are intended to enable a large number of images similar to the images actually captured to be generated.
  • An information processing apparatus includes three-dimensional information that acquires three-dimensional information including a plurality of images and position information indicating three-dimensional positions of a plurality of points included in each of the plurality of images.
  • An acquisition unit an image processing unit that generates plane information indicating a plurality of planes included in each of the plurality of images from the position information, and a recognition target selection unit that selects a recognition target from the position information.
  • a polygon model generation unit that generates the recognition target polygon model from the position information; a texture selection unit that selects an image used as a texture of the polygon model from the plurality of images; the polygon model; A 3D model of the recognition target is generated by combining with the selected image, and a plurality of different 2D images are generated from the generated 3D model.
  • An image generation unit that, characterized in that it comprises a.
  • a program causes a computer to determine a plurality of planes included in each of the plurality of images from position information indicating the three-dimensional positions of a plurality of points included in each of the plurality of images.
  • An image processing unit that generates plane information shown, from the position information, a recognition target selection unit that selects a recognition target, from the position information, a polygon model generation unit that generates the recognition target polygon model, from the plurality of images,
  • a texture selection unit that selects an image used as a texture of the polygon model, and the polygon model and the selected image are combined to generate the three-dimensional model of the recognition target, and the generated cubic It is characterized in that it functions as an image generation unit that generates a plurality of different two-dimensional images from the original model.
  • An information processing method obtains a plurality of images and three-dimensional information including position information indicating a three-dimensional position of a plurality of points included in each of the plurality of images, and the position is acquired. From the information, plane information indicating a plurality of planes included in each of the plurality of images is generated, a recognition target is selected from the position information, and a polygon model of the recognition target is generated from the position information. , Selecting an image used as a texture of the polygon model from the plurality of images and combining the polygon model and the selected image to generate the three-dimensional model of the recognition target, It is characterized by generating a plurality of different two-dimensional images from the three-dimensional model.
  • FIG. 3 is a block diagram schematically showing the configuration of the information processing device according to the first and second embodiments. It is a schematic diagram for explaining a coordinate system.
  • 7 is a block diagram schematically showing a configuration of a foreground image generation unit in Embodiments 1 and 3.
  • FIG. It is a block diagram which shows roughly the structure of the information processing apparatus which concerns on a modification.
  • FIG. 3 is a block diagram illustrating a hardware configuration example of an information processing device.
  • 5 is a flowchart showing the operation of the information processing device according to the first embodiment.
  • 7 is a flowchart showing an operation of generating three-dimensional model information in the first embodiment.
  • 6 is a flowchart showing an operation of generating a foreground image from three-dimensional model information in the first embodiment.
  • FIG. 1 is a block diagram schematically showing the configuration of the information processing device according to the first and second embodiments. It is a schematic diagram for explaining a coordinate system.
  • 7 is a block diagram schematically showing
  • FIG. 9 is a block diagram schematically showing a configuration of a foreground image generation unit in the second embodiment.
  • 9 is a flowchart showing an operation of generating three-dimensional model information in the second embodiment.
  • FIG. 9 is a block diagram schematically showing a configuration of an information processing device according to a third embodiment.
  • FIG. 1 is a block diagram schematically showing the configuration of the information processing device 100 according to the first embodiment.
  • the information processing apparatus 100 includes a 3D information acquisition unit 110, a foreground image generation unit 120, a 3D model database (hereinafter, referred to as 3D model DB) 130, a background image database (hereinafter, referred to as background image DB) 140.
  • An image synthesizing unit 150 and a learning image database (hereinafter referred to as learning image DB) 160 are provided.
  • the three-dimensional information acquisition unit 110 acquires three-dimensional information including a plurality of images and position information indicating three-dimensional positions of a plurality of points included in each of the plurality of images.
  • the three-dimensional information acquisition unit 110 acquires three-dimensional information using SLAM (Simultaneou Localization And Mapping) or the like.
  • the three-dimensional information is, for example, position information indicating three-dimensional positions of a plurality of images captured from a plurality of viewpoints and angles and a plurality of points included in each of the plurality of images.
  • three-dimensional point cloud information may include the plurality of images and sensor information indicating the positions and angles at which the plurality of images are captured.
  • the three-dimensional position of the plurality of points indicated by the position information is also referred to as a three-dimensional point cloud.
  • the three-dimensional information acquisition unit 110 is realized by an RGB-D (Red Green Blue-Depth) camera.
  • qfl is obtained by the following equation (1).
  • F is the number of images captured during the SLAM process, and is an integer of 1 or more.
  • L f is the number of pixels for which the distance is obtained in each image, and is an integer of 1 or more.
  • K is an internal parameter of the RGB-D camera and is a parameter indicating a focus, a lens center, or the like.
  • the distance is the coordinates of the pixels of the image are obtained.
  • q ′ l is the coordinate between the number of horizontal pixels u l and the number of vertical pixels v l when the upper left of the image is the origin, as shown in the following equation (2).
  • dfl is the distance from the shooting position to the target corresponding to the point l of the image f. dfl is obtained from the depth channel of the RGB-D camera.
  • the point q fl is represented by a coordinate system as shown in FIG. 2, in which the camera position is the origin, the optical axis direction is the z axis, the horizontal direction is the x axis, and the vertical direction is the y axis.
  • the point q fl is shown in a different coordinate system for each image (viewpoint).
  • viewpoint In order to create a large-scale point cloud by integrating the point clouds at the time of capturing each image, it is necessary to represent the point cloud in a unified coordinate system.
  • the flow of a typical method of converting the image captured at the first time into the coordinate system is as follows. First, the local feature amount is extracted from the first image and other images. Next, the local feature amounts extracted from the two images are matched. Next, the relationship (parallel movement amount and rotation amount) between the two images is obtained using the matched local feature amount pair.
  • the above method is a typical method.
  • the relation (movement amount) between the first image obtained by such a method and another image f is set to T 1 ⁇ f, and each point is expressed in the coordinate system when the first image is photographed, the following (3) It becomes an expression.
  • the finally obtained three-dimensional point cloud is a set of points r fl .
  • the three-dimensional information acquisition unit 110 gives the generated three-dimensional information to the foreground image generation unit 120.
  • the position and angle of the image sensor are the position and angle when each image was captured.
  • Representation of the angle r n the Euler angles, Quaternion or Euler-Rodrigues formats such as may be in any form if Sadamare a three-dimensional rotation angle.
  • the foreground image generation unit 120 generates a plurality of foreground images indicating the recognition target from the 3D information acquired by the 3D information acquisition unit 110, and generates foreground image information indicating the plurality of foreground images.
  • FIG. 3 is a block diagram schematically showing the configuration of the foreground image generation unit 120.
  • the foreground image generation unit 120 includes an image processing unit 121, a recognition target selection unit 122, a polygon model generation unit 123, a texture selection unit 124, and an image generation unit 125.
  • the image generation unit 125 includes a rendering parameter setting unit 126 and a rendering unit 127.
  • the image processing unit 121 generates plane information indicating a plurality of planes from the position information included in the three-dimensional information.
  • the plane information indicates a plane corresponding to the surface of the target.
  • RANSAC Random Sample Consensus
  • the method of detecting a plane using RANSAC is as follows. First, several points are selected from the three-dimensional point cloud to create a plane. Next, if the number of points on the plane is a certain number, the created plane is adopted, and if the number of points on the plane is not a certain number, the created plane is rejected. Next, the above process is repeated to detect a plurality of planes.
  • the recognition target selection unit 122 selects a recognition target from the three-dimensional information.
  • the position information or plane information included in the three-dimensional information may include an object other than the recognition object. For example, when an object to be recognized is placed on the floor and the object is photographed, three-dimensional information of the floor is also acquired at the same time. In order to exclude targets other than the recognition target, the recognition target selection unit 122 selects from position information or plane information.
  • the recognition target selection unit 122 displays the three-dimensional point cloud indicated by the three-dimensional point cloud information on the display unit (not shown), and the recognition target from the operator via the input unit (not shown). Accept the selection of. Further, the recognition target selection unit 122 displays a plurality of planes indicated by the plane information on a display unit (not shown), and an operator selects a plane corresponding to the recognition target via an input unit (not shown). By accepting, the selection of the recognition target may be accepted. Furthermore, the recognition target selection unit 122 may accept selection of a recognition target from both the 3D point cloud information and the plane information.
  • the recognition target selecting unit 122 compares the recognition target model, which is a three-dimensional model of the recognition target prepared in advance, with the detected three-dimensional point group, in other words, performs matching between them. Then, the recognition target may be selected.
  • the recognition target model here can be generated by, for example, CAD (Computer-Aided design).
  • the recognition target model is not a three-dimensional model in which the texture of the actual target is also reflected, but only the information of the target shape, or a model in which texture is roughly added to the shape information by painting or the like.
  • a recognition target model DB 170 which is a recognition target model storage unit that stores recognition target model data indicating the recognition target model is further provided.
  • the reason for selecting the recognition target at this point is to limit the polygon creation range, which is the subsequent process.
  • Creating polygons for arbitrary three-dimensional information is a difficult problem.
  • the Poisson method which is one of the typical methods, is a method for creating a polygon based on prior information that an object is smooth. When the target is not smooth, for example, accuracy deteriorates for an object with many corners.
  • Another typical method, Delaunary Triangulation is a method that does not use a priori information like the Poisson method, but has a problem that polygons affected by noise included in a three-dimensional point cloud are generated. is there. As described above, it is difficult to convert the noise-laden data into the polygon model for arbitrary objects, and it is realistic to appropriately use the prior information.
  • a well-formed polygon model can be generated by performing the subsequent processing using only some planes and the three-dimensional point cloud.
  • the polygon model generation unit 123 generates the recognition target polygon model selected by the recognition target selection unit 122, and generates polygon information indicating the generated polygon model. Specifically, the polygon model generation unit 123 may generate the recognition target polygon model using the three-dimensional point cloud information and the plane information included in the three-dimensional information. As described above, the Poisson method or the Delaunary Triangulation is an example of the method of generating the polygon model.
  • the polygon model generation unit 123 generates a polygon model using the three-dimensional point group information and the plane information. However, even if only one of them is included, one of them is included. Since the other can be generated, the polygon model generation unit 123 can generate the polygon model from the one.
  • the texture selection unit 124 selects a texture corresponding to the polygon model generated by the polygon model generation unit 123.
  • the texture is selected from the plurality of images acquired by the three-dimensional information acquisition unit 110.
  • the texture selection unit 124 selects an image n that satisfies the following expression (4) in order to select the image with the shortest distance between the image sensor and the polygon model.
  • p n indicates the position upon shooting images n.
  • q 1 , q 2 , and q 3 indicate three points included in the polygon model.
  • f (p n, q 1, q 2, q 3) shows a polygon model, the distance between the position p n.
  • the texture selecting unit 124 may select an image n that satisfies the following expression (5) in order to select an image having the smallest angle between the direction in which the image sensor faces and the normal line of the polygon.
  • v n is a vector indicating the direction in which the image sensor faces, which is obtained from the angle r n of the image sensor when the image n is captured.
  • m indicates a normal vector of the polygon model.
  • g (vn, m) is defined by the following equation (6).
  • the texture selection unit 124 may select either the image n satisfying the expression (4) or the image n satisfying the expression (5), or the image n satisfying the expression (4) and ( An image satisfying any of the images n satisfying the expression (5) may be selected.
  • the texture selecting unit 124 specifies the texture coordinates that are the coordinates of the texture.
  • the texture coordinates are obtained by projecting the three points of the polygon model onto the image selected as the texture.
  • the projection is defined by the following expression (7).
  • q indicates one point in the polygon model. [R
  • q ′ indicates the position where the point q is projected on the image selected as the texture.
  • (X, y) is the pixel coordinate of the image selected as the texture. If the lens of the RGB-D camera is distorted, the pixel coordinates are subjected to distortion removal processing to obtain the final coordinates.
  • a method of converting a pixel image into texture coordinates (u, v) is as in the following expression (8).
  • w is the width of the image selected as the texture
  • h is the height of the image.
  • the polygon model information generated by the polygon model generation unit 123 and the image and texture coordinates selected by the texture selection unit 124 are stored in the three-dimensional model DB 130 as three-dimensional model information. It should be noted that the 3D model information may be passed to the rendering parameter setting unit 126 and the rendering unit 127 at a later stage without being stored in the 3D model DB 130, and the processing in these may be performed.
  • the image generation unit 125 combines the polygon model generated by the polygon model generation unit 123 and the image selected as the texture by the texture selection unit 124 to generate a three-dimensional model to be recognized, and the three-dimensional model thereof. To generate a plurality of different two-dimensional images.
  • the rendering parameter setting unit 126 sets a parameter group including a plurality of parameters used when performing rendering using the three-dimensional model information. For example, the rendering parameter setting unit 126 sets a parameter group indicating the position and strength of the light source, the reflection intensity of the polygon model, and the position and inclination of the viewpoint when rendering. Here, the rendering parameter setting unit 126 sets a plurality of parameter groups so that at least one parameter is different.
  • the setting of the rendering parameter may be manually performed by the user via the display unit and the input unit, or may be automatically performed by the rendering parameter setting unit 126.
  • the rendering parameter setting unit 126 automatically sets the rendering parameters, for example, a plurality of parameters are prepared in advance, and the rendering parameters may be set by combining the prepared plurality of parameters.
  • the rendering parameter setting unit 126 gives the rendering unit 127 parameter information indicating the set plurality of parameter groups.
  • the rendering unit 127 corresponds to the 3D model to be recognized by rendering the 3D model to be recognized, which is indicated by the 3D model information, using each of the plurality of parameter groups indicated by the parameter information. Generate a plurality of two-dimensional images.
  • the three-dimensional model to be recognized is generated by combining the polygon model generated by the polygon model generation unit 123 and the image selected as the texture by the texture selection unit 124.
  • the rendering unit 127 sets a plurality of two-dimensional images generated by rendering as a plurality of foreground images, and sets image data indicating each of the plurality of foreground images as foreground image data to the image combining unit 150. give.
  • the three-dimensional model DB 130 stores the polygon model information generated by the polygon model generation unit 123, the image selected by the texture selection unit 124, and the three-dimensional model information including texture coordinates.
  • the background image DB 140 stores the background image data that is the image data of the background image.
  • the image combining unit 150 combines the foreground image indicated by the foreground image data provided from the foreground image generating unit 120 with the background image indicated by the background image data stored in the background image DB 140.
  • An image is used as a learning image, and learning image data indicating the learning image is generated.
  • the learning image DB 160 stores the learning image data generated by the image synthesizing unit 150.
  • FIG. 5 is a block diagram showing a hardware configuration example of the information processing apparatus 100.
  • the information processing device 100 includes a computer 1, an output device 2, an input device 3, and a sensor 4.
  • the computer 1 is, for example, a computer that can include a memory and a processor such as a CPU (Central Processing Unit) that executes a program stored in the memory.
  • a program may be provided via a network, or may be provided by being recorded in a recording medium. That is, such a program may be provided as a program product, for example.
  • a program product for example.
  • a part of the computer 1 is configured by a processing circuit such as a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuits) or an FPGA (Field Programmable Gate Array). You can also do it.
  • a processing circuit such as a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuits) or an FPGA (Field Programmable Gate Array). You can also do it.
  • the foreground image generation unit 120, the three-dimensional model DB 130, the background image DB 140, the image synthesis unit 150, and the learning image DB 160 shown in FIG. 1 can be realized by the computer 1.
  • the output device 2 is a device that functions as an output unit that displays various screen images, such as a display.
  • the input device 3 is a device that functions as an input unit such as a mouse, a keyboard, and a touch panel.
  • the sensor 4 is a device that functions as the three-dimensional information acquisition unit 110 that acquires three-dimensional information.
  • the sensor 4 is realized by an RGB-D camera. It should be noted that the sensor 4 captures a two-dimensional image with an IMU (Internal Measurement Unit), a sensor capable of acquiring a distance using infrared rays, LiDAR (Light Detection and Ranging), or ultrasonic waves. It can also be realized by combining with a camera capable of
  • FIG. 6 is a flowchart showing the operation of the information processing device 100.
  • the information processing apparatus 100 repeats the following processing for the number of background images indicated by the background image data stored in the background image DB 140 (S10).
  • the three-dimensional information acquisition unit 110 acquires three-dimensional information (S11).
  • the foreground image generation unit 120 generates a plurality of foreground images based on the 3D information acquired by the 3D information acquisition unit 110 (S12).
  • the image composition unit 150 repeats the following processing for the number of foreground images generated by the foreground image generation unit 120 (S13).
  • the image composition unit 150 combines the background image represented by the background image data stored in the background image DB 140 with the foreground image represented by the foreground image data generated by the foreground image generation unit 120 to generate the learning image.
  • Generate (S14).
  • the learning image data indicating the learning image generated in this way is accumulated in the learning image DB 160.
  • FIG. 7 and 8 are flowcharts showing the operation of generating the foreground image in step S12 of FIG.
  • FIG. 7 shows an operation of generating three-dimensional model information
  • FIG. 8 shows an operation of generating a foreground image from the three-dimensional model information.
  • the image processing unit 121 generates a plane from the 3D information acquired by the 3D information acquisition unit 110 (S20).
  • the recognition target selection unit 122 selects a recognition target from the three-dimensional information acquired by the three-dimensional information acquisition unit 110 (S21).
  • the polygon model generation unit 123 generates a polygon model using the plane generated by the image processing unit 121 and the three-dimensional point group selected by the recognition target selection unit 122 (S21).
  • the texture selection unit 124 selects an image to be used as a texture corresponding to the polygon model generated by the polygon model generation unit 123, and specifies texture coordinates that are the coordinates of the texture in the selected image (S22). .
  • the texture selection unit 124 stores the polygon model information generated by the polygon model generation unit 123 and the image and texture coordinates selected by the texture selection unit 124 in the three-dimensional model DB 130 as three-dimensional model information. (S23).
  • the rendering unit 127 reads the 3D model information from the 3D model DB 130 (S30). Next, the rendering unit 127 repeats the processes of the following steps S32 and S33 for the number of combinations of parameters set by the rendering parameter setting unit 126 (S31).
  • step S32 the rendering unit 127 sets one combination of the parameters set by the rendering parameter setting unit 126.
  • step S33 the rendering unit 127 renders an image corresponding to the 3D model to be recognized, which is indicated by the 3D model information, using the combination of the set parameters.
  • a large amount of learning data can be created using the three-dimensional information acquired in a general environment, so that a large number of learning images can be easily generated.
  • the information processing apparatus 200 includes a three-dimensional information acquisition unit 110, a foreground image generation unit 220, a three-dimensional model DB 130, a background image DB 140, and image combination.
  • the unit 150 and the learning image DB 160 are provided.
  • the three-dimensional information acquisition unit 110, the three-dimensional model DB 130, the background image DB 140, the image composition unit 150, and the learning image DB 160 according to the second embodiment are the same as the three-dimensional information acquisition unit 110, the three-dimensional model DB 130, and the background image according to the first embodiment. It is the same as the DB 140, the image composition unit 150, and the learning image DB 160.
  • FIG. 9 is a block diagram schematically showing the configuration of the foreground image generation unit 220 in the second embodiment.
  • the foreground image generation unit 220 includes an image processing unit 121, a recognition target selection unit 122, a polygon model generation unit 123, a texture selection unit 124, an image generation unit 125, an illumination environment estimation unit 228, and an illumination removal unit 229.
  • the image processing unit 121, the recognition target selection unit 122, the polygon model generation unit 123, the texture selection unit 124, and the image generation unit 125 in the second embodiment are the image processing unit 121, the recognition target selection unit 122, and the polygon in the first embodiment. This is the same as the model generation unit 123, the texture selection unit 124, and the image generation unit 125. However, these are processed using the image after the influence of the illumination environment is removed by the illumination removal unit 229.
  • the lighting environment estimation unit 228 estimates the lighting environment from the image included in the acquired three-dimensional information. For example, the illumination environment estimation unit 228 estimates the position, type and intensity of the light source using the information included in the acquired three-dimensional information. Specifically, the illumination environment estimation unit 228 estimates the position, type, and intensity of the light source from the distribution of illumination light reflected in the image included in the three-dimensional information. Then, the illumination environment estimation unit 228 generates illumination information indicating the estimated position, type, and intensity of the light source, and supplies the illumination information to the illumination removal unit 229.
  • the illumination removal unit 229 removes the influence of the illumination environment estimated by the illumination environment estimation unit 228 from the image included in the acquired three-dimensional information.
  • the illumination removing unit 229 refers to the position, type, and intensity of the light source indicated by the illumination information, and removes the influence of illumination from the image included in the three-dimensional information.
  • the illumination removing unit 229 performs image processing such as removal of shadows and removal of specular reflection included in the image. Then, the illumination removing unit 229 gives the recognition target selecting unit 122 a three-dimensional information including the image after the influence of the illumination is removed.
  • FIG. 10 is a flowchart showing an operation of generating three-dimensional model information in the second embodiment. Note that, in FIG. 10, the same processes as those in FIG. 7 are denoted by the same reference numerals as those in FIG. 7, and detailed description thereof will be omitted.
  • the illumination environment estimation unit 228 estimates the position, type and intensity of the light source using the information included in the acquired three-dimensional information (S40).
  • the illumination removing unit 229 refers to the position, type, and intensity of the light source indicated by the illumination information, and removes the influence of illumination from the image included in the three-dimensional information (S41). Then, the process proceeds to step S20.
  • the processing in steps S20 to S24 is the same as the processing in steps S20 to S24 shown in FIG. However, in the processing in steps S20 to S24, the image included in the three-dimensional information is the image after the influence of illumination is removed in step S41.
  • the second embodiment it is possible to remove the influence of the illumination environment when the image is captured from the image included in the three-dimensional information. Therefore, the three-dimensional model having higher quality than that of the first embodiment is obtained. Can be generated, and the quality of images for learning is improved.
  • FIG. 11 is a block diagram schematically showing the configuration of the information processing device 300 according to the third embodiment.
  • the information processing apparatus 300 includes a 3D information acquisition unit 110, a foreground image generation unit 320, a 3D model DB 130, an image synthesis unit 350, a learning image DB 160, a background 3D information database (hereinafter, background 3D information). 380).
  • the three-dimensional information acquisition unit 110, the three-dimensional model DB 130, and the learning image DB 160 in the third embodiment are the same as the three-dimensional information acquisition unit 110, the three-dimensional model DB 130, and the learning image DB 160 in the first embodiment.
  • the background three-dimensional information DB 380 is a background three-dimensional information storage unit that stores background three-dimensional information including background image and background position information indicating the three-dimensional positions of a plurality of points included in the background image.
  • the background three-dimensional information is, for example, a plurality of background images that are images of a plurality of backgrounds photographed from a plurality of viewpoints and angles, and a cubic of a plurality of points included in each of the plurality of background images.
  • Background three-dimensional point cloud information that is background position information that indicates the original position (background three-dimensional point cloud), background plane information that indicates a background plane that is a plane corresponding to the surface of the background, the position at which the background image was captured, and Background sensor information indicating an angle.
  • the background three-dimensional information may be partially missing. For example, the background three-dimensional point cloud information may be lost.
  • the foreground image generation unit 320 includes an image processing unit 121, a recognition target selection unit 122, a polygon model generation unit 123, a texture selection unit 124, and an image generation unit. And section 325.
  • the image processing unit 121, the recognition target selection unit 122, the polygon model generation unit 123, and the texture selection unit 124 in the third embodiment are the image processing unit 121, the recognition target selection unit 122, and the polygon model generation unit in the first embodiment. This is the same as 123 and the texture selection unit 124.
  • the image generation unit 325 generates a three-dimensional model to be recognized by combining the polygon model generated by the polygon model generation unit 123 and the image selected as the texture by the texture selection unit 124, and the three-dimensional model thereof. To generate a plurality of different two-dimensional images.
  • the rendering parameter setting unit 326 specifies the position, the inclination, and the size at which the three-dimensional model to be recognized can be arranged in the background image from the three-dimensional background information stored in the three-dimensional background information DB 380, and is specified. Set multiple parameters to render with position, tilt and size.
  • the rendering parameter setting unit 326 when synthesizing the foreground image on the background image included in the background three-dimensional information, the position and inclination of the viewpoint included in the background three-dimensional information, the background plane, and the like so that there is no discomfort. Also, the position and inclination of the viewpoint at the time of rendering are set using the background three-dimensional point cloud. Specifically, the rendering parameter setting unit 326 determines the size of the recognition target 3D model and the background based on the 3D model of the recognition target indicated by the 3D model information and the background indicated by the background 3D model information. Can be recognized.
  • the rendering parameter setting unit 326 determines that the 3D model to be recognized cannot be set on the background plane smaller than the bottom surface of the 3D model to be recognized, which is indicated by the 3D model information. Relationships such as Occlusion or relative relationship between the model and the background can be clearly defined.
  • the rendering parameter setting unit 326 causes the depth or size between the three-dimensional model of the recognition target indicated by the three-dimensional model information and the background indicated by the background three-dimensional information to be uncomfortable.
  • Set multiple parameter groups so that there is no
  • the rendering parameter setting unit 326 displays at least one of the background image and the background three-dimensional point cloud indicated by the background three-dimensional information on a display unit (not shown), and an input unit (not shown).
  • the input of a plurality of parameter groups may be accepted from the operator via the. Then, the rendering parameter setting unit 326 may set the input parameter group.
  • the rendering parameter setting unit 326 sets the background image on which the ID, which is the image target identification information indicating the three-dimensional model of the recognition target indicated by the three-dimensional model information, and the foreground image corresponding to the three-dimensional model of the recognition target are arranged.
  • the arrangement information indicating the upper position is generated.
  • the layout information is given to the rendering unit 327 together with the parameter information.
  • the rendering unit 327 renders the three-dimensional model of the recognition target indicated by the three-dimensional model information by using each of the plurality of parameter groups indicated by the parameter information. Generate a two-dimensional image of.
  • the rendering unit 327 provides the two-dimensional image generated by rendering as a foreground image, and supplies the image data as foreground image data to the image composition unit 350 together with the arrangement information. It is assumed that the foreground image data includes an ID indicating the corresponding three-dimensional model to be recognized.
  • the image combining unit 350 arranges the foreground image indicated by the foreground image data given from the foreground image generating unit 320 at the position indicated by the arrangement information given from the foreground image generating unit 320.
  • the synthesized image is used as a learning image, and learning image data indicating the learning image is generated.
  • the image composition unit 350 may arrange the foreground image indicated by the foreground image data at the position and the inclination indicated by the arrangement information, corresponding to the ID included in the foreground image data.
  • the third embodiment it is possible to generate a large number of images that reflect the size or position of the target included in the background image and the foreground image.
  • the RGB-D camera is used as the three-dimensional information acquisition unit 110, but the first to third embodiments are limited to such an example. Not done.
  • the three-dimensional information acquisition unit 110 can be realized by a stereo camera.
  • the stereo camera when determining the point q fl, the point q fl from the parallax of the left and right cameras (distance) is calculated.
  • the other points are the same as in the case of using the RGB-D camera.
  • the three-dimensional information acquisition unit 110 can also be realized by a combination of a monocular camera and an IMU (Internal Measurement Unit).
  • the point q fl is obtained by using two images captured by the monocular camera and having different viewpoints and the positional relationship between the viewpoints obtained by using the IMU.
  • the other points are the same as in the case of using the RGB-D camera.
  • 100, 200, 300 information processing device 110 three-dimensional information acquisition unit, 120, 220, 320 foreground image generation unit, 121 image processing unit, 122 recognition target selection unit, 123 polygon model generation unit, 124 texture selection unit, 125, 125, 325 image generation part, 126,326 rendering parameter setting part, 127,327 rendering part, 228 lighting environment estimation part, 229 lighting removal part, 130 three-dimensional model DB, 140 background image DB, 150,250 image composition part, 160 learning Image DB, 170 authentication target model DB, 380 background 3D information DB.

Abstract

複数の画像、及び、その複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得する三次元情報取得部(110)と、その位置情報から、その複数の画像の各々に含まれている複数の平面を示す平面情報を生成し、その位置情報から、認識対象を選択し、その位置情報から、認識対象のポリゴンモデルを生成し、その複数の画像から、生成されたポリゴンモデルのテクスチャとして用いられる画像を選択し、生成されたポリゴンモデルと、選択された画像とを組み合わせることで、認識対象の三次元モデルを生成し、生成された三次元モデルから異なる複数の二次元画像を生成する前景画像生成部(120)と、を備えることを特徴とする。

Description

情報処理装置、プログラム及び情報処理方法
 本発明は、情報処理装置、プログラム及び情報処理方法に関する。
 対象を認識するために、大量の画像を学習する技術が開発されている。
 このような技術では、大量の画像が必要とされるが、人又は車等のように一般化された対象の画像であれば、オープンソースを使って大量の画像を用意することができる。
 しかしながら、特定の車、特定の設備又は特定の製品の画像を大量に収集するのは困難である。そこで、非特許文献1には、特定の対象の画像を大量に用意するため、対象の三次元モデルを複数の位置及び角度からレンダリングした前景画像を作成した後、予め用意された複数の背景画像に貼り合わせて画像を大量に作成する方法が提案されている。
Manik Goyal, Param Rajpura, Hristo Bojinov, and Ravi Hegde,"Dataset Augmentation with Synthetic Images Improves Semantic Segmentation",arXiv:1709.00849v3,June 26, 2018
 非特許文献1に記載された技術は、以下に記載された2つの理由で、生成された画像が実際にカメラで観測される画像に類似していなかった。その結果、これらの画像を学習させた際の認識精度に課題があった。
 第1の理由は、三次元モデルに設定されているテクスチャが、実際に観測されるものと異なっているという三次元モデルの品質の問題である。
 第2の理由は、三次元モデルをレンダリングするための視点及び角度が適切に設定されていないため、現実には観測し得ない画像が作成されるという問題である。例えば、椅子が反転した状態で宙に浮いている等、現実には観測し得ない画像が大量に作成される。
 そこで、本発明の1又は複数の実施の形態は、実際に撮影される画像に類似した画像を大量に生成できるようにすることを目的とする。
 本発明の1態様に係る情報処理装置は、複数の画像、及び、前記複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得する三次元情報取得部と、前記位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成する画像処理部と、前記位置情報から、認識対象を選択する認識対象選択部と、前記位置情報から、前記認識対象のポリゴンモデルを生成するポリゴンモデル生成部と、前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択するテクスチャ選択部と、前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成する画像生成部と、を備えることを特徴とする。
 本発明の1態様に係るプログラムは、コンピュータを、複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成する画像処理部、前記位置情報から、認識対象を選択する認識対象選択部、前記位置情報から、前記認識対象のポリゴンモデルを生成するポリゴンモデル生成部、前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択するテクスチャ選択部、及び、前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成する画像生成部、として機能させることを特徴とする。
 本発明の1態様に係る情報処理方法は、複数の画像、及び、前記複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得し、前記位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成し、前記位置情報から、認識対象を選択し、前記位置情報から、前記認識対象のポリゴンモデルを生成し、前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択し、前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成することを特徴とする。
 本発明の1又は複数の態様によれば、実際に撮影される画像に類似した画像を大量に生成することができる。
実施の形態1及び2に係る情報処理装置の構成を概略的に示すブロック図である。 座標系を説明するための概略図である。 実施の形態1及び3における前景画像生成部の構成を概略的に示すブロック図である。 変形例に係る情報処理装置の構成を概略的に示すブロック図である。 情報処理装置のハードウェア構成例を示すブロック図である。 実施の形態1に係る情報処理装置の動作を示すフローチャートである。 実施の形態1において、三次元モデル情報を生成する動作を示すフローチャートである。 実施の形態1において、三次元モデル情報から前景画像を生成する動作を示すフローチャートである。 実施の形態2における前景画像生成部の構成を概略的に示すブロック図である。 実施の形態2において、三次元モデル情報を生成する動作を示すフローチャートである。 実施の形態3に係る情報処理装置の構成を概略的に示すブロック図である。
実施の形態1.
 図1は、実施の形態1に係る情報処理装置100の構成を概略的に示すブロック図である。
 情報処理装置100は、三次元情報取得部110と、前景画像生成部120と、三次元モデルデータベース(以下、三次元モデルDBという)130と、背景画像データベース(以下、背景画像DBという)140と、画像合成部150と、学習画像データベース(以下、学習画像DBという)160とを備える。
 三次元情報取得部110は、複数の画像、及び、その複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得する。例えば、三次元情報取得部110は、SLAM(Simultaneou Localization And Mapping)等を用いて、三次元情報を取得する。
 本実施の形態では、三次元情報は、例えば、複数の視点及び角度から撮影された複数の画像と、その複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報である三次元点群情報とを含む。さらに、三次元情報は、その複数の画像と、その複数の画像を撮像した位置及び角度を示すセンサ情報とを含んでいてもよい。なお、位置情報で示される複数の点の三次元における位置を三次元点群ともいう。
 ここでは、三次元情報取得部110が、RGB-D(Red Green Blue - Depth)カメラで実現される例を説明する。
 ある視点で撮影された画像f(f=1,2,・・・,F)を撮影したときに得られる点l(l=1,2,・・・,L)の位置をqflとすると、qflは、下記の(1)式で得られる。
Figure JPOXMLDOC01-appb-M000001
 Fは、SLAM処理中に撮影された画像の枚数であり、1以上の整数である。
 Lは、各画像内で距離が得られたピクセルの数であり、1以上の整数である。
 Kは、RGB-Dカメラの内部パラメータであり、焦点又はレンズ中心等を示すパラメータである。
 q’は、距離が得られている画像のピクセルの座標である。例えば、q’は、下記の(2)式で示されているように、画像の左上を原点としたときの横方向のピクセル数uと、縦方向のピクセル数vとの座標で示される。
Figure JPOXMLDOC01-appb-M000002
 dflは、撮影位置から、画像fの点lに対応する対象までの距離である。dflは、RGB-DカメラのDepth channelから得られる。
 点qflは、カメラの位置を原点、光軸方向をz軸、横方向がx軸、縦方向がy軸とする図2に示されているような座標系で表現される。
 ここで、点qflは、画像(視点)毎に異なる座標系で示される。各画像を撮影したときの点群を統合して大規模な点群を作成するには、統一の座標系で点群を表現する必要がある。一般的には、初回に撮影した画像(f=1)の座標系で、他画像を撮影したときに得た点群を表現する。
 初回に撮影した画像の座標系に変換する代表的な方法のフローは、以下のとおりである。
 まず、初回の画像と、その他の画像とから局所特徴量を抽出する。
 次に、2つの画像から抽出された局所特徴量をマッチングする。
 次に、マッチングした局所特徴量ペアを使って、2つの画像の関係(平行移動量及び回転量)を求める。
 上記の方法は、代表的な方法である。これ以外にも、時間的に隣接する画像関係を積算して初回画像との位置関係を求める方法等がある。
 このような方法で求めた初回画像と、他の画像fとの関係(移動量)をT1→fとし、初回画像を撮影したときの座標系で各点を表現すると、下記の(3)式となる。
Figure JPOXMLDOC01-appb-M000003
 そして、最終的に得られる三次元点群は点rflの集合となる。
 そして、三次元情報取得部110は、以上のようにして検出された三次元点群を示す三次元点群情報と、RGB-Dカメラの画像センサの位置及び角度を示すセンサ情報と、RGB-Dカメラで撮像された画像とを含む三次元情報を生成する。三次元情報取得部110は、生成された三次元情報を前景画像生成部120に与える。
 なお、画像センサの位置及び角度は、各画像を撮影したときの位置及び角度である。画像の撮影位置をp、角度をrとする。画像のインデックスはn=1,2,・・・,Nであり、撮像された画像枚数をN(2以上の整数)とする。角度rの表現は、オイラー角、Quaternion又はEuler-Rodriguesの形式等、三次元的な回転角度が定まればどのような形式でも構わない。
 前景画像生成部120は、三次元情報取得部110で取得された三次元情報から、認識対象を示す複数の前景画像を生成して、その複数の前景画像を示す前景画像情報を生成する。
 図3は、前景画像生成部120の構成を概略的に示すブロック図である。
 前景画像生成部120は、画像処理部121と、認識対象選択部122と、ポリゴンモデル生成部123と、テクスチャ選択部124と、画像生成部125とを備える。
 画像生成部125は、レンダリングパラメータ設定部126と、レンダリング部127とを備える。
 画像処理部121は、三次元情報に含まれている位置情報から、複数の平面を示す平面情報を生成する。平面情報は、対象の表面に対応する平面を示すものである。
 平面を検出する代表的な方法としては、RANSAC(RANdom Sample Consensus)がある。RANSACを使って平面を検出する方法は、以下のとおりである。
 まず、三次元点群の中から数点が選択されて、平面が作成される。
 次に、平面上の点が一定数あれば、作成された平面が採用され、平面上の点が一定数なければ、作成された平面は棄却される。
 次に、上記の処理を繰り返して、複数の平面が検出される。
 認識対象選択部122は、三次元情報から、認識対象を選択する。
 三次元情報に含まれている位置情報又は平面情報には、認識対象以外の対象が含まれている可能性がある。例えば、床上に認識対象の物体を置いて、その物体を撮影する場合、床の三次元情報も同時に取得される。認識対象以外の対象を排除するため、認識対象選択部122は、位置情報又は平面情報から選択する。
 例えば、認識対象選択部122は、三次元点群情報で示されている三次元点群を、図示されていない表示部に表示して、図示されていない入力部を介して、オペレータから認識対象の選択を受け付ける。
 また、認識対象選択部122は、平面情報で示される複数の平面を、図示されていない表示部に表示して、図示されていない入力部を介して、オペレータから認識対象に対応する平面の選択を受け付けることで、認識対象の選択を受け付けてもよい。
 さらに、認識対象選択部122は、三次元点群情報及び平面情報の両方から、認識対象の選択を受け付けてもよい。
 または、認識対象選択部122は、予め用意された、認識対象の三次元モデルである認識対象モデルと、検出された三次元点群とを比較することで、言い換えると、これらのマッチングを行うことで、認識対象を選択してもよい。ここでの認識対象モデルは、例えば、CAD(Computer-Aided design)で生成することができる。ここで、認識対象モデルは、実際の対象のテクスチャも反映した三次元モデルではなく、対象の形状の情報のみ、又は、形状の情報にペイント等でテクスチャをラフに加えたモデルとする。
 この場合、図4に示されている情報処理装置100#のように、認識対象モデルを示す認識対象モデルデータを記憶する認識対象モデル記憶部である認識対象モデルDB170がさらに設けられる。
 なお、認識対象をこの時点で選択する理由は、後段の処理であるポリゴンの作成範囲を限定するためである。任意の三次元情報に対するポリゴンの作成は難しい問題である。代表的な方法の一つであるPoisson法は、対象が滑らかである事前情報を元にポリゴンを作成する方法である。対象が滑らかでない場合、例えば、角が多い物体に対しては精度が悪化する。また、もう一つの代表的な方法であるDelaunary Triangulationは、Poisson法のように事前情報を用いない方法であるが、三次元点群に含まれるノイズの影響を受けたポリゴンが生成される問題がある。
 このように、ノイズが載ったデータからのポリゴンモデルへの変換は、任意の対象に対しては難しく、事前情報を適切に活用するのが現実的である。一部の平面と三次元点群とのみを用いて、後段の処理をすることで、整ったポリゴンモデルが生成できる。
 ポリゴンモデル生成部123は、認識対象選択部122で選択された認識対象のポリゴンモデルを生成し、生成されたポリゴンモデルを示すポリゴン情報を生成する。具体的には、ポリゴンモデル生成部123は、三次元情報に含まれている三次元点群情報及び平面情報を用いて、認識対象のポリゴンモデルを生成すればよい。ポリゴンモデルの生成方法の一例としては、上述のように、Poisson法又はDelaunary Triangulationがある。
 なお、本実施の形態では、ポリゴンモデル生成部123は、三次元点群情報及び平面情報を用いてポリゴンモデルを生成しているが、これらの何れか一方のみが含まれていても、その一方から他方を生成することができるため、ポリゴンモデル生成部123は、その一方から、ポリゴンモデルを生成することができる。
 テクスチャ選択部124は、ポリゴンモデル生成部123で生成されたポリゴンモデルに対応するテクスチャを選択する。テクスチャは、三次元情報取得部110で取得された複数の画像から選択される。
 複数の画像の中からテクスチャとして用いる画像を選択する方法の例は、以下のとおりである。
 例えば、テクスチャ選択部124は、画像センサとポリゴンモデルとの間の距離が最も短い画像を選択するため、下記の(4)式を満たす画像nを選択する。
Figure JPOXMLDOC01-appb-M000004
 pは、画像nを撮影したときの位置を示す。q、q、qは、ポリゴンモデルに含まれる3点を示す。f(p,q,q,q)は、ポリゴンモデルと、位置pとの距離を示す。
 また、テクスチャ選択部124は、画像センサが向いている方向と、ポリゴンの法線との角度が最も小さい画像を選択するため、下記の(5)式を満たす画像nを選択してもよい。
Figure JPOXMLDOC01-appb-M000005
 vは、画像nを撮影したときの画像センサの角度rから求められた、画像センサが向いている方向を示すベクトルである。mはポリゴンモデルの法線ベクトルを示す。g(vn,m)は、下記の(6)式で定義される。
Figure JPOXMLDOC01-appb-M000006
 なお、テクスチャ選択部124は、(4)式を満たす画像n、及び、(5)式を満たす画像nの何れを選択してもよく、また、(4)式を満たす画像n、及び、(5)式を満たす画像nの何れかを満たす画像を選択してもよい。
 テクスチャ選択部124は、テクスチャを選択した後、テクスチャの座標であるテクスチャ座標を特定する。
 テクスチャ座標は、ポリゴンモデルの3点を、テクスチャとして選択された画像にプロジェクションすることで得られる。プロジェクションは、下記の(7)式で定義される。
Figure JPOXMLDOC01-appb-M000007
 qは、ポリゴンモデルの内の1点を示す。[r|p]は、テクスチャとして選択された画像を撮影したときの画像センサの位置及び角度を行列化したものである。Kは、RGB-Dカメラの内部パラメータを示す。q’は、点qを、テクスチャとして選択された画像上にプロジェクションした位置を示す。λは、スケールのパラメータであり、q’=(x,y,1)の形式に調整するためのものである。(x,y)は、テクスチャとして選択された画像のピクセル座標である。RGB-Dカメラのレンズが歪んでいる場合、ピクセル座標には歪みを除去する処理が行われ、最終的な座標が求められる。
 ピクセル画像からテクスチャ座標(u,v)に変換する方法は、下記の(8)式のとおりである。
Figure JPOXMLDOC01-appb-M000008
 wは、テクスチャとして選択された画像の横幅であり、hは、その画像の縦幅である。
 ポリゴンモデル生成部123で生成されたポリゴンモデル情報、並びに、テクスチャ選択部124で選択された画像及びテクスチャ座標は、三次元モデル情報として、三次元モデルDB130に記憶される。なお、三次元モデル情報は、三次元モデルDB130に記憶されずに、後段の、レンダリングパラメータ設定部126及びレンダリング部127に渡されて、これらでの処理が行われてもよい。
 画像生成部125は、ポリゴンモデル生成部123で生成されたポリゴンモデルと、テクスチャ選択部124でテクスチャとして選択された画像とを組み合わせることで、認識対象の三次元モデルを生成し、その三次元モデルから異なる複数の二次元画像を生成する。
 レンダリングパラメータ設定部126は、三次元モデル情報を用いてレンダリングを行う際に用いられる複数のパラメータを含むパラメータ群を設定する。例えば、レンダリングパラメータ設定部126は、光源の位置及び強さ、ポリゴンモデルの反射強度、並びに、レンダリングするときの視点の位置及び傾き等を示すパラメータ群を設定する。ここでは、レンダリングパラメータ設定部126は、少なくとも1つのパラメータが異なるように複数のパラメータ群を設定する。
 レンダリングパラメータの設定は、表示部及び入力部を介して、ユーザが手動で行ってもよく、レンダリングパラメータ設定部126が自動的に行ってもよい。レンダリングパラメータ設定部126が自動的にレンダリングパラメータを設定する場合には、例えば、予め複数のパラメータが準備されており、準備された複数のパラメータを組み合わせることで、レンダリングパラメータが設定されればよい。
 レンダリングパラメータ設定部126は、設定された複数のパラメータ群を示すパラメータ情報をレンダリング部127に与える。
 レンダリング部127は、パラメータ情報で示されている複数のパラメータ群の各々を用いて、三次元モデル情報で示される認識対象の三次元モデルのレンダリングを行うことで、認識対象の三次元モデルに対応する複数の二次元画像を生成する。ここで、認識対象の三次元モデルは、ポリゴンモデル生成部123で生成されたポリゴンモデルと、テクスチャ選択部124でテクスチャとして選択された画像とを組み合わせることで生成される。レンダリング部127は、レンダリングにより生成された複数の二次元画像を複数の前景画像とし、複数の前景画像の各々を示す画像データを、前景画像データとして、複数の前景画像データを画像合成部150に与える。
 図1に戻り、三次元モデルDB130は、ポリゴンモデル生成部123で生成されたポリゴンモデル情報、テクスチャ選択部124で選択された画像及びテクスチャ座標を含む三次元モデル情報を記憶する。
 背景画像DB140は、背景画像の画像データである背景画像データを記憶する。
 画像合成部150は、前景画像生成部120から与えられた前景画像データで示される前景画像を、背景画像DB140に記憶されている背景画像データで示される背景画像に合成することで、合成された画像を学習画像とし、その学習画像を示す学習画像データを生成する。
 学習画像DB160は、画像合成部150で生成された学習画像データを記憶する。
 図5は、情報処理装置100のハードウェア構成例を示すブロック図である。
 情報処理装置100は、計算機1と、出力機器2と、入力機器3と、センサ4とを備える。
 計算機1は、例えば、メモリと、メモリに格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサとにより構成することができるコンピュータである。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 また、計算機1の一部は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等の処理回路で構成することもできる。
 ここで、図1に示されている、前景画像生成部120、三次元モデルDB130、背景画像DB140、画像合成部150、及び、学習画像DB160は、計算機1により実現することができる。
 出力機器2は、ディスプレイ等のように、各種画面画像を表示する出力部として機能する装置である。
 入力機器3は、マウス、キーボード、タッチパネル等の入力部として機能する装置である。
 センサ4は、三次元情報を取得する三次元情報取得部110として機能する装置である。
 実施の形態1では、センサ4は、RGB-Dカメラにより実現されている。なお、センサ4は、IMU(Inertial Measurement Unit)、又は、赤外線、LiDAR(Light Detection and Ranging)、若しくは、超音波を用いて距離を取得することのできるセンサと、2次元の画像を撮像することのできるカメラとの組み合わせにより実現することもできる。
 図6は、情報処理装置100の動作を示すフローチャートである。
 情報処理装置100は、背景画像DB140に記憶されている背景画像データで示される背景画像の数だけ、以下の処理を繰り返す(S10)。
 三次元情報取得部110は、三次元情報を取得する(S11)。
 前景画像生成部120は、三次元情報取得部110が取得した三次元情報に基づいて、複数の前景画像を生成する(S12)。
 画像合成部150は、前景画像生成部120が生成した複数の前景画像の数だけ、以下の処理を繰り返す(S13)。
 画像合成部150は、背景画像DB140に記憶されている背景画像データで示される背景画像に、前景画像生成部120で生成された前景画像データで示される前景画像を合成することで、学習画像を生成する(S14)。このようにして生成された学習画像を示す学習画像データは、学習画像DB160に蓄積される。
 図7及び図8は、図6のステップS12における前景画像を生成する動作を示すフローチャートである。
 図7は、三次元モデル情報を生成する動作を示し、図8は、三次元モデル情報から前景画像を生成する動作を示す。
 まず、図7に示されているフローチャートについて説明する。
 画像処理部121は、三次元情報取得部110が取得した三次元情報から、平面を生成する(S20)。
 認識対象選択部122は、三次元情報取得部110が取得した三次元情報から、認識対象を選択する(S21)。
 次に、ポリゴンモデル生成部123は、画像処理部121で生成された平面、及び、認識対象選択部122で選択された三次元点群を用いて、ポリゴンモデルを生成する(S21)。
 次に、テクスチャ選択部124は、ポリゴンモデル生成部123で生成されたポリゴンモデルに対応するテクスチャとして使用する画像を選択し、選択された画像におけるテクスチャの座標であるテクスチャ座標を特定する(S22)。
 次に、テクスチャ選択部124は、ポリゴンモデル生成部123で生成されたポリゴンモデル情報、並びに、テクスチャ選択部124で選択された画像及びテクスチャ座標を、三次元モデル情報として、三次元モデルDB130に記憶させる(S23)。
 次に、図8に示されているフローチャートについて説明する。
 レンダリング部127は、三次元モデルDB130から三次元モデル情報を読み込む(S30)。
 次に、レンダリング部127は、レンダリングパラメータ設定部126が設定したパラメータの組み合わせの数だけ、以下のステップS32及びS33の処理を繰り返す(S31)。
 ステップS32では、レンダリング部127は、レンダリングパラメータ設定部126が設定したパラメータの1つの組み合わせを設定する。
 ステップS33では、レンダリング部127は、設定されたパラメータの組み合わせを用いて、三次元モデル情報で示される認識対象の三次元モデルに対応する画像のレンダリングを行う。
 実施の形態1によれば、一般的な環境で取得された三次元情報を使って、学習用のデータを大量に作成できるため、簡単に学習用の画像を大量に生成することができる。
実施の形態2.
 図1に示されているように、実施の形態2に係る情報処理装置200は、三次元情報取得部110と、前景画像生成部220と、三次元モデルDB130と、背景画像DB140と、画像合成部150と、学習画像DB160とを備える。
 実施の形態2における三次元情報取得部110、三次元モデルDB130、背景画像DB140、画像合成部150及び学習画像DB160は、実施の形態1における三次元情報取得部110、三次元モデルDB130、背景画像DB140、画像合成部150及び学習画像DB160と同様である。
 図9は、実施の形態2における前景画像生成部220の構成を概略的に示すブロック図である。
 前景画像生成部220は、画像処理部121と、認識対象選択部122と、ポリゴンモデル生成部123と、テクスチャ選択部124と、画像生成部125と、照明環境推定部228と、照明除去部229とを備える。
 実施の形態2における画像処理部121、認識対象選択部122、ポリゴンモデル生成部123、テクスチャ選択部124及び画像生成部125は、実施の形態1における画像処理部121、認識対象選択部122、ポリゴンモデル生成部123、テクスチャ選択部124及び画像生成部125と同様である。但し、これらは、照明除去部229で照明環境の影響が除去された後の画像を用いて処理を行う。
 照明環境推定部228は、取得された三次元情報に含まれている画像から照明環境を推定する。例えば、照明環境推定部228は、取得された三次元情報に含まれる情報を用いて、光源の位置、種類及び強度を推定する。具体的には、照明環境推定部228は、三次元情報に含まれている画像に写り込んでいる照明光の分布から、光源の位置、種類及び強度を推定する。そして、照明環境推定部228は、推定された、光源の位置、種類及び強度を示す照明情報を生成し、その照明情報を照明除去部229に与える。
 照明除去部229は、取得された三次元情報に含まれている画像から、照明環境推定部228で推定された照明環境による影響を除去する。例えば、照明除去部229は、照明情報で示される、光源の位置、種類及び強度を参照して、三次元情報に含まれている画像から照明の影響を除去する。具体的には、照明除去部229は、画像に含まれる影の除去、鏡面反射の除去等を画像処理で行う。そして、照明除去部229は、三次元情報に、照明の影響を除去した後の画像を含めて、認識対象選択部122に与える。
 図10は、実施の形態2において三次元モデル情報を生成する動作を示すフローチャートである。
 なお、図10において、図7と同様の処理については、図7と同様の符号を付することにより、詳細な説明を省略する。
 まず、照明環境推定部228は、取得された三次元情報に含まれる情報を用いて、光源の位置、種類及び強度を推定する(S40)。
 次に、照明除去部229は、照明情報で示される、光源の位置、種類及び強度を参照して、三次元情報に含まれている画像から照明の影響を除去する(S41)。そして、処理はステップS20に進む。
 ステップS20~S24での処理は、図7に示されているステップS20~S24の処理と同様である。但し、ステップS20~S24での処理では、三次元情報に含まれている画像は、ステップS41で照明の影響が除去された後の画像となっている。
 実施の形態2によれば、三次元情報に含まれている画像から、撮像されたときの照明環境の影響を除去することができるため、実施の形態1と比べてより品質の高い三次元モデルを生成することができ、学習用の画像の品質が上がる。
実施の形態3.
 図11は、実施の形態3に係る情報処理装置300の構成を概略的に示すブロック図である。
 情報処理装置300は、三次元情報取得部110と、前景画像生成部320と、三次元モデルDB130と、画像合成部350と、学習画像DB160と、背景三次元情報データベース(以下、背景三次元情報DBという)380とを備える。
 実施の形態3における、三次元情報取得部110、三次元モデルDB130及び学習画像DB160は、実施の形態1における、三次元情報取得部110、三次元モデルDB130及び学習画像DB160と同様である。
 背景三次元情報DB380は、背景画像及び背景画像に含まれる複数の点の三次元における位置を示す背景位置情報を含む背景三次元情報を記憶する背景三次元情報記憶部である。本実施の形態では、背景三次元情報は、例えば、複数の視点及び角度から撮影された複数の背景の画像である複数の背景画像と、複数の背景画像の各々に含まれる複数の点の三次元における位置(背景三次元点群)を示す背景位置情報である背景三次元点群情報と、背景の表面に対応する平面である背景平面を示す背景平面情報と、背景画像を撮像した位置及び角度を示す背景センサ情報とを含む。なお、背景三次元情報は、一部の情報が欠損しても構わない。例えば、背景三次元点群情報が欠損しても構わない。
 図3に示されているように、実施の形態3における前景画像生成部320は、画像処理部121と、認識対象選択部122と、ポリゴンモデル生成部123と、テクスチャ選択部124と、画像生成部325とを備える。
 実施の形態3における、画像処理部121、認識対象選択部122、ポリゴンモデル生成部123及びテクスチャ選択部124は、実施の形態1における、画像処理部121、認識対象選択部122、ポリゴンモデル生成部123及びテクスチャ選択部124と同様である。
 画像生成部325は、ポリゴンモデル生成部123で生成されたポリゴンモデルと、テクスチャ選択部124でテクスチャとして選択された画像とを組み合わせることで、認識対象の三次元モデルを生成し、その三次元モデルから異なる複数の二次元画像を生成する。
 レンダリングパラメータ設定部326は、背景三次元情報DB380に記憶されている背景三次元情報から、認識対象の三次元モデルを背景画像に配置することのできる位置、傾き及びサイズを特定し、特定された位置、傾き及びサイズでレンダリングするように、複数のパラメータ群を設定する。
 例えば、レンダリングパラメータ設定部326は、背景三次元情報に含まれる背景画像上に前景画像を合成するときに、違和感がないように、背景三次元情報に含まれる視点の位置及び傾き、背景平面、並びに、背景三次元点群を用いて、レンダリングするときの視点の位置及び傾きを設定する。
 具体的には、レンダリングパラメータ設定部326は、三次元モデル情報で示される認識対象の三次元モデルと、背景三次元モデル情報で示される背景とにより、認識対象の三次元モデルと背景とのサイズを認識することができる。このため、レンダリングパラメータ設定部326は、三次元モデル情報で示される認識対象の三次元モデルの底面よりも小さな背景平面には、その認識対象の三次元モデルを設置できないといった、認識対象の三次元モデルと背景とのOcclusion又は相対的な関係といった関係性を明確に定義することができる。
 以上のような関係性を考慮して、レンダリングパラメータ設定部326は、三次元モデル情報で示される認識対象の三次元モデルと、背景三次元情報で示される背景との間の奥行き又はサイズに違和感がないように、複数のパラメータ群を設定する。
 例えば、レンダリングパラメータ設定部326は、背景三次元情報で示されている背景画像又は背景三次元点群の少なくとも何れか一方を、図示されていない表示部に表示して、図示されていない入力部を介して、オペレータから複数のパラメータ群の入力を受け付ければよい。そして、レンダリングパラメータ設定部326は、入力されたパラメータ群を設定すればよい。
 さらに、レンダリングパラメータ設定部326は、三次元モデル情報で示される認識対象の三次元モデルを示す画像対象識別情報であるIDと、その認識対象の三次元モデルに対応する前景画像を配置する背景画像上の位置を示す配置情報を生成する。その配置情報は、パラメータ情報とともに、レンダリング部327に与えられる。
 レンダリング部327は、実施の形態1と同様に、パラメータ情報で示されている複数のパラメータ群の各々を用いて、三次元モデル情報で示される認識対象の三次元モデルをレンダリングすることで、複数の二次元画像を生成する。レンダリング部327は、レンダリングにより生成された二次元画像を前景画像とし、その画像データを、前景画像データとして、配置情報とともに、画像合成部350に与える。なお、前景画像データには、対応する認識対象の三次元モデルを示すIDが含まれているものとする。
 図11に戻り、画像合成部350は、前景画像生成部320から与えられた前景画像データで示される前景画像を、前景画像生成部320から与えられた配置情報で示される位置に配置することで、合成し、合成された画像を学習画像とし、その学習画像を示す学習画像データを生成する。
 なお、画像合成部350は、前景画像データに含まれているIDに対応して、配置情報で示される位置及び傾きで、その前景画像データで示される前景画像を配置すればよい。
 以上のように、実施の形態3によれば、背景画像と、前景画像とに含まれる対象の大きさ又は位置等を反映した画像を大量に生成することができる。
 なお、以上に記載された実施の形態1~3では、三次元情報取得部110として、RGB-Dカメラを使用する例を示したが、実施の形態1~3は、このような例に限定されない。例えば、三次元情報取得部110は、ステレオカメラにより実現することができる。ステレオカメラにより三次元情報を取得する場合には、点qflを求める際に、左右のカメラの視差からその点qfl(距離)が求められる。他の点については、RGB-Dカメラを用いた場合と同様である。
 また、三次元情報取得部110は、単眼カメラとIMU(Inertial Measurement Unit)との組み合わせにより実現することもできる。この場合には、単眼カメラにより撮影された視点が異なる二つの画像と、IMUを使って求められた視点の位置関係とを用いて、点qflが求められる。他の点については、RGB-Dカメラを用いた場合と同様である。
 100,200,300 情報処理装置、 110 三次元情報取得部、 120,220,320 前景画像生成部、 121 画像処理部、 122 認識対象選択部、 123 ポリゴンモデル生成部、 124 テクスチャ選択部、 125,325 画像生成部、 126,326 レンダリングパラメータ設定部、 127,327 レンダリング部、 228 照明環境推定部、 229 照明除去部、 130 三次元モデルDB、 140 背景画像DB、 150,250 画像合成部、 160 学習画像DB、 170 認証対象モデルDB、 380 背景三次元情報DB。

Claims (9)

  1.  複数の画像、及び、前記複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得する三次元情報取得部と、
     前記位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成する画像処理部と、
     前記位置情報及び前記平面情報の少なくとも何れか一方から、認識対象を選択する認識対象選択部と、
     前記位置情報から、前記認識対象のポリゴンモデルを生成するポリゴンモデル生成部と、
     前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択するテクスチャ選択部と、
     前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成する画像生成部と、を備えること
     を特徴とする情報処理装置。
  2.  前記画像生成部は、
     前記生成された三次元モデルをレンダリングするために、複数のパラメータ群を設定するレンダリングパラメータ設定部と、
     前記複数のパラメータ群の各々を用いて、前記生成された三次元モデルをレンダリングすることで、前記複数の二次元画像を生成するレンダリング部と、を備えること
     を特徴とする請求項1に記載の情報処理装置。
  3.  前記認識対象の三次元モデルである認識対象モデルを示す認識対象モデルデータを記憶する認識対象モデル記憶部をさらに備え、
     前記認識対象選択部は、前記認識対象モデルデータで示される前記認識対象モデルと前記三次元情報とを比較することで、前記認識対象を選択すること
     を特徴する請求項1又は2に記載の情報処理装置。
  4.  前記複数の画像の各々における照明環境を推定する照明環境推定部と、
     前記複数の画像の各々から、前記推定された照明環境による影響を除去する照明除去部と、をさらに備え、
     前記テクスチャ選択部は、前記影響の除去された前記複数の画像から前記テクスチャとして用いられる画像を選択すること
     を特徴とする請求項1から3の何れか一項に記載の情報処理装置。
  5.  前記複数の二次元画像の各々を前景画像として背景画像に合成することで、複数の学習画像データを生成する画像合成部をさらに備えること
     を特徴とする請求項1から4の何れか一項に記載の情報処理装置。
  6.  背景画像及び前記背景画像に含まれる複数の点の三次元における位置を示す背景位置情報を含む背景三次元情報を記憶する背景三次元情報記憶部をさらに備え、
     前記レンダリングパラメータ設定部は、前記背景位置情報から、前記生成された三次元モデルを前記背景画像に配置することのできる位置、傾き及びサイズを特定し、特定された位置、傾き及びサイズでレンダリングするように、前記複数のパラメータ群を設定すること
     を特徴とする請求項2に記載の情報処理装置。
  7.  前記レンダリングパラメータ設定部は、前記特定された位置を示す配置情報を生成し、
     前記複数の二次元画像の各々を前景画像として、前記背景画像において、前記配置情報で示される位置に合成することで、複数の学習画像データを生成する画像合成部をさらに備えること
     を特徴とする請求項6に記載の情報処理装置。
  8.  コンピュータを、
     複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成する画像処理部、
     前記位置情報及び前記平面情報の少なくとも何れか一方から、認識対象を選択する認識対象選択部、
     前記位置情報から、前記認識対象のポリゴンモデルを生成するポリゴンモデル生成部、
     前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択するテクスチャ選択部、及び、
     前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成する画像生成部、として機能させること
     を特徴とするプログラム。
  9.  複数の画像、及び、前記複数の画像の各々に含まれる複数の点の三次元における位置を示す位置情報を含む三次元情報を取得し、
     前記位置情報から、前記複数の画像の各々に含まれている複数の平面を示す平面情報を生成し、
     前記位置情報及び前記平面情報の少なくとも何れか一方から、認識対象を選択し、
     前記位置情報から、前記認識対象のポリゴンモデルを生成し、
     前記複数の画像から、前記ポリゴンモデルのテクスチャとして用いられる画像を選択し、
     前記ポリゴンモデルと、前記選択された画像とを組み合わせることで、前記認識対象の三次元モデルを生成し、前記生成された三次元モデルから異なる複数の二次元画像を生成すること
     を特徴とする情報処理方法。
PCT/JP2018/037841 2018-10-11 2018-10-11 情報処理装置、プログラム及び情報処理方法 WO2020075252A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019511509A JP6541920B1 (ja) 2018-10-11 2018-10-11 情報処理装置、プログラム及び情報処理方法
PCT/JP2018/037841 WO2020075252A1 (ja) 2018-10-11 2018-10-11 情報処理装置、プログラム及び情報処理方法
TW108106457A TW202014993A (zh) 2018-10-11 2019-02-26 資訊處理裝置、記錄媒體、程式產品及資訊處理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/037841 WO2020075252A1 (ja) 2018-10-11 2018-10-11 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2020075252A1 true WO2020075252A1 (ja) 2020-04-16

Family

ID=67212140

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/037841 WO2020075252A1 (ja) 2018-10-11 2018-10-11 情報処理装置、プログラム及び情報処理方法

Country Status (3)

Country Link
JP (1) JP6541920B1 (ja)
TW (1) TW202014993A (ja)
WO (1) WO2020075252A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232385A (zh) * 2020-09-27 2021-01-15 北京五八信息技术有限公司 一种图像处理方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652103B (zh) * 2020-05-27 2023-09-19 北京百度网讯科技有限公司 室内定位方法、装置、设备以及存储介质
TWI758980B (zh) * 2020-11-30 2022-03-21 財團法人金屬工業研究發展中心 移動載具的環境感知裝置與方法
JP2022140916A (ja) * 2021-03-15 2022-09-29 オムロン株式会社 データ生成装置、データ生成方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668216A (ja) * 1992-08-24 1994-03-11 Hitachi Ltd 営業支援用環境モデル作成装置
JP2001143081A (ja) * 1999-11-15 2001-05-25 Meidensha Corp 物体の三次元形状モデル作製装置
JP2002092625A (ja) * 2000-09-11 2002-03-29 Sony Corp 画像処理装置および方法、並びに記録媒体
JP2003099807A (ja) * 2001-09-25 2003-04-04 Mitsubishi Electric Corp ポートレート生成装置およびポートレート生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668216A (ja) * 1992-08-24 1994-03-11 Hitachi Ltd 営業支援用環境モデル作成装置
JP2001143081A (ja) * 1999-11-15 2001-05-25 Meidensha Corp 物体の三次元形状モデル作製装置
JP2002092625A (ja) * 2000-09-11 2002-03-29 Sony Corp 画像処理装置および方法、並びに記録媒体
JP2003099807A (ja) * 2001-09-25 2003-04-04 Mitsubishi Electric Corp ポートレート生成装置およびポートレート生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232385A (zh) * 2020-09-27 2021-01-15 北京五八信息技术有限公司 一种图像处理方法及装置

Also Published As

Publication number Publication date
JPWO2020075252A1 (ja) 2021-02-15
JP6541920B1 (ja) 2019-07-10
TW202014993A (zh) 2020-04-16

Similar Documents

Publication Publication Date Title
US9697607B2 (en) Method of estimating imaging device parameters
US8452081B2 (en) Forming 3D models using multiple images
US8447099B2 (en) Forming 3D models using two images
CN107155341B (zh) 三维扫描系统和框架
US20130335535A1 (en) Digital 3d camera using periodic illumination
JP5011168B2 (ja) 仮想視点画像生成方法、仮想視点画像生成装置、仮想視点画像生成プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US11348267B2 (en) Method and apparatus for generating a three-dimensional model
WO2020075252A1 (ja) 情報処理装置、プログラム及び情報処理方法
US20120176478A1 (en) Forming range maps using periodic illumination patterns
US20120176380A1 (en) Forming 3d models using periodic illumination patterns
KR100681320B1 (ko) 헬름홀츠 교환조건으로부터 유도되는 편미분 방정식의레벨셋 풀이 방법을 이용한 물체의 3차원 형상 모델링 방법
JP2018514237A (ja) 歯科用3dスキャナ用のテクスチャマッピングの装置及び方法
JP2008537190A (ja) 赤外線パターンを照射することによる対象物の三次元像の生成
EP3382645B1 (en) Method for generation of a 3d model based on structure from motion and photometric stereo of 2d sparse images
WO2010004466A1 (en) Three dimensional mesh modeling
JP2011170487A (ja) 大空間カメラ配置における幾何情報に基づく仮想視点画像生成方法およびプログラム
Hafeez et al. Image based 3D reconstruction of texture-less objects for VR contents
JP5373931B2 (ja) 仮想視点画像生成方法,仮想視点画像生成装置および仮想視点画像生成プログラム
JP2008204318A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
TWI595446B (zh) 擴充實境中基於深度攝影機之遮蔽邊緣品質改善方法
WO2018056802A1 (en) A method for estimating three-dimensional depth value from two-dimensional images
JP6843319B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN111489384A (zh) 基于互视角的遮挡评估方法及装置、设备、系统和介质
JP2018125642A (ja) 領域抽出装置及びプログラム
Woodward et al. Real-time stereo vision on the visionserver framework for robot guidance

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019511509

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18936802

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18936802

Country of ref document: EP

Kind code of ref document: A1