WO2021131103A1 - 距離画像処理装置及び距離画像処理方法 - Google Patents

距離画像処理装置及び距離画像処理方法 Download PDF

Info

Publication number
WO2021131103A1
WO2021131103A1 PCT/JP2020/025008 JP2020025008W WO2021131103A1 WO 2021131103 A1 WO2021131103 A1 WO 2021131103A1 JP 2020025008 W JP2020025008 W JP 2020025008W WO 2021131103 A1 WO2021131103 A1 WO 2021131103A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
distance image
point cloud
distance
unit
Prior art date
Application number
PCT/JP2020/025008
Other languages
English (en)
French (fr)
Inventor
規景 今中
Original Assignee
ヌヴォトンテクノロジージャパン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヌヴォトンテクノロジージャパン株式会社 filed Critical ヌヴォトンテクノロジージャパン株式会社
Publication of WO2021131103A1 publication Critical patent/WO2021131103A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/497Means for monitoring or calibrating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting

Definitions

  • the present disclosure relates to a distance image processing apparatus and a distance image processing method.
  • Non-Patent Document 1 There is a technique that can detect an object from a distance image such as a TOF (Time-of-Flight) image by using a machine learning technique represented by Deep Learning (DL) (for example, Non-Patent Document 1).
  • DL Deep Learning
  • Non-Patent Document 1 when an object is a person, the person can be detected by detecting the skeleton of the person from a distance image.
  • Patent Document 1 discloses a technique for generating high-quality teacher data at low cost. More specifically, in Patent Document 1, a subject to be detected is placed on a shooting table, the shooting table is rotated, and a distance image is taken while changing the position of the camera with an arm to obtain teacher data. It is disclosed that a distance image can be created in a short time.
  • Patent Document 1 since the conventional technique disclosed in Patent Document 1 is a method of shooting while rotating the shooting table and moving the arm, it is only possible to generate one image as teacher data in one shooting. That is, the above-mentioned conventional technique has a problem that it takes time to take a large amount of images as teacher data. Further, in the above-mentioned conventional technique, when the subject is a large object such as a person, a large-scale device is required, which causes a problem that the cost increases.
  • the present disclosure has been made in view of the above circumstances, and an object of the present disclosure is to provide a distance image processing apparatus and a distance image processing method capable of generating a distance image that can be teacher data in a shorter time and at a lower cost.
  • the distance image processing apparatus includes a conversion processing unit that converts an input first distance image into a point group image, and a rotation with respect to the point group image.
  • a point group image generator that generates a new point group image from the point group image by performing at least one process of parallel movement, vertical / horizontal inversion, enlargement or reduction, and the new point group image as a distance image. It includes an inverse conversion unit that obtains a second distance image different from the first distance image by reverse conversion, and an output processing unit that outputs the second distance image.
  • a recording medium such as a system, a method, an integrated circuit, a computer program, or a computer-readable CD-ROM, and the system, the method, the method, and the like. It may be implemented using any combination of integrated circuits, computer programs and recording media.
  • the distance image processing device and the like of the present disclosure it is possible to generate a distance image that can be teacher data in a shorter time and at a lower cost.
  • FIG. 1 is a diagram showing an example of the configuration of the distance image processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram showing an example of the functional configuration of the distance image processing apparatus shown in FIG.
  • FIG. 3A is a diagram showing an example of a first distance image input to the input unit in the first embodiment.
  • FIG. 3B is a diagram showing an example of a point cloud image converted by the conversion processing unit in the first embodiment.
  • FIG. 3C is a diagram showing an example of a new point cloud image generated by the point cloud image generation unit in the first embodiment.
  • FIG. 3D is a diagram showing an example of a second distance image obtained by inverse transformation by the inverse transformation unit in the first embodiment.
  • FIG. 4 is a diagram showing an example of a hardware configuration of a computer that realizes the function of the distance image processing apparatus shown in FIG. 1 by software.
  • FIG. 5 is a flowchart showing an example of the operation of the distance image processing apparatus according to the first embodiment.
  • FIG. 6 is a diagram showing an example of the functional configuration of the distance image processing apparatus according to the first embodiment of the first embodiment.
  • FIG. 7A is a diagram showing an example of a point cloud image converted by the conversion processing unit in the first embodiment of the first embodiment.
  • FIG. 7B is a diagram showing an example of a point cloud image in which the subject region is extracted by the first subject extraction unit in the first embodiment of the first embodiment.
  • FIG. 7C is a diagram showing an example of a new subject point cloud image generated by the rotation processing unit in the first embodiment of the first embodiment.
  • FIG. 7D is a diagram showing an example of a second distance image obtained by inverse transformation by the inverse transformation unit in the first embodiment of the first embodiment.
  • FIG. 8 is a diagram showing an example of the functional configuration of the distance image processing device according to the second embodiment of the first embodiment.
  • FIG. 9A is a diagram showing an example of a first distance image input to the second subject extraction unit in the second embodiment of the first embodiment.
  • FIG. 9B is a diagram showing an example of a first distance image in which a subject area is extracted from a second subject extraction unit in the second embodiment of the first embodiment.
  • FIG. 9A is a diagram showing an example of a first distance image input to the second subject extraction unit in the second embodiment of the first embodiment.
  • FIG. 9B is a diagram showing an example of a first distance image in which a subject area is extracted from a second subject extraction unit in the
  • FIG. 10 is a diagram showing an example of the functional configuration of the distance image processing device according to the third embodiment of the first embodiment.
  • FIG. 11 is a diagram showing an example of the functional configuration of the distance image processing device according to the second embodiment.
  • FIG. 12 is a diagram showing an arrangement example of a plurality of cameras that capture a plurality of first-distance images acquired by the photographing unit according to the second embodiment.
  • the distance image processing apparatus includes a conversion processing unit that converts an input first distance image into a point group image, and rotation, parallel movement, vertical / horizontal inversion, and enlargement with respect to the point group image.
  • a point group image generation unit that generates a new point group image from the point group image, and by inversely converting the new point group image into a distance image
  • the first It includes an inverse conversion unit that obtains a second distance image different from the one distance image, and an output processing unit that outputs the second distance image.
  • the point group image generation unit generates a plurality of new point group images different from each other from one said point group image
  • the inverse conversion unit generates the plurality of new point group images as a distance image.
  • a plurality of second distance images different from the first distance image but different from each other are obtained, and the output processing unit outputs the plurality of second distance images. You may.
  • a plurality of new distance images that can be teacher data can be generated from one distance image, so that a large amount of distance images that can be teacher data can be generated in a shorter time and at a lower cost.
  • the point group image generation unit divides the point group of the point group image converted by the conversion processing unit into a plurality of small point groups based on the distance between the points, and the divided plurality of points.
  • the first subject that extracts the subject point group image corresponding to the subject area included in the first distance image from the point group image.
  • a new subject point group image is generated from the subject point group image by performing at least one process of rotation, translation, vertical / horizontal inversion, enlargement or reduction of the extraction unit and the subject point group image.
  • the second distance image may be obtained by having a rotation or the like processing unit and the inverse conversion unit reverse-converting the new subject point group image into a distance image.
  • a distance image obtained by removing the background of the subject such as the internal structure of the vehicle and extracting only the subject can be generated as teacher data.
  • the first subject extraction unit compares the plurality of divided small point groups, selects the small point group having the highest number of points among the plurality of small point groups, and extracts the small point group as the subject point group. May be.
  • the first subject extraction unit is one or more small points including a position corresponding to a position representing the subject area included in the first distance image among the plurality of divided point groups.
  • a group may be selected and extracted as the subject point group.
  • the conversion processing unit binarizes each pixel of the first distance image based on a threshold value, and two or more pixels formed from at least a part of a plurality of pixels of the binarized first distance image.
  • the intermediate distance image which is an image of the subject region included in the first distance image from the first distance image. It may have a second subject extraction unit for extracting the image, and a conversion unit for converting the intermediate distance image into a point group image.
  • a distance image obtained by removing the background of the subject such as the internal structure of the vehicle and extracting only the subject can be generated as teacher data.
  • the second subject extraction unit compares the two or more regions, selects the first region having the largest area among the two or more regions, and corresponds to the selected first region.
  • the pixels of the first distance image at the position may be extracted.
  • the second subject extraction unit selects one or more first regions including a position corresponding to a position representing the subject region included in the first distance image from the two or more regions.
  • the pixels of the first distance image at the position corresponding to the selected first region may be extracted.
  • the output processing unit includes an invalid pixel that is a pixel included in the second distance image and does not include a distance value, and a pixel that is in the vicinity of the invalid pixel and includes a distance value.
  • the distance image can be corrected by setting the distance value for the invalid pixels included in the generated distance image.
  • an imaging unit that acquires a plurality of first-distance images by having a plurality of imaging devices at different positions simultaneously capture the same subject, and the plurality of imaging units acquired by the imaging unit.
  • a conversion processing unit that converts a one-distance image into a plurality of point group images
  • a compositing unit that synthesizes the plurality of point group images to generate a first point group image that is one point group image
  • the first point A point group image generation unit that generates a new point group image from the first point group image by performing at least one process of rotation, translation, vertical / horizontal inversion, enlargement or reduction of the group image. It is assumed that the device includes an inverse conversion unit that obtains a second distance image different from the first distance image by inversely converting the new point group image into a distance image, and an output processing unit that outputs the second distance image. May be good.
  • the compositing unit generates the first point cloud image by superimposing the plurality of point cloud images with pixels at corresponding positions, and the pixels of the first point cloud image are described as described above.
  • the distance values of the pixels of each of the plurality of point cloud images corresponding to the pixels may be provided in parallel.
  • a recording medium such as a system, a method, an integrated circuit, a computer program, or a computer-readable CD-ROM, and the system, the method, the method, and the like. It may be implemented using any combination of integrated circuits, computer programs or recording media.
  • FIG. 1 is a diagram showing an example of the configuration of the distance image processing device 1 according to the present embodiment.
  • FIG. 2 is a diagram showing an example of the functional configuration of the distance image processing device 1 shown in FIG.
  • the distance image processing device 1 can generate one or a plurality of distance images, which are teacher data used for machine learning, from one distance image by image processing.
  • the distance image processing device 1 generates one or more second distance images different from the first distance image and one or more second distance images different from each other from the first distance image.
  • the first distance image may be an image obtained by a TOF camera or an image having a depth (depth), and is not only information on a plane (two-dimensional) but also perpendicular to the plane.
  • An image having direction information an image having three-dimensional coordinates
  • the first distance image will be described as being an image obtained by a TOF camera or the like.
  • the distance image processing device 1 includes an input unit 10, a conversion processing unit 20, a point cloud image generation unit 30, an inverse conversion unit 40, and an output processing unit 50. To be equipped. Hereinafter, each component will be described in detail.
  • the first distance image is input to the input unit 10. Then, the input unit 10 transmits the input first distance image to the conversion processing unit 20.
  • the input unit 10 includes an interface for inputting the first distance image and for transmitting the input first distance image to the conversion processing unit 20.
  • the input unit 10 may hold the input first distance image in a memory or the like, and may transmit the duplicated first distance image to the conversion processing unit 20 each time.
  • FIG. 3A is a diagram showing an example of a first distance image input to the input unit 10 in the present embodiment.
  • the first distance image shown in FIG. 3A is an example of a distance image obtained by taking a picture of a person 2a, who is a subject, driving a vehicle in a vehicle with a TOF camera.
  • the person 2a and the internal structure of the vehicle such as pillars are included in the first distance image.
  • the structure of the person and the inside of the vehicle is drawn in a diagram, but the area showing the structure of the person 2a and the inside of the vehicle includes distance information (depth information), and is actually in color. Distance information will be shown in shades of.
  • the conversion processing unit 20 converts the first distance image input to the input unit 10 into a point cloud image.
  • the conversion processing unit 20 converts the distance image into a point cloud image by using the camera parameters (internal parameters, external parameters) of the TOF camera.
  • Each point in the point cloud of the point cloud image contains three-dimensional coordinates. Since a method for converting a distance image into a point cloud image is known, the description thereof is omitted here.
  • FIG. 3B is a diagram showing an example of a point cloud image converted by the conversion processing unit 20 in the present embodiment.
  • the point cloud image shown in FIG. 3B is an example of a point cloud image obtained by converting from the first distance image shown in FIG. 3A.
  • a point cloud 2b corresponding to the person 2a, a point cloud corresponding to a structure inside the vehicle such as a pillar, and the like are included.
  • the conversion processing unit 20 may remove the distortion of the first distance image input to the input unit 10 by using the lens parameter and the camera parameter of the TOF camera. In this case, the conversion processing unit 20 may use the distance image from which the distortion is removed from the first distance image input to the input unit 10 as the first distance image and convert it into a point cloud image.
  • the point cloud image generation unit 30 newly performs the point cloud image obtained from the conversion processing unit 20 by performing at least one process of rotation, translation, up / down / left / right inversion, enlargement or reduction, from the point cloud image. Generate a point cloud image.
  • the point group image generation unit 30 causes the point group to act on each of the point groups of the point group image obtained from the conversion processing unit 20, such as a rotation matrix, a translation matrix, or an enlargement / reduction matrix.
  • a new point group image can be generated from the image. Since the rotation matrix, the translation matrix, or the enlargement / reduction matrix is known, the description thereof is omitted here.
  • FIG. 3C is a diagram showing an example of a new point cloud image generated by the point cloud image generation unit 30 in the present embodiment.
  • the new point cloud image shown in FIG. 3C is an example of a point cloud image generated by applying a rotation matrix and a reduction matrix to the point cloud image shown in FIG. 3B.
  • the example of the point cloud image shown in FIG. 3C includes a point cloud 2c corresponding to the person 2a and a point cloud corresponding to the internal structure of the vehicle such as a pillar after the image processing of FIG. 3B.
  • the point cloud image generation unit 30 is not limited to generating one new point cloud image for one point cloud image obtained from the conversion processing unit 20, but also generates a plurality of new point cloud images. You may. That is, the point cloud image generation unit 30 may generate a plurality of new point cloud images different from each other from one point cloud image obtained from the conversion processing unit 20.
  • the inverse conversion unit 40 reverse-converts the new point cloud image generated by the point cloud image generation unit 30 into a distance image to obtain a second distance image different from the first distance image.
  • the inverse conversion unit 40 converts the point cloud image into a distance image by using the camera parameters of the TOF camera.
  • a new point cloud image is generated by applying a rotation matrix by the point cloud image generation unit 30, a plurality of points in the point cloud image may correspond to the same pixel on the distance image. is there. Therefore, when a plurality of points in the point group image correspond to the same pixel on the distance image, the inverse conversion unit 40 adopts the point having the smallest pixel value and uses the new point group image as the distance image. By inversely converting to, a second distance image different from the first distance image can be obtained.
  • FIG. 3D is a diagram showing an example of a second distance image obtained by inverse transformation by the inverse transformation unit 40 in the present embodiment.
  • the second distance image shown in FIG. 3D is an example of a distance image obtained by inversely transforming the point cloud image shown in FIG. 3C.
  • FIG. 3D shows an example of a second distance image including the person 2d as if the person 2a in FIG. 3A was photographed from different angles.
  • the inverse transformation unit 40 reverse-converts the plurality of new point group images into a distance image to convert the first distance. It suffices to obtain a plurality of second distance images that are different from the images and that are different from each other.
  • the output processing unit 50 outputs the second distance image acquired from the inverse conversion unit 40.
  • the output processing unit 50 may output a plurality of second distance images.
  • the output processing unit 50 acquires a plurality of second distance images one by one from the inverse conversion unit 40, the output processing unit 50 holds the second distance images in a memory or the like, and after the plurality of second distance images are held in the memory or the like. , May be output.
  • FIG. 4 is a diagram showing an example of a hardware configuration of a computer 1000 that realizes the function of the distance image processing device 1 according to the present embodiment by software.
  • the computer 1000 is a computer including an input device 1001, an output device 1002, a CPU 1003, an internal storage 1004, a RAM 1005, a reading device 1007, a transmission / reception device 1008, and a bus 1009.
  • the input device 1001, the output device 1002, the CPU 1003, the built-in storage 1004, the RAM 1005, the reading device 1007, and the transmitting / receiving device 1008 are connected by the bus 1009.
  • the input device 1001 is a device that serves as a user interface such as an input button, a touch pad, and a touch panel display, and accepts user operations.
  • the input device 1001 may be configured to accept a user's contact operation, a voice operation, a remote control, or the like.
  • the built-in storage 1004 is a flash memory or the like. Further, in the built-in storage 1004, at least one of a program for realizing the function of the distance image processing device 1 and an application using the functional configuration of the distance image processing device 1 may be stored in advance.
  • RAM1005 is a random access memory (RandomAccessMemory), which is used to store data or the like when executing a program or application.
  • RandomAccessMemory Random AccessMemory
  • the reading device 1007 reads information from a recording medium such as a USB (Universal Serial Bus) memory.
  • the reading device 1007 reads the program or application from the recording medium on which the above program or application is recorded and stores the program or application in the built-in storage 1004.
  • the transmission / reception device 1008 is a communication circuit for wirelessly or wired communication.
  • the transmission / reception device 1008 communicates with, for example, a server device connected to a network, downloads a program or application as described above from the server device, and stores the program or application in the built-in storage 1004.
  • the CPU 1003 is a central processing unit (Central Processing Unit), copies programs and applications stored in the internal storage 1004 to the RAM 1005, and sequentially reads and executes instructions included in the programs and applications from the RAM 1005.
  • Central Processing Unit Central Processing Unit
  • FIG. 5 is a flowchart showing an example of the operation of the distance image processing device 1 according to the first embodiment.
  • the distance image processing device 1 performs a conversion process for converting the first distance image into a point cloud image (S10). More specifically, the distance image processing device 1 converts the input first distance image into a point cloud image.
  • the distance image processing device 1 performs a point cloud image generation process for generating a new point cloud image from the point cloud image obtained in step S10 (S20). More specifically, the distance image processing device 1 performs at least one process of rotation, translation, vertical / horizontal inversion, enlargement or reduction of the point group image obtained in step S10, thereby performing the point group. Generate a new point group image from the image.
  • the distance image processing device 1 performs an inverse transformation process of inversely converting the new point cloud image generated in step S20 into a second distance image (S30). More specifically, the distance image processing device 1 obtains a second distance image different from the first distance image by inversely converting the new point group image generated in step S20 into the distance image.
  • the distance image processing device 1 may further perform output processing for outputting the second distance image obtained in step S30.
  • the distance image processing device 1 capable of generating a distance image that can be teacher data in a shorter time and at a lower cost.
  • a distance image equivalent to that taken from various distances and angles by rotation, translation, enlargement or reduction processing is obtained from one distance image.
  • One or more can be generated by processing.
  • one or more distance images that can be teacher data can be generated in a shorter time.
  • a new distance image that can be teacher data can be generated from one distance image by image processing, it is not necessary to prepare a large-scale device even if the subject is a person, and the financial cost can be reduced. ..
  • it is not necessary to take time to shoot a large amount of distance images that can be used as teacher data even if the subject is a person, there is an effect that the physical burden on the person in shooting can be reduced.
  • the structure inside the vehicle is shown together with the person 2a who is the subject, but the second distance image that can be the teacher data of a more general-purpose learning device is the inside of the vehicle. It is better not to include the structure of.
  • a method of generating a second distance image by removing the background of the subject such as the structure inside the vehicle will be described as an example.
  • Example 1 In the first embodiment, it will be described that a second distance image in which the background of the subject is removed is generated by removing the background from the point cloud image converted by the conversion processing unit 20.
  • FIG. 6 is a diagram showing an example of the functional configuration of the distance image processing device 1 in the first embodiment of the present embodiment.
  • the same elements as those in FIG. 2 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the distance image processing device 1 shown in FIG. 6 has a different configuration of the point cloud image generation unit 30A from the distance image processing device 1 shown in FIG.
  • the point cloud image generation unit 30A includes a first subject extraction unit 301A and a rotation processing unit 302A.
  • a first subject extraction unit 301A extracts and extracts rotations from the point cloud image generation unit 30A.
  • a rotation processing unit 302A rotates the point cloud image generation unit 30A.
  • the first subject extraction unit 301A divides the point cloud of the point cloud image converted by the conversion processing unit 20 into a plurality of small point clouds based on the distance between the points. Then, the first subject extraction unit 301A extracts the selected small point cloud from the divided plurality of small point groups as the subject point group, thereby converting the point cloud image into the subject area included in the first distance image. Extract the corresponding subject point cloud image.
  • the first subject extraction unit 301A may, for example, compare a plurality of divided small point groups, select the small point group having the highest score among the plurality of small point groups, and extract it as a subject point group. Good.
  • the first subject extraction unit 301A can divide the point cloud of the point cloud image into a small point cloud by using, for example, a method such as DBSCAN.
  • DBSCAN is an abbreviation for Density-based spatial clustering of applications with noise and is one of the clustering algorithms.
  • DBSCAN is a method of clustering by classifying points into Core points, Reachable points (border points), and Outlier points, creating a cluster from a collection of Core points, and assigning Reachable points to each cluster.
  • DBSCAN has an advantage that the number of clusters does not have to be determined first.
  • the first subject extraction unit 301A can identify the largest (higher score) point cloud as the subject among the point clouds clustered using a clustering method such as DBSCAN. Therefore, the first subject extraction unit 301A extracts the point cloud specified as the subject, and from the point cloud image converted by the conversion processing unit 20, the subject points corresponding to the subject area included in the first distance image. Group images can be extracted.
  • the largest (highest score) point cloud may not correspond to the subject, and the second and subsequent large point clouds may correspond to the subject.
  • the position (coordinates) representing the area of the subject included in the first distance image is acquired, and the point cloud including the position corresponding to the acquired position is extracted to be included in the first distance image.
  • the first subject extraction unit 301A selects, for example, one or more point clouds including a position corresponding to a position representing a subject area included in the first distance image from a plurality of divided point clouds. , May be extracted as a subject point cloud.
  • FIG. 7A is a diagram showing an example of a point cloud image converted by the conversion processing unit 20 in the first embodiment of the present embodiment.
  • the point cloud image shown in FIG. 7A is an example of a point cloud image obtained by converting from a first distance image as shown in FIG. 3A, and includes a point cloud 2b corresponding to a person 2a as a subject. It includes a point cloud corresponding to the background such as pillars, which are structures inside the vehicle.
  • FIG. 7B is a diagram showing an example of a point cloud image in which a subject area is extracted by the first subject extraction unit 301A in the first embodiment of the present embodiment.
  • the point cloud image shown in FIG. 7B is an example of the point cloud image obtained by extracting the point cloud 2e specified as the region of the subject who is a person from the point cloud image shown in FIG. 7A. That is, in the point cloud image shown in FIG. 7B, the point cloud corresponding to the background region such as the pillar, which is a structure inside the vehicle, is deleted as compared with the point cloud image shown in FIG. 7A.
  • the rotation processing unit 302A performs at least one process of rotation, translation, vertical / horizontal inversion, enlargement or reduction of the subject point group image extracted by the first subject extraction unit 301A, thereby performing the subject point group image. Generate a new subject point group image from the group image.
  • the rotation processing unit 302A causes a rotation matrix, a translation matrix, an enlargement / reduction matrix, or the like to act on each of the point groups of the subject point group image extracted by the first subject extraction unit 301A. As a result, a new subject point group image can be generated from the subject point group image.
  • FIG. 7C is a diagram showing an example of a new subject point cloud image generated by the rotation processing unit 302A in the first embodiment of the present embodiment.
  • the new subject point cloud image shown in FIG. 7C is an example of a subject point cloud image generated by applying a rotation matrix and a reduction matrix to the subject point cloud image shown in FIG. 7B.
  • FIG. 7C shows an example of a subject point cloud image in FIG. 7B that includes a point cloud 2f in which the point cloud 2e corresponding to the person 2a is rotated or the like.
  • the inverse transformation unit 40 obtains a second distance image by inversely transforming a new subject point cloud image into a distance image.
  • the inverse transformation unit 40 performs the same processing as in the first embodiment except for the point where the processing target is changed from the point cloud image to the subject point cloud image.
  • FIG. 7D is a diagram showing an example of a second distance image obtained by inverse transformation by the inverse transformation unit 40 in the first embodiment of the present embodiment.
  • the second distance image shown in FIG. 7D is an example of a distance image obtained by inversely transforming the subject point cloud image shown in FIG. 7C.
  • FIG. 7D shows an example of a second distance image including a person 2g as if the background such as a pillar, which is a structure inside the vehicle, was deleted and the person 2g was taken from an angle different from that of the person 2a in FIG. 3A. There is.
  • the distance image that can be the teacher data can be generated in a shorter time and at a lower cost.
  • a distance image obtained by removing the background and extracting only the subject can be generated as teacher data.
  • a distance image obtained by extracting only the subject can be used as teacher data, so that a general-purpose learning device can be created.
  • the distance image extracted only from the subject as the teacher data at the learning stage of the model for detecting the object such as the subject, it is possible to make it easier for the model after learning to detect the object.
  • Example 2 In the second embodiment, a method of generating a second distance image in which the background of the subject is removed by removing the background from the first distance image input to the input unit 10 will be described.
  • FIG. 8 is a diagram showing an example of the functional configuration of the distance image processing device 1 in the second embodiment of the present embodiment.
  • the same elements as those in FIG. 2 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the distance image processing device 1 shown in FIG. 8 has a different configuration of the conversion processing unit 20A from the distance image processing device 1 shown in FIG.
  • the conversion processing unit 20A includes a second subject extraction unit 201A and a conversion unit 202A.
  • a second subject extraction unit 201A extracts the conversion processing unit 20A from the conversion processing unit 20A.
  • a conversion unit 202A converts the conversion processing unit 20A into a conversion unit 202A.
  • the second subject extraction unit 201A binarizes each pixel of the first distance image based on the threshold value, and out of two or more regions formed from at least a part of the plurality of pixels of the binarized first distance image. The pixels of the first distance image at the position corresponding to the selected area are extracted. In this way, the second subject extraction unit 201A extracts an intermediate distance image, which is an image of the subject region included in the first distance image, from the first distance image.
  • the second subject extraction unit 201A compares the two or more regions, selects the first region having the largest area among the two or more regions, and is at a position corresponding to the selected first region. Pixels of a one-distance image may be extracted.
  • the second subject extraction unit 201A converts the distance image into a binary image based on the pixel value indicating the distance from the camera and the threshold value by using an image processing method such as binarization.
  • an image processing method such as binarization.
  • DBSCAN may be used for clustering, or the binary image may be divided into two or more regions by performing expansion treatment and / or contraction treatment.
  • the expansion processing for the binary image if there is at least one white pixel around the pixel of interest in the binary image when the binary image is an image composed of white pixels and black pixels, This is an image process that replaces black pixels in the periphery with white pixels.
  • the reduction process for a binary image is an image process in which if there is at least one black pixel in the periphery of the pixel of interest in the binary image, the white pixel in the periphery is replaced with a black pixel.
  • the second subject extraction unit 201A can specify the largest (maximum area) region as the subject among the two or more divided regions. Therefore, the second subject extraction unit 201A can extract only the subject region included in the first distance image as an intermediate distance image by extracting the region specified as the subject.
  • the largest area may not correspond to the subject, and the second and subsequent large areas may correspond to the subject.
  • the subject included in the first distance image is obtained by acquiring the position (coordinates) representing the area of the subject included in the first distance image and extracting the area including the position corresponding to the acquired position. Only the area can be extracted as an intermediate distance image. That is, the second subject extraction unit 201A selects and selects one or more first regions including positions corresponding to positions representing the subject regions included in the first distance image from the two or more regions. Pixels of the first distance image at a position corresponding to one region may be extracted. Then, only the subject region included in the first distance image may be extracted as the intermediate distance image.
  • FIG. 9A is a diagram showing an example of a first distance image input to the second subject extraction unit 201A in the second embodiment of the present embodiment.
  • the first distance image shown in FIG. 9A is the same as that in FIG. 3A, and includes a subject which is a person and a background such as a pillar which is a structure inside the vehicle.
  • FIG. 9B is a diagram showing an example of a first distance image in which a subject area is extracted from the second subject extraction unit 201A in the second embodiment of the present embodiment.
  • the first distance image shown in FIG. 9B is an example of a distance image obtained by extracting a region specified as a region of a subject who is a person from the first distance image shown in FIG. 9A. That is, in the first distance image shown in FIG. 9B, a region corresponding to a background region such as a pillar, which is a structure inside the vehicle, is deleted as compared with the first distance image shown in FIG. 9A.
  • the conversion unit 202A converts the intermediate distance image into a point cloud image. More specifically, the conversion unit 202A converts the intermediate distance image into a point cloud image by using the camera parameters of the TOF camera that captured the first distance image. Each point in the point cloud of the point cloud image contains three-dimensional coordinates. Since a method for converting a distance image into a point cloud image is known, the description thereof is omitted here.
  • the conversion unit 202A may remove the distortion of the extracted intermediate distance image by using the lens parameter and the camera parameter of the TOF camera. In this case, the conversion unit 202A may convert the distance image from which the distortion is removed from the intermediate distance image into an intermediate distance image and convert it into a point cloud image.
  • the distance image that can be the teacher data can be generated in a shorter time and at a lower cost.
  • the distance image processing device 1 of the present embodiment when a new distance image is generated from one distance image, the distance image obtained by removing the background such as the structure inside the vehicle and extracting only the subject is used as teacher data. Can be generated as 1 or more. As a result, a distance image obtained by extracting only the subject can be used as teacher data, so that a general-purpose learning device can be created. Further, by using the distance image extracted only from the subject as the teacher data at the learning stage of the model for detecting the object such as the subject, it is possible to make it easier for the model after learning to detect the object.
  • the distance image processing device 1 generates the second distance image by converting the original first distance image into a point group image, performing processing such as rotation, and then performing inverse transformation. Therefore, the second distance image may include pixels having no distance value depending on the processing method such as rotation. This is because if there is no distance value (depth value) between the points of a part of the point group of the point group image after processing such as rotation, the point group of the part of the distance image can be converted by inverse transformation. This is because pixels having no pixel value are generated between the pixels in the corresponding region. In a distance image, a pixel having no distance value is referred to as an invalid pixel, and a pixel having a distance value is referred to as an effective pixel.
  • Example 3 Setting a distance value for an invalid pixel included in the second distance image will be described as Example 3.
  • FIG. 10 is a diagram showing an example of the functional configuration of the distance image processing device 1 in the third embodiment of the present embodiment.
  • the same elements as those in FIG. 2 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the distance image processing device 1 shown in FIG. 10 has a different configuration of the output processing unit 50A from the distance image processing device 1 shown in FIG.
  • the output processing unit 50A includes a correction unit 501A and an output unit 502A.
  • a correction unit 501A As shown in FIG. 10, the output processing unit 50A includes a correction unit 501A and an output unit 502A.
  • each component will be described in detail.
  • the correction unit 501A includes an invalid pixel that is a pixel included in the second distance image and does not include a distance value, and a distance value of an effective pixel that is a pixel in the vicinity of the invalid pixel and includes a distance value.
  • the second distance image is corrected by setting the distance value calculated based on.
  • the correction unit 501A sets the average value of the distance values of the effective pixels around the invalid pixel as the distance value of the invalid pixel with respect to the invalid pixel adjacent to the effective pixel included in the second distance image. By doing so, the second distance image may be corrected. This is because when the second distance image contains invalid pixels, the second distance image contains a mixture of invalid pixels and effective pixels.
  • the correction unit 501A is not limited to the case where the average value of the distance values of the effective pixels around the invalid pixel is used, and the dispersion value of the distance values of the effective pixels around the invalid pixel or the modeled noise value. You may use the distance value in consideration of.
  • the correction unit 501A performs correction to fill the invalid pixels included in the second distance image, so that the pixel values of each pixel of the second distance image are not omitted, that is, each pixel of the second distance image. Smooths the pixel value of.
  • the output unit 502A outputs the second distance image corrected by the correction unit 501A. Further, when the output unit 502A acquires a plurality of second distance images corrected by the correction unit 501A, the output unit 502A may output a plurality of second distance images. When acquiring the corrected second distance images one by one, the output unit 502A holds the corrected second distance images in a memory or the like, and outputs the corrected second distance images after the plurality of second distance images are held in the memory or the like. May be good.
  • the distance image that can be the teacher data can be generated in a shorter time and at a lower cost.
  • the distance image can be corrected by setting the distance value to the invalid pixels included in the generated distance image.
  • the distance image can be corrected by setting a distance value for the invalid pixel surrounded by the effective pixel and correcting it, it is possible to generate a distance image close to the actual distance image as teacher data suitable for machine learning.
  • the output processing unit 50A described above may be applied to the distance image processing device 1 in the first embodiment, the first embodiment, and the second embodiment. That is, the distance image processing apparatus 1 in the first embodiment, the first embodiment, and the second embodiment may also include the above-mentioned output processing unit 50A instead of the output processing unit 50.
  • the distance image processing device 1 that generates a distance image as teacher data used for machine learning from a single distance image by image processing has been described, but the present invention is not limited to this.
  • a distance image that serves as teacher data used for machine learning may be created from two or more distance images.
  • this case will be described as the second embodiment.
  • FIG. 11 is a diagram showing an example of the functional configuration of the distance image processing device 1B according to the present embodiment.
  • the same elements as those in FIG. 2 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the distance image processing device 1B shown in FIG. 11 has a different configuration of the photographing unit 10B and the point cloud image generation unit 30B from the distance image processing device 1 shown in FIG.
  • the photographing unit 10B acquires a plurality of first-distance images by having a plurality of imaging devices at different positions simultaneously photograph the same subject.
  • FIG. 12 is a diagram showing an arrangement example of a plurality of cameras that capture a plurality of first-distance images acquired by the photographing unit 10B in the present embodiment.
  • the photographing unit 10B causes the cameras 100a, 100b, ..., which are close to each other and at different positions, to photograph the subject 2.
  • the cameras 100a, 100b, ... are examples of an imaging device, and can simultaneously capture a distance image of a region including the subject 2.
  • the photographing unit 10B acquires a plurality of first distance images, which are the distance images captured by the cameras 100a, 100b, ..., And outputs them to the conversion processing unit 20.
  • the conversion processing unit 20 converts the plurality of first distance images input to the photographing unit 10B into a plurality of point cloud images.
  • the conversion processing unit 20 converts each of the plurality of first distance images into a point cloud image by using the same method as in the first embodiment.
  • the point cloud image generation unit 30B includes a composition unit 301B and a rotation processing unit 302B.
  • a composition unit 301B and a rotation processing unit 302B.
  • each component will be described in detail.
  • the compositing unit 301B synthesizes a plurality of point cloud images to generate a first point cloud image which is one point cloud image. More specifically, the compositing unit 301B generates a first point cloud image by superimposing a plurality of point cloud images with pixels at corresponding positions, and each pixel of the first point cloud image has the pixel. The distance values of the pixels of each of the corresponding plurality of point cloud images are provided in parallel.
  • the synthesis unit 301B calculates a rotation matrix that converts the coordinate system of each image pickup device into one coordinate system, assuming that the positions of the plurality of image pickup devices are known. Then, the synthesis unit 301B synthesizes (superimposes) a plurality of point cloud images into one point cloud image by applying the calculated rotation matrix to the corresponding point clouds of the plurality of point cloud images. In this way, the compositing unit 301B can have each point of the synthesized first point cloud image have the distance values of the plurality of point cloud images at the corresponding points in parallel in the form of addition or the like. ..
  • the rotation processing unit 302B performs at least one process of rotation, translation, vertical / horizontal inversion, enlargement or reduction on the first point group image generated by the synthesis unit 301B, thereby performing the first point group image. Generate a new point group image from. Since the method of generating a new point cloud image from the first point cloud image is as described in the first embodiment, the description thereof will be omitted.
  • the distance image processing device 1B of the present embodiment it is possible to generate a distance image that can be teacher data in a shorter time and at a lower cost.
  • a new distance image is generated using the distance images taken by a plurality of cameras at the same time.
  • the second distance image is closer to the distance image actually taken at that angle than when the first distance image taken by one camera is used.
  • a two-distance image can be generated.
  • the distance image processing device 1B of the present embodiment may include the conversion processing unit 20A described in the second embodiment of the first embodiment instead of the conversion processing unit 20, or may replace the output processing unit 50.
  • the output processing unit 50A described in the third embodiment of the first embodiment may be provided.
  • the distance image processing device 1B of the present embodiment may include the first subject extraction unit 301A described in the first embodiment of the first embodiment in the point cloud image generation unit 30B.
  • the distance image processing device 1B of the present embodiment may perform the processing of the first subject extraction unit 301A before the processing of the synthesis unit 301B.
  • the compositing unit 301B may synthesize a plurality of point cloud images whose backgrounds have been deleted by the first subject extraction unit 301A to generate a first point cloud image which is one point cloud image.
  • the distance image processing apparatus and the like according to one or more aspects of the present disclosure have been described above based on the embodiments and examples, but the present disclosure is not limited to these embodiments and the like. As long as it does not deviate from the gist of the present disclosure, one of the present disclosures is a form in which various modifications conceived by those skilled in the art are applied to the present embodiment, or a form constructed by combining components in different embodiments and examples. Alternatively, it may be included in the range of a plurality of embodiments. For example, the following cases are also included in the present disclosure.
  • the above-mentioned distance image processing device may be a computer system composed of a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like.
  • a computer program is stored in the RAM or the hard disk unit.
  • the microprocessor operates according to the computer program, each device achieves its function.
  • a computer program is configured by combining a plurality of instruction codes indicating instructions to a computer in order to achieve a predetermined function.
  • a part or all of the components constituting the distance image processing device 1 may be composed of one system LSI (Large Scale Integration).
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, is a computer system including a microprocessor, a ROM, a RAM, and the like. ..
  • a computer program is stored in the RAM. When the microprocessor operates according to the computer program, the system LSI achieves its function.
  • a part or all of the components constituting the distance image processing device 1 may be composed of an IC card or a single module that can be attached to and detached from each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM and the like.
  • the IC card or the module may include the above-mentioned super multifunctional LSI.
  • the microprocessor operates according to a computer program, the IC card or the module achieves its function. This IC card or this module may have tamper resistance.
  • the present disclosure can be used for a distance image processing apparatus and a distance image processing method, and in particular, a distance image processing apparatus and a distance image processing method for newly generating a distance image which can be a teacher data used for machine learning from a original distance image. It is available for.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本開示の距離画像処理装置は、入力された第1距離画像を点群画像に変換する変換処理部(20)と、点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、点群画像から新たな点群画像を生成する点群画像生成部(30)と、新たな点群画像を距離画像に逆変換することで、第1距離画像と異なる第2距離画像を得る逆変換部(40)と、第2距離画像を出力する出力処理部(50)と、を備える。

Description

距離画像処理装置及び距離画像処理方法
 本開示は、距離画像処理装置及び距離画像処理方法に関する。
 Deep Learning(DL)に代表される機械学習技術を用いて、TOF(Time-of-Flight)画像などの距離画像から物体検知を行うことができる技術がある(例えば非特許文献1)。非特許文献1によれば、例えば物体が人物である場合、距離画像から人物の骨格を検知することで、人物を検知することができる。
 しかし、教師データを用いて機械学習を行う場合、教師データを大量に用意する必要がある。このため、教師データを用意することには手間とコストとがかかることも多い。これに対して、例えば、特許文献1では、高品質な教師データを低コストで生成する技術が開示されている。より具体的には、特許文献1では、撮影台に検知対象の被写体を置いて、撮影台を回転させ、またアームでカメラの位置を変更させながら距離画像を撮影することで、教師データとなる距離画像を短時間で作成することができることが開示されている。
特開2019-56966号公報
Plagemann,Christian,et al."Real-time identification and localization of body parts from depth images."2010 IEEE International Conference on Robotics and Automation.
 しかしながら、特許文献1に開示される従来技術は、撮影台を回転させ、アームを移動しながら撮影する方式であるため、1撮影で1枚の教師データとなる画像を生成できるに過ぎない。つまり、上記従来技術では、教師データとなる大量の画像を撮影するには時間がかかるという問題がある。さらに、上記従来技術では、被写体が人物など大きな物体である場合には、大掛かりな装置を必要とするため、コストが大きくなるという問題もある。
 本開示は、上述の事情を鑑みてなされたもので、教師データとなり得る距離画像をより短時間かつ低コストで生成できる距離画像処理装置及び距離画像処理方法を提供することを目的とする。
 上記目的を達成するために、本開示の一形態に係る距離画像処理装置は、入力された第1距離画像を点群画像に変換する変換処理部と、前記点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記点群画像から新たな点群画像を生成する点群画像生成部と、前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換部と、前記第2距離画像を出力する出力処理部と、を備える。
 なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせを用いて実現されてもよい。
 本開示の距離画像処理装置等によれば、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
図1は、実施の形態1における距離画像処理装置の構成の一例を示す図である。 図2は、図1に示す距離画像処理装置の機能構成の一例を示す図である。 図3Aは、実施の形態1における入力部に入力される第1距離画像の一例を示す図である。 図3Bは、実施の形態1における変換処理部により変換された点群画像の一例を示す図である。 図3Cは、実施の形態1における点群画像生成部により生成された新たな点群画像の一例を示す図である。 図3Dは、実施の形態1における逆変換部により逆変換されて得た第2距離画像の一例を示す図である。 図4は、図1に示す距離画像処理装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。 図5は、実施の形態1における距離画像処理装置の動作の一例を示すフローチャートである。 図6は、実施の形態1の実施例1における距離画像処理装置の機能構成の一例を示す図である。 図7Aは、実施の形態1の実施例1における変換処理部により変換された点群画像の一例を示す図である。 図7Bは、実施の形態1の実施例1における第1被写体抽出部により被写体領域が抽出された点群画像の一例を示す図である。 図7Cは、実施の形態1の実施例1における回転等処理部により生成された新たな被写体点群画像の一例を示す図である。 図7Dは、実施の形態1の実施例1における逆変換部により逆変換されて得た第2距離画像の一例を示す図である。 図8は、実施の形態1の実施例2における距離画像処理装置の機能構成の一例を示す図である。 図9Aは、実施の形態1の実施例2における第2被写体抽出部に入力された第1距離画像の一例を示す図である。 図9Bは、実施の形態1の実施例2における第2被写体抽出部より被写体領域が抽出された第1距離画像の一例を示す図である。 図10は、実施の形態1の実施例3における距離画像処理装置の機能構成の一例を示す図である。 図11は、実施の形態2における距離画像処理装置の機能構成の一例を示す図である。 図12は、実施の形態2における撮影部が取得する複数の第1距離画像を撮影する複数のカメラの配置例を示す図である。
 本開示の一態様に係る距離画像処理装置は、入力された第1距離画像を点群画像に変換する変換処理部と、前記点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記点群画像から新たな点群画像を生成する点群画像生成部と、前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換部と、前記第2距離画像を出力する出力処理部と、を備える。
 これにより、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
 ここで、例えば、前記点群画像生成部は、1つの前記点群画像から互いに異なる複数の新たな点群画像を生成し、前記逆変換部は、前記複数の新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる複数の第2距離画像であって互いに異なる複数の第2距離画像を得、前記出力処理部は、前記複数の第2距離画像を出力してもよい。
 これにより、1つの距離画像から、教師データとなり得る新たな距離画像を複数生成することができるので、教師データとなり得る大量の距離画像をより短時間かつ低コストで生成できる。
 また、例えば、前記点群画像生成部は、前記変換処理部において変換された前記点群画像が有する点群を、各点同士の距離に基づき複数の小点群に分割し、分割した前記複数の小点群のうち選択した小点群を被写体点群として抽出することで、前記点群画像から、前記第1距離画像に含まれる被写体領域に対応する被写体点群画像を抽出する第1被写体抽出部と、前記被写体点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記被写体点群画像から新たな被写体点群画像を生成する回転等処理部と、を有し、前記逆変換部は、前記新たな被写体点群画像を距離画像に逆変換することで、前記第2距離画像を得るとしてもよい。
 これにより、1つの距離画像から新たな距離画像を生成する際に、車両内部の構造などの被写体の背景を除去し被写体のみを抽出した距離画像を、教師データとして生成できる。
 また、例えば、前記第1被写体抽出部は、分割した前記複数の小点群を比較し、前記複数の小点群のうち最も点数の多い小点群を選択し、前記被写体点群として抽出するとしてもよい。
 ここで、例えば、前記第1被写体抽出部は、分割した前記複数の小点群のうち、前記第1距離画像に含まれる前記被写体領域を代表する位置に対応する位置を含む1以上の小点群を選択し、前記被写体点群として抽出するとしてもよい。
 また、例えば、前記変換処理部は、前記第1距離画像が有する各画素を閾値に基づき二値化し、二値化した前記第1距離画像の複数の画素の少なくとも一部から形成される2以上の領域のうち選択した領域に対応する位置にある前記第1距離画像の画素を抽出することで、前記第1距離画像から、前記第1距離画像に含まれる被写体領域の画像である中間距離画像を抽出する第2被写体抽出部と、前記中間距離画像を点群画像に変換する変換部と、を有するとしてもよい。
 これにより、1つの距離画像から新たな距離画像を生成する際に、車両内部の構造などの被写体の背景を除去し被写体のみを抽出した距離画像を、教師データとして生成できる。
 ここで、例えば、前記第2被写体抽出部は、前記2以上の領域を比較し、前記2以上の領域のうち面積が最大となる第1領域を選択し、選択した前記第1領域に対応する位置にある前記第1距離画像の画素を抽出するとしてもよい。
 また、例えば、前記第2被写体抽出部は、前記2以上の領域のうち、前記第1距離画像に含まれる前記被写体領域を代表する位置に対応する位置を含む1以上の第1領域を選択し、選択した前記第1領域に対応する位置にある前記第1距離画像の画素を抽出するとしてもよい。
 また、例えば、前記出力処理部は、前記第2距離画像に含まれる画素であって距離値を含まない画素である無効画素に、前記無効画素の近傍にある画素であって距離値を含む画素である有効画素の距離値に基づき算出された距離値を設定することで、前記第2距離画像を補正する補正部と、前記補正部により補正された前記第2距離画像を出力する出力部と、を有するとしてもよい。
 これにより、生成した距離画像に含まれる無効画素に距離値を設定することで、距離画像を補正できる。これにより、機械学習に適した教師データとして、実際の距離画像に近い距離画像を生成することができる。
 また、例えば、それぞれ異なる位置にある複数の撮像装置それぞれに、同時に、同一の被写体を撮影させることで、複数の第1距離画像を取得する撮像部と、前記撮像部が取得した前記複数の第1距離画像を複数の点群画像に変換する変換処理部と、前記複数の点群画像を合成して1つの点群画像である第1点群画像を生成する合成部と、前記第1点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記第1点群画像から新たな点群画像を生成する点群画像生成部と、前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換部と、記第2距離画像を出力する出力処理部と、を備えるとしてもよい。
 これにより、複数の撮影装置で同時に撮影した距離画像を用いて、新たな距離画像を生成できる。これにより、第1距離画像と撮影角度が大きく異なる第2距離画像を生成する場合でも、1つの撮影装置で撮影した第1距離画像を用いる場合よりも、実際にその角度で撮影した距離画像に近い第2距離画像を生成することができる。
 ここで、例えば、前記合成部は、前記複数の点群画像を対応する位置の画素で重ね合わせることで前記第1点群画像を生成し、前記第1点群画像の各画素には、前記画素に対応する複数の点群画像それぞれの画素の有する距離値を並列に持たせているとしてもよい。
 なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。
 以下、本開示の一態様に係る距離画像処理装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態1)
 [距離画像処理装置1の全体構成]
 図1は、本実施の形態における距離画像処理装置1の構成の一例を示す図である。図2は、図1に示す距離画像処理装置1の機能構成の一例を示す図である。
 距離画像処理装置1は、機械学習に用いる教師データとなる1または複数枚の距離画像を1枚の距離画像から画像処理により生成することができる。図1に示す例では、距離画像処理装置1は、第1距離画像から、第1距離画像と異なる1以上の第2距離画像であって互いに異なる1以上の第2距離画像を生成する。ここで、第1距離画像は、TOFカメラにより得られた画像であってもよいし、奥行き(デプス)を有する画像であってもよく、平面(2次元)の情報だけでなく平面と垂直な方向の情報を有する画像(3次元座標を有する画像)であればよい。以下では、第1距離画像は、TOFカメラなどにより得られた画像であるとして説明する。
 本実施の形態では、距離画像処理装置1は、図2に示すように、入力部10と、変換処理部20と、点群画像生成部30と、逆変換部40と、出力処理部50とを備える。以下、各構成要素について詳細に説明する。
 [入力部10]
 入力部10は、第1距離画像が入力される。そして、入力部10は、入力された第1距離画像を変換処理部20に伝達する。入力部10は、第1距離画像が入力されるためと、入力された第1距離画像を変換処理部20に伝達するためのインターフェースを備える。なお、入力部10は、入力された第1距離画像をメモリ等に保持し、変換処理部20には、複製した第1距離画像を、都度伝達してもよい。
 図3Aは、本実施の形態における入力部10に入力される第1距離画像の一例を示す図である。図3Aに示される第1距離画像は、被写体である人物2aが車両中で車両を運転している姿をTOFカメラで撮影されることで得た距離画像の一例である。図3Aに示す例では、人物2aとピラーなどの車両内部の構造とが第1距離画像に含まれている。なお、図3Aでは、線図で人物及び車両内部の構造が描かれているが、人物2a及び車両内部の構造を示す領域には距離情報(デプス情報)が含まれており、実際にはカラーの濃淡で距離情報が示されることになる。
 [変換処理部20]
 変換処理部20は、入力部10に入力された第1距離画像を点群画像に変換する。ここで、変換処理部20は、TOFカメラのカメラパラメータ(内部パラメータ、外部パラメータ)を用いて、距離画像を点群画像に変換する。点群画像の点群のそれぞれの点には3次元座標が含まれる。距離画像を点群画像に変換する方法は、公知であるため、ここでの説明は省略する。
 図3Bは、本実施の形態における変換処理部20により変換された点群画像の一例を示す図である。図3Bに示される点群画像は、図3Aに示す第1距離画像から変換されることで得た点群画像の一例である。図3Bに示す点群画像の例では、人物2aに対応する点群2bと、ピラーなどの車両内部の構造に対応する点群となどが含まれている。
 なお、変換処理部20は、TOFカメラのレンズパラメータ及びカメラパラメータを用いて、入力部10に入力された第1距離画像の歪みを除去してもよい。この場合、変換処理部20は、入力部10に入力された第1距離画像から歪みが除去された距離画像を第1距離画像とし、点群画像に変換すればよい。
 [点群画像生成部30]
 点群画像生成部30は、変換処理部20から得た点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、当該点群画像から新たな点群画像を生成する。ここで、点群画像生成部30は、変換処理部20から得た点群画像の点群それぞれに対して回転行列、平行移動行列、または、拡大縮小行列などを作用させることで、当該点群画像から新たな点群画像を生成することができる。回転行列、平行移動行列、または、拡大縮小行列は、公知であるため、ここでの説明は省略する。
 図3Cは、本実施の形態における点群画像生成部30により生成された新たな点群画像の一例を示す図である。図3Cに示される新たな点群画像は、図3Bに示す点群画像に回転行列及び縮小行列を作用させることで生成した点群画像の一例である。図3Cに示す点群画像の例では、図3Bが画像処理された後における、人物2aに対応する点群2cとピラーなどの車両内部の構造に対応する点群となどが含まれている。
 なお、点群画像生成部30は、変換処理部20から得た1つの点群画像に対して、1つの新たな点群画像を生成する場合に限らず、複数の新たな点群画像を生成してもよい。すなわち、点群画像生成部30は、変換処理部20から得た1つの点群画像から、互いに異なる複数の新たな点群画像を生成してもよい。
 [逆変換部40]
 逆変換部40は、点群画像生成部30により生成された新たな点群画像を距離画像に逆変換することで、第1距離画像と異なる第2距離画像を得る。ここで、逆変換部40は、TOFカメラのカメラパラメータを用いて、点群画像を距離画像に変換する。また、新たな点群画像が点群画像生成部30により回転行列を作用させることなどで生成されている場合、点群画像中の複数の点が距離画像上で同一の画素に該当するときがある。このため、逆変換部40は、点群画像中の複数の点が距離画像上で同一の画素に該当する場合には、画素値が最も小さい点を採用し、新たな点群画像を距離画像に逆変換することで、第1距離画像と異なる第2距離画像を得ることができる。
 図3Dは、本実施の形態における逆変換部40により逆変換されて得た第2距離画像の一例を示す図である。図3Dに示す第2距離画像は、図3Cに示す点群画像から逆変換されることで得た距離画像の一例である。図3Dには、図3Aにおける人物2aが異なる角度から撮影されたような人物2dを含む第2距離画像の例が示されている。
 なお、点群画像生成部30により複数の新たな点群画像が生成されている場合、逆変換部40は、当該複数の新たな点群画像を距離画像に逆変換することで、第1距離画像と異なる複数の第2距離画像であって互いに異なる複数の第2距離画像を得ればよい。
 [出力処理部50]
 出力処理部50は、逆変換部40より取得した第2距離画像を出力する。出力処理部50は、逆変換部40より複数の第2距離画像を取得する場合、複数の第2距離画像を出力してもよい。なお、出力処理部50は、逆変換部40より、複数の第2距離画像を一つずつ取得する場合には、メモリ等に保持し、複数の第2距離画像がメモリ等に保持された後に、出力してもよい。
 [距離画像処理装置1のハードウェア構成]
 次に、本実施の形態に係る距離画像処理装置1のハードウェア構成について、図4を用いて説明する。図4は、本実施の形態に係る距離画像処理装置1の機能をソフトウェアにより実現するコンピュータ1000のハードウェア構成の一例を示す図である。
 コンピュータ1000は、図4に示すように、入力装置1001、出力装置1002、CPU1003、内蔵ストレージ1004、RAM1005、読取装置1007、送受信装置1008及びバス1009を備えるコンピュータである。入力装置1001、出力装置1002、CPU1003、内蔵ストレージ1004、RAM1005、読取装置1007及び送受信装置1008は、バス1009により接続される。
 入力装置1001は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置1001は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。
 内蔵ストレージ1004は、フラッシュメモリなどである。また、内蔵ストレージ1004は、距離画像処理装置1の機能を実現するためのプログラム、及び、距離画像処理装置1の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。
 RAM1005は、ランダムアクセスメモリ(Random Access Memory)であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。
 読取装置1007は、USB(Universal Serial Bus)メモリなどの記録媒体から情報を読み取る。読取装置1007は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ1004に記憶させる。
 送受信装置1008は、無線又は有線で通信を行うための通信回路である。送受信装置1008は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ1004に記憶させる。
 CPU1003は、中央演算処理装置(Central Processing Unit)であり、内蔵ストレージ1004に記憶されたプログラム、アプリケーションをRAM1005にコピーし、そのプログラムやアプリケーションに含まれる命令をRAM1005から順次読み出して実行する。
 [動作]
 続いて、以上のように構成された距離画像処理装置1の動作(処理)について説明する。
 図5は、実施の形態1における距離画像処理装置1の動作の一例を示すフローチャートである。
 まず、距離画像処理装置1は、第1距離画像を点群画像に変換する変換処理を行う(S10)。より具体的には、距離画像処理装置1は、入力された第1距離画像を点群画像に変換する。
 次に、距離画像処理装置1は、ステップS10において得た点群画像から、新たな点群画像を生成する点群画像生成処理を行う(S20)。より具体的には、距離画像処理装置1は、ステップS10において得た点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、当該点群画像から新たな点群画像を生成する。
 次に、距離画像処理装置1は、ステップS20において生成した新たな点群画像を第2距離画像に逆変換する逆変換処理を行う(S30)。より具体的には、距離画像処理装置1は、ステップS20において生成した新たな点群画像を距離画像に逆変換することで、第1距離画像と異なる第2距離画像を得る。
 なお、距離画像処理装置1は、さらに、ステップS30において得た第2距離画像を出力する出力処理を行ってもよい。
 [効果等]
 以上のように、本実施の形態によれば、教師データとなり得る距離画像を、より短時間かつ低コストで生成できる距離画像処理装置1を実現することができる。
 例えば、本実施の形態の距離画像処理装置1によれば、1つの距離画像から、回転、平行移動、拡大または縮小の処理によって様々な距離及び角度から撮影したのと同等の距離画像を、画像処理により1以上生成することができる。これにより、教師データとなり得る1以上の距離画像をより短時間に生成できる。また、1つの距離画像から、教師データとなり得る新たな距離画像を画像処理により生成することができるので、被写体が人物であっても大掛かりな装置を用意する必要がなく、金銭的コストを小さくできる。さらに、教師データとなり得る大量の距離画像を撮影する時間が不要であることから、被写体が人物であっても、撮影における人物への肉体的負担を軽減できる効果もある。
 なお、図3Aに示す第1距離画像の例では、被写体である人物2aとともに車両内部の構造が写っているが、より汎用的な学習器の教師データとなり得る第2距離画像としては、車両内部の構造を含まない方がよい。以下、車両内部の構造など被写体の背景を除去して第2距離画像を生成する方法等について、実施例として説明する。
 (実施例1)
 実施例1では、変換処理部20より変換された点群画像から背景を除去することで、被写体の背景を除去された第2距離画像を生成することについて説明する。
 [構成]
 図6は、本実施の形態の実施例1における距離画像処理装置1の機能構成の一例を示す図である。なお、図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図6に示す距離画像処理装置1は、図2に示す距離画像処理装置1に対して、点群画像生成部30Aの構成が異なる。
 点群画像生成部30Aは、図6に示すように、第1被写体抽出部301Aと、回転等処理部302Aとを備える。以下、各構成要素について詳細に説明する。
 第1被写体抽出部301Aは、変換処理部20において変換された点群画像が有する点群を、各点同士の距離に基づき複数の小点群に分割する。そして、第1被写体抽出部301Aは、分割した複数の小点群のうち選択した小点群を被写体点群として抽出することで、当該点群画像から、第1距離画像に含まれる被写体領域に対応する被写体点群画像を抽出する。
 ここで、第1被写体抽出部301Aは、例えば、分割した複数の小点群を比較し、複数の小点群のうち最も点数の多い小点群を選択し、被写体点群として抽出してもよい。
 より具体的には、第1被写体抽出部301Aは、例えば、DBSCANなどの手法を用いて、点群画像が有する点群を、クラスタリングすることで、小点群に分割することができる。DBSCANは、Density-based spatial clustering of applications with noiseの略称であり、クラスタリングアルゴリズムの一つである。DBSCANは、点をCore点、Reachable点(border点)、及び、Outlier点に分類し、Core点の集まりからクラスタを作成し、Reachable点を各クラスタに割り当てることで、クラスタリングする手法である。DBSCANは、例えばk-meansなどのクラスタリング手法と異なり、最初にクラスタ数を決めなくてよいなどの利点がある。
 これにより、第1被写体抽出部301Aは、DBSCANなどのクラスタリング手法を用いてクラスタリングした点群のうち、最も大きな(点数の多い)点群を被写体として特定することができる。このため、第1被写体抽出部301Aは、被写体として特定した点群を抽出することで、変換処理部20において変換された点群画像から、第1距離画像に含まれる被写体領域に対応する被写体点群画像を抽出することができる。
 なお、クラスタリングした点群のうち、最も大きな(点数の多い)点群が被写体に該当せず、2番手以降に大きい点群が被写体に該当する場合もある。この場合には、第1距離画像に含まれる被写体の領域を代表する位置(座標)を取得し、取得した位置に対応する位置を含む点群を抽出することで、第1距離画像に含まれる被写体領域に対応する被写体点群画像を抽出することができる。すなわち、第1被写体抽出部301Aは、例えば、分割した複数の小点群のうち、第1距離画像に含まれる被写体領域を代表する位置に対応する位置を含む1以上の小点群を選択し、被写体点群として抽出してもよい。
 図7Aは、本実施の形態の実施例1における変換処理部20により変換された点群画像の一例を示す図である。図7Aに示される点群画像は、図3Aに示したような第1距離画像から変換されることで得た点群画像の一例であり、被写体である人物2aに対応する点群2bと、車両内部の構造物であるピラーなどの背景に対応する点群とが含まれている。
 図7Bは、本実施の形態の実施例1における第1被写体抽出部301Aにより被写体領域が抽出された点群画像の一例を示す図である。図7Bに示される点群画像は、図7Aに示す点群画像から、人物である被写体の領域として特定された点群2eが抽出されることで得た点群画像の一例である。つまり、図7Bに示される点群画像は、図7Aに示される点群画像と比較して、車両内部の構造物であるピラーなどの背景の領域に対応する点群が削除されている。
 回転等処理部302Aは、第1被写体抽出部301Aにより抽出された被写体点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、当該被写体点群画像から新たな被写体点群画像を生成する。
 より具体的には、回転等処理部302Aは、第1被写体抽出部301Aにより抽出された被写体点群画像の点群それぞれに対して回転行列、平行移動行列、または、拡大縮小行列などを作用させることで、当該被写体点群画像から新たな被写体点群画像を生成することができる。
 図7Cは、本実施の形態の実施例1における回転等処理部302Aにより生成された新たな被写体点群画像の一例を示す図である。図7Cに示される新たな被写体点群画像は、図7Bに示す被写体点群画像に回転行列及び縮小行列を作用させることで生成した被写体点群画像の一例である。図7Cでは、図7Bにおける、人物2aに対応する点群2eが回転等された点群2fが含まれた被写体点群画像の例が示されている。
 逆変換部40は、新たな被写体点群画像を距離画像に逆変換することで、第2距離画像を得る。なお、逆変換部40は、処理対象が点群画像から被写体点群画像となった点を除いて、実施の形態1と同様の処理を行う。
 図7Dは、本実施の形態の実施例1における逆変換部40により逆変換されて得た第2距離画像の一例を示す図である。図7Dに示す第2距離画像は、図7Cに示す被写体点群画像から逆変換されることで得た距離画像の一例である。図7Dには、車両内部の構造物であるピラーなどの背景が削除され、かつ、図3Aにおける人物2aと異なる角度から撮影されたような人物2gを含む第2距離画像の例が示されている。
 [効果]
 以上のように、本実施の形態の実施例1の距離画像処理装置1によれば、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
 さらに、本実施例の距離画像処理装置1によれば、1つの距離画像から新たな距離画像を生成する際に、背景を除去し被写体のみを抽出した距離画像を教師データとして生成できる。これにより、被写体のみを抽出した距離画像を教師データとして用いることができるので汎用的な学習器を作成することができる。また、被写体等の物体検知を行うモデルの学習段階で、被写体のみを抽出した距離画像を教師データとして用いることにより、学習後のモデルに物体検知しやすくさせることができる。
 (実施例2)
 実施例2では、入力部10に入力された第1距離画像から背景を除去することで、被写体の背景を除去された第2距離画像を生成する方法等について説明する。
 [構成]
 図8は、本実施の形態の実施例2における距離画像処理装置1の機能構成の一例を示す図である。なお、図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図8に示す距離画像処理装置1は、図2に示す距離画像処理装置1に対して、変換処理部20Aの構成が異なる。
 変換処理部20Aは、図8に示すように、第2被写体抽出部201Aと、変換部202Aとを備える。以下、各構成要素について詳細に説明する。
 第2被写体抽出部201Aは、第1距離画像が有する各画素を閾値に基づき二値化し、二値化した第1距離画像の複数の画素の少なくとも一部から形成される2以上の領域のうち選択した領域に対応する位置にある第1距離画像の画素を抽出する。このようにして、第2被写体抽出部201Aは、第1距離画像から、第1距離画像に含まれる被写体領域の画像である中間距離画像を抽出する。
 ここで、第2被写体抽出部201Aは、当該2以上の領域を比較し、2以上の領域のうち面積が最大となる第1領域を選択し、選択した第1領域に対応する位置にある第1距離画像の画素を抽出してもよい。
 より具体的には、第2被写体抽出部201Aは、例えば、二値化などの画像処理手法を用いて、カメラからの距離を示す画素値と閾値とに基づいて、距離画像を二値画像に変換し、クラスタリングすることで、2以上の領域に分割することができる。ここで、クラスタリングには、DBSCANを用いてもよいし、二値画像に対して、膨張処理または/及び収縮処理を施すことで2以上の領域に分割してもよい。二値画像に対する膨張処理は、二値画像が白い画素と黒い画素とからなる画像であるとしたときの二値画像中の注目画素において、注目画素の周辺に1画素でも白い画素があれば、周辺の黒い画素を白い画素に置き換える画像処理である。二値画像に対する縮小処理は、二値画像の注目画素において、注目画素の周辺に1画素でも黒い画素があれば、周辺の白い画素を黒い画素に置き換える画像処理である。
 これにより、第2被写体抽出部201Aは、分割した2以上の領域のうち、最も大きな(面積が最大となる)領域を被写体として特定することができる。このため、第2被写体抽出部201Aは、被写体として特定した領域を抽出することで、第1距離画像に含まれる被写体領域のみを中間距離画像として抽出することができる。
 なお、分割した2以上の領域のうち、最も大きな領域が被写体に該当せず、2番手以降に大きい領域が被写体に該当する場合もある。この場合には、第1距離画像に含まれる被写体の領域を代表する位置(座標)を取得し、取得した位置に対応する位置を含む領域を抽出することで、第1距離画像に含まれる被写体領域のみを中間距離画像として抽出することができる。すなわち、第2被写体抽出部201Aは、当該2以上の領域のうち、第1距離画像に含まれる被写体領域を代表する位置に対応する位置を含む1以上の第1領域を選択し、選択した第1領域に対応する位置にある第1距離画像の画素を抽出してもよい。そして、第1距離画像に含まれる被写体領域のみを中間距離画像として抽出すればよい。
 図9Aは、本実施の形態の実施例2における第2被写体抽出部201Aに入力された第1距離画像の一例を示す図である。図9Aに示される第1距離画像は、図3Aと同じものであり、人物である被写体と、車両内部の構造物であるピラーなどの背景とを含んでいる。
 図9Bは、本実施の形態の実施例2における第2被写体抽出部201Aより被写体領域が抽出された第1距離画像の一例を示す図である。図9Bに示される第1距離画像は、図9Aに示す第1距離画像から、人物である被写体の領域として特定された領域が抽出されることで得た距離画像の一例である。つまり、図9Bに示される第1距離画像は、図9Aに示される第1距離画像と比較して、車両内部の構造物であるピラーなどの背景の領域に対応する領域が削除されている。
 変換部202Aは、中間距離画像を点群画像に変換する。より具体的には、変換部202Aは、第1距離画像を撮影したTOFカメラのカメラパラメータを用いて、中間距離画像を点群画像に変換する。点群画像の点群のそれぞれの点には3次元座標が含まれる。距離画像を点群画像に変換する方法は、公知であるため、ここでの説明は省略する。
 なお、変換部202Aは、TOFカメラのレンズパラメータ及びカメラパラメータを用いて、抽出された中間距離画像の歪みを除去してもよい。この場合、変換部202Aは、中間距離画像から歪みが除去された距離画像を中間距離画像とし、点群画像に変換すればよい。
 [効果]
 以上のように、本実施の形態の実施例2の距離画像処理装置1によれば、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
 さらに、本実施例の距離画像処理装置1によれば、1つの距離画像から新たな距離画像を生成する際に、車両内部の構造などの背景を除去し被写体のみを抽出した距離画像を教師データとして1以上生成できる。これにより、被写体のみを抽出した距離画像を教師データとして用いることができるので汎用的な学習器を作成することができる。また、被写体等の物体検知を行うモデルの学習段階で、被写体のみを抽出した距離画像を教師データとして用いることにより、学習後のモデルに物体検知しやすくさせることができる。
 (実施例3)
 距離画像処理装置1は、上述したように、第2距離画像を、元となる第1距離画像を点群画像に変換し、回転等の処理をした後に逆変換することで生成する。このため、第2距離画像は、回転等の処理の仕方によっては、距離値を有しない画素を含む場合がある。なぜなら、回転等の処理をした後の点群画像の一部の点群の点の間に距離値(デプス値)がない場合、逆変換することで、距離画像の当該一部の点群に対応する領域の画素の間に画素値を有しない画素が生じてしまうからである。距離画像において、距離値を有しない画素を無効画素と称し、距離値を有する画素を有効画素と称する。
 以下では、第2距離画像中に含まれる無効画素に距離値を設定することについて、実施例3として説明する。
 [構成]
 図10は、本実施の形態の実施例3における距離画像処理装置1の機能構成の一例を示す図である。なお、図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図10に示す距離画像処理装置1は、図2に示す距離画像処理装置1に対して、出力処理部50Aの構成が異なる。
 出力処理部50Aは、図10に示すように、補正部501Aと、出力部502Aとを備える。以下、各構成要素について詳細に説明する。
 補正部501Aは、第2距離画像に含まれる画素であって距離値を含まない画素である無効画素に、無効画素の近傍にある画素であって距離値を含む画素である有効画素の距離値に基づき算出された距離値を設定することで、第2距離画像を補正する。
 例えば、補正部501Aは、第2距離画像に含まれる有効画素に隣接する無効画素に対して、当該無効画素の周囲の有効画素の距離値の平均値を、当該無効画素が有する距離値として設定することで、第2距離画像を補正してもよい。第2距離画像に無効画素が含まれる場合、当該第2距離画像には、無効画素と有効画素とが入り混じっているからである。なお、補正部501Aは、無効画素の周囲の有効画素の距離値の平均値を用いる場合に限らず、無効画素の周囲の有効画素の距離値の分散値、または、モデル化されたノイズの値を考慮した距離値を用いてもよい。
 このようにして、補正部501Aは、第2距離画像に含まれる無効画素を埋める補正を行うことで、第2距離画像の各画素が有する画素値に抜けがないすなわち第2距離画像の各画素が有する画素値を滑らかにする。
 出力部502Aは、補正部501Aにより補正された第2距離画像を出力する。また、出力部502Aは、補正部501Aより補正された複数の第2距離画像を取得する場合、複数の第2距離画像を出力してもよい。なお、出力部502Aは、補正された複数の第2距離画像を一つずつ取得する場合には、メモリ等に保持し、複数の第2距離画像がメモリ等に保持された後に、出力してもよい。
 [効果]
 以上のように、本実施の形態の実施例3の距離画像処理装置1によれば、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
 さらに、本実施例の距離画像処理装置1によれば、生成した距離画像に含まれる無効画素に距離値を設定することで、距離画像を補正できる。これにより、有効画素に囲まれた無効画素に距離値を設定して補正することで、機械学習に適した教師データとして、実際の距離画像に近い距離画像を生成することができる。
 なお、上述した出力処理部50Aは、実施の形態1、実施例1及び実施例2における距離画像処理装置1に適用してもよい。すなわち、実施の形態1、実施例1及び実施例2における距離画像処理装置1でも、出力処理部50に代えて、上述した出力処理部50Aを備えてもよい。
 (実施の形態2)
 実施の形態1では、機械学習に用いる教師データとなる距離画像を一枚の距離画像から画像処理により生成する距離画像処理装置1について説明したが、それに限らない。2枚以上の距離画像から機械学習に用いる教師データとなる距離画像を作成してもよい。以下、実施の形態2として、この場合について説明する。
 [構成]
 図11は、本実施の形態における距離画像処理装置1Bの機能構成の一例を示す図である。なお、図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。図11に示す距離画像処理装置1Bは、図2に示す距離画像処理装置1に対して、撮影部10Bと、点群画像生成部30Bの構成が異なる。
 撮影部10Bは、それぞれ異なる位置にある複数の撮像装置それぞれに、同時に、同一の被写体を撮影させることで、複数の第1距離画像を取得する。
 図12は、本実施の形態における撮影部10Bが取得する複数の第1距離画像を撮影する複数のカメラの配置例を示す図である。
 例えば、撮影部10Bは、図12に示すように、それぞれ近い位置かつ異なる位置にあるカメラ100a、100b、…に、被写体2を撮影させる。ここで、カメラ100a、100b、…は、撮影装置の一例であり、それぞれ被写体2を含む領域の距離画像を同時に撮影することができる。そして、撮影部10Bは、カメラ100a、100b、…それぞれが撮影した距離画像である複数の第1距離画像を取得し、変換処理部20に出力する。なお、変換処理部20は、撮影部10Bに入力された複数の第1距離画像を複数の点群画像に変換する。変換処理部20は、実施の形態1と同様の手法を用いて、複数の第1距離画像のそれぞれを点群画像に変換する。
 点群画像生成部30Bは、図11に示すように、合成部301Bと、回転等処理部302Bとを備える。以下、各構成要素について詳細に説明する。
 合成部301Bは、複数の点群画像を合成して1つの点群画像である第1点群画像を生成する。より具体的には、合成部301Bは、複数の点群画像を対応する位置の画素で重ね合わせることで第1点群画像を生成し、第1点群画像の各画素には、当該画素に対応する複数の点群画像それぞれの画素の有する距離値を並列に持たせている。
 例えば、合成部301Bは、複数の撮像装置それぞれの位置を既知として、各撮像装置の座標系をある1つの座標系に変換する回転行列を算出する。そして、合成部301Bは、算出した回転行列を、複数の点群画像の対応する点群に適用することで、複数の点群画像を1つの点群画像に合成する(重ね合わせる)。このようにして、合成部301Bは、合成された第1点群画像のそれぞれの点に、対応する点における複数の点群画像の距離値を、足し算の形式等で並列に持たせることができる。
 回転等処理部302Bは、合成部301Bにより生成された第1点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、第1点群画像から新たな点群画像を生成する。なお、第1点群画像から新たな点群画像を生成する方法は、実施の形態1で説明した通りであるので、説明を省略する。
 [効果等]
 以上のように、本実施の形態の距離画像処理装置1Bによれば、教師データとなり得る距離画像をより短時間かつ低コストで生成できる。
 さらに、本実施の形態の距離画像処理装置1Bによれば、複数のカメラで同時に撮影した距離画像を用いて、新たな距離画像を生成する。これにより、第1距離画像と撮影角度が大きく異なる第2距離画像を生成する場合、1つのカメラで撮影した第1距離画像を用いる場合よりも、実際にその角度で撮影した距離画像に近い第2距離画像を生成することができる。
 なお、本実施の形態の距離画像処理装置1Bは、変換処理部20に代えて、実施の形態1の実施例2で説明した変換処理部20Aを備えてもよいし、出力処理部50に代えて、実施の形態1の実施例3で説明した出力処理部50Aを備えてもよい。さらに、本実施の形態の距離画像処理装置1Bは、点群画像生成部30Bにおいて、実施の形態1の実施例1で説明した第1被写体抽出部301Aを備えてもよい。この場合、本実施の形態の距離画像処理装置1Bは、合成部301Bの処理の前に、第1被写体抽出部301Aの処理を行わせればよい。そして、合成部301Bは、第1被写体抽出部301Aにより背景が削除された複数の点群画像を合成して1つの点群画像である第1点群画像を生成すればよい。
 以上、本開示の一つまたは複数の態様に係る距離画像処理装置等について、実施の形態および実施例に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態及び実施例における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。
 (1)上記の距離画像処理装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の距離画像処理装置1を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の距離画像処理装置1を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
 本開示は、距離画像処理装置及び距離画像処理方法に利用でき、特に機械学習に用いる教師データとなり得る距離画像を元となる距離画像から新たに生成するための距離画像処理装置及び距離画像処理方法に利用可能である。
 1、1B 距離画像処理装置
 2 被写体
 2a、2d、2g 人物
 2b、2c、2e、2f 点群
 10 入力部
 20、20A 変換処理部
 30、30A、30B 点群画像生成部
 40 逆変換部
 50、50A 出力処理部
 100a、100b カメラ
 201A 第2被写体抽出部
 202A 変換部
 301A 第1被写体抽出部
 301B 合成部
 302A、302B 回転等処理部
 501A 補正部
 502A 出力部

Claims (12)

  1.  入力された第1距離画像を点群画像に変換する変換処理部と、
     前記点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記点群画像から新たな点群画像を生成する点群画像生成部と、
     前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換部と、
     前記第2距離画像を出力する出力処理部と、を備える、
     距離画像処理装置。
  2.  前記点群画像生成部は、1つの前記点群画像から互いに異なる複数の新たな点群画像を生成し、
     前記逆変換部は、前記複数の新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる複数の第2距離画像であって互いに異なる複数の第2距離画像を得、
     前記出力処理部は、前記複数の第2距離画像を出力する、
     請求項1に記載の距離画像処理装置。
  3.  前記点群画像生成部は、
     前記変換処理部において変換された前記点群画像が有する点群を、各点同士の距離に基づき複数の小点群に分割し、分割した前記複数の小点群のうち選択した小点群を被写体点群として抽出することで、前記点群画像から、前記第1距離画像に含まれる被写体領域に対応する被写体点群画像を抽出する第1被写体抽出部と、
     前記被写体点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記被写体点群画像から新たな被写体点群画像を生成する回転等処理部と、を有し、
     前記逆変換部は、前記新たな被写体点群画像を距離画像に逆変換することで、前記第2距離画像を得る、
     請求項1または2に記載の距離画像処理装置。
  4.  前記第1被写体抽出部は、
     分割した前記複数の小点群を比較し、前記複数の小点群のうち最も点数の多い小点群を選択し、前記被写体点群として抽出する、
     請求項3に記載の距離画像処理装置。
  5.  前記第1被写体抽出部は、
     分割した前記複数の小点群のうち、前記第1距離画像に含まれる前記被写体領域を代表する位置に対応する位置を含む1以上の小点群を選択し、前記被写体点群として抽出する、
     請求項3に記載の距離画像処理装置。
  6.  前記変換処理部は、
     前記第1距離画像が有する各画素を閾値に基づき二値化し、二値化した前記第1距離画像の複数の画素の少なくとも一部から形成される2以上の領域のうち選択した領域に対応する位置にある前記第1距離画像の画素を抽出することで、前記第1距離画像から、前記第1距離画像に含まれる被写体領域の画像である中間距離画像を抽出する第2被写体抽出部と、
     前記中間距離画像を点群画像に変換する変換部と、を有する、
     請求項1または2に記載の距離画像処理装置。
  7.  前記第2被写体抽出部は、
     前記2以上の領域を比較し、前記2以上の領域のうち面積が最大となる第1領域を選択し、選択した前記第1領域に対応する位置にある前記第1距離画像の画素を抽出する、
     請求項6に記載の距離画像処理装置。
  8.  前記第2被写体抽出部は、
     前記2以上の領域のうち、前記第1距離画像に含まれる前記被写体領域を代表する位置に対応する位置を含む1以上の第1領域を選択し、選択した前記第1領域に対応する位置にある前記第1距離画像の画素を抽出する、
     請求項6に記載の距離画像処理装置。
  9.  前記出力処理部は、
     前記第2距離画像に含まれる画素であって距離値を含まない画素である無効画素に、前記無効画素の近傍にある画素であって距離値を含む画素である有効画素の距離値に基づき算出された距離値を設定することで、前記第2距離画像を補正する補正部と、
     前記補正部により補正された前記第2距離画像を出力する出力部と、を有する、
     請求項1~8のいずれか1項に記載の距離画像処理装置。
  10.  それぞれ異なる位置にある複数の撮像装置それぞれに、同時に、同一の被写体を撮影させることで、複数の第1距離画像を取得する撮像部と、
     前記撮像部が取得した前記複数の第1距離画像を複数の点群画像に変換する変換処理部と、
     前記複数の点群画像を合成して1つの点群画像である第1点群画像を生成する合成部と、
     前記第1点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記第1点群画像から新たな点群画像を生成する点群画像生成部と、
     前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換部と、
     前記第2距離画像を出力する出力処理部と、を備える、
     距離画像処理装置。
  11.  前記合成部は、
     前記複数の点群画像を対応する位置の画素で重ね合わせることで前記第1点群画像を生成し、前記第1点群画像の各画素には、前記画素に対応する複数の点群画像それぞれの画素の有する距離値を並列に持たせている、
     請求項10に記載の距離画像処理装置。
  12.  入力された第1距離画像を点群画像に変換する変換処理ステップと、
     前記点群画像に対して、回転、平行移動、上下左右反転、拡大または縮小の少なくとも1つの処理を施すことで、前記点群画像から新たな点群画像を生成する点群画像生成ステップと、
     前記新たな点群画像を距離画像に逆変換することで、前記第1距離画像と異なる第2距離画像を得る逆変換ステップと、
     前記第2距離画像を出力する出力処理ステップと、を含む、
     距離画像処理方法。
PCT/JP2020/025008 2019-12-24 2020-06-25 距離画像処理装置及び距離画像処理方法 WO2021131103A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-232807 2019-12-24
JP2019232807 2019-12-24

Publications (1)

Publication Number Publication Date
WO2021131103A1 true WO2021131103A1 (ja) 2021-07-01

Family

ID=76572997

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025008 WO2021131103A1 (ja) 2019-12-24 2020-06-25 距離画像処理装置及び距離画像処理方法

Country Status (1)

Country Link
WO (1) WO2021131103A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137762A (ja) * 2013-01-18 2014-07-28 Sanyo Electric Co Ltd 物体検出装置
US20170276823A1 (en) * 2014-06-25 2017-09-28 Nuctech Company Limited Methods for positioning a target in a three-dimensional ct image and ct systems for security inspection
JP2018031745A (ja) * 2016-08-26 2018-03-01 株式会社キーエンス 校正具の製造方法及び三次元測定装置
WO2019069358A1 (ja) * 2017-10-03 2019-04-11 富士通株式会社 認識プログラム、認識方法および認識装置
JP2019056966A (ja) * 2017-09-19 2019-04-11 株式会社東芝 情報処理装置、画像認識方法および画像認識プログラム
US20190311486A1 (en) * 2018-04-05 2019-10-10 Symbol Technologies, Llc Method, system and apparatus for correcting translucency artifacts in data representing a support structure

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137762A (ja) * 2013-01-18 2014-07-28 Sanyo Electric Co Ltd 物体検出装置
US20170276823A1 (en) * 2014-06-25 2017-09-28 Nuctech Company Limited Methods for positioning a target in a three-dimensional ct image and ct systems for security inspection
JP2018031745A (ja) * 2016-08-26 2018-03-01 株式会社キーエンス 校正具の製造方法及び三次元測定装置
JP2019056966A (ja) * 2017-09-19 2019-04-11 株式会社東芝 情報処理装置、画像認識方法および画像認識プログラム
WO2019069358A1 (ja) * 2017-10-03 2019-04-11 富士通株式会社 認識プログラム、認識方法および認識装置
US20190311486A1 (en) * 2018-04-05 2019-10-10 Symbol Technologies, Llc Method, system and apparatus for correcting translucency artifacts in data representing a support structure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATSUKURA, SHOKEN: "Cases of Data Acquisition with Gamification for Machine Learning.", 13 September 2019 (2019-09-13), pages 80 - 83, XP009533936, Retrieved from the Internet <URL:http://id.nii.ac.jp/1001/00199319/> *
vol. 63, 201920524, PROCEEDINGS OF THE THE 63RD ANNUAL CONFERENCE OF THE INSTITUTE OF SYSTEMS, CONTROL, INFORMATION ENGINEERS, article MATSUKURA, SHOKEN.: " Generation and Deformation of 3D Shape by Hand Gesture. ", pages: 1363 - 1366 *

Similar Documents

Publication Publication Date Title
JP6677098B2 (ja) 全天球動画の撮影システム、及びプログラム
TWI466062B (zh) 重建三維模型的方法與三維模型重建裝置
US8224069B2 (en) Image processing apparatus, image matching method, and computer-readable recording medium
JP5450739B2 (ja) 画像処理装置及び画像表示装置
CN112927362B (zh) 地图重建方法及装置、计算机可读介质和电子设备
JP6330036B2 (ja) 画像処理装置及び画像表示装置
JP2008152530A (ja) 顔認識装置及び顔認識方法、ガボア・フィルタ適用装置、並びにコンピュータ・プログラム
ES2974080T3 (es) Procedimiento y aparato para fotografiar imágenes
CN109247068A (zh) 用于滚动快门补偿的方法和设备
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
CN109448105B (zh) 基于多深度图像传感器的三维人体骨架生成方法及系统
CN107563978A (zh) 人脸去模糊方法及装置
US10482571B2 (en) Dual fisheye, hemispherical image projection and stitching method, device and computer-readable medium
CN112348958A (zh) 关键帧图像的采集方法、装置、系统和三维重建方法
CN111652110A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN107734207B (zh) 视频对象变换处理方法、装置及计算设备
KR102118937B1 (ko) 3d 데이터서비스장치, 3d 데이터서비스장치의 구동방법 및 컴퓨터 판독가능 기록매체
JP2008217593A (ja) 被写体領域抽出装置及び被写体領域抽出プログラム
EP3496042A1 (en) System and method for generating training images
WO2021131103A1 (ja) 距離画像処理装置及び距離画像処理方法
CN110288707B (zh) 一种三维动态建模的方法及其系统
KR102195762B1 (ko) 포토그래메트리를 이용한 고품질 3차원 공간 정보 획득 방법
CN115393214A (zh) 图像增强模型的训练方法、图像增强方法、装置和设备
CN113034345B (zh) 一种基于sfm重建的人脸识别方法及系统
CN114140530A (zh) 一种图像处理方法及投影设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20905652

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20905652

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP