WO2021181647A1 - 画像処理装置、画像処理方法、およびコンピュータ可読媒体 - Google Patents

画像処理装置、画像処理方法、およびコンピュータ可読媒体 Download PDF

Info

Publication number
WO2021181647A1
WO2021181647A1 PCT/JP2020/011021 JP2020011021W WO2021181647A1 WO 2021181647 A1 WO2021181647 A1 WO 2021181647A1 JP 2020011021 W JP2020011021 W JP 2020011021W WO 2021181647 A1 WO2021181647 A1 WO 2021181647A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
point cloud
unit
dimensional
mapping
Prior art date
Application number
PCT/JP2020/011021
Other languages
English (en)
French (fr)
Inventor
剛志 柴田
航介 吉見
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/801,559 priority Critical patent/US20230162371A1/en
Priority to PCT/JP2020/011021 priority patent/WO2021181647A1/ja
Priority to JP2022505680A priority patent/JP7279848B2/ja
Publication of WO2021181647A1 publication Critical patent/WO2021181647A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Definitions

  • the present invention relates to an image processing device, an image processing method, and a computer-readable medium, and for example, an image processing device, an image processing method, and a computer-readable medium capable of efficiently generating teacher data of point cloud data.
  • Non-Patent Document 1 a large amount of label data with correct labels related to the recognition target is prepared, and learning and evaluation are performed using these label data (for example, Non-Patent Document 1). And Non-Patent Document 2).
  • Patent Document 1 discloses a shape extraction device capable of extracting an object shape from three-dimensional point cloud data at high speed even when the amount of data of the three-dimensional point cloud data is enormous.
  • a comprehensive voxel that includes all of a plurality of points is set for the three-dimensional point cloud data.
  • the inclusive voxel is divided by a plurality of virtual voxels having a size larger than the pitch of the plurality of points.
  • a unique identification number is set for each of multiple virtual voxels.
  • Labeling processing is performed in units of virtual voxels according to the presence or absence of points in the virtual voxels to which the identification number is assigned, and the same label value is assigned to the connected virtual voxels among a plurality of virtual voxels including the points. ing.
  • An object of the present disclosure is to provide an image processing apparatus, an image processing method, and a computer-readable medium that solve any of the above-mentioned problems.
  • a three-dimensional point cloud division unit that divides a three-dimensional point cloud of an object into the same cluster using a plurality of clustering parameters so that the smaller the distance between the points of the three-dimensional point cloud, the more clustered it is.
  • a cluster mapping unit that maps a cluster of the three-dimensional point cloud to a two-dimensional image and generates a mapping point cloud based on the correspondence between the coordinates of the three-dimensional point cloud and the coordinates of the pixels of the two-dimensional image.
  • a label collating unit that assigns a label to each point of the mapping point group mapped by the cluster mapping unit based on the target label of the two-dimensional image and the position information on the two-dimensional image.
  • a collation result voting unit that votes for the label of each point in the mapping point cloud given by the label collating unit
  • a label determination unit that determines the label of each point in the mapping point cloud based on the voting result by the collation result voting unit. It is an image processing device equipped with.
  • One aspect for achieving the above objectives is The step of dividing the three-dimensional point cloud of an object using a plurality of clustering parameters so that the smaller the distance between the points of the three-dimensional point cloud, the more clustered into the same cluster, and the coordinates of the three-dimensional point cloud.
  • the step of mapping the cluster of the three-dimensional point cloud to the two-dimensional image and generating the mapping point cloud and A step of assigning a label to each point of the mapped mapping point group based on the target label of the two-dimensional image and the position information on the two-dimensional image, and The step of voting for the label of each point in the given mapping point cloud, and A step of determining the label of each point in the mapping point cloud based on the voting result, and It may be an image processing method including.
  • One aspect for achieving the above objectives is The process of dividing the three-dimensional point cloud of an object using a plurality of clustering parameters so that the smaller the distance between the points of the three-dimensional point cloud, the more clustered into the same cluster, and the coordinates of the three-dimensional point cloud. Based on the correspondence with the coordinates of the pixels of the two-dimensional image, the process of mapping the cluster of the three-dimensional point cloud to the two-dimensional image to generate the mapping point cloud, and A process of assigning a label to each point of the mapped mapping point group based on the target label of the two-dimensional image and the position information on the two-dimensional image.
  • FIG. 1 is a block diagram showing a schematic system configuration of the image processing apparatus according to the first embodiment.
  • the image processing apparatus 1 according to the present embodiment includes a three-dimensional point cloud acquisition unit 10, a camera information acquisition unit 11, a two-dimensional label acquisition unit 12, a computer 20, and a point cloud label output.
  • a unit 31 and a unit 31 are provided.
  • the three-dimensional point cloud acquisition unit 10 acquires information on the three-dimensional point cloud of the object by using a three-dimensional point cloud acquisition device or the like. Specifically, the three-dimensional point cloud acquisition unit 10 acquires the coordinates of a three-dimensional point in space by using a device for measuring a distance such as LiDAR (Light Detection And Ranging, Laser Imaging Detection and Ranging). The three-dimensional point cloud acquisition unit 10 acquires a set of coordinates of three-dimensional points in space as a three-dimensional point cloud.
  • LiDAR Light Detection And Ranging, Laser Imaging Detection and Ranging
  • 3D-LiDAR which is widely used in terrain surveys and automatic driving, can accumulate distance data from measurement points of objects in 3D space at high density and in a wide range as 3D point cloud data.
  • the three-dimensional point cloud acquisition unit 10 is reflected from data reflecting the structure of the real environment acquired by this 3D-LiDAR, that is, target objects such as people and automobiles, and structures such as the ground, buildings, and signs.
  • the set of 3D points having the obtained 3D coordinate information is acquired as a 3D point cloud.
  • the coordinates of the three-dimensional point cloud are expressed as (X j , Y j , Z j ).
  • j is a subscript for distinguishing each point in the three-dimensional point cloud.
  • the three-dimensional point cloud acquisition unit 10 may simultaneously acquire device information or position information such as time and latitude / longitude when the three-dimensional points are acquired. Further, the three-dimensional point cloud acquisition unit 10 may record the acquired image or measured value in a memory (not shown) or the like.
  • the camera information acquisition unit (information acquisition unit) 11 acquires camera information including the correspondence between the coordinates of the three-dimensional point cloud and the coordinates of the pixels of the two-dimensional image. More specifically, the camera information acquisition unit 11 is obtained by projecting from the position of the coordinates of the three-dimensional point group (that is, the three-dimensional coordinates in the world coordinates) and the coordinates of a certain pixel of the two-dimensional image (that is, the camera coordinates). Acquires camera information including parameters (hereinafter, conversion parameters) necessary for conversion between (two-dimensional coordinates) and.
  • conversion parameters parameters necessary for conversion between (two-dimensional coordinates) and.
  • the camera information acquisition unit 11 sets, as conversion parameters, an external parameter that associates the coordinates of the three-dimensional point cloud with the coordinates of the pixels of the two-dimensional image, and an internal parameter of the camera that was used when the two-dimensional image was acquired. get.
  • the camera information acquisition unit 11 replaces the internal parameters and the external parameters with a coordinate system representing the coordinates of the three-dimensional point cloud (that is, world coordinates) and the coordinate system of the camera used to acquire the two-dimensional image (that is, the world coordinates). That is, the rotation and translation parameters between the camera coordinates) may be acquired.
  • the camera information acquisition unit 11 may record the acquired camera information in a memory (not shown) or the like.
  • the camera information acquisition unit 11 may acquire the correspondence between the coordinates of the three-dimensional point cloud and the coordinates of the pixels of the two-dimensional image by separately calculating the correspondence relationship by a camera calibration technique or the like.
  • the image processing device 1 may be configured not to include the camera information acquisition unit 11.
  • the camera information may be preset in the cluster mapping unit 202.
  • the two-dimensional label acquisition unit 12 acquires the label of the object to be the target of the two-dimensional image and the position information on the two-dimensional image.
  • Object labels are labels for the types of objects, such as people, cars, dogs, and bicycles.
  • the label of the object may be a label related to attribute information such as red clothes, a blue bag, age, and gender.
  • the position information on the two-dimensional image is, for example, the coordinates of four rectangular points of the target object or information similar thereto.
  • the position information on the two-dimensional image may be the center coordinates of the object, or may be some points on the coordinates where the object exists.
  • the two-dimensional label acquisition unit 12 may automatically calculate the label and its position information on the two-dimensional image by using a detection method such as machine learning.
  • the label and its position information on the two-dimensional image may be manually input to the two-dimensional label acquisition unit 12.
  • the two-dimensional label acquisition unit 12 may acquire the label and its position information on the two-dimensional image by combining manual input and a detection method using machine learning.
  • the image processing device 1 may be configured not to include the two-dimensional label acquisition unit 12.
  • the label and its position information on the two-dimensional image may be preset in the label collating unit 203.
  • the two-dimensional label acquisition unit 12 may record the acquired label and its position information on the two-dimensional image in a memory (not shown) or the like.
  • the camera coordinates corresponding to each point in the three-dimensional point cloud are represented as (x j , y j ).
  • j is a subscript for distinguishing each point in the point cloud.
  • the label of the object is represented by B k , where k is a subscript for distinguishing each object. It is a value assigned to the label B k , and labels such as object types and attributes are represented by using q below.
  • the position information on the two-dimensional images acquired with each label B k expressed as D k.
  • the position information D k will be described below on the assumption that the position information is given as rectangular information surrounding the object, but the range included in the position information D k in the present invention is not limited to this.
  • the center coordinates of the object may be used as the position information, or some points on the coordinates existing on the object may be used as the position information and expressed as D k.
  • the computer 20 includes, for example, a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit), an internal memory such as a RAM (Random Access Memory) or a ROM (Read Only Memory), an HDD (Hard Disk Drive), or the like.
  • a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit), an internal memory such as a RAM (Random Access Memory) or a ROM (Read Only Memory), an HDD (Hard Disk Drive), or the like.
  • An ordinary computer equipped with an input / output I / F for connecting a storage device such as an SDD (Solid State Drive) and a peripheral device such as a display, and a communication I / F for communicating with a device outside the device. It has a hardware configuration.
  • the computer 20 can realize each functional component described later by executing a program stored in a storage device, an internal memory, or the like while the processor uses the internal memory, for example.
  • FIG. 2 is a block diagram showing a schematic system configuration of the computer according to the first embodiment.
  • the computer 20 according to the first embodiment has a three-dimensional point cloud division unit 201, a cluster mapping unit 202, a label collation unit 203, a collation result voting unit 204, and a label determination unit 205.
  • the three-dimensional point cloud dividing unit 201 divides the three-dimensional point cloud acquired by the three-dimensional point cloud acquisition unit 10 so that the smaller the distance between the points, the more clustered into the same cluster using a plurality of clustering parameters. do.
  • the distance between these points is, for example, the Euclidean distance.
  • the clustering parameter is, for example, a parameter for dividing the three-dimensional point cloud so that the distance between the points of different clusters is the minimum distance L or more. In this way, when the three-dimensional point cloud is divided using the clustering parameter based on the minimum distance L, the points belonging to one cluster are always separated from the points belonging to another cluster by the minimum distance L or more. Guaranteed.
  • FIG. 3 is a diagram showing the results of clustering using the three-dimensional point cloud and a plurality of clustering parameters in the first embodiment.
  • the three-dimensional point cloud is divided for each.
  • clustering parameters L t. t is a subscript for distinguishing clustering parameters.
  • the divided cluster from which the divided result is obtained is assigned to each point in the three-dimensional point cloud as an integer cluster label. That is, an integer cluster label is assigned to each point j of the three-dimensional point cloud as a result of clustering.
  • the integer cluster label is represented as P t. t is a subscript for distinguishing clustering parameters. That is, it means that each point in the three-dimensional point cloud is given one of t divided clusters P t.
  • P t is referred to as a divided cluster.
  • the division method by the three-dimensional point cloud division unit 201 is not limited to the above method.
  • the three-dimensional point cloud division unit 201 may divide the three-dimensional point cloud into a designated cluster using the number of divisions of the three-dimensional point cloud acquired by the three-dimensional point cloud acquisition unit 10 as a parameter.
  • Cluster mapping unit 202 a camera information acquired by the camera information acquisition unit 11, a clustering result divided by the three-dimensional point group division unit 201, based on the divided clusters P t of the three-dimensional point group, FIG. As shown in 4, the 2D label maps to the defined camera coordinates.
  • the camera information includes conversion parameters such as internal parameters and external parameters, for example.
  • the clustering result includes, for example, the divided cluster P t and the three-dimensional point cloud coordinates (X j , Y j , Z j ).
  • the cluster mapping unit 202 maps the cluster of the three-dimensional point group to the two-dimensional image based on the correspondence between the coordinates of the three-dimensional point group acquired by the camera information acquisition unit 11 and the coordinates of the two-dimensional image, and maps the cluster. Generate a point group.
  • the plane coordinates in which the two-dimensional label is defined assume the coordinate system of the image from which the two-dimensional label is attached, that is, the camera coordinates, and the mapping from the three-dimensional point group coordinates to the two-dimensional image plane is It shall be given.
  • the cluster mapping unit 202 calculates this mapping based on conversion parameters such as internal parameters and external parameters acquired by the camera information acquisition unit 11. Hereinafter, it represents the division cluster after image projection to camera coordinates C t, expressed in distinction from a projection before the split clusters P t.
  • the label collation unit 203 sets the position information Dk acquired by the two-dimensional label acquisition unit 12 and the label of the object for each point of the mapping point group mapped by the cluster mapping unit 202. Labels are given based on B k and.
  • the label comparator 203 includes a split cluster C t, which is projected onto a two-dimensional image plane by a cluster mapping unit 202 collates, and two-dimensional labels that are acquired by the two-dimensional label obtaining unit 102, each of the two-dimensional selecting compatible divided cluster C t label. More specifically, the label collating unit 203 searches for the position information D k corresponding to each point j ⁇ C t in units of the divided cluster C t projected on the camera coordinates using the following equation, and divides the label collating unit 203. The label B k is associated with the cluster C t.
  • Q jt is the t-th partition parameter L t in the three-dimensional point group division unit 201, it represents an object label granted in the j-th mapping point group.
  • indicates that the divided cluster C t after mapping and the position information D t are associated with each other in the camera coordinate system.
  • Label comparator 203 searches the divided cluster C t positional information D k and the corresponding label B k for each associates the position information D k with these labels B k in the divided cluster C k.
  • the label collation unit 203 includes the division cluster C t and the position information according to the ratio of the points j ⁇ C t (mapping of the point cloud in the image plane) belonging to the division cluster C t inside the position information D k. Check with D k.
  • the label collating unit 203 calculates the inclusion rate by the following formula.
  • C t indicates a divided cluster
  • D k indicates position information
  • j indicates a point of an element of a small cluster.
  • Num ( ⁇ ) is a function that counts the number of elements.
  • the denominator represents the number of mapping point clouds included in the split cluster C t
  • the numerator represents the number of the split cluster C t after mapping projection in the camera coordinates included in the position information D k.
  • the collation method by the label collation unit 203 is not limited to the above method.
  • the label collating unit 203 calculates the area overlap rate (IoU) instead of calculating the inclusion rate by the above equation, and uses this value to obtain the same label B k as the position information D k having the highest area overlap rate. May be given.
  • the collation result voting unit 204 integrates the label Qjt of each point of the mapping point cloud obtained for each clustering parameter by the label collation unit 203 by voting.
  • the collation result voting unit 204 uses the label Q jt of each point of the mapping point group, calculates the reliability S jq for label Q jt. More specifically, the matching result voting unit 204, based on the label Q jt, using the following equation, calculates the reliability S jq for label Q jt.
  • q is a value indicating the type of the object label
  • ⁇ (a, b) is a function that returns 1 if a and b are the same value, and 0 if they are different values.
  • the reliability S jq is an array having q bins for each point in the point cloud.
  • the method of calculating the reliability S jq by the collation result voting unit 204 is not limited to the above method.
  • the collation result voting unit 204 votes not only for the label of the point j in the corresponding point cloud but also for the label of the point cloud around the point j. You may.
  • the collation result voting unit 204 may calculate the reliability S jq using the following formula.
  • O (j) is a set of points around the point j in the point cloud.
  • the label determination unit 205 determines the label of each point in the mapping point cloud based on the voting result by the collation result voting unit 204. For example, the label determination unit 205 determines the value that takes the maximum q for each point j of the point cloud as the label at that point j, using the reliability S jq calculated by the collation result voting unit 204. .. More specifically, the label determination unit 205 uses the value G j calculated by using the following formula as the label of the j-th point of the point cloud. Hereinafter, the label determined by the label determination unit 205 will be represented as G j.
  • the label determination method by the label determination unit 205 is not limited to the above method.
  • the label determination unit 205 determines a method of manually assigning a label to each point of the mapping point cloud when the maximum value of the reliability S jq of the voting by the collation result voting unit 204 is lower than the first predetermined value. May be good. That is, when the label determination unit 205 determines the label of each point in the mapping point cloud based on the voting result by the collation result voting unit 204 , all of the reliability S jq for the corresponding label is higher than the first predetermined value. If it is low, the method of manually assigning labels may be decided.
  • the first predetermined value may be set in advance in the label determination unit 205.
  • Label determining unit 205 a method of assigning labels according to the manual, for example, if all the reliability S jq for the corresponding label is lower than the first predetermined value, high reliability S jq than the second predetermined value more
  • the label may be displayed on a display or the like, and a person may decide how to select the displayed label.
  • the second predetermined value is smaller than the first predetermined value (first predetermined value> second predetermined value), and may be set in advance in the label determination unit 205.
  • the point cloud label output unit 31 outputs the label of the j-th point of the point cloud determined by the label determination unit 205, which will be described later.
  • the point cloud label output unit 31 may display the output result on the display, or may output the value to a recording device such as a memory.
  • FIG. 5 is a flowchart showing a flow of the image processing method according to the first embodiment.
  • the three-dimensional point cloud acquisition unit 10 acquires the information of the three-dimensional point cloud by the three-dimensional point cloud acquisition device (step S101).
  • the camera information acquisition unit 11 acquires the correspondence between the coordinates of the three-dimensional point cloud and the coordinates of the pixels of the two-dimensional image (step S102).
  • the two-dimensional label acquisition unit 12 acquires the label of the object to be the target of the two-dimensional image and the position information on the two-dimensional image (step S103).
  • the three-dimensional point cloud dividing unit 201 divides the three-dimensional point cloud acquired by the three-dimensional point cloud acquisition unit 10 so that the smaller the distance between the points, the more clustered into the same cluster using a plurality of clustering parameters. (Step S104).
  • the cluster mapping unit 202 maps the cluster of the three-dimensional point group to the two-dimensional image based on the correspondence between the coordinates of the three-dimensional point group acquired by the camera information acquisition unit 11 and the coordinates of the two-dimensional image, and maps the cluster.
  • a point group is generated (step S105).
  • the label collating unit 203 assigns a label to each point of the mapping point group mapped by the cluster mapping unit 202 based on the position information acquired by the two-dimensional label acquiring unit 12 and the label of the object ( Step S106).
  • the collation result voting unit 204 integrates the labels of each point of the labeled mapping point group obtained for each clustering parameter by the label collation unit 203 by voting (step S107).
  • the label determination unit 205 determines the label of each point in the mapping point cloud based on the voting result by the collation result voting unit 204 (step S108).
  • the point cloud label output unit 31 outputs the label determined by the label determination unit 205 (step S109).
  • the division results are output on different scales, and labels are assigned to each of these division clusters.
  • the label with a large number of votes that is, the label in which the same label is output with more clustering parameters, is regarded as the correct label.
  • the image processing apparatus 1 makes the three-dimensional point cloud of the object into the same cluster as the distance between the points of the three-dimensional point cloud becomes smaller by using a plurality of clustering parameters.
  • the cluster of the 3D point cloud is converted into a 2D image based on the correspondence between the 3D point cloud dividing unit 201 to be divided so as to be clustered and the coordinates of the 3D point cloud and the coordinates of the pixels of the 2D image.
  • the cluster mapping unit 202 that maps and generates the mapping point cloud, and the mapping point cloud mapped by the cluster mapping unit 202 based on the target label of the two-dimensional image and the position information on the two-dimensional image.
  • the label collation unit 203 that gives a label to each point
  • the collation result voting unit 204 that votes for the label of each point of the mapping point cloud given by the label collation unit 203
  • the collation result voting unit 204 vote.
  • a label determination unit 205 for determining a label for each point in the mapping point cloud based on the result is provided.
  • the three-dimensional point cloud is divided by a plurality of clustering parameters, a label is given to each point of the three-dimensional point cloud for each clustering parameter, and the label of each point is assigned. I'm voting.
  • label data used in the object recognition process using the three-dimensional point cloud data can be easily generated.
  • FIG. 7 is a block diagram showing a schematic system configuration of the image processing apparatus according to the second embodiment.
  • the image processing apparatus 100 according to the second embodiment further includes an image acquisition unit 13 and a segmentation label output unit 32 in addition to the configuration according to the first embodiment.
  • the computer according to the second embodiment further has a segmentation label generation unit 206 and a segmentation label correction unit 207 in addition to the configuration according to the first embodiment.
  • the image acquisition unit 13 acquires an image at the same time and place as the scene in which the three-dimensional point cloud was acquired by the three-dimensional point cloud acquisition unit 10.
  • the image acquisition unit 101 acquires one or more two-dimensional images and measured values by using a camera, a sensor for measurement, or the like.
  • the two-dimensional image or the measured value is not limited to the visible image, and may be, for example, an image acquired from another sensor.
  • the two-dimensional image or the measured value may be a temperature image, a depth image, or the like.
  • the image acquisition unit 13 records the acquired two-dimensional image or measured value in a memory (not shown) or the like.
  • the image acquisition unit 13 may acquire the processing result in the middle of deep learning as a multi-channel two-dimensional image.
  • the image acquisition unit 13 may acquire vector data such as a velocity field and a density field calculated by numerical simulation or the like as a multi-channel two-dimensional image.
  • the two-dimensional image is not limited to the image acquired by a single camera.
  • the image acquisition unit 13 may acquire a plurality of modal images such as a visible image and a far infrared image as moving images. In that case, for example, the image acquisition unit 13 may align the positions of these images by using the method shown in Non-Patent Document 3 below. Further, the image acquisition unit 13 may synthesize one image from these images by using the method shown in Non-Patent Document 4 below.
  • Non-Patent Document 3 Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Accurate joint geometric camera calibration of visible and far-infrared cameras.” Electronic Imaging 2017.11 (2017): 7-13.
  • Non-Patent Document 4 Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Unified Image Fusion Framework With Learning-Based Application-Adaptive Importance Measure.” IEEE Transactions on Computational Imaging 5.1 (2016): 82-96.
  • the segmentation label generation unit 206 generates a segmentation label based on the image acquired by the image acquisition unit 13.
  • the segmentation label generation unit 206 generates a segmentation label by using, for example, semantic segmentation that divides an area for each type of object.
  • the method of semantic segmentation is disclosed in, for example, Non-Patent Document 5 below, and this can be incorporated.
  • Non-Patent Document 5 Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
  • the segmentation label correction unit 207 compares the object label determined by the label determination unit 205 with the segmentation label generated by the segmentation label generation unit 206, and if there is a difference between the two labels, labels the segmentation label. Correct the label by the determination unit 205.
  • segmentation label correction unit 207 when the segmentation label correction unit 207 is different from the label G j at the point j of the point cloud determined by the label determination unit 205 and the corresponding segmentation label generated by the segmentation label generation unit 206, The segmentation label is replaced with the label G j at the point j of the point cloud.
  • the segmentation label output unit 32 outputs the segmentation label corrected by the segmentation label correction unit 207.
  • the segmentation label output unit 32 may display the output result on a display, or may output the value to a recording device such as a memory.
  • the present invention can also be realized, for example, by causing the processor to execute a computer program for the processing shown in FIG.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-temporary computer-readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, Includes CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)).
  • the program may be supplied to the computer by various types of temporary computer-readable media (transitory computer readable medium).
  • temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • each part constituting the image processing apparatus according to each of the above-described embodiments is not only realized by a program, but a part or all thereof is realized by an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), or the like. It can also be realized by the dedicated hardware of.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • Image processing device 10 3D point cloud acquisition unit 11 Camera information acquisition unit 12 2D label acquisition unit 13 Image acquisition unit 20 Computer 31 Point cloud label output unit 32 Segmentation label output unit 100 Image processing device 201 3D point cloud division unit 202 Cluster mapping unit 203 Label collation unit 204 Collation result voting unit 205 Label determination unit 206 Segmentation label generation unit 207 Segmentation label correction unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置は、物体の三次元点群を、複数のクラスタリングパラメータを用いて、三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する三次元点群分割部と、三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、三次元点群のクラスタを二次元画像に写像し、写像点群を生成するクラスタ写像部と、二次元画像の対象となるラベルと二次元画像上の位置情報とに基づいて、クラスタ写像部にて写像された写像点群の各点に対してラベルを付与するラベル照合部と、ラベル照合部によって付与された写像点群の各点のラベルに対して投票する照合結果投票部と、照合結果投票部による投票結果に基づいて、写像点群の各点のラベルを決定するラベル決定部と、を備える。

Description

画像処理装置、画像処理方法、およびコンピュータ可読媒体
 本発明は、画像処理装置、画像処理方法、およびコンピュータ可読媒体に関し、例えば、点群データの教師データを効率よく生成することが可能な画像処理装置、画像処理方法、およびコンピュータ可読媒体に関する。
 現在、画像などを用いた認識技術には、統計的機械学習の手法が用いられている。このような統計的機械学習では、認識対象に関連した正解ラベルが付されたラベルデータを大量に用意し、これらのラベルデータを用いて学習および評価が行われている(例えば、非特許文献1及び非特許文献2参照)。
 特許文献1には、三次元点群データのデータ量が膨大な場合でも、三次元点群データから高速に物体形状を抽出できる形状抽出装置が開示されている。この形状抽出装置において、三次元点群データに対して、複数の点のすべてを包括する包括ボクセルが設定されている。複数の点のピッチよりも大きなサイズを有する複数の仮想ボクセルで包括ボクセルが分割されている。複数の仮想ボクセルのそれぞれに固有の識別番号が設定されている。識別番号が付与された仮想ボクセル内の点の有無に応じて、仮想ボクセルを単位としてラベリング処理が行われ、点を含む複数の仮想ボクセルのうち、連結する仮想ボクセルに同一のラベル値が付与されている。
特開2016-003886号公報
N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. "Indoor segmentation and support inference from RGBD images", In European Conference on Computer Vision (ECCV), 2012. Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Accurate joint geometric camera calibration of visible and far-infrared cameras." Electronic Imaging 2017.11 (2017): 7-13.
 上記の、連結する仮想ボクセルに同一のラベル値を付与する方法において、その仮想ボクセルがどのような物体に対応するのか不明である。また、この方法を用いて物体認識処理を行うためには、仮想ボクセルに付与されたラベル値がどのような物体に対応するかを手作業で確認する必要がある。したがって、この方法では、三次元点群データを用いた物体認識処理で使用されるラベルデータを容易に生成することは困難となり得る。
 本開示の目的は、上述した課題のいずれかを解決する画像処理装置、画像処理方法及びコンピュータ可読媒体を提供することである。
 上記目的を達成するための一態様は、
 物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する三次元点群分割部と、
 前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成するクラスタ写像部と、
 二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記クラスタ写像部にて写像された写像点群の各点に対してラベルを付与するラベル照合部と、
 前記ラベル照合部によって付与された写像点群の各点のラベルに対して投票する照合結果投票部と、
 前記照合結果投票部による投票結果に基づいて、前記写像点群の各点のラベルを決定するラベル決定部と、
を備える画像処理装置
 である。
 上記目的を達成するための一態様は、
 物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割するステップと
 前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成するステップと、
 二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記写像された写像点群の各点に対してラベルを付与するステップと、
 前記付与された写像点群の各点のラベルに対して投票するステップと、
 前記投票結果に基づいて、前記写像点群の各点のラベルを決定するステップと、
を含む画像処理方法
 であってもよい。
 上記目的を達成するための一態様は、
 物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する処理と
 前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成する処理と、
 二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記写像された写像点群の各点に対してラベルを付与する処理と、
 前記付与された写像点群の各点のラベルに対して投票する処理と、
 前記投票結果に基づいて、前記写像点群の各点のラベルを決定する処理と、
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体
 であってもよい。
 本開示によれば、上述した課題のいずれかを解決する画像処理装置、画像処理方法及びコンピュータ可読媒体を提供することができる。
本実施形態1に係る画像処理装置の概略的なシステム構成を示すブロック図である。 本実施形態1に係るコンピュータの概略的なシステム構成を示すブロック図である。 本実施形態1における三次元点群と複数のクラスタリングパラメータによるクラスタリングの結果を示す図である。 本実施形態1におけるクラスタ写像部とラベル照合部の動作を説明する図である。 本実施形態1に係る画像処理方法のフローを示すフローチャートである。 本実施形態1に係る画像処理装置及び画像処理方法の効果を説明するための図である 本実施形態2に係る画像処理装置の概略的なシステム構成を示すブロック図である。
[実施形態1]
 本発明を実施するための形態について、図面を参照して詳細に説明する。図1は、本実施形態1に係る画像処理装置の概略的なシステム構成を示すブロック図である。本実施形態に係る画像処理装置1は、図1に示すように、三次元点群取得部10と、カメラ情報取得部11と、二次元ラベル取得部12と、コンピュータ20と、点群ラベル出力部31と、を備えている。
 以下、各構成の概要について述べるが、その前に本明細書で使用する記号について列挙する。
 ・三次元点群の各点を区別するための添え字;j
 ・三次元点群の世界座標系における各点の座標:(Xj、Yj、Zj)
 ・カメラ座標系における各点の座標:(x、y
 ・物体ラベル:B
 ・各物体を区別するための添え字:k
 ・オブジェクトや属性を区別するためのラベル:q
 ・位置情報:D
 ・クラスタリングパラメータ:L
 ・クラスタリングパラメータを区別するための添え字:t
 ・世界座標系における分割された各クラスタを区別するための変数:P
 ・カメラ座標における分割された各クラスタを区別するための変数:C
 ・j番目の点群、t番目のクラスタリングパラメータに割り当てられた物体ラベル:Qjt
 ・各点jにおけるq番目の物体ラベルにおける投票数(信頼度):Sjq
 ・点群のj番目の点の物体ラベル:G
[三次元点群取得部]
 三次元点群取得部10は、三次元点群取得装置などにより物体の三次元点群の情報を取得する。三次元点群取得部10は、具体的に、LiDAR(Light Detection And Ranging、Laser Imaging Detection and Ranging)など距離を計測する装置を用いて、空間上の三次元点の座標を取得する。三次元点群取得部10は、空間上の三次元点の座標の集合を三次元点群として取得する。
 例えば、地形調査や自動運転等で広く利用されている3D-LiDARは、高密度かつ広範囲に三次元空間上の物体の計測点からの距離データを、三次元点群データとして集積可能である。三次元点群取得部10は、この3D-LiDARで取得された実環境の構造を反映するデータ、すなわち、人、自動車などの対象オブジェクト、及び、地面、建物、標識などの構造物から反射されて得られた三次元座標情報を持つ三次元点の集合を、三次元点群として取得する。
 以下、三次元点群の座標を(X,Y,Z)と表す。ここでjは、三次元点群中の各点を区別するための添え字である。三次元点群取得部10は、三次元点の座標の集合に加え、装置の情報、或いは三次元点を取得した際の時刻や緯度経度などの位置情報を同時に取得してもよい。さらに、三次元点群取得部10は、取得された画像或いは測定値をメモリ(図示せず)等に記録してもよい。
[カメラ情報取得部]
 カメラ情報取得部(情報取得部)11は、三次元点群の座標と二次元画像の画素の座標との対応関係を含むカメラ情報を取得する。より具体的には、カメラ情報取得部11は、三次元点群の座標の位置(すなわち世界座標における三次元座標)と、二次元画像のある画素の座標(すなわちカメラ座標から投影して得られる二次元座標)と、の間の変換に必要なパラメータ(以下、変換パラメータ)を含むカメラ情報を取得する。
 例えば、カメラ情報取得部11は、変換パラメータとして、三次元点群の座標と二次元画像の画素の座標とを関係付ける外部パラメータ、及び二次元画像を取得した際に使用したカメラの内部パラメータを取得する。或いは、カメラ情報取得部11は、内部パラメータと、外部パラメータの替わりに、三次元点群の座標を表す座標系(すなわち世界座標)と二次元画像を取得するために用いたカメラの座標系(すなわちカメラ座標)の間の回転と並進のパラメータと、を取得してもよい。
 カメラ情報取得部11は、取得したカメラ情報をメモリ(図示せず)等に記録してもよい。カメラ情報取得部11は、三次元点群の座標と二次元画像の画素の座標との対応関係を、別途カメラキャリブレーション技術等により算出することで取得してもよい。
 なお、本実施形態1に係る画像処理装置1は、カメラ情報取得部11を備えない構成であってもよい。この場合、上記カメラ情報は、クラスタ写像部202に予め設定されていてもよい。
[二次元ラベル取得部]
 二次元ラベル取得部12は、二次元画像の対象となる物体のラベルと、その二次元画像上の位置情報と、を取得する。物体のラベルは、例えば人、車,犬、自転車のようなオブジェクトの種類に関するラベルである。物体のラベルは、赤い服、青い鞄、年齢、性別などの属性情報に関するラベルであってもよい。上記二次元画像上の位置情報は、例えば、対象となっている物体の矩形の4点の座標やそれに類似する情報である。二次元画像上の位置情報は、物体の中心座標であってもよく、或いは物体上が存在する座標上の幾つかの点であってもよい。
 二次元ラベル取得部12は、上記ラベルとその二次元画像上の位置情報を機械学習などによる検出手法を用いて自動的に算出してもよい。二次元ラベル取得部12に、人手で、上記ラベルとその二次元画像上の位置情報が入力されてもよい。二次元ラベル取得部12に、人手による入力と機械学習を用いた検出手法を組み合わせて、上記ラベルとその二次元画像上の位置情報を取得してもよい。
 なお、本実施形態1に係る画像処理装置1は、二次元ラベル取得部12を備えない構成であってもよい。この場合、上記ラベルとその二次元画像上の位置情報は、ラベル照合部203に予め設定されていてもよい。
 二次元ラベル取得部12は、取得したラベルとその二次元画像上の位置情報をメモリ(図示せず)等に記録してもよい。以下では、三次元点群の各点に対応するカメラ座標を(x、y)と表す。ここで、jは点群中の各点を区別するための添え字である。
 また、上記物体のラベルをBと表し、ここでkは各物体を区別するための添え字である。ラベルBに割り当てられる値であり、オブジェクトの種類や属性などのラベルを以下ではqを用いて表す。
 例えば、q=1の場合は人、q=2の場合は車といったように、qの値とオブジェクトや属性を対応付けることで、ラベルBは、ラベルの内容を区別するものとする。k番目のラベルBはB=qなどといったように表現される。各ラベルBと共に取得されるその二次元画像上の位置情報をDとして表す。
 なお、以下位置情報Dは、物体を囲む矩形情報として位置情報が与えられていると仮定して説明するが、本発明における位置情報Dの包含する範囲はこれに限定されない。例えば、上述したように物体の中心座標を位置情報としてもよいし、或いは物体上に存在する座標上の幾つかの点を位置情報とし、これをDとして表してもよい。 
[コンピュータ]
 コンピュータ20は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサと、RAM(Random Access Memory)やROM(Read Only Memory)などの内部メモリと、HDD(Hard Disk Drive)やSDD(Solid State Drive)などのストレージデバイスと、ディスプレイなどの周辺機器を接続するための入出力I/Fと、装置外部の機器と通信を行う通信I/Fと、を備えた通常のコンピュータのハードウェア構成を有する。
 コンピュータ20は、例えば、プロセッサが内部メモリを利用しながら、ストレージデバイスや内部メモリなどに格納されたプログラムを実行することで、後述の各機能的な構成要素を実現することができる。
 図2は、本実施形態1に係るコンピュータの概略的なシステム構成を示すブロック図である。本実施形態1に係るコンピュータ20は、三次元点群分割部201と、クラスタ写像部202と、ラベル照合部203と、照合結果投票部204と、ラベル決定部205と、を有している。
[三次元点群分割部]
 三次元点群分割部201は、三次元点群取得部10により取得された三次元点群を、複数のクラスタリングパラメータを用いて、点間の距離が小さいほど同じクラスタにクラスタリングされるように分割する。
 この点間の距離は、例えば、ユークリッド距離である。クラスタリングパラメータは、例えば、異なるクラスタの点間の距離が最小距離L以上となるように三次元点群を分割するためのパラメータである。このように、最小距離Lに基づいたクラスタリングパラメータを用いて、三次元点群が分割された場合、あるクラスタに属する点は、別のクラスタに属する点と必ず最小距離L以上離れていることが保証される。
 図3は、本実施形態1における三次元点群と複数のクラスタリングパラメータによるクラスタリングの結果を示す図である。三次元点群分割部201は、図3に示すように、この最小距離Lを複数用意し(例えば、L=0.01、L=0.1、L=1など)、異なる距離毎に、三次元点群を分割する。
 以下、これらパラメータをクラスタリングパラメータLと称す。tはクラスタリングパラメータを区別するための添え字である。また、分割結果が得られた分割クラスタを、整数クラスタラベルとして三次元点群の各点に割り当てる。すなわち、三次元点群の各点jにはクラスタリングの結果、整数クラスタラベルが割り当てられる。以下、整数クラスタラベルをPとして表す。tはクラスタリングパラメータを区別するための添え字である。すなわち、三次元点群中の各点はt個の分割クラスタPのうちのいずれかが付与されることを意味する。以下Pを分割クラスタと称す。
 なお、三次元点群分割部201による分割方法は上記方法に限定されない。例えば、三次元点群分割部201は、三次元点群取得部10により取得された三次元点群の分割個数をパラメータとして、三次元点群を指定されたクラスタに分割してもよい。
[クラスタ写像部]
 クラスタ写像部202は、カメラ情報取得部11により取得されたカメラ情報と、三次元点群分割部201により分割されたクラスタリング結果と、に基づいて、三次元点群の分割クラスタPを、図4に示すように、二次元ラベルが定義されたカメラ座標へ写像する。上記カメラ情報は、例えば、内部パラメータ、外部パラメータなどの変換パラメータを含む。上記クラスタリング結果は、例えば、分割クラスタP及び三次元点群座標(X,Y,Z)を含む。
 クラスタ写像部202は、カメラ情報取得部11により取得された三次元点群の座標と二次元画像の座標との対応関係に基づいて、三次元点群のクラスタを二次元画像に写像し、写像点群を生成する。
 上記写像を行うためには、三次元点群座標から二次元画像平面への写像が定義されている必要がある。ここでは、二次元ラベルが定義された平面座標は、二次元ラベルを付与する元になった画像の座標系、すなわちカメラ座標を想定し、三次元点群座標から二次元画像平面への写像が与えられているものとする。
 クラスタ写像部202は、この写像を、カメラ情報取得部11により取得された内部パラメータや外部パラメータなどの変換パラメータに基づいて、算出する。以下、カメラ座標に写像投影後の分割クラスタをCで表し、写像投影前の分割クラスタPと区別して表す。
[ラベル照合部]
 ラベル照合部203は、図4に示すように、クラスタ写像部202により写像された写像点群の各点に対して、二次元ラベル取得部12により取得された位置情報Dと、物体のラベルBと、に基づいてラベルを付与する。
 例えば、ラベル照合部203は、クラスタ写像部202によって二次元画像平面へ投影された分割クラスタCと、二次元ラベル取得部102により取得された2次元ラベルと、を照合し、それぞれの2次元ラベルに適合する分割クラスタCを選別する。より具体的には、ラベル照合部203は、以下の式を用いて、カメラ座標に投影された分割クラスタC単位で、各点j∈Cに対応する位置情報Dを探索し、分割クラスタCにラベルBを対応付ける。
Figure JPOXMLDOC01-appb-M000001
 なお,Qjtは,三次元点群分割部201におけるt番目の分割パラメータLにおける、j番目の写像点群において付与された物体のラベルを表している。上記「~」は、カメラ座標系に写像後の分割クラスタCと位置情報Dが対応付けられていることを示している。
 ラベル照合部203は、分割クラスタC毎に対応するラベルBと位置情報Dを探索し、これらラベルBと位置情報Dを分割クラスタCに対応付ける。ここで、写像後の分割クラスタCと位置情報Dとが重なった状態であればあるほど、その分割クラスタCに属する各点に対し、位置情報Dに対応するラベルBを割り当てる。すなわち、ラベル照合部203は、分割クラスタCに属する点j∈C(画像平面における点群の写像)が位置情報Dの内部に含まれる割合に応じて、分割クラスタCと位置情報Dとを照合する。
 ラベル照合部203は、各分割クラスタCに対し、位置情報Dに含まれる写像点群の包含率を算出し、各分割クラスタCに対し、最も包含率の高い位置情報Dと同一のラベルを付与する。このとき、ラベル照合部203は、ある小クラスタについての最大の包含率が所定の閾値を超えない場合には、対応ラベルなし(Label=UnKnown)としてもよい。
 ラベル照合部203は、以下の式によって、包含率を計算する。
Figure JPOXMLDOC01-appb-M000002
 ただし、Cは分割クラスタを示し、Dは位置情報を示し、jは小クラスタの要素の点を示す。Num(・)は、要素の個数をカウントする関数である。上式において、分母は分割クラスタCに含まれる写像点群の数を、分子はカメラ座標に写像投影後の分割クラスタCが位置情報Dに含まれている数を表している。
 なお、ラベル照合部203による照合方法は、上記方法に限定されない。例えば、ラベル照合部203は、上式で包含率を計算するかわりに、面積重複率(IoU)を計算し、この値を用いて最も面積重複率の高い位置情報Dと同一のラベルBを付与してもよい。このとき、ラベル照合部203は、ある小クラスタについての最大の面積重複率が所定の閾値を超えない場合には、対応ラベルなし(Label=UnKnown)としてもよい。
[照合結果投票部]
 照合結果投票部204は、ラベル照合部203によってクラスタリングパラメータ毎に得られた写像点群の各点のラベルQjtを、投票により統合する。
 例えば、照合結果投票部204は、写像点群の各点のラベルQjtを用いて、ラベルQjtに対する信頼度Sjqを算出する。より具体的には、照合結果投票部204は、ラベルQjtに基づいて、下記式を用いて、ラベルQjtに対する信頼度Sjqを算出する。
Figure JPOXMLDOC01-appb-M000003
 ここで、qは物体ラベルの種類を表す値であり、δ(a,b)は、aとbが同じ値であれば1、違う値であれば0を返す関数である。信頼度Sjqは、点群の各点に対しq個のビンを持つ配列となっている。
 照合結果投票部204による信頼度Sjqの算出方法は、上記方法に限定されない。例えば、照合結果投票部204は、信頼度Sjqを算出する際に、該当する点群中の点jのラベルに対してだけでなく、点jの周囲の点群のラベルに対しても投票してもよい。
 より具体的には、照合結果投票部204は、以下の式を用いて信頼度Sjqを算出してもよい。ここで、O(j)は点群中の点jの周囲にある点の集合である。
Figure JPOXMLDOC01-appb-M000004
[ラベル決定部]
 ラベル決定部205は、照合結果投票部204による投票結果に基づいて、写像点群の各点のラベルを決定する。例えば、ラベル決定部205は、照合結果投票部204により算出された信頼度Sjqを用いて、点群の点j毎に、最大のqをとる値をその点jにおけるラベルであるとして決定する。より具体的には、ラベル決定部205は、以下の式を用いて算出される値Gを点群のj番目の点のラベルとする。
Figure JPOXMLDOC01-appb-M000005
 以下、ラベル決定部205によって決定されたラベルをGとして表すこととする。
 ラベル決定部205によるラベル決定方法は、上記方法に限定されない。例えば、ラベル決定部205は、照合結果投票部204による投票の信頼度Sjqの最大値が第1所定値よりも低い場合、人手により写像点群の各点にラベルを割り当てる方法に決定してもよい。すなわち、ラベル決定部205は、照合結果投票部204による投票結果に基づき、写像点群の各点のラベルを決定する際に、該当するラベルに対する信頼度Sjqの全てが第1所定値よりも低い場合、人手によりラベルを割当てる方法に決定してもよい。なお、上記第1所定値は、予めラベル決定部205に設定されていてもよい。
 ラベル決定部205は、上記人手によるラベルの割当て方法として、例えば、該当するラベルに対する信頼度Sjqの全てが第1所定値よりも低い場合、信頼度Sjqが第2所定値よりも高い複数のラベルをディスプレイなどに表示させ、人がその表示されたラベルを選択する方法に決定してもよい。なお、第2所定値は第1所定値よりも小さく(第1所定値>第2所定値)、予めラベル決定部205に設定されていてもよい。
[点群ラベル出力部]
 点群ラベル出力部31は、後述のラベル決定部205により決定された点群のj番目の点のラベルを出力する。なお、点群ラベル出力部31は、出力結果をディスプレイに表示してもよいし、メモリなどの記録装置にその値を出力してもよい。
 次に、本実施形態に係る画像処理方法について説明する。図5は、本実施形態1に係る画像処理方法のフローを示すフローチャートである。三次元点群取得部10は、三次元点群取得装置により三次元点群の情報を取得する(ステップS101)。
 カメラ情報取得部11は、三次元点群の座標と二次元画像の画素の座標との対応関係を取得する(ステップS102)。二次元ラベル取得部12は、二次元画像の対象となる物体のラベルと、その二次元画像上の位置情報と、を取得する(ステップS103)。
 三次元点群分割部201は、三次元点群取得部10により取得された三次元点群を、複数のクラスタリングパラメータを用いて、点間の距離が小さいほど同じクラスタにクラスタリングされるように分割する(ステップS104)。
 クラスタ写像部202は、カメラ情報取得部11により取得された三次元点群の座標と二次元画像の座標との対応関係に基づいて、三次元点群のクラスタを二次元画像に写像し、写像点群を生成する(ステップS105)。
 ラベル照合部203は、クラスタ写像部202により写像された写像点群の各点に対して、二次元ラベル取得部12により取得された位置情報と物体のラベルとに基づいて、ラベルを付与する(ステップS106)。
 照合結果投票部204は、ラベル照合部203によってクラスタリングパラメータ毎に得られたラベル付された写像点群の各点のラベルを投票により統合する(ステップS107)。
 ラベル決定部205は、照合結果投票部204による投票結果に基づいて、写像点群の各点のラベルを決定する(ステップS108)。点群ラベル出力部31は、ラベル決定部205により決定されたラベルを出力する(ステップS109)。
 次に、本実施形態1に係る画像処理装置及び画像処理方法による効果を、図6を用いて詳細に説明する。例えば、図6における車の位置座標に対応する三次元点群を一つの分割として扱いたいが、三次元点群の形状が複雑な場合は、これらを一つのクラスタとして分割することは難しい。
 そこで、本実施形態1において、複数のクラスタリングパラメータを用い、異なるスケールで分割結果を出力し、これらの分割クラスタごとにラベルを付与する。最後に、これらの結果を統合することで、投票数が多い、すなわちより多くのクラスタリングパラメータで同一のラベルが出力されたラベルを正解ラベルとする。これにより、例えば、三次元点群の形状が複雑である場合でも、より頑健なラベルを容易に生成し、三次元点群の各点に与えることができる。
 以上、本実施形態に係る画像処理装置1は、図2に示すように、物体の三次元点群を、複数のクラスタリングパラメータにて、三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する三次元点群分割部201と、三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、三次元点群のクラスタを二次元画像に写像し、写像点群を生成するクラスタ写像部202と、二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、クラスタ写像部202にて写像された写像点群の各点に対してラベルを付与するラベル照合部203と、ラベル照合部203によって付与された写像点群の各点のラベルに対して投票する照合結果投票部204と、照合結果投票部204による投票結果に基づいて、写像点群の各点のラベルを決定するラベル決定部205と、を備えている。
 本実施形態に係る画像処理装置1によれば、複数のクラスタリングパラメータで三次元点群を分割し、クラスタリングパラメータ毎に、ラベルを三次元点群の各点に付与し、各点のラベルに対して投票している。これにより、三次元点群データを用いた物体認識処理で使用されるラベルデータを容易に生成することができる。
[実施形態2]
 図7は、本実施形態2に係る画像処理装置の概略的なシステム構成を示すブロック図である。本実施形態2に係る画像処理装置100は、図7に示すように、上記実施形態1に係る構成に加えて、画像取得部13と、セグメンテーションラベル出力部32と、を更に備えている。また、本実施形態2に係るコンピュータは、上記実施形態1に係る構成に加えて、セグメンテーションラベル生成部206と、セグメンテーションラベル修正部207と、を更に有している。
[画像取得部]
 画像取得部13は、三次元点群取得部10により三次元点群が取得されたシーンと同一時刻同一場所の画像を取得する。例えば、画像取得部101は、カメラや測定用のセンサなどにより、一枚以上の二次元画像や測定値を取得する。二次元画像或いは測定値は、可視画像に限定されず、例えば、その他のセンサから取得された画像であってもよい。二次元画像或いは測定値は、温度画像や深度画像などであってもよい。画像取得部13は、取得した二次元画像或いは測定値を、メモリ(図示せず)等に記録する。
 画像取得部13は、深層学習の途中の処理結果を多チャンネルの二次元画像として取得してもよい。或いは、画像取得部13は、数値シミュレーションなどにより算出した速度場、密度場などのベクトルデータを多チャンネルの二次元画像として取得してもよい。
 さらに、二次元画像は、単一のカメラにより取得された画像に限定されない。例えば、画像取得部13は、可視画像や遠赤外画像などの、複数のモーダルの画像を動画像として取得してもよい。その場合、例えば、画像取得部13は、下記非特許文献3に示す方法を用いて、これらの画像の位置を合わせてもよい。また、画像取得部13は、下記非特許文献4に示す方法を用いて、これらの画像から一枚の画像を合成してもよい。
(非特許文献3)
 Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Accurate joint geometric camera calibration of visible and far-infrared cameras."  Electronic Imaging 2017.11 (2017): 7-13.
(非特許文献4)
 Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Unified Image Fusion Framework With Learning-Based Application-Adaptive Importance Measure." IEEE Transactions on Computational Imaging 5.1 (2018): 82-96.
[セグメンテーションラベル生成部]
 セグメンテーションラベル生成部206は、画像取得部13により取得された画像に基づいて、セグメンテーションラベルを生成する。セグメンテーションラベル生成部206は、例えば、物体の種類ごとに領域分割するセマンティックセグメンテーションなどを用いて、セグメンテーションラベルを生成する。セマンティックセグメンテーションの方法は、例えば、下記非特許文献5に開示されており、これを援用できるものとする。
(非特許文献5)
 Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
[セグメンテーションラベル修正部]
 セグメンテーションラベル修正部207は、ラベル決定部205により決定された物体ラベルと、セグメンテーションラベル生成部206により生成されたセグメンテーションラベルと、を比較し、両者のラベルに相違がある場合、そのセグメンテーションラベルをラベル決定部205によるラベルに修正する。
 より具体的には、セグメンテーションラベル修正部207は、ラベル決定部205により決定された点群の点jにおけるラベルGと、セグメンテーションラベル生成部206により生成された対応するセグメンテーションラベルとが異なる場合、そのセグメンテーションラベルを、点群の点jにおけるラベルGに置き換える。
[セグメンテーションラベル出力部]
 セグメンテーションラベル出力部32は、セグメンテーションラベル修正部207により修正されたセグメンテーションラベルを出力する。セグメンテーションラベル出力部32は、出力結果をディスプレイに表示してもよいし、メモリなどの記録装置にその値を出力してもよい。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
 本発明は、例えば、図5に示す処理を、プロセッサにコンピュータプログラムを実行させることにより実現することも可能である。
 プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
 プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 なお、上述した各実施形態に係る画像処理装置を構成する各部は、プログラムにより実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
1 画像処理装置
10 三次元点群取得部
11 カメラ情報取得部
12 二次元ラベル取得部
13 画像取得部
20 コンピュータ
31 点群ラベル出力部
32 セグメンテーションラベル出力部
100 画像処理装置
201 三次元点群分割部
202 クラスタ写像部
203 ラベル照合部
204 照合結果投票部
205 ラベル決定部
206 セグメンテーションラベル生成部
207 セグメンテーションラベル修正部

Claims (8)

  1.  物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する三次元点群分割部と、
     前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成するクラスタ写像部と、
     二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記クラスタ写像部にて写像された写像点群の各点に対してラベルを付与するラベル照合部と、
     前記ラベル照合部によって付与された写像点群の各点のラベルに対して投票する照合結果投票部と、
     前記照合結果投票部による投票結果に基づいて、前記写像点群の各点のラベルを決定するラベル決定部と、
     を備える画像処理装置。
  2.  請求項1記載の画像処理装置であって、
     前記物体の三次元点群を取得する三次元点群取得部と、
     前記三次元点群の座標と二次元画像の画素の座標との対応関係を取得する情報取得部と、
     前記二次元画像の対象となるラベルと、該二次元画像上の位置情報と、を取得する二次元ラベル取得部と、
     前記ラベル決定部により決定された写像点群の各点のラベルを出力する点群ラベル出力部と、
     を更に備える画像処理装置。
  3.  請求項1又は2記載の画像処理装置であって、
     前記三次元点群が取得されたシーンと同一時刻同一場所の画像を取得することを特徴とする画像取得部と、
     前記画像取得部により取得された画像から、セマンティックセグメンテーションを用いて、セグメンテーションラベルを生成するセグメンテーションラベル生成部と、
     前記ラベル決定部により決定されたラベルと、前記セグメンテーションラベル生成部により生成されたセグメンテーションラベルと、を比較し、前記ラベル決定部によるラベルと、前記セグメンテーションラベル生成部によるセグメンテーションラベルと、が相違している場合、前記セグメンテーションラベル生成部によるセグメンテーションラベルを前記ラベル決定部によるラベルに修正するセグメンテーションラベル修正部と、
     前記セグメンテーションラベル修正部により修正されたラベルを出力するセグメンテーションラベル出力部と、
     更に備える画像処理装置。
  4.  請求項1乃至3のうちいずれか1項記載の画像処理装置であって、
     前記ラベル決定部は、前記照合結果投票部による投票結果に基づいて前記写像点群の各点のラベルを決定する際に、前記ラベルに対する信頼度の全てが第1所定値より低い場合、人手により前記写像点群の各点にラベルを割り当てる方法に決定する、
     画像処理装置。
  5.  請求項4項記載の画像処理装置であって、
     前記ラベル決定部は、前記人手によるラベルの割当て方法として、前記ラベルに対する信頼度の全てが第1所定値より低い場合、前記信頼度が前記第1所定値よりも低い第2所定値よりも高い複数のラベルを表示し、人が該表示されたラベルを選択する方法に決定する、
     画像処理装置。
  6.  請求項1乃至5のうちのいずれか1項記載の画像処理装置であって、
     前記照合結果投票部は、前記ラベル照合部によって付与された写像点群の各点のラベルおよび、該各点の周囲の点群のラベルに対しても投票を行う、
     画像処理装置。
  7.  物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割するステップと
     前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成するステップと、
     二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記写像された写像点群の各点に対してラベルを付与するステップと、
     前記付与された写像点群の各点のラベルに対して投票するステップと、
     前記投票結果に基づいて、前記写像点群の各点のラベルを決定するステップと、
    を含む画像処理方法。
  8.  物体の三次元点群を、複数のクラスタリングパラメータを用いて、前記三次元点群の点間の距離が小さいほど同じクラスタにクラスタリングされるように、分割する処理と
     前記三次元点群の座標と二次元画像の画素の座標との対応関係に基づいて、前記三次元点群のクラスタを二次元画像に写像し、写像点群を生成する処理と、
     二次元画像の対象となるラベルと該二次元画像上の位置情報とに基づいて、前記写像された写像点群の各点に対してラベルを付与する処理と、
     前記付与された写像点群の各点のラベルに対して投票する処理と、
     前記投票結果に基づいて、前記写像点群の各点のラベルを決定する処理と、
    をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2020/011021 2020-03-13 2020-03-13 画像処理装置、画像処理方法、およびコンピュータ可読媒体 WO2021181647A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/801,559 US20230162371A1 (en) 2020-03-13 2020-03-13 Image processing apparatus, image processing method, and computer-readable medium
PCT/JP2020/011021 WO2021181647A1 (ja) 2020-03-13 2020-03-13 画像処理装置、画像処理方法、およびコンピュータ可読媒体
JP2022505680A JP7279848B2 (ja) 2020-03-13 2020-03-13 画像処理装置、画像処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/011021 WO2021181647A1 (ja) 2020-03-13 2020-03-13 画像処理装置、画像処理方法、およびコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2021181647A1 true WO2021181647A1 (ja) 2021-09-16

Family

ID=77671063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/011021 WO2021181647A1 (ja) 2020-03-13 2020-03-13 画像処理装置、画像処理方法、およびコンピュータ可読媒体

Country Status (3)

Country Link
US (1) US20230162371A1 (ja)
JP (1) JP7279848B2 (ja)
WO (1) WO2021181647A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004899A (zh) * 2021-11-12 2022-02-01 广东嘉腾机器人自动化有限公司 一种栈板位姿识别方法、存储介质及设备
WO2023188179A1 (ja) * 2022-03-30 2023-10-05 日本電信電話株式会社 三次元点群セグメンテーション装置、三次元点群セグメンテーション方法、及び三次元点群セグメンテーションプログラム
WO2023218855A1 (ja) * 2022-05-12 2023-11-16 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法及び情報生成方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114442101B (zh) * 2022-01-28 2023-11-14 南京慧尔视智能科技有限公司 基于成像毫米波雷达的车辆导航方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123234A (ja) * 2002-07-30 2009-06-04 Fujifilm Corp オブジェクト識別方法および装置ならびにプログラム
JP2014186567A (ja) * 2013-03-25 2014-10-02 Geo Technical Laboratory Co Ltd 3次元点群解析方法
US20190286915A1 (en) * 2018-03-13 2019-09-19 Honda Motor Co., Ltd. Robust simultaneous localization and mapping via removal of dynamic traffic participants

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6919882B2 (ja) * 2017-03-31 2021-08-18 株式会社国際電気通信基礎技術研究所 人推定システムおよび推定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123234A (ja) * 2002-07-30 2009-06-04 Fujifilm Corp オブジェクト識別方法および装置ならびにプログラム
JP2014186567A (ja) * 2013-03-25 2014-10-02 Geo Technical Laboratory Co Ltd 3次元点群解析方法
US20190286915A1 (en) * 2018-03-13 2019-09-19 Honda Motor Co., Ltd. Robust simultaneous localization and mapping via removal of dynamic traffic participants

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004899A (zh) * 2021-11-12 2022-02-01 广东嘉腾机器人自动化有限公司 一种栈板位姿识别方法、存储介质及设备
CN114004899B (zh) * 2021-11-12 2024-05-14 广东嘉腾机器人自动化有限公司 一种栈板位姿识别方法、存储介质及设备
WO2023188179A1 (ja) * 2022-03-30 2023-10-05 日本電信電話株式会社 三次元点群セグメンテーション装置、三次元点群セグメンテーション方法、及び三次元点群セグメンテーションプログラム
WO2023218855A1 (ja) * 2022-05-12 2023-11-16 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法及び情報生成方法

Also Published As

Publication number Publication date
JP7279848B2 (ja) 2023-05-23
JPWO2021181647A1 (ja) 2021-09-16
US20230162371A1 (en) 2023-05-25

Similar Documents

Publication Publication Date Title
WO2021181647A1 (ja) 画像処理装置、画像処理方法、およびコンピュータ可読媒体
CN110415342B (zh) 一种基于多融合传感器的三维点云重建装置与方法
CN109655019B (zh) 一种基于深度学习和三维重建的货物体积测量方法
US11313677B2 (en) Automated surveying of real world objects
CN110226186B (zh) 表示地图元素的方法和装置以及定位的方法和装置
JP7205613B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN108419446A (zh) 用于激光深度图取样的系统及方法
CN108648194B (zh) 基于cad模型三维目标识别分割和位姿测量方法及装置
CN106560835B (zh) 一种路牌识别方法及装置
CN112346073A (zh) 一种动态视觉传感器与激光雷达数据融合方法
Dai et al. Building segmentation and outline extraction from UAV image-derived point clouds by a line growing algorithm
WO2021114776A1 (en) Object detection method, object detection device, terminal device, and medium
CN110544268B (zh) 一种基于结构光及SiamMask网络的多目标跟踪方法
JP7389729B2 (ja) 障害物検知装置、障害物検知システム及び障害物検知方法
CN114761997A (zh) 目标检测方法、终端设备和介质
CN114766042A (zh) 目标检测方法、装置、终端设备及介质
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
Cui et al. Dense depth-map estimation based on fusion of event camera and sparse LiDAR
CN117036300A (zh) 基于点云-rgb异源图像多级配准映射的路面裂缝识别方法
Nagy et al. 3D CNN based phantom object removing from mobile laser scanning data
US10753736B2 (en) Three-dimensional computer vision based on projected pattern of laser dots and geometric pattern matching
CN114639115A (zh) 一种人体关键点与激光雷达融合的3d行人检测方法
Gählert et al. Single-shot 3d detection of vehicles from monocular rgb images via geometry constrained keypoints in real-time
EP4250245A1 (en) System and method for determining a viewpoint of a traffic camera
US11747141B2 (en) System and method for providing improved geocoded reference data to a 3D map representation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20924483

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022505680

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20924483

Country of ref document: EP

Kind code of ref document: A1