WO2023280745A1 - Procede d'etiquetage d'une image 3d sur base de projection épipolaire - Google Patents

Procede d'etiquetage d'une image 3d sur base de projection épipolaire Download PDF

Info

Publication number
WO2023280745A1
WO2023280745A1 PCT/EP2022/068379 EP2022068379W WO2023280745A1 WO 2023280745 A1 WO2023280745 A1 WO 2023280745A1 EP 2022068379 W EP2022068379 W EP 2022068379W WO 2023280745 A1 WO2023280745 A1 WO 2023280745A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
point
depth
coordinates
interest
Prior art date
Application number
PCT/EP2022/068379
Other languages
English (en)
Inventor
Lucien Garcia
Thomas Meneyrol
Spencer DANNE
Original Assignee
Continental Automotive Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Gmbh filed Critical Continental Automotive Gmbh
Priority to CN202280048444.5A priority Critical patent/CN117677985A/zh
Publication of WO2023280745A1 publication Critical patent/WO2023280745A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present disclosure relates to the field of labeling areas of interest in 3D images obtained using 3D LIDAR or RADAR sensors or time-of-flight cameras.
  • 3D images include, for each pixel of the image, information relating to a distance between the measurement point and the sensor which is not easy to interpret by the human eye, more accustomed to interpreting images. captured by cameras.
  • the colors of the pixels of the 3D images correspond to distances whereas, in the 2D images, the color of the pixels corresponds to the real colors of the objects present in the scene.
  • the measurement points obtained with 3D sensors are generally further apart than with a standard camera.
  • the labeling of areas of interest in a 3D image is more complex and less reliable than with a 2D image. There is therefore a need to find a way to more reliably label areas of interest in 3D images.
  • the present application improves the situation by proposing a means making it possible to reliably identify areas of interest within 3D images, in particular with better precision.
  • step determining the depth of the reference point in a reference associated with the camera comprising:
  • - a step of calculating the coordinates, in the 3D image, of the pixels delimiting the zone of interest from the coordinates of the pixels delimiting the zone of interest in the 2D image, of the depth attributed to the pixels delimiting the zone of interest and data relating to the relative position and orientation of the camera with respect to the 3D sensor.
  • a computer program comprising instructions for the implementation of all or part of a method as defined herein when this program is executed by a computer.
  • a non-transitory, computer-readable recording medium on which such a program is recorded.
  • the determination of the two-dimensional coordinates of the plurality of first points in the 3D image comprises:
  • the determination of the two-dimensional coordinates, in the 3D image, of at least a first point located between the first closest point and the first most distant point comprises the determination of two-dimensional coordinates of at least one point located, in the 3D image, on a segment connecting the first most distant point and the first closest point.
  • determining the coordinates in two dimensions, in the 3D image, of at least a first point located between the first closest point and the first most distant point comprises:
  • the determination of the two-dimensional coordinates of the plurality of first points in the 3D image comprises:
  • the set of pixels delimiting the area of interest on the 2D image comprises four pixels delimiting a rectangle.
  • the zone of interest, in the 2D image has a predetermined geometric shape and the method further comprises a step of defining a zone of interest in the 3D image presenting the same geometric shape as the area of interest in the 2D image.
  • the labeling method described above can be applied in particular when setting up a learning database or validating algorithms for the automatic detection of areas of interest in 3D images. .
  • operators can identify a relevant area of an image
  • 2D taken by a camera for example an area corresponding to a pedestrian or a vehicle, using a rectangle for example and create reference images.
  • the method described above can then be used to determine a zone of the corresponding reference image in data acquired by 3D sensors, i.e. capable of determining a distance between the sensor and the point considered. It is thus possible to constitute a learning base for learning algorithms intended to identify objects, such as pedestrians or vehicles, for example.
  • the method described above can be implemented to compare the zones detected by the algorithm with the zones corresponding to the objects identified by the operators using the images taken by the cameras. This comparison makes it possible to evaluate the performance of the detection algorithm.
  • FIG. 1 schematically illustrates a 3D image and a 2D image of the same scene acquired respectively by a 3D sensor and a camera at the same time.
  • FIG. 2 [0018] [Fig. 2] illustrates a method of labeling a 3D image according to one embodiment.
  • FIG. 3 schematically illustrates the system used for acquiring 2D and 3D images and various markers and annotations.
  • Fig. 4 schematically illustrates the system used for acquiring 2D and 3D images and various markers and annotations.
  • FIG. 4 illustrates some of the points used by the labeling method according to one embodiment of the invention.
  • FIG. 5 illustrates the Bresenham algorithm used in the method according to a variant embodiment.
  • Figure 1 illustrates, by way of example, two images I1 and I2 of the same scene acquired respectively by a 2D camera and a 3D sensor at the same time.
  • the frame (u1, v1) linked to image 11 and the frame (u2, v2) linked to image I2 are also represented.
  • These reference marks are used to determine the coordinates in two dimensions of a point of image 11 and of a point of image I2.
  • image I1 as being the 2D image and to image I2 as being the 3D image.
  • 2D images are acquired by so-called standard cameras while 3D images are acquired using LIDAR, RADAR technologies or even using cameras configured to measure time of flight (“time of flight cameras”). ).
  • each point of image I2 here in gray level, are representative of a distance between a point of measurement of coordinates (u2, v2) and the plane of the image. In the rest of the application, this distance is called depth because it is a distance along an axis z2 perpendicular to the axes u2 and v2.
  • the z2 axis is also represented in figure 3 which represents the frame associated with the 3D sensor.
  • the image 11 comprises a zone of interest Z1 materialized for example by a rectangle as shown here.
  • the zone of interest Z1 surrounds an object or a person, here a vehicle.
  • other types of objects may be considered, such as road signs for example.
  • the object of the present invention is to obtain, from information concerning the position of the zone of interest Z1 and of a reference point PR in the 2D image, the position of the corresponding zone Z2 in picture I2.
  • the reference point PR is a point belonging to the zone of interest Z1, here a point of the vehicle which will be considered later as lying in the same plane as the zone Z1 delimiting the obstacle.
  • the depth data included in the 3D image is also used, as explained in more detail with reference to FIG. 2.
  • the zone of interest Z1 and the reference point PR are defined by an operator who frames the zone of interest Z1 with a rectangle and points to the reference point PR with a human interface. appropriate machine, for example using a mouse.
  • the zones of interest can be materialized by other geometric shapes such as triangles or circles.
  • the zone of interest Z1 and the reference point PR are defined according to an automatic process.
  • the labeling method of Figure 2 is implemented by a processor, for example in a computer, and comprises a step S100 of receiving data, a step S200 of determining the depth pr of the reference point PR in a frame associated with the camera, a step S300 for assigning to the pixels delimiting the zone of interest Z1 on the image 11 a depth corresponding to the depth pr assigned to the reference point PR and a step S400 for calculating the coordinates, in image I2, of the pixels delimiting the zone of interest Z2 from the coordinates of the pixels delimiting the zone of interest Z1 in image 11 and the depth pr attributed to the pixels delimiting the zone of interest Z1 .
  • the step S100 comprises the reception of an image I1 acquired by a camera corresponding to the same scene as the image I2 acquired by a 3D sensor such as a LIDAR, a RADAR or a camera making it possible to measure times of flight .
  • Step S100 also includes receiving an image I2 acquired by the 3D sensor C3D. It will be noted that the images I1 and I2 are acquired substantially at the same instant by the camera and the 3D sensor as explained later, then transmitted to the processor implementing the method. In the example described here, the images are transmitted to a processor included in a computer.
  • Step S100 also includes receiving the coordinates of a set of pixels delimiting the zone of interest Z1. In the example described here, the zone of interest Z1 is delimited by a rectangle and the processor receives the coordinates of the four pixels PZ1 located on the corners of the rectangle.
  • Step S100 also includes receiving the coordinates (uPR, vPR) of the reference point PR in the frame associated with image 11.
  • Step S100 also includes receiving data relating to the position and orientation of the camera with respect to the 3D sensor.
  • FIG. 3 illustrates a system 1 used for the acquisition of the scene located outside a vehicle seen from above.
  • the system 1 comprises a CAM camera and a 3D C3D sensor of the LIDAR or RADAR type placed on or inside the vehicle (not represented).
  • the 3D sensor can also be a camera configured to measure times of flight which is distinguished from a standard camera which only makes it possible to acquire 2D images. Image acquisition is preferably controlled so that 2D and 3D images are taken at the same time.
  • the CAM camera and the C3D 3D sensor are then synchronized and have the same acquisition frequency.
  • a marker R1 associated with the camera CAM and a marker R2 associated with the 3D sensor C3D are also represented in FIG. 3.
  • the marker R1 associated with the camera has its origin
  • the reference R1 also comprises an axis z1 perpendicular to the axes x1, y1 and oriented along the optical axis of the camera.
  • the frame R2 associated with the 3D sensor C3D has an origin 02 and two axes x2, y2 having the same orientation as the axes u2 and v2 of the frame linked to the image I2.
  • the z2 axis is perpendicular to the x2, y2 axes. It will be noted that, in the present application, the depth refers to the distance between a point and the center of the associated frame along one of the axes z1 or z2 depending on the frame considered.
  • the camera C and the 3D sensor are spaced apart by a distance dO, of the order of 10 cm for example, between the center 01 of the marker R1 and the center 02 of the marker R2.
  • the markers R1 and R2 are represented with the same orientation and are spaced apart by the distance d0.
  • the R1 and R2 frames do not have exactly the same orientation, so that we use a TR12 frame transformation to go from the coordinates of a point in the R1 frame to the coordinates of the corresponding point in the R2 frame and a reference transformation TR21 to pass from the coordinates of a point in the reference R2 to the coordinates of the corresponding point in the reference R1.
  • the transformations TR12 and TR21 are rigid transformations comprising a translation and a rotation of one frame with respect to the other.
  • the data relating to the position and the orientation of the camera with respect to the 3D sensor are data making it possible to establish the frame transformations between the frame R1 and the frame R2. It can be, for example, three angles and three distances, the three angles defining the orientation of an axis of the reference R1 with respect to the corresponding axis of the reference R2 and the three distances defining the relative position of the center of the reference R1 with respect to the center of the reference R2. These three angles and these three distances can be obtained during a preliminary calibration step.
  • it may be the extrinsic parameters of the 3D C3D sensor and of the CAM camera. These are obtained during a calibration step known to those skilled in the art and not explained here. It is thus possible, using the extrinsic parameters of the camera and of the 3D sensor, to determine the change of frame transformation between the frames associated with these two sensors. For example, when working with homogeneous coordinates, it suffices to multiply two 4 ⁇ 4 matrices of change of frame comprising the rotation and the translation with respect to a reference frame common to the camera and to the 3D sensor.
  • Step S100 also includes receiving the intrinsic parameters of the camera and of the 3D sensor. These parameters are also obtained during the calibration step and make it possible, from the coordinates (u1,v1) and (u2,v2) of the pixels in the images 11, I2, to obtain the coordinates in two dimensions (x1, y1) and (x2, y2) corresponding in the frames R1 and R2, respectively. They can for example be stored in a memory of the camera and of the 3D sensor or in metadata associated with the files comprising the 2D and 3D images.
  • the intrinsic parameters of the camera include the focal length of the optics, the coordinates of the optical center, an angle of inclination of the pixels, and the intrinsic parameters of the 3D sensor include the vertical and horizontal angular resolution.
  • These intrinsic parameters can be stored in the form of a matrix so as to facilitate the change of frame between the frame linked to the image and the frame linked to the camera or to the sensor.
  • the third coordinate z2 in the frame R2 is already contained in the 3D image I2 and corresponds to the value of the coordinate pixel (u2, v2).
  • the reference point PR can be anywhere on a straight line connecting the points PA and PB.
  • the reference point is between points PA and PB.
  • the point PA corresponds to the position of the reference point PR when the latter is at a maximum distance dmax corresponding to a maximum depth.
  • the point PB corresponds to the position of the reference point PR when the latter is at a minimum distance dmin corresponding to a minimum depth.
  • dmin and dmax according to the depth range that the 3D sensor is capable of measuring, so that dmin and dmax correspond to the minimum depth and to the maximum depth that the 3D sensor is capable of measuring.
  • P1,1...P1,n in FIG. 3, if it is considered that the reference point PR can be found on the line segment between the points PA and PB, this can be found at different points P1,1.. P1,n on the 3D image I2. We will therefore ensure that the resolution of the 3D sensor used is sufficiently high.
  • Step S200 makes it possible to determine the depth pr of the reference point PR in the reference mark R1 by using the depth data measured for the 3D sensor for each of the points P1,1...P1,n. Then, this depth pr is assigned to each of the pixels delimiting the zone of interest Z1, which makes it possible, during step S400, to determine the corresponding coordinates for all of these pixels in the 3D image.
  • step S200 includes a sub-step of determining the coordinates in two dimensions in the 3D image of the points P1,1...P1,n, each of the points P1,1...P1,n corresponding to a possible position of the reference point PR in the 3D image according to the depth associated with it which can be between dmin and dmax as described here.
  • the two-dimensional coordinate determination sub-step in the 3D image of the points P1,1...P1,n can be implemented in different ways.
  • the coordinates are determined in two dimensions in the 3D image of the points PA and PB.
  • the point PA corresponds to the reference point PR to which the depth dmax has been assigned and that the point PB corresponds to the reference point PR to which the depth dmin has been assigned.
  • the point PA which corresponds to the reference point when it is furthest away, is represented in the 3D image by the point P1,1.
  • Point PB which corresponds to the reference point when it is closest, is represented in the 3D image by point P1,n.
  • the coordinates corresponding to the reference point PR of coordinates (uR, vR) in the reference R1 associated with the camera are used to determine the corresponding coordinates in two dimensions along the axes x1, y1. Additional intrinsic parameters can optionally and optionally be taken into account to cancel the distortion-related effects induced by camera optics.
  • the third depth coordinate along the axis z1 corresponds to the depth dmax or to the depth dmin depending on the point PA or PB considered.
  • the two-dimensional coordinates are then determined, in the 3D image, of at least one point P1,i located on a segment connecting P1,1 to P1,n. It is possible to do this using the Bresenham algorithm which makes it possible to determine the coordinates of points lying on a line segment as illustrated in FIG. 5. This algorithm is more particularly described in the article “Algorithm for Computer Control of a Digital Plotter”, Jack E. Bresenham, IBM Systems Journal, 4(1):25-30, 1965.
  • a second variant instead of using the Bresenham algorithm to determine the coordinates of at least one point P1,i on a line segment between P1,1 and P1,n, at least at least one reference point comprised between PA and PB an intermediate depth comprised between the minimum depth dmin and the maximum depth dmax then its corresponding coordinates are determined in the 3D image as described above.
  • the point PA for example which corresponds to the reference point to which a maximum depth has been assigned its corresponding coordinates in the 3D image. In this case, it is the coordinates in the 3D image of the point P1,1 which are determined as described previously.
  • the maximum DM disparity is calculated as follows:
  • rh is the horizontal resolution of the 3D sensor
  • dO the distance between the centers 01, 02 of the markers R1 and R2 in the direction of the x2 axis of the marker R2
  • dmin the minimum depth considered for the reference point .
  • the maximum disparity corresponds to a maximum number of pixels on the 3D image separating an end point of the set of points P1,i, here the point P1,1, to another point end of the set of points P1,i, here the point P1,n.
  • the maximum disparity makes it possible, from the coordinates of an end point, here the point P1,1, to calculate the coordinates of the other end point P1,n. This reduces the calculation time of the coordinates of the points P1,1 and P1,n.
  • the coordinates of the points P1,i located on a segment connecting the point P1,1 to the point P1,n are determined as previously described with the Bresenham algorithm.
  • Step S200 also includes a sub-step for obtaining, for each point
  • P1,i (1 £ i £ n) of the associated depth pi contained in the 3D image. This is the depth pi read at point P1,i with coordinates (u2i, v2i) in the 3D image I2.
  • the step S200 then comprises a sub-step of calculating the coordinates of each point P2,i in the image 11 corresponding to a point P1,i of the image 11. To do this, it is determined all of first, for each point P1,i (1 £ i £ n) of the 3D image, its corresponding coordinates in the frame R2 associated with the 3D sensor. For this, the intrinsic parameters of the 3D sensor and the third depth coordinate along the axis z2 are used to determine the corresponding coordinates in two dimensions along the axes x2, y2. The third depth coordinate along the z2 axis corresponds to the depth value pi contained in the 3D image for the corresponding point.
  • the reference transformation TR21 corresponds to the inverse of the reference transformation TR12 used previously.
  • the intrinsic parameters of the camera are used to obtain the coordinates of the corresponding point P2, i in the 2D image 11 along the axes u1, v1. It will be noted that the intrinsic parameters make it possible to make a projection in the reference frame linked to the image 11 of axes u1, v1. As mentioned previously, it is also possible to take into account the distortion induced by the optics of the camera by taking into account additional intrinsic parameters representative of the distortion.
  • Step S200 further comprises a step of selecting, in the 2D image, the point P2,i closest to the reference point PR of coordinates (uR, vR). To do this, we can determine using the coordinates of the point P2,i (u1i, v1i) in the 2D image and the coordinates of the point PR (uR, vR) the distance between these two points, on the basis of following formula for example:
  • the point P2,i with coordinates (u1i, v1i) is then selected for which the distance with the reference point PR with coordinates (uR, vR) is the smallest.
  • step S300 of assigning to the pixels PZ1 delimiting the zone of interest Z1 on the 2D image 11 of a depth corresponding to the depth pi assigned to the reference point PR is implemented then the step S400 is implemented.
  • step S400 the coordinates of the pixels PZ2 in the 3D image corresponding to the pixels PZ1 delimiting the zone of interest in the 2D image are determined. It is recalled that the pixels PZ1 in the example described here are 4 pixels located in the corners of the rectangle delimiting the zone of interest Z1 as illustrated in figure 4.
  • the intrinsic parameters of the camera are used to determine the corresponding coordinates in two dimensions along the axes x1, y1.
  • additional intrinsic parameters can optionally be taken into account to cancel out distortion-related effects.
  • the third depth coordinate along the axis z1 corresponds to the depth pr of the reference point PR assigned to each of the pixels PZ1 during step S300.
  • a change of frame is made to obtain the corresponding coordinates in the frame R2 using the frame transformation TR12.
  • the intrinsic parameters of the 3D sensor are used to obtain the two-dimensional coordinates of the corresponding PZ2 pixels in the 3D image I2 as illustrated in Figure 4.
  • the pixels PZ2 delimiting the zone of interest Z2 do not necessarily define a rectangle.
  • the method may further comprise a step S500 making it possible, from the coordinates of the pixels PZ2 delimiting the zone of interest Z2, to define a rectangle R delimiting the zone of interest Z2 in the picture I2.
  • the rectangle R is defined so as to minimize the distance between each corner of the rectangle R and each corresponding pixel PZ2 using an appropriate cost function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Procédé d'étiquetage d'une image 3D (I2) d'une scène acquise par un capteur 3D comprenant : - la réception : • d'une image 2D (I1) de la même scène acquise par une caméra, • des coordonnées, sur l'image 2D, d'un ensemble de pixels (PZ1) délimitant la zone d'intérêt (Z1), et d'un point de référence (PR) appartenant à la zone d'intérêt (Z1), et • la détermination de la profondeur du point de référence (pr) dans un repère associé à la caméra, - l'attribution aux pixels délimitant la zone d'intérêt (Z1) sur l'image 2D (I1) d'une profondeur correspondant à la profondeur du point de référence (pr), - le calcul des coordonnées, dans l'image 3D (I2), des pixels (PZ2) délimitant la zone d'intérêt (Z2) à partir des coordonnées des pixels (PZ1) délimitant la zone d'intérêt (Z1) dans l'image 2D (I1) et de la profondeur (pr) attribuée aux pixels délimitant la zone d'intérêt.

Description

Description
PROCEDE D'ETIQUETAGE D'UNE IMAGE 3D SUR BASE DE PROJECTION ÉPIPOLAIRE
Domaine technique
[0001] La présente divulgation relève du domaine de l’étiquetage de zones d’intérêt dans des images 3D obtenues à l’aide de capteurs 3D LIDAR, RADAR ou de caméras temps de vol (« Time of Flight » en anglais).
Technique antérieure
[0002] Il est connu d’étiqueter, c’est-à-dire d’identifier, dans une scène acquise par un capteur 3D d’un véhicule, différentes zones d’intérêt pouvant par exemple révéler la présence d’un objet particulier ou d’un obstacle dans l’environnement du véhicule. Cet étiquetage est fait de manière manuelle en demandant à un opérateur d’identifier, dans chaque image 3D, la zone d’intérêt. Les zones d’intérêt identifiées par l’opérateur servent ensuite de référence pour la validation d’algorithmes de détection automatique et pour la constitution d’une base d’apprentissage permettant de développer des algorithmes de détection par apprentissage automatique (« machine learning » en anglais).
[0003] Il n’est cependant pas aisé, pour l’opérateur, d’identifier les zones d’intérêt dans les images 3D. En effet, les images 3D comprennent, pour chaque pixel de l’image, une information relative à une distance entre le point de mesure et le capteur qui n’est pas facile à interpréter par l’œil humain, plus habitué à interpréter des images acquises par des caméras. En effet, les couleurs des pixels des images 3D correspondent à des distances alors que, dans les images 2D, la couleur des pixels correspond aux couleurs réelles des objets présents dans la scène. De plus, les points de mesure obtenus avec des capteurs 3D sont en général plus espacés qu’avec une caméra standard. Ainsi, l’étiquetage de zones d’intérêt dans une image 3D est plus complexe et moins fiable qu’avec une image 2D. Il existe donc un besoin de trouver un moyen permettant d’étiqueter de manière plus fiable des zones d’intérêt dans des images 3D.
Résumé
[0004] La présente demande vient améliorer la situation en proposant un moyen permettant d’identifier, de manière fiable des zones d’intérêt au sein d’images 3D, notamment avec une meilleure précision.
[0005] Il est proposé un procédé d’étiquetage d’une image 3D d’une scène acquise par un capteur 3D comprenant l’identification d’au moins une zone d’intérêt dans l’image 3D, le procédé étant mis en œuvre par un calculateur et comprenant :
- une étape de réception : * d’une image 2D de la même scène acquise par une caméra,
* des coordonnées, sur l’image 2D, d’un ensemble de pixels délimitant la zone d’intérêt,
* des coordonnées, sur l’image 2D, d’un point de référence appartenant à la zone d’intérêt, et
* de données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D,
- une étape de détermination de la profondeur du point de référence dans un repère associé à la caméra, ladite étape comprenant :
* à partir des coordonnées du point de référence dans l’image 2D, la détermination des coordonnées en deux dimensions d’une pluralité de premiers points dans l’image 3D, chaque premier point correspondant à une position possible du point de référence dans l’image 3D,
* l’obtention, pour chaque premier point, d’une troisième coordonnée de profondeur par rapport au capteur 3D,
* pour chaque premier point de l’image 3D, l’obtention des coordonnées du point correspondant dans l’image 2D, à partir de la coordonnée de profondeur du premier point, la sélection, dans l’image 2D, du premier point le plus proche du point de référence, et,
* l’attribution au point de référence d’une profondeur correspondant à la profondeur du premier point sélectionné,
- une étape d’attribution aux pixels délimitant la zone d’intérêt sur l’image 2D d’une profondeur correspondant à la profondeur attribuée au point de référence,
- une étape de calcul des coordonnées, dans l’image 3D, des pixels délimitant la zone d’intérêt à partir des coordonnées des pixels délimitant la zone d’intérêt dans l’image 2D, de la profondeur attribuée aux pixels délimitant la zone d’intérêt et des données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D.
[0006] Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un calculateur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.
[0007] Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en œuvre, indépendamment les unes des autres ou en combinaison les unes avec les autres :
[0008] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :
- l’attribution, au point de référence, d’une profondeur maximale, - l’attribution, au point de référence, d’une profondeur minimale,
- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus éloigné correspondant au point de référence auquel on a attribué la profondeur maximale,
- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus proche correspondant au point de référence auquel on a attribué la profondeur minimale, et
- la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné. [0009] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné comprend la détermination de coordonnées en deux dimensions d’au moins un point se trouvant, dans l’image 3D, sur un segment reliant le premier point le plus éloigné et le premier point le plus proche. [0010] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné comprend :
- l’attribution, au point de référence, d’au moins une profondeur intermédiaire comprise entre la profondeur maximale et la profondeur minimale, et - le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point correspondant au point de référence auquel on a attribué la profondeur intermédiaire.
[0011] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :
- l’attribution, au point de référence, d’une profondeur de l’une d’une profondeur minimale ou maximale,
- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point d’extrémité correspondant au point de référence auquel on a attribué l’une d’une profondeur minimale ou maximale, et
- le calcul, à partir de la résolution horizontale du capteur 3D et de la distance entre le capteur 3D et la caméra, d’une disparité maximale correspondant à un nombre maximal de pixels sur l’image 3D séparant le premier point d’extrémité et un point sur l’image 3D correspondant au point de référence auquel on a attribué l’autre de la profondeur minimale ou maximale,
- la détermination des coordonnées en deux dimensions de chaque point de l’image 3D compris entre le premier point d’extrémité et un point séparé latéralement du premier point d’extrémité de la disparité maximale. [0012] Dans un mode de réalisation, l’ensemble de pixels délimitant la zone d’intérêt sur l’image 2D comprend quatre pixels délimitant un rectangle.
[0013] Dans un mode de réalisation, la zone d’intérêt, dans l’image 2D, présente une forme géométrique prédéterminée et le procédé comprend en outre une étape de définition d’une zone d’intérêt dans l’image 3D présentant la même forme géométrique que la zone d’intérêt dans l’image 2D.
[0014] Le procédé d’étiquetage décrit ci-dessus peut trouver à s’appliquer notamment lors de la constitution d’une base de données d’apprentissage ou la validation d’algorithmes de détection automatique de zones d’intérêt dans des images 3D. [0015] Selon l’invention, des opérateurs peuvent identifier une zone pertinente d’une image
2D prise par une caméra, par exemple une zone correspondant à un piéton ou à un véhicule, à l’aide d’un rectangle par exemple et créer des images de référence. Le procédé décrit ci- dessus peut alors être utilisé pour déterminer une zone de l’image de référence correspondante dans des données acquises par des capteurs 3D, i.e. aptes à déterminer une distance entre le capteur et le point considéré. On peut ainsi constituer une base d’apprentissage pour des algorithmes d’apprentissage destinés à repérer des objets, tels que des piétons ou des véhicules, par exemple. Par ailleurs, lorsque des algorithmes permettant de repérer des objets dans des données acquises par des capteurs 3D ont déjà été développés, le procédé décrit ci-dessus peut être mis en œuvre pour comparer les zones détectées par l’algorithme avec les zones correspondant aux objets identifiés par les opérateurs à l’aide des images prises par les caméras. Cette comparaison permet d’évaluer les performances de l’algorithme de détection.
Brève description des dessins
[0016] D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
Fig. 1
[0017] [Fig. 1] illustre de manière schématique une image 3D et une image 2D d’une même scène acquise respectivement par un capteur 3D et une caméra au même instant.
Fig. 2 [0018] [Fig. 2] illustre un procédé d’étiquetage d’une image 3D selon un mode de réalisation.
Fig. 3
[0019] [Fig. 3] illustre de manière schématique le système utilisé pour l’acquisition des images 2D et 3D et différents repères et annotations. Fig. 4
[0020] [Fig. 4] illustre certains des points utilisés par le procédé d’étiquetage selon un mode de réalisation de l’invention.
Fig. 5 [0021] [Fig. 5] illustre l’algorithme de Bresenham utilisé dans le procédé selon une variante de réalisation.
Description des modes de réalisation
[0022] La figure 1 illustre, à titre d’exemple, deux images 11 et I2 d’une même scène acquise respectivement par une caméra 2D et un capteur 3D au même instant. Le repère (u1, v1) lié à l’image 11 et le repère (u2, v2) lié à l’image I2 sont également représentés. Ces repères sont utilisés pour déterminer les coordonnées en deux dimensions d’un point de l’image 11 et d’un point de l’image I2. Dans le reste de la demande, on fera référence à l’image 11 comme étant l’image 2D et à l’image I2 comme étant l’image 3D. Les images 2D sont acquises par des caméras dites standard alors que les images 3D sont acquises à l’aide des technologies LIDAR, RADAR ou encore à l’aide de caméras configurées pour mesurer des temps de vol (« time of flight caméras » en anglais).
[0023] Comme visible sur l’image I2, les couleurs de chaque point de l’image I2, ici en niveau de gris, sont représentatives d’une distance entre un point de mesure de coordonnées (u2, v2) et le plan de l’image. Dans le reste de la demande, cette distance est appelée profondeur car il s’agit d’une distance selon un axe z2 perpendiculaire aux axes u2 et v2. L’axe z2 est également représenté sur la figure 3 qui représente le repère associé au capteur 3D.
[0024] L’image 11 comporte une zone d’intérêt Z1 matérialisée par exemple par un rectangle comme représenté ici. Dans l’exemple décrit ici, la zone d’intérêt Z1 entoure un objet ou une personne, ici un véhicule. Selon l’application visée, d’autres types d’objets peuvent être considérés, comme des panneaux de signalisation par exemple.
[0025] Le but de la présente invention est d’obtenir, à partir d’informations concernant la position de la zone d’intérêt Z1 et d’un point de référence PR dans l’image 2D, la position de la zone Z2 correspondante dans l’image I2. Le point de référence PR est un point appartenant à la zone d’intérêt Z1, ici un point du véhicule que l’on va considérer ultérieurement comme se trouvant dans le même plan que la zone Z1 délimitant l’obstacle.
[0026] On notera que pour ce faire on utilise également les données de profondeur comprises dans l’image 3D comme explicité plus en détail en référence à la figure 2. [0027] Dans l’exemple décrit ici, la zone d’intérêt Z1 et le point de référence PR sont définis par un opérateur qui encadre avec un rectangle la zone d’intérêt Z1 et pointe le point de référence PR avec une interface homme-machine appropriée, par exemple à l’aide d’une souris. Il s’agit ici d’un exemple et les zones d’intérêt peuvent être matérialisées par d’autres formes géométriques telles que des triangles ou des cercles. Selon un autre exemple de réalisation, la zone d’intérêt Z1 et le point de référence PR sont définis selon un procédé automatique.
[0028] Le procédé d’étiquetage de la figure 2 est mis en œuvre par un processeur, par exemple dans un ordinateur, et comprend une étape S100 de réception de données, une étape S200 de détermination de la profondeur pr du point de référence PR dans un repère associé à la caméra, une étape S300 d’attribution aux pixels délimitant la zone d’intérêt Z1 sur l’image 11 d’une profondeur correspondant à la profondeur pr attribuée au point de référence PR et une étape S400 de calcul des coordonnées, dans l’image I2, des pixels délimitant la zone d’intérêt Z2 à partir des coordonnées des pixels délimitant la zone d’intérêt Z1 dans l’image 11 et de la profondeur pr attribuée aux pixels délimitant la zone d’intérêt Z1.
[0029] L’étape S100 comporte la réception d’une image 11 acquise par une caméra correspondant à la même scène que l’image I2 acquise par un capteur 3D tel un LIDAR, un RADAR ou une caméra permettant de mesurer des temps de vol. L’étape S100 comprend également la réception d’une image I2 acquise par le capteur 3D C3D. On notera que les images 11 et I2 sont acquises sensiblement au même instant par la caméra et le capteur 3D comme explicité ultérieurement, puis transmises au processeur mettant en œuvre le procédé. Dans l’exemple décrit ici, les images sont transmises à un processeur compris dans un ordinateur. [0030] L’étape S100 comporte également la réception des coordonnées d’un ensemble de pixels délimitant la zone d’intérêt Z1. Dans l’exemple décrit ici, la zone d’intérêt Z1 est délimitée par un rectangle et le processeur réceptionne les coordonnées des quatre pixels PZ1 se trouvant sur les coins du rectangle.
[0031] L’étape S100 comporte également la réception des coordonnées (uPR, vPR) du point de référence PR dans le repère lié à l’image 11.
[0032] L’étape S100 comporte également la réception de données relatives à la position et à l’orientation de la caméra par rapport au capteur 3D.
[0033] La figure 3 illustre un système 1 utilisé pour l’acquisition de la scène se trouvant à l’extérieur d’un véhicule vu de dessus. A cet effet, le système 1 comprend une caméra CAM et un capteur 3D C3D de type LIDAR ou RADAR placés sur ou à l’intérieur du véhicule (non représenté). On notera que le capteur 3D peut également être une caméra configurée pour mesurer des temps de vol que l’on distingue d’une caméra standard ne permettant que d’acquérir des images 2D. L’acquisition des images est commandée de préférence de sorte que les images 2D et 3D soient prises en même temps. La caméra CAM et le capteur 3D C3D sont alors synchronisés et ont la même fréquence d’acquisition. En revanche, lorsque les fréquences d’acquisition de la caméra CAM et du capteur 3D C3D sont différentes mais suffisamment élevées, on peut sélectionner deux images 11 et I2 acquises dans un intervalle suffisamment proche. On peut par exemple considérer, à titre indicatif, que deux images 11 et I2 acquises avec 30 ms de décalage l’une par rapport à l’autre correspondent à la même scène. Un tel intervalle de temps correspond à un décalage de 25cm entre les deux images lorsque le véhicule roule à une vitesse de 30 km/h. Bien entendu, cet intervalle de temps peut être adapté en fonction de la vitesse mesurée du véhicule et/ou de la résolution du capteur 3D utilisé.
[0034] Un repère R1 associé à la caméra CAM et un repère R2 associé au capteur 3D C3D sont également représentés sur la figure 3. Le repère R1 associé à la caméra a son origine
01 au niveau du centre optique de la caméra CAM et comprend des axes x1, y1 ayant la même orientation que les axes u1 et v1 du repère lié à l’image 11. Le repère R1 comprend également un axe z1 perpendiculaire aux axes x1 , y1 et orienté selon l’axe optique de la caméra. Le repère R2 associé au capteur 3D C3D a une origine 02 et deux axes x2, y2 ayant la même orientation que les axes u2 et v2 du repère lié à l’image I2. L’axe z2 est perpendiculaire aux axes x2, y2. On notera que, dans la présente demande, la profondeur fait référence à la distance entre un point et le centre du repère associé selon l’un des axes z1 ou z2 selon le repère considéré.
[0035] Comme cela est visible sur la figure 3, la caméra C et le capteur 3D sont espacés d’une distance dO, de l’ordre de 10 cm par exemple, entre le centre 01 du repère R1 et le centre 02 du repère R2. Dans la figure 3, afin de simplifier la représentation, les repères R1 et R2 sont représentés avec la même orientation et sont espacés de la distance dO. En pratique, les repères R1 et R2 n’ont pas exactement la même orientation, de sorte qu’on utilise une transformation de repère TR12 pour passer des coordonnées d’un point dans le repère R1 aux coordonnées du point correspondant dans le repère R2 et une transformation de repère TR21 pour passer des coordonnées d’un point dans le repère R2 aux coordonnées du point correspondant dans le repère R1. Les transformations TR12 et TR21 sont des transformations rigides comprenant une translation et une rotation d’un repère par rapport à l’autre. Ainsi, les données relatives à la position et à l’orientation de la caméra par rapport au capteur 3D sont des données permettant d’établir les transformations de repère entre le repère R1 et le repère R2. Il peut s’agir par exemple de trois angles et de trois distances, les trois angles définissant l’orientation d’un axe du repère R1 par rapport à l’axe correspondant du repère R2 et les trois distances définissant la position relative du centre du repère R1 par rapport au centre du repère R2. Ces trois angles et ces trois distances peuvent être obtenus lors d’une étape préalable de calibration. Dans une variante, il peut s’agir des paramètres extrinsèques du capteur 3D C3D et de la caméra CAM. Ceux-ci sont obtenus lors d’une étape de calibration connue de l’homme du métier et non exposée ici. Il est ainsi possible, à l’aide des paramètres extrinsèques de la caméra et du capteur 3D, de déterminer la transformation de changement de repère entre les repères associés à ces deux capteurs. Par exemple, lorsque l’on travaille avec des coordonnées homogènes, il suffit de multiplier deux matrices 4x4 de changement de repère comportant la rotation et la translation par rapport à un repère de référence commun à la caméra et au capteur 3D. Dans le cas présent, le repère de référence peut avoir son origine à un endroit du véhicule et avoir des axes définissant des plans horizontaux et verticaux par rapport au sol, l’axe z étant orienté vers l’environnement du véhicule. [0036] L’étape S100 comprend également la réception des paramètres intrinsèques de la caméra et du capteur 3D. Ces paramètres sont obtenus également lors de l’étape de calibration et permettent, à partir des coordonnées (u1,v1) et (u2,v2) des pixels dans les images 11, I2, d’obtenir les coordonnées en deux dimensions (x1 , y1) et (x2, y2) correspondantes dans les repères R1 et R2, respectivement. Ils peuvent par exemple être stockés dans une mémoire de la caméra et du capteur 3D ou dans des métadonnées associées aux fichiers comportant les images 2D et 3D.
[0037] De manière connue de l’homme du métier, les paramètres intrinsèques de la caméra comprennent la distance focale de l’optique, les coordonnées du centre optique, un angle d’inclinaison des pixels, et les paramètres intrinsèques du capteur 3D comprennent la résolution angulaire verticale et horizontale. Ces paramètres intrinsèques, tout comme les paramètres extrinsèques, peuvent être stockés sous forme de matrice de manière à faciliter le changement de repère entre le repère lié à l’image et le repère lié à la caméra ou au capteur. On notera que la troisième coordonnée z2 dans le repère R2 est déjà contenue dans l’image 3D I2 et correspond à la valeur du pixel de coordonnées (u2, v2). Il est ainsi aisé d’obtenir, à l’aide de l’image 3D, les coordonnées en trois dimensions dans le repère R2 correspondant à un pixel de l’image I2. En revanche, il n’est pas possible, à partir des coordonnées (u1, v1) d’un pixel de l’image 2D 11 de retrouver les coordonnées en 3D du point correspondant dans le repère R1 associé à la caméra puisque l’information concernant la profondeur z1 n’est pas contenue dans l’image 11. En effet, comme cela est visible sur la figure 3, le point de référence PR peut se trouver n’importe où sur une droite reliant les points PA et PB. On fait ici l’hypothèse que le point de référence se trouve entre les points PA et PB. Le point PA correspond à la position du point de référence PR lorsque celui-ci se trouve à une distance maximale dmax correspondant à une profondeur maximale. Le point PB correspond à la position du point de référence PR lorsque celui-ci se trouve à une distance minimale dmin correspondant à une profondeur minimale. On peut par exemple choisir dmin et dmax en fonction de la gamme de profondeur que le capteur 3D est capable de mesurer, de sorte que dmin et dmax correspondent à la profondeur minimale et à la profondeur maximale que le capteur 3D est capable de mesurer. On notera aussi que, comme illustré par les points P1 ,1 ... P1,n sur la figure 3, si l’on considère que le point de référence PR peut se trouver sur le segment de droite entre les points PA et PB, celui- ci peut se trouver en différents points P1 ,1.. P1,n sur l’image 3D I2. On veillera donc à ce que la résolution du capteur 3D utilisé soit suffisamment élevée.
[0038] L’étape S200 permet de déterminer la profondeur pr du point de référence PR dans le repère R1 en utilisant les données de profondeur mesurées pour le capteur 3D pour chacun des points P1,1 ... P1,n. Ensuite, cette profondeur pr est attribuée à chacun des pixels délimitant la zone d’intérêt Z1, ce qui permet, lors de l’étape S400, de déterminer les coordonnées correspondantes pour l’ensemble de ces pixels dans l’image 3D.
[0039] Ainsi, l’étape S200 comprend une sous-étape de détermination des coordonnées en deux dimensions dans l’image 3D des points P1,1... P1,n, chacun des points P1,1... P1,n correspondant à une position possible du point de référence PR dans l’image 3D selon la profondeur qui lui est associée qui peut être comprise entre dmin et dmax comme décrit ici.
[0040] La sous-étape de détermination des coordonnées en deux dimensions dans l’image 3D des points P1,1... P1,n peut être mise en œuvre de différentes façons.
[0041] Dans une première variante, on détermine les coordonnées en deux dimensions dans l’image 3D des points PA et PB. On rappelle ici que le point PA correspond au point de référence PR auquel on a attribué la profondeur dmax et que le point PB correspond au point de référence PR auquel on a attribué la profondeur dmin. On notera que le point PA, qui correspond au point de référence lorsqu’il est le plus éloigné, est représenté dans l’image 3D par le point P1,1. Le point PB, qui correspond au point de référence lorsqu’il est le plus proche, est représenté dans l’image 3D par le point P1,n. [0042] Pour déterminer les coordonnées des points P1,1 et P1,n dans l’image I2, on détermine tout d’abord les coordonnées correspondant au point de référence PR de coordonnées (uR, vR) dans le repère R1 associé à la caméra. On utilise pour cela les paramètres intrinsèques de la caméra pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x1, y1. Des paramètres intrinsèques supplémentaires peuvent optionnellement et de manière facultative être pris en compte pour annuler les effets liés à la distorsion induits par l’optique de la caméra. La troisième coordonnée de profondeur selon l’axe z1 correspond à la profondeur dmax ou à la profondeur dmin selon le point PA ou PB considéré. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R2 à l’aide de la transformation de repère TR12 et on utilise les paramètres intrinsèques du capteur 3D pour obtenir les coordonnées en deux dimensions des points P1,1 et P1,n correspondants aux points PA et PB respectivement, dans l’image 3D I2 comme illustré sur la figure 3.
[0043] On détermine ensuite les coordonnées en deux dimensions, dans l’image 3D, d’au moins un point P1,i se trouvant sur un segment reliant P1 ,1 à P1,n. On peut pour ce faire utiliser l’algorithme de Bresenham qui permet de déterminer les coordonnées de points se trouvant sur un segment de droite comme illustré sur la figure 5. Cet algorithme est plus particulièrement décrit dans l’article « Algorithm for Computer Control ofa Digital Plotter », Jack E. Bresenham, IBM Systems Journal, 4(1):25-30, 1965.
[0044] Dans une deuxième variante, au lieu d’utiliser l’algorithme de Bresenham pour déterminer les coordonnées d’au moins un point P1,i sur un segment de droite compris entre P1,1 et P1,n, on attribue à au moins un point de référence compris entre PA et PB une profondeur intermédiaire comprise entre la profondeur minimale dmin et la profondeur maximale dmax puis on détermine ses coordonnées correspondantes dans l’image 3D comme décrit précédemment. [0045] Dans une troisième variante, on peut déterminer pour le point PA par exemple qui correspond au point de référence auquel on a attribué une profondeur maximale ses coordonnées correspondantes dans l’image 3D. Il s’agit dans ce cas des coordonnées dans l’image 3D du point P1,1 qui sont déterminées comme décrit précédemment. On calcule ensuite, à partir de la résolution horizontale du capteur 3D, qui est l’un des paramètres intrinsèques du capteur 3D, et de la distance entre le capteur 3D et la caméra dO, une disparité maximale. La disparité maximale DM est calculée comme suit :
[Math. 1]
„ dO
DM = tan 1(— - )/rh dmin
[0046] dans lequel rh est la résolution horizontale du capteur 3D, dO la distance entre les centres 01 , 02 des repères R1 et R2 dans la direction de l’axe x2 du repère R2 et dmin la profondeur minimale considérée pour le point de référence. On obtient ainsi une disparité maximale de 3 pixels avec dmin= 3m, rh = 0,78°/pixel et dO = 10 cm.
[0047] La disparité maximale correspond à un nombre maximal de pixels sur l’image 3D séparant un point d’extrémité de l’ensemble de points P1,i, ici le point P1 ,1 , à un autre point d’extrémité de l’ensemble des points P1,i, ici le point P1,n. La disparité maximale permet, à partir des coordonnées d’un point d’extrémité, ici le point P1,1, de calculer les coordonnées de l’autre point d’extrémité P1,n. On réduit ainsi le temps de calcul des coordonnées des points P1 ,1 et P1,n. Ensuite, on détermine les coordonnées des points P1,i se trouvant sur un segment reliant le point P1 ,1 au point P1,n comme décrit précédemment avec l’algorithme de Bresenham.
[0048] On notera qu’en alternative, on peut également déterminer les coordonnées dans l’image 3D du point P1 ,n et déterminer les coordonnées du point P1 , 1 à l’aide de la disparité maximale. [0049] Cette troisième variante est plus rapide et nécessite moins de ressources de calcul que les deux autres variantes. Cette variante peut être utilisée dans le cas de figure illustré à la figure 3 lorsque le capteur 3D et la caméra se trouvent sensiblement à une même hauteur par rapport au sol. On maximise ainsi la zone de chevauchement et on simplifie les changements de repère. [0050] L’étape S200 comprend également une sous-étape d’obtention, pour chaque point
P1,i (1 £ i £ n) de la profondeur pi associée contenue dans l’image 3D. Il s’agit de la profondeur pi lue au point P1,i de coordonnées (u2i, v2i) dans l’image 3D I2.
[0051] L’étape S200 comprend ensuite une sous-étape de calcul des coordonnées de chaque point P2,i dans l’image 11 correspondant à un point P1,i de l’image 11. Pour ce faire, on détermine tout d’abord, pour chaque point P1 ,i (1 £ i £ n) de l’image 3D, ses coordonnées correspondantes dans le repère R2 associé au capteur 3D. On utilise pour cela les paramètres intrinsèques du capteur 3D et la troisième coordonnée de profondeur selon l’axe z2 pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x2, y2. La troisième coordonnée de profondeur selon l’axe z2 correspond à la valeur de profondeur pi contenue dans l’image 3D pour le point correspondant. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R1 à l’aide de la transformation de repère TR21. On notera que la transformation de repère TR21 correspond à l’inverse de la transformation de repère TR12 utilisée précédemment. Enfin, on utilise les paramètres intrinsèques de la caméra pour obtenir les coordonnées du point P2, i correspondant dans l’image 2D 11 selon les axes u1, v1. On notera que les paramètres intrinsèques permettent de faire une projection dans le repère lié à l’image 11 d’axes u1, v1. Comme mentionné précédemment, il est également possible de prendre en compte la distorsion induite par l’optique de la caméra en prenant en compte des paramètres intrinsèques supplémentaires représentatifs de la distorsion. On notera que les points P1,i et P2,i correspondent à des positions possibles du point de référence sur l’image 3D et sur l’image 2D respectivement, selon la profondeur pi qui lui est attribuée. L’étape S200 comprend en outre une étape de sélection, dans l’image 2D, du point P2,i le plus proche du point de référence PR de coordonnées (uR, vR). On peut pour ce faire, déterminer à l’aide des coordonnées du point P2,i (u1i, v1i) dans l’image 2D et des coordonnées du point PR (uR, vR) la distance entre ces deux points, sur la base de formule suivante par exemple:
[Math. 2] d = / (uR — uli)2 + ( vR — vit)2
[0052] On sélectionne alors le point P2,i de coordonnées (u1i, v1i) pour lequel la distance avec le point de référence PR de coordonnées (uR, vR) est la plus faible.
[0053] On attribue alors au point de référence PR la profondeur pi correspondante, ainsi pr = pi. On rappelle ici que la profondeur pi considérée est la profondeur du point P1 ,i correspondant au point P2,i sélectionné.
[0054] Ensuite, l’étape S300 d’attribution aux pixels PZ1 délimitant la zone d’intérêt Z1 sur l’image 2D 11 d’une profondeur correspondant à la profondeur pi attribuée au point de référence PR est mise en œuvre puis l’étape S400 est mise en œuvre.
[0055] Lors de l’étape S400, les coordonnées des pixels PZ2 dans l’image 3D correspondant aux pixels PZ1 délimitant la zone d’intérêt dans l’image 2D sont déterminées. On rappelle que les pixels PZ1 dans l’exemple décrit ici sont 4 pixels se situant dans les coins du rectangle délimitant la zone d’intérêt Z1 comme illustré sur la figure 4.
[0056] Pour ce faire, on détermine tout d’abord, pour chaque pixel PZ1 délimitant la zone d’intérêt dans l’image 2D, ses coordonnées correspondantes dans le repère R1 associé à la caméra. On utilise pour cela les paramètres intrinsèques de la caméra pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x1, y1. Comme mentionné précédemment, des paramètres intrinsèques supplémentaires peuvent optionnellement être pris en compte pour annuler les effets liés à la distorsion. La troisième coordonnée de profondeur selon l’axe z1 correspond à la profondeur pr du point de référence PR attribuée à chacun des pixels PZ1 lors de l’étape S300. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R2 à l’aide de la transformation de repère TR12. Enfin, on utilise les paramètres intrinsèques du capteur 3D pour obtenir les coordonnées en deux dimensions des pixels PZ2 correspondants dans l’image 3D I2 comme illustré sur la figure 4.
[0057] Comme on peut le voir sur la figure 4, les pixels PZ2 délimitant la zone d’intérêt Z2 ainsi calculés ne définissent pas nécessairement un rectangle. [0058] De manière optionnelle et facultative, le procédé peut comprendre en outre une étape S500 permettant, à partir des coordonnées des pixels PZ2 délimitant la zone d’intérêt Z2, de définir un rectangle R délimitant la zone d’intérêt Z2 dans l’image I2. Par un procédé d’optimisation, on définit le rectangle R de façon à minimiser la distance entre chaque coin du rectangle R et chaque pixel PZ2 correspondant à l’aide d’une fonction de coût appropriée.

Claims

Revendications [Revendication 1] Procédé d’étiquetage d’une image 3D (I2) d’une scène acquise par un capteur 3D (C3D) comprenant l’identification d’au moins une zone d’intérêt (Z2) dans l’image 3D, le procédé étant mis en œuvre par un calculateur et comprenant : - une étape de réception (S100) : * d’une image 2D (11) de la même scène acquise par une caméra (CAM), * des coordonnées, sur l’image 2D, d’un ensemble de pixels (PZ1) délimitant la zone d’intérêt (Z1), * des coordonnées (uPR, vPR), sur l’image 2D, d’un point de référence (PR) appartenant à la zone d’intérêt (Z1), et * de données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D (TR12), - une étape de détermination de la profondeur du point de référence dans un repère associé à la caméra (S200), ladite étape comprenant : * à partir des coordonnées du point de référence dans l’image 2D, la détermination des coordonnées en deux dimensions d’une pluralité de premiers points (P1 ,i) dans l’image 3D, chaque premier point (P1,i) correspondant à une position possible du point de référence dans l’image 3D, * l’obtention, pour chaque premier point (P1,i), d’une troisième coordonnée de profondeur (pi) par rapport au capteur 3D, * pour chaque premier point (P1,i) de l’image 3D, l’obtention des coordonnées (u1i, v1i) du point correspondant (P2,i) dans l’image 2D, à partir de la coordonnée de profondeur (pi) du premier point (P1,i), * la sélection, dans l’image 2D, du premier point le plus proche du point de référence, et, * l’attribution au point de référence (PR) d’une profondeur (pr) correspondant à la profondeur (pi) du premier point sélectionné, - une étape d’attribution (S300) aux pixels (PZ1) délimitant la zone d’intérêt (Z1) sur l’image 2D (11) d’une profondeur correspondant à la profondeur attribuée au point de référence (pr),- une étape de calcul (S400) des coordonnées, dans l’image 3D, des pixels (PZ2) délimitant la zone d’intérêt (Z2) à partir des coordonnées des pixels (PZ1) délimitant la zone d’intérêt
(Z1) dans l’image 2D, de la profondeur (pr) attribuée aux pixels délimitant la zone d’intérêt et des données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D (TR12).
[Revendication 2] Procédé selon la revendication précédente, dans lequel : - la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :
* l’attribution, au point de référence (PR), d’une profondeur maximale (dmax),
* l’attribution, au point de référence, d’une profondeur minimale (dmin),
* le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus éloigné (P1 , 1) correspondant au point de référence auquel on a attribué la profondeur maximale (PA),
* le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus proche (P1,n) correspondant au point de référence auquel on a attribué la profondeur minimale (PB), et
* la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1,n) et le premier point le plus éloigné (P1 , 1).
[Revendication 3] Procédé selon la revendication précédente, dans lequel la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1,n) et le premier point le plus éloigné (P1 ,1) comprend la détermination de coordonnées en deux dimensions d’au moins un point (P1,i) se trouvant, dans l’image 3D, sur un segment reliant le premier point le plus éloigné (P1,1) et le premier point le plus proche (P1 ,n).
[Revendication 4] Procédé selon la revendication 2, dans lequel la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1 ,n) et le premier point le plus éloigné (P1 , 1 ) comprend :
- l’attribution, au point de référence (PR), d’au moins une profondeur intermédiaire (pi) comprise entre la profondeur maximale (dmax) et la profondeur minimale (dmin), et
- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point (P1 ,i) correspondant au point de référence (PR) auquel on a attribué la profondeur intermédiaire (P -
[Revendication 5] Procédé selon la revendication 1, dans lequel la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D (P1,i) comprend :
- l’attribution, au point de référence (PR), d’une profondeur de l’une d’une profondeur minimale (dmin) ou maximale (dmax), - le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point d’extrémité (P1 , 1) correspondant au point de référence auquel on a attribué l’une d’une profondeur minimale ou maximale, et
- le calcul, à partir de la résolution horizontale du capteur 3D et de la distance entre le capteur 3D et la caméra, d’une disparité maximale correspondant à un nombre maximal de pixels (pixmax) sur l’image 3D séparant le premier point d’extrémité (P1 , 1) et un point sur l’image 3D correspondant au point de référence auquel on a attribué l’autre de la profondeur minimale ou maximale (P1,n),
- la détermination des coordonnées en deux dimensions de chaque point de l’image 3D (P1,i) compris entre le premier point d’extrémité (P1 , 1) et un point séparé latéralement du premier point d’extrémité de la disparité maximale (P1,n).
[Revendication 6] Procédé selon l’une quelconque des revendications précédentes, dans lequel l’ensemble de pixels délimitant la zone d’intérêt (Z1) sur l’image 2D comprend quatre pixels (PZ1) délimitant un rectangle.
[Revendication 7] Procédé selon l’une quelconque des revendications précédentes, dans lequel la zone d’intérêt, dans l’image 2D, présente une forme géométrique prédéterminée et le procédé comprend en outre une étape (S500) de définition d’une zone d’intérêt (R) dans l’image 3D présentant la même forme géométrique que la zone d’intérêt dans l’image 2D.
[Revendication 8] Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 7 lorsque ce programme est exécuté par un calculateur.
[Revendication 9] Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une des revendications 1 à 7 lorsque ce programme est exécuté par un calculateur.
PCT/EP2022/068379 2021-07-08 2022-07-04 Procede d'etiquetage d'une image 3d sur base de projection épipolaire WO2023280745A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280048444.5A CN117677985A (zh) 2021-07-08 2022-07-04 用于标记对极投影3d图像的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2107380 2021-07-08
FR2107380A FR3125150B1 (fr) 2021-07-08 2021-07-08 Procédé d’étiquetage d’une image 3D

Publications (1)

Publication Number Publication Date
WO2023280745A1 true WO2023280745A1 (fr) 2023-01-12

Family

ID=77021645

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/068379 WO2023280745A1 (fr) 2021-07-08 2022-07-04 Procede d'etiquetage d'une image 3d sur base de projection épipolaire

Country Status (3)

Country Link
CN (1) CN117677985A (fr)
FR (1) FR3125150B1 (fr)
WO (1) WO2023280745A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172715A1 (en) * 2012-07-09 2015-06-18 Nippon Telegraph And Telephone Corporation Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media
WO2017216465A1 (fr) * 2016-06-14 2017-12-21 Continental Automotive France Procédé et dispositif de traitement d'images acquises par une caméra d'un véhicule automobile
FR3083352A1 (fr) * 2018-06-29 2020-01-03 Continental Automotive France Procede et dispositif de detection rapide de structures repetitives dans l'image d'une scene routiere
US20200210726A1 (en) * 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150172715A1 (en) * 2012-07-09 2015-06-18 Nippon Telegraph And Telephone Corporation Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media
WO2017216465A1 (fr) * 2016-06-14 2017-12-21 Continental Automotive France Procédé et dispositif de traitement d'images acquises par une caméra d'un véhicule automobile
FR3083352A1 (fr) * 2018-06-29 2020-01-03 Continental Automotive France Procede et dispositif de detection rapide de structures repetitives dans l'image d'une scene routiere
US20200210726A1 (en) * 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JACK E. BRESENHAM: "Algorithm for Computer Contrai of a Digital Plotter", IBM SYSTEMS JOURNAL, vol. 4, no. 1, 1965, pages 25 - 30, XP008019988, DOI: 10.1147/sj.41.0025

Also Published As

Publication number Publication date
FR3125150A1 (fr) 2023-01-13
FR3125150B1 (fr) 2023-11-17
CN117677985A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
JP7398506B2 (ja) ローカライゼーション基準データを生成及び使用する方法及びシステム
CN110988912B (zh) 自动驾驶车辆的道路目标与距离检测方法、系统、装置
US10909395B2 (en) Object detection apparatus
US10872246B2 (en) Vehicle lane detection system
EP1802960B1 (fr) Dispositif de mesure de distance de visibilite
CN108629763B (zh) 一种视差图的评判方法、装置及终端
US20230138487A1 (en) An Environment Model Using Cross-Sensor Feature Point Referencing
CA2939474A1 (fr) Procede d'alignement perfectionne de deux moyens de projection
JP7343054B2 (ja) 位置推定方法、位置推定装置、および位置推定プログラム
CN113950020A (zh) 用于自主车辆的车辆共乘定位和乘客识别
EP2043044B1 (fr) Procédé et dispositif d'assistance au parcage d'un véhicule automobile
US11620832B2 (en) Image based locationing
WO2023280745A1 (fr) Procede d'etiquetage d'une image 3d sur base de projection épipolaire
FR2997512A1 (fr) Procede et dispositif pour determiner la position d'un vehicule
EP4212825A1 (fr) Procédé d alignement d'une caméra sur une route
FR3066303B1 (fr) Procede de calibration d'un dispositif de surveillance d'un conducteur dans un vehicule
FR3052560B1 (fr) Systeme embarque et procede de determination d'une position relative
FR3090126A1 (fr) Procédé de localisation, dans un repère absolu, d’un dispositif, calculateur et véhicule associé.
EP4184439A9 (fr) Procédé de détermination de coordonnées d'un point d'un élément d'intérêt dans le monde réel en fonction de coordonnées dudit point dans une image
FR3116932A1 (fr) Procédés de calibration d’une caméra et de mesure de distances réelles à partir d’une image acquise par la caméra
KR20220045736A (ko) 도로 노면 감지가 가능한 라이다 시스템 및 데이터 처리방법
FR3118746A1 (fr) Procédé et dispositif d’aide à la conduite d’un véhicule circulant sur une chaussée comprenant plusieurs voies de circulation
FR3127165A1 (fr) Procédé et dispositif d’aide à la conduite en réalité augmentée
FR2890477A1 (fr) Methode et dispositif d'evaluation de la position d'un vehicule dans son environnement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22747598

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280048444.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE