WO2023280745A1

WO2023280745A1 - Procede d'etiquetage d'une image 3d sur base de projection épipolaire

Info

Publication number: WO2023280745A1
Application number: PCT/EP2022/068379
Authority: WO
Inventors: Lucien Garcia; Thomas Meneyrol; Spencer DANNE
Original assignee: Continental Automotive Gmbh
Priority date: 2021-07-08
Filing date: 2022-07-04
Publication date: 2023-01-12
Also published as: FR3125150A1; FR3125150B1; CN117677985A

Abstract

Procédé d'étiquetage d'une image 3D (I2) d'une scène acquise par un capteur 3D comprenant : - la réception : • d'une image 2D (I1) de la même scène acquise par une caméra, • des coordonnées, sur l'image 2D, d'un ensemble de pixels (PZ1) délimitant la zone d'intérêt (Z1), et d'un point de référence (PR) appartenant à la zone d'intérêt (Z1), et • la détermination de la profondeur du point de référence (pr) dans un repère associé à la caméra, - l'attribution aux pixels délimitant la zone d'intérêt (Z1) sur l'image 2D (I1) d'une profondeur correspondant à la profondeur du point de référence (pr), - le calcul des coordonnées, dans l'image 3D (I2), des pixels (PZ2) délimitant la zone d'intérêt (Z2) à partir des coordonnées des pixels (PZ1) délimitant la zone d'intérêt (Z1) dans l'image 2D (I1) et de la profondeur (pr) attribuée aux pixels délimitant la zone d'intérêt.

Description

PROCEDE D'ETIQUETAGE D'UNE IMAGE 3D SUR BASE DE PROJECTION ÉPIPOLAIRE

Domaine technique

[0001] La présente divulgation relève du domaine de l’étiquetage de zones d’intérêt dans des images 3D obtenues à l’aide de capteurs 3D LIDAR, RADAR ou de caméras temps de vol (« Time of Flight » en anglais).

Technique antérieure

[0002] Il est connu d’étiqueter, c’est-à-dire d’identifier, dans une scène acquise par un capteur 3D d’un véhicule, différentes zones d’intérêt pouvant par exemple révéler la présence d’un objet particulier ou d’un obstacle dans l’environnement du véhicule. Cet étiquetage est fait de manière manuelle en demandant à un opérateur d’identifier, dans chaque image 3D, la zone d’intérêt. Les zones d’intérêt identifiées par l’opérateur servent ensuite de référence pour la validation d’algorithmes de détection automatique et pour la constitution d’une base d’apprentissage permettant de développer des algorithmes de détection par apprentissage automatique (« machine learning » en anglais).

[0003] Il n’est cependant pas aisé, pour l’opérateur, d’identifier les zones d’intérêt dans les images 3D. En effet, les images 3D comprennent, pour chaque pixel de l’image, une information relative à une distance entre le point de mesure et le capteur qui n’est pas facile à interpréter par l’œil humain, plus habitué à interpréter des images acquises par des caméras. En effet, les couleurs des pixels des images 3D correspondent à des distances alors que, dans les images 2D, la couleur des pixels correspond aux couleurs réelles des objets présents dans la scène. De plus, les points de mesure obtenus avec des capteurs 3D sont en général plus espacés qu’avec une caméra standard. Ainsi, l’étiquetage de zones d’intérêt dans une image 3D est plus complexe et moins fiable qu’avec une image 2D. Il existe donc un besoin de trouver un moyen permettant d’étiqueter de manière plus fiable des zones d’intérêt dans des images 3D.

Résumé

[0004] La présente demande vient améliorer la situation en proposant un moyen permettant d’identifier, de manière fiable des zones d’intérêt au sein d’images 3D, notamment avec une meilleure précision.

[0005] Il est proposé un procédé d’étiquetage d’une image 3D d’une scène acquise par un capteur 3D comprenant l’identification d’au moins une zone d’intérêt dans l’image 3D, le procédé étant mis en œuvre par un calculateur et comprenant :

- une étape de réception : * d’une image 2D de la même scène acquise par une caméra,

* des coordonnées, sur l’image 2D, d’un ensemble de pixels délimitant la zone d’intérêt,

* des coordonnées, sur l’image 2D, d’un point de référence appartenant à la zone d’intérêt, et

* de données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D,

- une étape de détermination de la profondeur du point de référence dans un repère associé à la caméra, ladite étape comprenant :

* à partir des coordonnées du point de référence dans l’image 2D, la détermination des coordonnées en deux dimensions d’une pluralité de premiers points dans l’image 3D, chaque premier point correspondant à une position possible du point de référence dans l’image 3D,

* l’obtention, pour chaque premier point, d’une troisième coordonnée de profondeur par rapport au capteur 3D,

* pour chaque premier point de l’image 3D, l’obtention des coordonnées du point correspondant dans l’image 2D, à partir de la coordonnée de profondeur du premier point, la sélection, dans l’image 2D, du premier point le plus proche du point de référence, et,

* l’attribution au point de référence d’une profondeur correspondant à la profondeur du premier point sélectionné,

- une étape d’attribution aux pixels délimitant la zone d’intérêt sur l’image 2D d’une profondeur correspondant à la profondeur attribuée au point de référence,

- une étape de calcul des coordonnées, dans l’image 3D, des pixels délimitant la zone d’intérêt à partir des coordonnées des pixels délimitant la zone d’intérêt dans l’image 2D, de la profondeur attribuée aux pixels délimitant la zone d’intérêt et des données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D.

[0006] Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un calculateur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.

[0007] Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en œuvre, indépendamment les unes des autres ou en combinaison les unes avec les autres :

[0008] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :

- l’attribution, au point de référence, d’une profondeur maximale, - l’attribution, au point de référence, d’une profondeur minimale,

- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus éloigné correspondant au point de référence auquel on a attribué la profondeur maximale,

- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus proche correspondant au point de référence auquel on a attribué la profondeur minimale, et

- la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné. [0009] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné comprend la détermination de coordonnées en deux dimensions d’au moins un point se trouvant, dans l’image 3D, sur un segment reliant le premier point le plus éloigné et le premier point le plus proche. [0010] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point se trouvant entre le premier point le plus proche et le premier point le plus éloigné comprend :

- l’attribution, au point de référence, d’au moins une profondeur intermédiaire comprise entre la profondeur maximale et la profondeur minimale, et - le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point correspondant au point de référence auquel on a attribué la profondeur intermédiaire.

[0011] Dans un mode de réalisation, la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :

- l’attribution, au point de référence, d’une profondeur de l’une d’une profondeur minimale ou maximale,

- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point d’extrémité correspondant au point de référence auquel on a attribué l’une d’une profondeur minimale ou maximale, et

- le calcul, à partir de la résolution horizontale du capteur 3D et de la distance entre le capteur 3D et la caméra, d’une disparité maximale correspondant à un nombre maximal de pixels sur l’image 3D séparant le premier point d’extrémité et un point sur l’image 3D correspondant au point de référence auquel on a attribué l’autre de la profondeur minimale ou maximale,

- la détermination des coordonnées en deux dimensions de chaque point de l’image 3D compris entre le premier point d’extrémité et un point séparé latéralement du premier point d’extrémité de la disparité maximale. [0012] Dans un mode de réalisation, l’ensemble de pixels délimitant la zone d’intérêt sur l’image 2D comprend quatre pixels délimitant un rectangle.

[0013] Dans un mode de réalisation, la zone d’intérêt, dans l’image 2D, présente une forme géométrique prédéterminée et le procédé comprend en outre une étape de définition d’une zone d’intérêt dans l’image 3D présentant la même forme géométrique que la zone d’intérêt dans l’image 2D.

[0014] Le procédé d’étiquetage décrit ci-dessus peut trouver à s’appliquer notamment lors de la constitution d’une base de données d’apprentissage ou la validation d’algorithmes de détection automatique de zones d’intérêt dans des images 3D. [0015] Selon l’invention, des opérateurs peuvent identifier une zone pertinente d’une image

2D prise par une caméra, par exemple une zone correspondant à un piéton ou à un véhicule, à l’aide d’un rectangle par exemple et créer des images de référence. Le procédé décrit ci- dessus peut alors être utilisé pour déterminer une zone de l’image de référence correspondante dans des données acquises par des capteurs 3D, i.e. aptes à déterminer une distance entre le capteur et le point considéré. On peut ainsi constituer une base d’apprentissage pour des algorithmes d’apprentissage destinés à repérer des objets, tels que des piétons ou des véhicules, par exemple. Par ailleurs, lorsque des algorithmes permettant de repérer des objets dans des données acquises par des capteurs 3D ont déjà été développés, le procédé décrit ci-dessus peut être mis en œuvre pour comparer les zones détectées par l’algorithme avec les zones correspondant aux objets identifiés par les opérateurs à l’aide des images prises par les caméras. Cette comparaison permet d’évaluer les performances de l’algorithme de détection.

Brève description des dessins

[0016] D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

[0017] [Fig. 1] illustre de manière schématique une image 3D et une image 2D d’une même scène acquise respectivement par un capteur 3D et une caméra au même instant.

Fig. 2 [0018] [Fig. 2] illustre un procédé d’étiquetage d’une image 3D selon un mode de réalisation.

Fig. 3

[0019] [Fig. 3] illustre de manière schématique le système utilisé pour l’acquisition des images 2D et 3D et différents repères et annotations. Fig. 4

[0020] [Fig. 4] illustre certains des points utilisés par le procédé d’étiquetage selon un mode de réalisation de l’invention.

Fig. 5 [0021] [Fig. 5] illustre l’algorithme de Bresenham utilisé dans le procédé selon une variante de réalisation.

Description des modes de réalisation

[0022] La figure 1 illustre, à titre d’exemple, deux images 11 et I2 d’une même scène acquise respectivement par une caméra 2D et un capteur 3D au même instant. Le repère (u1, v1) lié à l’image 11 et le repère (u2, v2) lié à l’image I2 sont également représentés. Ces repères sont utilisés pour déterminer les coordonnées en deux dimensions d’un point de l’image 11 et d’un point de l’image I2. Dans le reste de la demande, on fera référence à l’image 11 comme étant l’image 2D et à l’image I2 comme étant l’image 3D. Les images 2D sont acquises par des caméras dites standard alors que les images 3D sont acquises à l’aide des technologies LIDAR, RADAR ou encore à l’aide de caméras configurées pour mesurer des temps de vol (« time of flight caméras » en anglais).

[0023] Comme visible sur l’image I2, les couleurs de chaque point de l’image I2, ici en niveau de gris, sont représentatives d’une distance entre un point de mesure de coordonnées (u2, v2) et le plan de l’image. Dans le reste de la demande, cette distance est appelée profondeur car il s’agit d’une distance selon un axe z2 perpendiculaire aux axes u2 et v2. L’axe z2 est également représenté sur la figure 3 qui représente le repère associé au capteur 3D.

[0024] L’image 11 comporte une zone d’intérêt Z1 matérialisée par exemple par un rectangle comme représenté ici. Dans l’exemple décrit ici, la zone d’intérêt Z1 entoure un objet ou une personne, ici un véhicule. Selon l’application visée, d’autres types d’objets peuvent être considérés, comme des panneaux de signalisation par exemple.

[0025] Le but de la présente invention est d’obtenir, à partir d’informations concernant la position de la zone d’intérêt Z1 et d’un point de référence PR dans l’image 2D, la position de la zone Z2 correspondante dans l’image I2. Le point de référence PR est un point appartenant à la zone d’intérêt Z1, ici un point du véhicule que l’on va considérer ultérieurement comme se trouvant dans le même plan que la zone Z1 délimitant l’obstacle.

[0026] On notera que pour ce faire on utilise également les données de profondeur comprises dans l’image 3D comme explicité plus en détail en référence à la figure 2. [0027] Dans l’exemple décrit ici, la zone d’intérêt Z1 et le point de référence PR sont définis par un opérateur qui encadre avec un rectangle la zone d’intérêt Z1 et pointe le point de référence PR avec une interface homme-machine appropriée, par exemple à l’aide d’une souris. Il s’agit ici d’un exemple et les zones d’intérêt peuvent être matérialisées par d’autres formes géométriques telles que des triangles ou des cercles. Selon un autre exemple de réalisation, la zone d’intérêt Z1 et le point de référence PR sont définis selon un procédé automatique.

[0028] Le procédé d’étiquetage de la figure 2 est mis en œuvre par un processeur, par exemple dans un ordinateur, et comprend une étape S100 de réception de données, une étape S200 de détermination de la profondeur pr du point de référence PR dans un repère associé à la caméra, une étape S300 d’attribution aux pixels délimitant la zone d’intérêt Z1 sur l’image 11 d’une profondeur correspondant à la profondeur pr attribuée au point de référence PR et une étape S400 de calcul des coordonnées, dans l’image I2, des pixels délimitant la zone d’intérêt Z2 à partir des coordonnées des pixels délimitant la zone d’intérêt Z1 dans l’image 11 et de la profondeur pr attribuée aux pixels délimitant la zone d’intérêt Z1.

[0029] L’étape S100 comporte la réception d’une image 11 acquise par une caméra correspondant à la même scène que l’image I2 acquise par un capteur 3D tel un LIDAR, un RADAR ou une caméra permettant de mesurer des temps de vol. L’étape S100 comprend également la réception d’une image I2 acquise par le capteur 3D C3D. On notera que les images 11 et I2 sont acquises sensiblement au même instant par la caméra et le capteur 3D comme explicité ultérieurement, puis transmises au processeur mettant en œuvre le procédé. Dans l’exemple décrit ici, les images sont transmises à un processeur compris dans un ordinateur. [0030] L’étape S100 comporte également la réception des coordonnées d’un ensemble de pixels délimitant la zone d’intérêt Z1. Dans l’exemple décrit ici, la zone d’intérêt Z1 est délimitée par un rectangle et le processeur réceptionne les coordonnées des quatre pixels PZ1 se trouvant sur les coins du rectangle.

[0031] L’étape S100 comporte également la réception des coordonnées (uPR, vPR) du point de référence PR dans le repère lié à l’image 11.

[0032] L’étape S100 comporte également la réception de données relatives à la position et à l’orientation de la caméra par rapport au capteur 3D.

[0033] La figure 3 illustre un système 1 utilisé pour l’acquisition de la scène se trouvant à l’extérieur d’un véhicule vu de dessus. A cet effet, le système 1 comprend une caméra CAM et un capteur 3D C3D de type LIDAR ou RADAR placés sur ou à l’intérieur du véhicule (non représenté). On notera que le capteur 3D peut également être une caméra configurée pour mesurer des temps de vol que l’on distingue d’une caméra standard ne permettant que d’acquérir des images 2D. L’acquisition des images est commandée de préférence de sorte que les images 2D et 3D soient prises en même temps. La caméra CAM et le capteur 3D C3D sont alors synchronisés et ont la même fréquence d’acquisition. En revanche, lorsque les fréquences d’acquisition de la caméra CAM et du capteur 3D C3D sont différentes mais suffisamment élevées, on peut sélectionner deux images 11 et I2 acquises dans un intervalle suffisamment proche. On peut par exemple considérer, à titre indicatif, que deux images 11 et I2 acquises avec 30 ms de décalage l’une par rapport à l’autre correspondent à la même scène. Un tel intervalle de temps correspond à un décalage de 25cm entre les deux images lorsque le véhicule roule à une vitesse de 30 km/h. Bien entendu, cet intervalle de temps peut être adapté en fonction de la vitesse mesurée du véhicule et/ou de la résolution du capteur 3D utilisé.

[0034] Un repère R1 associé à la caméra CAM et un repère R2 associé au capteur 3D C3D sont également représentés sur la figure 3. Le repère R1 associé à la caméra a son origine

01 au niveau du centre optique de la caméra CAM et comprend des axes x1, y1 ayant la même orientation que les axes u1 et v1 du repère lié à l’image 11. Le repère R1 comprend également un axe z1 perpendiculaire aux axes x1 , y1 et orienté selon l’axe optique de la caméra. Le repère R2 associé au capteur 3D C3D a une origine 02 et deux axes x2, y2 ayant la même orientation que les axes u2 et v2 du repère lié à l’image I2. L’axe z2 est perpendiculaire aux axes x2, y2. On notera que, dans la présente demande, la profondeur fait référence à la distance entre un point et le centre du repère associé selon l’un des axes z1 ou z2 selon le repère considéré.

[0035] Comme cela est visible sur la figure 3, la caméra C et le capteur 3D sont espacés d’une distance dO, de l’ordre de 10 cm par exemple, entre le centre 01 du repère R1 et le centre 02 du repère R2. Dans la figure 3, afin de simplifier la représentation, les repères R1 et R2 sont représentés avec la même orientation et sont espacés de la distance dO. En pratique, les repères R1 et R2 n’ont pas exactement la même orientation, de sorte qu’on utilise une transformation de repère TR12 pour passer des coordonnées d’un point dans le repère R1 aux coordonnées du point correspondant dans le repère R2 et une transformation de repère TR21 pour passer des coordonnées d’un point dans le repère R2 aux coordonnées du point correspondant dans le repère R1. Les transformations TR12 et TR21 sont des transformations rigides comprenant une translation et une rotation d’un repère par rapport à l’autre. Ainsi, les données relatives à la position et à l’orientation de la caméra par rapport au capteur 3D sont des données permettant d’établir les transformations de repère entre le repère R1 et le repère R2. Il peut s’agir par exemple de trois angles et de trois distances, les trois angles définissant l’orientation d’un axe du repère R1 par rapport à l’axe correspondant du repère R2 et les trois distances définissant la position relative du centre du repère R1 par rapport au centre du repère R2. Ces trois angles et ces trois distances peuvent être obtenus lors d’une étape préalable de calibration. Dans une variante, il peut s’agir des paramètres extrinsèques du capteur 3D C3D et de la caméra CAM. Ceux-ci sont obtenus lors d’une étape de calibration connue de l’homme du métier et non exposée ici. Il est ainsi possible, à l’aide des paramètres extrinsèques de la caméra et du capteur 3D, de déterminer la transformation de changement de repère entre les repères associés à ces deux capteurs. Par exemple, lorsque l’on travaille avec des coordonnées homogènes, il suffit de multiplier deux matrices 4x4 de changement de repère comportant la rotation et la translation par rapport à un repère de référence commun à la caméra et au capteur 3D. Dans le cas présent, le repère de référence peut avoir son origine à un endroit du véhicule et avoir des axes définissant des plans horizontaux et verticaux par rapport au sol, l’axe z étant orienté vers l’environnement du véhicule. [0036] L’étape S100 comprend également la réception des paramètres intrinsèques de la caméra et du capteur 3D. Ces paramètres sont obtenus également lors de l’étape de calibration et permettent, à partir des coordonnées (u1,v1) et (u2,v2) des pixels dans les images 11, I2, d’obtenir les coordonnées en deux dimensions (x1 , y1) et (x2, y2) correspondantes dans les repères R1 et R2, respectivement. Ils peuvent par exemple être stockés dans une mémoire de la caméra et du capteur 3D ou dans des métadonnées associées aux fichiers comportant les images 2D et 3D.

[0037] De manière connue de l’homme du métier, les paramètres intrinsèques de la caméra comprennent la distance focale de l’optique, les coordonnées du centre optique, un angle d’inclinaison des pixels, et les paramètres intrinsèques du capteur 3D comprennent la résolution angulaire verticale et horizontale. Ces paramètres intrinsèques, tout comme les paramètres extrinsèques, peuvent être stockés sous forme de matrice de manière à faciliter le changement de repère entre le repère lié à l’image et le repère lié à la caméra ou au capteur. On notera que la troisième coordonnée z2 dans le repère R2 est déjà contenue dans l’image 3D I2 et correspond à la valeur du pixel de coordonnées (u2, v2). Il est ainsi aisé d’obtenir, à l’aide de l’image 3D, les coordonnées en trois dimensions dans le repère R2 correspondant à un pixel de l’image I2. En revanche, il n’est pas possible, à partir des coordonnées (u1, v1) d’un pixel de l’image 2D 11 de retrouver les coordonnées en 3D du point correspondant dans le repère R1 associé à la caméra puisque l’information concernant la profondeur z1 n’est pas contenue dans l’image 11. En effet, comme cela est visible sur la figure 3, le point de référence PR peut se trouver n’importe où sur une droite reliant les points PA et PB. On fait ici l’hypothèse que le point de référence se trouve entre les points PA et PB. Le point PA correspond à la position du point de référence PR lorsque celui-ci se trouve à une distance maximale dmax correspondant à une profondeur maximale. Le point PB correspond à la position du point de référence PR lorsque celui-ci se trouve à une distance minimale dmin correspondant à une profondeur minimale. On peut par exemple choisir dmin et dmax en fonction de la gamme de profondeur que le capteur 3D est capable de mesurer, de sorte que dmin et dmax correspondent à la profondeur minimale et à la profondeur maximale que le capteur 3D est capable de mesurer. On notera aussi que, comme illustré par les points P1 ,1 ... P1,n sur la figure 3, si l’on considère que le point de référence PR peut se trouver sur le segment de droite entre les points PA et PB, celui- ci peut se trouver en différents points P1 ,1.. P1,n sur l’image 3D I2. On veillera donc à ce que la résolution du capteur 3D utilisé soit suffisamment élevée.

[0038] L’étape S200 permet de déterminer la profondeur pr du point de référence PR dans le repère R1 en utilisant les données de profondeur mesurées pour le capteur 3D pour chacun des points P1,1 ... P1,n. Ensuite, cette profondeur pr est attribuée à chacun des pixels délimitant la zone d’intérêt Z1, ce qui permet, lors de l’étape S400, de déterminer les coordonnées correspondantes pour l’ensemble de ces pixels dans l’image 3D.

[0039] Ainsi, l’étape S200 comprend une sous-étape de détermination des coordonnées en deux dimensions dans l’image 3D des points P1,1... P1,n, chacun des points P1,1... P1,n correspondant à une position possible du point de référence PR dans l’image 3D selon la profondeur qui lui est associée qui peut être comprise entre dmin et dmax comme décrit ici.

[0040] La sous-étape de détermination des coordonnées en deux dimensions dans l’image 3D des points P1,1... P1,n peut être mise en œuvre de différentes façons.

[0041] Dans une première variante, on détermine les coordonnées en deux dimensions dans l’image 3D des points PA et PB. On rappelle ici que le point PA correspond au point de référence PR auquel on a attribué la profondeur dmax et que le point PB correspond au point de référence PR auquel on a attribué la profondeur dmin. On notera que le point PA, qui correspond au point de référence lorsqu’il est le plus éloigné, est représenté dans l’image 3D par le point P1,1. Le point PB, qui correspond au point de référence lorsqu’il est le plus proche, est représenté dans l’image 3D par le point P1,n. [0042] Pour déterminer les coordonnées des points P1,1 et P1,n dans l’image I2, on détermine tout d’abord les coordonnées correspondant au point de référence PR de coordonnées (uR, vR) dans le repère R1 associé à la caméra. On utilise pour cela les paramètres intrinsèques de la caméra pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x1, y1. Des paramètres intrinsèques supplémentaires peuvent optionnellement et de manière facultative être pris en compte pour annuler les effets liés à la distorsion induits par l’optique de la caméra. La troisième coordonnée de profondeur selon l’axe z1 correspond à la profondeur dmax ou à la profondeur dmin selon le point PA ou PB considéré. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R2 à l’aide de la transformation de repère TR12 et on utilise les paramètres intrinsèques du capteur 3D pour obtenir les coordonnées en deux dimensions des points P1,1 et P1,n correspondants aux points PA et PB respectivement, dans l’image 3D I2 comme illustré sur la figure 3.

[0043] On détermine ensuite les coordonnées en deux dimensions, dans l’image 3D, d’au moins un point P1,i se trouvant sur un segment reliant P1 ,1 à P1,n. On peut pour ce faire utiliser l’algorithme de Bresenham qui permet de déterminer les coordonnées de points se trouvant sur un segment de droite comme illustré sur la figure 5. Cet algorithme est plus particulièrement décrit dans l’article « Algorithm for Computer Control ofa Digital Plotter », Jack E. Bresenham, IBM Systems Journal, 4(1):25-30, 1965.

[0044] Dans une deuxième variante, au lieu d’utiliser l’algorithme de Bresenham pour déterminer les coordonnées d’au moins un point P1,i sur un segment de droite compris entre P1,1 et P1,n, on attribue à au moins un point de référence compris entre PA et PB une profondeur intermédiaire comprise entre la profondeur minimale dmin et la profondeur maximale dmax puis on détermine ses coordonnées correspondantes dans l’image 3D comme décrit précédemment. [0045] Dans une troisième variante, on peut déterminer pour le point PA par exemple qui correspond au point de référence auquel on a attribué une profondeur maximale ses coordonnées correspondantes dans l’image 3D. Il s’agit dans ce cas des coordonnées dans l’image 3D du point P1,1 qui sont déterminées comme décrit précédemment. On calcule ensuite, à partir de la résolution horizontale du capteur 3D, qui est l’un des paramètres intrinsèques du capteur 3D, et de la distance entre le capteur 3D et la caméra dO, une disparité maximale. La disparité maximale DM est calculée comme suit :

[Math. 1]

„ dO

DM = tan ¹(— - )/rh dmin

[0046] dans lequel rh est la résolution horizontale du capteur 3D, dO la distance entre les centres 01 , 02 des repères R1 et R2 dans la direction de l’axe x2 du repère R2 et dmin la profondeur minimale considérée pour le point de référence. On obtient ainsi une disparité maximale de 3 pixels avec dmin= 3m, rh = 0,78°/pixel et dO = 10 cm.

[0047] La disparité maximale correspond à un nombre maximal de pixels sur l’image 3D séparant un point d’extrémité de l’ensemble de points P1,i, ici le point P1 ,1 , à un autre point d’extrémité de l’ensemble des points P1,i, ici le point P1,n. La disparité maximale permet, à partir des coordonnées d’un point d’extrémité, ici le point P1,1, de calculer les coordonnées de l’autre point d’extrémité P1,n. On réduit ainsi le temps de calcul des coordonnées des points P1 ,1 et P1,n. Ensuite, on détermine les coordonnées des points P1,i se trouvant sur un segment reliant le point P1 ,1 au point P1,n comme décrit précédemment avec l’algorithme de Bresenham.

[0048] On notera qu’en alternative, on peut également déterminer les coordonnées dans l’image 3D du point P1 ,n et déterminer les coordonnées du point P1 , 1 à l’aide de la disparité maximale. [0049] Cette troisième variante est plus rapide et nécessite moins de ressources de calcul que les deux autres variantes. Cette variante peut être utilisée dans le cas de figure illustré à la figure 3 lorsque le capteur 3D et la caméra se trouvent sensiblement à une même hauteur par rapport au sol. On maximise ainsi la zone de chevauchement et on simplifie les changements de repère. [0050] L’étape S200 comprend également une sous-étape d’obtention, pour chaque point

P1,i (1 £ i £ n) de la profondeur pi associée contenue dans l’image 3D. Il s’agit de la profondeur pi lue au point P1,i de coordonnées (u2i, v2i) dans l’image 3D I2.

[0051] L’étape S200 comprend ensuite une sous-étape de calcul des coordonnées de chaque point P2,i dans l’image 11 correspondant à un point P1,i de l’image 11. Pour ce faire, on détermine tout d’abord, pour chaque point P1 ,i (1 £ i £ n) de l’image 3D, ses coordonnées correspondantes dans le repère R2 associé au capteur 3D. On utilise pour cela les paramètres intrinsèques du capteur 3D et la troisième coordonnée de profondeur selon l’axe z2 pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x2, y2. La troisième coordonnée de profondeur selon l’axe z2 correspond à la valeur de profondeur pi contenue dans l’image 3D pour le point correspondant. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R1 à l’aide de la transformation de repère TR21. On notera que la transformation de repère TR21 correspond à l’inverse de la transformation de repère TR12 utilisée précédemment. Enfin, on utilise les paramètres intrinsèques de la caméra pour obtenir les coordonnées du point P2, i correspondant dans l’image 2D 11 selon les axes u1, v1. On notera que les paramètres intrinsèques permettent de faire une projection dans le repère lié à l’image 11 d’axes u1, v1. Comme mentionné précédemment, il est également possible de prendre en compte la distorsion induite par l’optique de la caméra en prenant en compte des paramètres intrinsèques supplémentaires représentatifs de la distorsion. On notera que les points P1,i et P2,i correspondent à des positions possibles du point de référence sur l’image 3D et sur l’image 2D respectivement, selon la profondeur pi qui lui est attribuée. L’étape S200 comprend en outre une étape de sélection, dans l’image 2D, du point P2,i le plus proche du point de référence PR de coordonnées (uR, vR). On peut pour ce faire, déterminer à l’aide des coordonnées du point P2,i (u1i, v1i) dans l’image 2D et des coordonnées du point PR (uR, vR) la distance entre ces deux points, sur la base de formule suivante par exemple:

[Math. 2] d = / (uR — uli)² + ( vR — vit)²

[0052] On sélectionne alors le point P2,i de coordonnées (u1i, v1i) pour lequel la distance avec le point de référence PR de coordonnées (uR, vR) est la plus faible.

[0053] On attribue alors au point de référence PR la profondeur pi correspondante, ainsi pr = pi. On rappelle ici que la profondeur pi considérée est la profondeur du point P1 ,i correspondant au point P2,i sélectionné.

[0054] Ensuite, l’étape S300 d’attribution aux pixels PZ1 délimitant la zone d’intérêt Z1 sur l’image 2D 11 d’une profondeur correspondant à la profondeur pi attribuée au point de référence PR est mise en œuvre puis l’étape S400 est mise en œuvre.

[0055] Lors de l’étape S400, les coordonnées des pixels PZ2 dans l’image 3D correspondant aux pixels PZ1 délimitant la zone d’intérêt dans l’image 2D sont déterminées. On rappelle que les pixels PZ1 dans l’exemple décrit ici sont 4 pixels se situant dans les coins du rectangle délimitant la zone d’intérêt Z1 comme illustré sur la figure 4.

[0056] Pour ce faire, on détermine tout d’abord, pour chaque pixel PZ1 délimitant la zone d’intérêt dans l’image 2D, ses coordonnées correspondantes dans le repère R1 associé à la caméra. On utilise pour cela les paramètres intrinsèques de la caméra pour déterminer les coordonnées correspondantes en deux dimensions selon les axes x1, y1. Comme mentionné précédemment, des paramètres intrinsèques supplémentaires peuvent optionnellement être pris en compte pour annuler les effets liés à la distorsion. La troisième coordonnée de profondeur selon l’axe z1 correspond à la profondeur pr du point de référence PR attribuée à chacun des pixels PZ1 lors de l’étape S300. Ensuite, on effectue un changement de repère pour obtenir les coordonnées correspondantes dans le repère R2 à l’aide de la transformation de repère TR12. Enfin, on utilise les paramètres intrinsèques du capteur 3D pour obtenir les coordonnées en deux dimensions des pixels PZ2 correspondants dans l’image 3D I2 comme illustré sur la figure 4.

[0057] Comme on peut le voir sur la figure 4, les pixels PZ2 délimitant la zone d’intérêt Z2 ainsi calculés ne définissent pas nécessairement un rectangle. [0058] De manière optionnelle et facultative, le procédé peut comprendre en outre une étape S500 permettant, à partir des coordonnées des pixels PZ2 délimitant la zone d’intérêt Z2, de définir un rectangle R délimitant la zone d’intérêt Z2 dans l’image I2. Par un procédé d’optimisation, on définit le rectangle R de façon à minimiser la distance entre chaque coin du rectangle R et chaque pixel PZ2 correspondant à l’aide d’une fonction de coût appropriée.

Claims

Revendications [Revendication 1] Procédé d’étiquetage d’une image 3D (I2) d’une scène acquise par un capteur 3D (C3D) comprenant l’identification d’au moins une zone d’intérêt (Z2) dans l’image 3D, le procédé étant mis en œuvre par un calculateur et comprenant : - une étape de réception (S100) : * d’une image 2D (11) de la même scène acquise par une caméra (CAM), * des coordonnées, sur l’image 2D, d’un ensemble de pixels (PZ1) délimitant la zone d’intérêt (Z1), * des coordonnées (uPR, vPR), sur l’image 2D, d’un point de référence (PR) appartenant à la zone d’intérêt (Z1), et * de données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D (TR12), - une étape de détermination de la profondeur du point de référence dans un repère associé à la caméra (S200), ladite étape comprenant : * à partir des coordonnées du point de référence dans l’image 2D, la détermination des coordonnées en deux dimensions d’une pluralité de premiers points (P1 ,i) dans l’image 3D, chaque premier point (P1,i) correspondant à une position possible du point de référence dans l’image 3D, * l’obtention, pour chaque premier point (P1,i), d’une troisième coordonnée de profondeur (pi) par rapport au capteur 3D, * pour chaque premier point (P1,i) de l’image 3D, l’obtention des coordonnées (u1i, v1i) du point correspondant (P2,i) dans l’image 2D, à partir de la coordonnée de profondeur (pi) du premier point (P1,i), * la sélection, dans l’image 2D, du premier point le plus proche du point de référence, et, * l’attribution au point de référence (PR) d’une profondeur (pr) correspondant à la profondeur (pi) du premier point sélectionné, - une étape d’attribution (S300) aux pixels (PZ1) délimitant la zone d’intérêt (Z1) sur l’image 2D (11) d’une profondeur correspondant à la profondeur attribuée au point de référence (pr),- une étape de calcul (S400) des coordonnées, dans l’image 3D, des pixels (PZ2) délimitant la zone d’intérêt (Z2) à partir des coordonnées des pixels (PZ1) délimitant la zone d’intérêt

(Z1) dans l’image 2D, de la profondeur (pr) attribuée aux pixels délimitant la zone d’intérêt et des données relatives à la position et à l’orientation relatives de la caméra par rapport au capteur 3D (TR12).

[Revendication 2] Procédé selon la revendication précédente, dans lequel : - la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D comprend :

* l’attribution, au point de référence (PR), d’une profondeur maximale (dmax),

* l’attribution, au point de référence, d’une profondeur minimale (dmin),

* le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus éloigné (P1 , 1) correspondant au point de référence auquel on a attribué la profondeur maximale (PA),

* le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point le plus proche (P1,n) correspondant au point de référence auquel on a attribué la profondeur minimale (PB), et

* la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1,n) et le premier point le plus éloigné (P1 , 1).

[Revendication 3] Procédé selon la revendication précédente, dans lequel la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1,n) et le premier point le plus éloigné (P1 ,1) comprend la détermination de coordonnées en deux dimensions d’au moins un point (P1,i) se trouvant, dans l’image 3D, sur un segment reliant le premier point le plus éloigné (P1,1) et le premier point le plus proche (P1 ,n).

[Revendication 4] Procédé selon la revendication 2, dans lequel la détermination des coordonnées en deux dimensions, dans l’image 3D, d’au moins un premier point (P1 ,i) se trouvant entre le premier point le plus proche (P1 ,n) et le premier point le plus éloigné (P1 , 1 ) comprend :

- l’attribution, au point de référence (PR), d’au moins une profondeur intermédiaire (pi) comprise entre la profondeur maximale (dmax) et la profondeur minimale (dmin), et

- le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point (P1 ,i) correspondant au point de référence (PR) auquel on a attribué la profondeur intermédiaire (P -

[Revendication 5] Procédé selon la revendication 1, dans lequel la détermination des coordonnées en deux dimensions de la pluralité de premiers points dans l’image 3D (P1,i) comprend :

- l’attribution, au point de référence (PR), d’une profondeur de l’une d’une profondeur minimale (dmin) ou maximale (dmax), - le calcul de coordonnées en deux dimensions, dans l’image 3D, d’un premier point d’extrémité (P1 , 1) correspondant au point de référence auquel on a attribué l’une d’une profondeur minimale ou maximale, et

- le calcul, à partir de la résolution horizontale du capteur 3D et de la distance entre le capteur 3D et la caméra, d’une disparité maximale correspondant à un nombre maximal de pixels (pixmax) sur l’image 3D séparant le premier point d’extrémité (P1 , 1) et un point sur l’image 3D correspondant au point de référence auquel on a attribué l’autre de la profondeur minimale ou maximale (P1,n),

- la détermination des coordonnées en deux dimensions de chaque point de l’image 3D (P1,i) compris entre le premier point d’extrémité (P1 , 1) et un point séparé latéralement du premier point d’extrémité de la disparité maximale (P1,n).

[Revendication 6] Procédé selon l’une quelconque des revendications précédentes, dans lequel l’ensemble de pixels délimitant la zone d’intérêt (Z1) sur l’image 2D comprend quatre pixels (PZ1) délimitant un rectangle.

[Revendication 7] Procédé selon l’une quelconque des revendications précédentes, dans lequel la zone d’intérêt, dans l’image 2D, présente une forme géométrique prédéterminée et le procédé comprend en outre une étape (S500) de définition d’une zone d’intérêt (R) dans l’image 3D présentant la même forme géométrique que la zone d’intérêt dans l’image 2D.

[Revendication 8] Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 7 lorsque ce programme est exécuté par un calculateur.

[Revendication 9] Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une des revendications 1 à 7 lorsque ce programme est exécuté par un calculateur.