WO2023222970A1 - Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire - Google Patents

Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire Download PDF

Info

Publication number
WO2023222970A1
WO2023222970A1 PCT/FR2023/050691 FR2023050691W WO2023222970A1 WO 2023222970 A1 WO2023222970 A1 WO 2023222970A1 FR 2023050691 W FR2023050691 W FR 2023050691W WO 2023222970 A1 WO2023222970 A1 WO 2023222970A1
Authority
WO
WIPO (PCT)
Prior art keywords
scene
image
depth
depth map
images
Prior art date
Application number
PCT/FR2023/050691
Other languages
English (en)
Inventor
Ahmed Nasreddinne BENAICHOUCHE
Michel MOUKARI
Original Assignee
Safran
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Safran filed Critical Safran
Publication of WO2023222970A1 publication Critical patent/WO2023222970A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Definitions

  • the field of the invention is that of aiding the navigation of a mobile system of the robot or autonomous vehicle type.
  • the invention relates more particularly to the calculation of a navigation trajectory for the mobile system from an RGB-D image of a scene, namely the combination of a color image of the scene and a map of depth characterizing the distance of objects seen in the image.
  • the calculation of a navigation trajectory can be implemented using different computer vision algorithms which take as input an image of a scene and a depth map of the same scene to provide as output a navigation solution by example with obstacle and/or collision avoidance.
  • Methods for estimating a depth map are generally divided into two categories: active methods where a light source is projected into the scene and passive methods which are only based on the acquisition of images of the scene. illuminated by ambient light.
  • the all-in-focus image is estimated and not acquired by the camera, which is a source of error in the case of weakly textured areas.
  • approaches which are based on the difference in blur between two (or more) images.
  • the disadvantage of this type of approach is the absence of use of other depth indices which make it possible to improve depth estimation performance in addition to the absence of all-in-focus images.
  • These clues can be, like blur, of a geometric nature (the perspective in the image, or the distance of objects in relation to the horizon line) as well as of a semantic nature (textures, the relative size of objects, the occultations).
  • the focus blur of a camera constitutes an index allowing to significantly improve the performance of depth estimation.
  • an image containing blur degrades the performance of other computer vision tasks (segmentation, detection, etc.) needed to calculate the navigation trajectory.
  • Using two cameras to acquire two images, one with out of focus and the other sharp everywhere does not offer a relevant solution because the alignment of two images with a parallax effect between them one of which is fuzzy, constitutes a difficult task which is a source of error.
  • the other solution which consists of acquiring two images by the same camera by changing the focal length parameters, cannot be considered in mobile systems, because the two images will not be acquired at the same time and therefore not aligned.
  • the invention aims to propose a solution based on a single camera mounted on a mobile system which can improve the performance of depth estimation without degrading the vision tasks necessary for calculating the navigation trajectory. of the mobile system.
  • the invention proposes a navigation aid device intended to be on board a mobile system, comprising a computer vision unit configured to calculate a navigation trajectory from a first image of a scene and a depth map of the scene.
  • This device further comprises a monocular camera capable of simultaneously acquiring the first image of the scene with a first depth of field and at least one second image of the scene with a second depth of field less than the first depth of field.
  • This device also includes a depth estimation unit configured to determine the depth map of the scene from the first image of the scene and the at least one second image of the scene.
  • the depth estimation unit uses a machine learning model, for example a pre-trained neural network;
  • the depth estimation unit comprises two different feature extraction branches for calculating feature maps respectively of the first image and the at least one second image and an encoder-decoder taking as input the calculated feature maps by the two feature extraction branches to determine the depth map;
  • the monocular camera comprises a lens having a first focal length, a lens having a second focal length greater than the first focal length and a separator capable of directing an input light flux towards each of the lens having the first focal length and the lens having the second focal length;
  • the computer vision unit also uses the at least one second image of the scene acquired by the monocular camera;
  • the monocular camera is able to simultaneously acquire the first image of the scene and a plurality of second images of the scene, the second images presenting a focus in different planes of the scene;
  • the first image is a sharp image at all points and the at least one second image presents a defocus blur
  • the invention also relates to a method of assisting the navigation of a mobile system, comprising a step of calculating a navigation trajectory from a first image of a scene and a depth map of the scene.
  • This method further comprises a step of simultaneous acquisition of the first image of the scene with a first depth of field and at least one second image of the scene with a second depth of field less than the first depth of field.
  • This method also includes a step of determining the depth map of the scene from the first image of the scene and the at least one second image of the scene.
  • the step of determining the depth map is executed by means of an automatic learning model taking as input the first image of the scene and the at least one second image of the scene and providing as output the depth map of the scene;
  • the machine learning model comprises two different feature extraction branches for calculating feature maps respectively of the first image and the at least one second and an encoder-decoder taking as input the feature maps calculated by the two branches of feature extraction to determine the depth map (Dm).
  • the invention extends to a computer program product comprising instructions which, when the program is executed by a computer, lead it to implement the steps of the above-mentioned method of determining the card. depth and calculation of the navigation trajectory.
  • the invention also relates to a method for training a machine learning model taking as input a pair of images and providing as output a depth map, comprising:
  • the invention also relates to a computer program product comprising instructions which, when the program is executed by a computer, lead it to carry out the processing and calculation steps of the training method
  • FIG. 1 is a diagram illustrating the device according to the invention mounted on a mobile system
  • FIG. 2 is a diagram of a device according to the invention.
  • FIG. 3 is a diagram illustrating how the blur index allows a depth estimate to be made
  • FIG. 4 is a diagram of a first embodiment of the monocular camera of the device according to the invention.
  • FIG. 5 is a diagram of a second embodiment of the monocular camera of the device according to the invention.
  • FIG. 6 is a diagram of a possible embodiment of the depth estimation unit.
  • the invention relates to a navigation aid device intended to be on board a mobile system 20, for example a robot type system or a drone dedicated to the recognition of an area, to exploring buildings or transporting materials.
  • the navigation aid device comprises a monocular camera 21 and a data processing module 22 configured to take as input the images acquired by the monocular camera.
  • the data processing module comprises a computer vision unit 24 configured to calculate a navigation trajectory from a first image In of a scene imaged by the monocular camera 21 and a Dm scene depth map.
  • the navigation trajectory may include obstacle or collision avoidance.
  • the data processing module also includes a depth estimation unit 23 configured to determine the depth map Dm of the scene.
  • the monocular camera 21 is capable of simultaneously acquiring the first image of the scene In with a first depth of field and at least one second image of the scene If with a second depth of field less than the first depth of field.
  • the first image of the scene and the at least one second image of the scene being simultaneously acquired by a monocular camera, they image the scene from the same point of view.
  • the depth estimation unit 23 is for its part configured to determine the depth map Dm of the scene from the first image of the scene In and the at least one second image of the scene If.
  • the computer vision unit 24 also uses the at least one second image of the scene If to calculate the navigation trajectory.
  • the second image With a second depth of field smaller than the first depth of field, the second image If forms a blurred image of the scene while the first image In forms a sharp image of the scene.
  • the first depth of field is preferably selected so that the first image forms a sharp all-in-focus image at all points.
  • the monocular camera can be adapted to focus at the hyperfocal distance. In this way, the first image presents a range of sharpness which extends from half of this hyperfocal distance to infinity.
  • the second depth of field is such that the second image presents a defocus blur by depth.
  • the monocular camera 21 thus makes it possible to acquire a pair of images of the scene, one of which is sharp and the other presents a blur of focus.
  • the two images being acquired from the same point of view and at the same time, the alignment between the two images is obtained directly.
  • images acquired by the camera are typically RGB images of the scene.
  • the device is then functional in visible light.
  • the functionality of the device is extended to nighttime operation by using another wavelength range (typically infrared).
  • the first In image is used for various vision tasks requiring a good quality image such as localization and mapping, semantic segmentation or detection and tracking.
  • the first image In is thus used by the computer vision unit 24 in order to develop the navigation trajectory.
  • the second image which focuses in one plane and contains the blur which varies depending on the depth, makes it possible to significantly improve the performance of the depth estimation.
  • the clear image is also used in depth estimation.
  • the combination of the blur index present in the second image presenting the focus blur with the depth indices present in the sharp image (which are of a geometric order such as the perspective or the elevation of the objects in relation to the line horizon of the image, or semantic order such as indices of level of detail of the textures according to the distance, relative size of the objects in the scene in relation to their distance from the camera or even occultations of the objects between them) makes it possible to significantly improve the performance of the depth estimation task.
  • Figure 3 illustrates the focus blur effect.
  • points 11 and 12 located at different distances from an optic 9 produce optical spots of different diameters 13 and 14 on a photosensitive sensor 10.
  • the blur diameter of a point on the sensor 10 contains a significant indication of the depth of this point in the scene.
  • the relationship between the blur diameter and the distance from a point is not bijective. Indeed, there are two points, one in front of the plane of focus and the other behind the plane of focus, which produce two blur spots of the same diameter. This ambiguity is implicitly removed by the depth estimation unit 23.
  • FIG. 4 is a diagram illustrating a possible embodiment of the monocular camera of the navigation aid device according to the invention.
  • the camera 1 comprises an acquisition system which includes an input optics 3 making it possible to image the surface of an object 2 of the scene inside the acquisition system, a separator 4 (for example a semi-circular mirror -reflective) which makes it possible to direct an input light flux towards two lenses 5 and 7, one of which has a shorter focal length than the other.
  • the flow of light is then integrated by the two photosensitive sensors 6 and 8, thus providing the sharp image In and the blurred image If.
  • the advantage of this acquisition system is that it makes it possible to produce two images of the same scene captured at the same time and without parallax effect between them.
  • Figure 5 is a diagram illustrating another possible embodiment of the monocular camera 1 of the navigation aid device according to the invention.
  • the acquisition system is configured to allow the simultaneous acquisition of N images of the scene including a sharp image and Nl blurry images which present focus in different planes of the scene.
  • This embodiment proves advantageous in that it makes it possible to obtain more blur gradient measurements and consequently to further improve the precision of the results obtained for the estimation of the depth map.
  • this configuration makes it possible to directly remove the depth ambiguity as a function of the radius of the blurring task.
  • the depth estimation unit is in fact able to estimate the order relationship between the different sharp planes of an image and the blurred plane of this same image.
  • the depth estimation unit 24 uses a machine learning model, for example a pre-trained neural network such as a convolutional neural network (in English CNN for Convolutional Neural Networks). .
  • a machine learning model for example a pre-trained neural network such as a convolutional neural network (in English CNN for Convolutional Neural Networks).
  • This machine learning model takes as input the first image of the scene and the at least one second image of the scene and provides as output the depth map of the scene.
  • the architecture of the machine learning model is preferably adapted to carrying out a pixel-to-pixel regression task, in this case the calculation, for each pixel, of the distance of the object which is represented at this pixel. on camera.
  • the machine learning model can include two different feature extraction branches EXn, EXf to calculate feature maps respectively of the sharp image In and the blurred image(s) If.
  • image feature extraction branches include layers of successive convolutions followed by nonlinearities such as data normalization functions, dimension reduction functions or nonlinear reprojection functions such as, among others, the sigmoid or the rectified linear unit.
  • the characteristics extracted from the sharp image and the blurred image(s) by each of the branches EXn and EXf are then delivered to an encoder-decoder which includes an ENC encoder, typically a convolutional neural network, responsible for reducing the dimension of the data and a DEC decoder which takes as input the reduced dimension characteristics produced by the encoder in order to predict the depth map of the Dm scene.
  • This decoder is also typically a convolutional neural network whose goal is to recover the spatial dimension at the input of the autoencoder while calculating the characteristics necessary for decoding the characteristics.
  • this method comprises: a simultaneous acquisition step ACQ. of a first image of a scene In with a first depth of field and at least a second image of the scene If with a second depth of field less than the first depth of field, a determination step EST-D d 'a depth map of the scene Dm from the first image of the scene In and the at least one second image of the scene If, and a step of calculating NAV of a navigation trajectory from the first image of an In scene and the depth map of the Dm scene.
  • the invention also extends to a computer program product comprising instructions which, when the program is executed by a computer, lead it to implement the aforementioned steps of determining the depth map and calculating the depth map. the navigation trajectory.
  • the invention further relates to a method for training a machine learning model taking a pair of images as input and providing a depth map as output.
  • This process follows an iterative process which includes:
  • the parameters of the learning model for example the weights of the connections in the case of a neural network, are then adjusted so as to reduce the prediction error of the depth map.
  • the gradient of the error can be calculated in order to determine a direction of variation and a movement in a direction opposite to the gradient is then carried out.
  • This training can be carried out using a database of image pairs, each associated with a depth map, divided into training image pairs and test image pairs.
  • training a neural network consists of determining the value of each of its weights.
  • the neural network processes a pair of training images and as output it makes a prediction. Knowing that we know the pixel-to-pixel depth of each of the training images, it is possible to check whether this prediction is correct. Depending on the veracity of this prediction, the network weights are updated for example according to the error gradient backpropagation algorithm. This process is repeated with all pairs of training images.
  • the training is completed, it is possible to evaluate the model thus trained by presenting it with the pairs of test images and comparing the outputs of the model with the depth maps associated with the pairs of test images.
  • the invention also extends to a computer program product comprising instructions which, when the program is executed by a computer, direct it implementing the processing and calculation steps of the machine learning model training method.
  • the invention offers the following advantages: low cost compared to an active system for determining a depth map, such as for example a system using a Lidar, Low cost compared to the Lidar-based system; better estimation performance using a key monocular depth cue, namely blur, using all depth cues combined, thanks to the sharp image;

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Vascular Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

L'invention porte sur un dispositif d'aide à la navigation destiné à être embarqué sur un système mobile. Ce dispositif comprend : une caméra monoculaire apte à acquérir simultanément une première image d'une scène (In) avec une première profondeur de champ et au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ, une unité d'estimation de profondeur (23) configurée pour déterminer une carte de profondeur (Dm) de la scène à partir de la première image de la scène et de l'au moins une deuxième image de la scène; une unité de vision par ordinateur (24) configurée pour calculer une trajectoire de navigation à partir de la première image d'une scène et de la carte de profondeur de la scène.

Description

Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire
DOMAINE TECHNIQUE
Le domaine de l'invention est celui de l'aide à la navigation d'un système mobile du type robot ou véhicule autonome. L'invention concerne plus particulièrement le calcul d'une trajectoire de navigation pour le système mobile à partir d'une image RGB-D d'une scène, à savoir la combinaison d'une image couleur de la scène et d'une carte de profondeur caractérisant la distance des objets vus dans l'image.
TECHNIQUE ANTÉRIEURE
Le calcul d'une trajectoire de navigation peut être mis en œuvre au moyen de différents algorithmes de vision par ordinateur qui prennent en entrée une image d'une scène et une carte de profondeur de la même scène pour fournir en sortie une solution de navigation par exemple avec évitement d'obstacle et/ou de collision.
Les méthodes d'estimation d'une carte de profondeur sont généralement divisées en deux catégories : les méthodes actives où une source de lumière est projetée dans la scène et les méthodes passives qui ne se basent que sur l'acquisition d'images de la scène éclairée par la lumière ambiante.
Parmi les méthodes passives, on distingue les approches basées sur la géométrie multi-vues (par exemple la stéréovision dans le cas de deux vues) et des approches basées sur des images monoculaires.
L'une des difficultés majeures des systèmes multi-vues concerne la complexité d'appariement des points entre les images provenant des différentes vues dans le cas de scènes faiblement texturées. De plus, la précision de ce type de système dépend fortement de la distance entre les points d'acquisition des différentes images (base stéréo).
Dans les approches basées sur des images monoculaires, on considère qu'une vue unique de la scène contient suffisamment d'indices permettant d'estimer la carte de profondeur. D'un côté, ces indices de profondeur ne sont pas accessibles de manière directe dans l'image et d'un autre coté la transformation entre ces mesures et la carte de profondeur n'est pas trivia le. Ainsi, les réseaux de neurones ont été utilisés afin de résoudre ces deux tâches.
Il a été démontré que les performances de cette approche monoculaire sont améliorées dans le cas d'utilisation d'un indice de flou produit par l'optique de la caméra. Cependant, l'utilisation d'une caméra qui focalise en un plan donné pour acquérir une image présentant un flou de défocalisation par profondeur ne permet pas d'avoir une image nette en tout point (image également dite all-in-focus en anglais) pouvant être exploitée dans les autres tâches de vision. De plus, l'utilisation d'une autre caméra all-in- focus pour les autres tâches pose le problème d'alignement. Une autre solution consiste à utiliser plusieurs images qui focalisent en différents plans. L'inconvénient de ces méthodes réside dans l'acquisition de ces images qui nécessite un alignement. En effet, dans le cas d'utilisation d'une seule caméra à focale variable, les images ne peuvent être alignées lorsque la caméra est embarquée dans un système mobile. Le cas d'utilisation de plusieurs caméras pose lui le problème de la présence de parallaxe.
De plus, dans ce type d'approches, l'image all-in-focus est estimée et non acquise par la caméra, ce qui est une source d'erreur dans le cas de zones faiblement texturées. Il existe d'autres approches qui se basent sur la différence de flou entre deux (ou plusieurs) images. L'inconvénient de ce type d'approches est l'absence d'utilisation des autres indices de profondeurs qui permettent d'améliorer les performances d'estimation de profondeur en plus de l'absence d'images all-in-focus. Ces indices peuvent être, comme le flou, de nature géométriques (la perspective dans l'image, ou la distance des objets par rapport à la ligne d'horizon) ainsi que de nature sémantique (les textures, la taille relative des objets, les occultations).
En résumé, il est démontré que le flou de mise au point d'une caméra constitue un indice permettant d'améliorer significativement les performances de l'estimation de profondeur. Cependant, une image contenant le flou dégrade les performances des autres tâches de vision par ordinateur (segmentation, détection, etc.) nécessaires au calcul de la trajectoire de navigation. L'utilisation de deux caméras pour acquérir deux images, une présentant un flou de mise au point et l'autre nette partout n'offre pas une solution pertinente car l'alignement de deux images présentant un effet de parallaxe entre elles dont l'une floue, constitue une tâche difficile qui est source d'erreur. L'autre solution qui consiste à acquérir par la même caméra deux images en changeant les paramètres de la focale, ne peut être envisagée dans les systèmes mobiles, car les deux images ne seront pas acquises au même instant et donc pas alignées.
EXPOSÉ DE L'INVENTION
L'invention a pour objectif de proposer une solution reposant sur une seule caméra montée sur un système mobile qui puisse permettre d'améliorer les performances de l'estimation de profondeur sans pour autant dégrader les tâches de vision nécessaires au calcul de la trajectoire de navigation du système mobile.
A cet effet, l'invention propose un dispositif d'aide à la navigation destiné à être embarqué sur un système mobile, comprenant une unité de vision par ordinateur configurée pour calculer une trajectoire de navigation à partir d'une première image d'une scène et d'une carte de profondeur de la scène. Ce dispositif comporte en outre une caméra monoculaire apte à acquérir simultanément la première image de la scène avec une première profondeur de champ et au moins une deuxième image de la scène avec une deuxième profondeur de champ inférieure à la première profondeur de champ. Ce dispositif comporte également une unité d'estimation de profondeur configurée pour déterminer la carte de profondeur de la scène à partir de la première image de la scène et de l'au moins une deuxième image de la scène.
Certains aspects préférés mais non limitatifs de ce dispositif sont les suivants : pour déterminer la carte de profondeur de la scène l'unité d'estimation de profondeur utilise un modèle d'apprentissage automatique, par exemple un réseau de neurones pré-entrainé ; l'unité d'estimation de profondeur comprend deux branches d'extraction de caractéristiques différentes pour calculer des cartes de caractéristiques respectivement de la première image et de l'au moins une deuxième image et un encodeur-décodeur prenant en entrée les cartes de caractéristiques calculées par les deux branches d'extraction de caractéristiques pour déterminer la carte de profondeur ; la caméra monoculaire comprend une lentille présentant une première focale, une lentille présentant une deuxième focale supérieure à la première focale et un séparateur apte à diriger un flux lumineux d'entrée vers chacune de la lentille présentant la première focale et de la lentille présentant la deuxième focale ; pour calculer la trajectoire de navigation l'unité de vision par ordinateur utilise également l'au moins une deuxième image de la scène acquise par la caméra monoculaire ; la caméra monoculaire est apte à acquérir simultanément la première image de la scène et une pluralité de deuxièmes images de la scène, les deuxièmes images présentant une mise au point en différents plans de la scène ; la première image est une image nette en tout point et l'au moins une deuxième image présente un flou de défocalisation par profondeur.
L'invention porte également sur un procédé d'aide à la navigation d'un système mobile, comprenant une étape de calcul d'une trajectoire de navigation à partir d'une première image d'une scène et d'une carte de profondeur de la scène. Ce procédé comporte en outre une étape d'acquisition simultanée de la première image de la scène avec une première profondeur de champ et d'au moins une deuxième image de la scène avec une deuxième profondeur de champ inférieure à la première profondeur de champ. Ce procédé comporte également une étape de détermination de la carte de profondeur de la scène à partir de la première image de la scène et de l'au moins une deuxième image de la scène.
Certains aspects préférés mais non limitatifs de ce dispositif sont les suivants : l'étape de détermination de la carte de profondeur est exécutée au moyen d'un modèle d'apprentissage automatique prenant en entrée la première image de la scène et l'au moins une deuxième image de la scène et fournissant en sortie la carte de profondeur de la scène ; le modèle d'apprentissage automatique comprend deux branches d'extraction de caractéristiques différentes pour calculer des cartes de caractéristiques respectivement de la première image et de l'au moins une deuxième et un encodeur-décodeur prenant en entrée les cartes de caractéristiques calculées par les deux branches d'extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
L'invention s'étend à un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé ci-dessus mentionné de de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
L'invention concerne également un procédé d'entraînement d'un modèle d'apprentissage automatique prenant en entrée une paire d'images et fournissant en sortie une carte de profondeur, comprenant :
- l'acquisition, par la caméra monoculaire du dispositif susmentionné, d'une paire d'images d'entraînement consistant en des images simultanément acquises d'une scène;
- la réception d'une carte de profondeur de la scène imagée par la paire d'images d'entraînement ;
- le traitement de la paire d'images d'entraînement par le modèle d'apprentissage automatique ;
- le calcul d'un valeur représentative de la performance du modèle d'apprentissage automatique par comparaison de la carte de profondeur de la scène fournie en sortie du modèle d'apprentissage automatique et de la carte de profondeur de la scène associée à la paire d'images d'entraînement.
L'invention vise également un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre les étapes de traitement et de calcul du procédé d'entraînement
BRÈVE DESCRIPTION DES DESSINS
D'autres aspects, buts, avantages et caractéristiques de l'invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels : - la figure 1 est un schéma illustrant le dispositif selon l'invention monté sur un système mobile ;
- la figure 2 est un schéma d'un dispositif selon l'invention ;
- la figure 3 est un schéma illustrant en quoi l'indice de flou permet de réaliser une estimation de profondeur ;
- la figure 4 est un schéma d'un premier exemple de réalisation de la caméra monoculaire du dispositif selon l'invention ;
- la figure 5 est un schéma d'un second exemple de réalisation de la caméra monoculaire du dispositif selon l'invention ;
- la figure 6 est un schéma d'un mode de réalisation possible de l'unité d'estimation de profondeur.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS
En référence à la figure 1, l'invention porte sur un dispositif d'aide à la navigation destiné à être embarqué sur un système mobile 20, par exemple un système de type robot ou un drone dédié à la reconnaissance d'une zone, à l'exploration de bâtiments ou au transport de matériels. Le dispositif d'aide à la navigation comprend une caméra monoculaire 21 et un module de traitement de données 22 configuré pour prendre comme entrées les images acquises par la caméra monoculaire.
En référence à la figure 2, le module de traitement de données comprend une unité de vision par ordinateur 24 configurée pour calculer une trajectoire de navigation à partir d'une première image In d'une scène imagée par la caméra monoculaire 21 et d'une carte de profondeur de la scène Dm. La trajectoire de navigation peut intégrer un évitement d'obstacles ou de collisions.
Le module de traitement de données comprend par ailleurs une unité d'estimation de profondeur 23 configurée pour déterminer la carte de profondeur Dm de la scène.
Selon l'invention, la caméra monoculaire 21 est apte à acquérir simultanément la première image de la scène In avec une première profondeur de champ et au moins une deuxième image de la scène If avec une deuxième profondeur de champ inférieure à la première profondeur de champ. La première image de la scène et l'au moins une deuxième image de la scène étant simultanément acquises par une caméra monoculaire, elles imagent la scène selon un même point de vue.
L'unité d'estimation de profondeur 23 est quant à elle configurée pour déterminer la carte de profondeur Dm de la scène à partir de la première image de la scène In et de l'au moins une deuxième image de la scène If. Dans un mode de réalisation possible, l'unité de vision par ordinateur 24 utilise également l'au moins une deuxième image de la scène If pour calculer la trajectoire de navigation.
Avec une deuxième profondeur de champ inférieure à la première profondeur de champ, la deuxième image If forme une image floue de la scène tandis que la première image In forme une image nette de la scène.
La première profondeur de champ est de préférence sélectionnée de manière à ce que la première image forme une image all-in-focus nette en tout point. En particulier, pour l'acquisition de la première image, la caméra monoculaire peut être adaptée pour réaliser une mise au point à la distance hyperfocale. De telle manière, la première image présente une plage de netteté qui s'étend de la moitié de cette distance hyperfocale à l'infini. La deuxième profondeur de champ est quant à elle telle que la deuxième image présente un flou de défocalisation par profondeur.
La caméra monoculaire 21 permet ainsi d'acquérir une paire d'images de la scène dont l'une est nette et l'autre présente un flou de mise au point. En outre, les deux images étant acquises d'un même point de vue et en même temps, l'alignement entre les deux images est obtenu de manière directe. Les images In, If acquises par la caméra sont typiquement des images RGB de la scène. Le dispositif est alors fonctionnel en lumière visible. Dans une variante de réalisation, la fonctionnalité du dispositif est étendue à un fonctionnement nocturne en exploitant une autre plage de longueur d'onde (infrarouge typiquement).
La première image In est utilisée pour diverses tâches de vision nécessitant une image de bonne qualité telles que la localisation et la cartographie, la segmentation sémantique ou la détection et le suivi. La première image In est ainsi exploitée par l'unité de vision par ordinateur 24 afin d'élaborer la trajectoire de navigation. La deuxième image, qui focalise en un plan et contient le flou qui varie en fonction de la profondeur, permet d'améliorer significativement les performances de l'estimation de profondeur. Par ailleurs, selon l'invention, l'image nette est également utilisée dans l'estimation de profondeur. La combinaison de l'indice de flou présent dans la deuxième image présentant le flou de focalisation avec les indices de profondeurs présents dans l'image nette (qui sont d'ordre géométrique comme la perspective ou l'élévation des objets par rapport à la ligne d'horizon de l'image, ou d'ordre sémantique comme les indices de niveau de détail des textures en fonction de la distance, de taille relative des objets dans la scène par rapport à leur éloignement à la caméra ou encore d'occultations des objets entre eux) permet d'améliorer significativement les performances de la tâche d'estimation de profondeur.
La figure 3 illustre l'effet de flou de mise au point. On remarque que des points 11 et 12 situés à des distances différentes d'une optique 9 produisent des tâches optiques de différents diamètres 13 et 14 sur un capteur photosensible 10. Ainsi le diamètre de flou d'un point sur le capteur 10 contient une importante indication sur la profondeur de ce point dans la scène. Néanmoins, la relation entre le diamètre de flou et la distance d'un point n'est pas bijective. En effet, il existe deux points, l'un devant le plan de focalisation et l'autre derrière le plan de focalisation, qui produisent deux tâches de flou du même diamètre. Cette ambiguïté est levée de manière implicite par l'unité d'estimation de profondeur 23.
La figure 4 est un schéma illustrant un mode de réalisation possible de la caméra monoculaire du dispositif d'aide à la navigation selon l'invention. La caméra 1 comprend un système d'acquisition qui comporte une optique d'entrée 3 permettant d'imager la surface d'un objet 2 de la scène à l'intérieur du système d'acquisition, un séparateur 4 (par exemple un miroir semi-réfléchissant) qui permet de diriger un flux lumineux d'entrée vers deux lentilles 5 et 7 dont l'une présente une plus courte focale que l'autre. Le flux de lumière est ensuite intégré par les deux capteurs photosensibles 6 et 8 permettant ainsi de fournir l'image nette In et l'image floue If. L'avantage de ce système d'acquisition est qu'il permet de produire deux images de la même scène capturées au même moment et sans effet parallaxe entre elles. La figure 5 est un schéma illustrant un autre mode de réalisation possible de la caméra monoculaire 1 du dispositif d'aide à la navigation selon l'invention. Dans ce mode de réalisation, le système d'acquisition est configuré pour permettre l'acquisition simultanée de N images de la scène dont une image nette et N-l images floues qui présentent une mise au point en différents plans de la scène. Ce mode de réalisation s'avère avantageux en ce qu'il permet d'obtenir plus de mesures de gradient de flou et par conséquent d'améliorer encore la précision des résultats obtenus pour l'estimation de la carte de profondeur. De plus cette configuration permet de lever de manière directe l'ambiguïté de profondeur en fonction du rayon de la tâche de floue. Avec des images floues de diverses mises au point et une image nette, l'unité d'estimation de profondeur est en effet en mesure d'estimer la relation d'ordre entre les différents plans nets d'une image et le plan flou de cette même image.
Dans un mode de réalisation possible, l'unité d'estimation de profondeur 24 utilise un modèle d'apprentissage automatique, par exemple un réseau de neurones pré-entrainé tel qu'un réseau de neurones convolutif (en anglais CNN pour Convolutional Neural Networks).
Ce modèle d'apprentissage automatique prend en entrée la première image de la scène et l'au moins une deuxième image de la scène et fournit en sortie la carte de profondeur de la scène. L'architecture du modèle d'apprentissage automatique est de préférence adaptée à la réalisation d'une tâche de régression pixel à pixel, en l'occurrence le calcul, pour chaque pixel, de la distance de l'objet qui est représenté en ce pixel à la caméra.
En référence à la figure 6, le modèle d'apprentissage automatique peut comprendre deux branches d'extraction de caractéristiques EXn, EXf différentes pour calculer des cartes de caractéristiques respectivement de l'image nette In et de la ou des images floues If. Ces branches d'extraction de caractéristiques d'images comprennent des couches de convolutions successives suivies de non linéarités telles que des fonctions de normalisation de données, des fonctions de réduction de dimension ou des fonctions de reprojection non linéaire comme, entre autres, la sigmoïde ou l'unité linéaire rectifiée. Les caractéristiques extraites de l'image nette et de la ou des images floues par chacune des branches EXn et EXf sont ensuite délivrées à un encodeur-décodeur qui comprend un encodeur ENC, typiquement un réseau de neurones convolutif, chargé de réduire la dimension des données et un décodeur DEC qui prend en entrée les caractéristiques de dimension réduite produites par l'encodeur afin de prédire la carte de profondeur de la scène Dm. Ce décodeur est lui aussi typiquement un réseau de neurones convolutif dont le but est de recouvrer la dimension spatiale en entrée de l'auto-encodeur tout en calculant les caractéristiques nécessaires au décodage des caractéristiques.
L'invention n'est pas limitée au dispositif tel que décrit précédemment, mais s'étend également à un procédé d'aide à la navigation d'un système mobile. En référence à la figure 2, ce procédé comprend : une étape d'acquisition simultanée ACQ. d'une première image d'une scène In avec une première profondeur de champ et d'au moins une deuxième image de la scène If avec une deuxième profondeur de champ inférieure à la première profondeur de champ, une étape de détermination EST-D d'une carte de profondeur de la scène Dm à partir de la première image de la scène In et de l'au moins une deuxième image de la scène If, et une étape de calcul NAV d'une trajectoire de navigation à partir de la première image d'une scène In et de la carte de profondeur de la scène Dm.
L'invention s'étend également à un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes suscitées de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
L'invention concerne par ailleurs un procédé d'entraînement d'un modèle d'apprentissage automatique prenant en entrée une paire d’images et fournissant en sortie une carte de profondeur. Ce procédé suit un processus itératif qui comprend :
- l'acquisition, par la caméra monoculaire du dispositif selon l'invention, d'une paire d'images d'entraînement consistant en des images simultanément acquises d'une scène; - la réception d'une carte de profondeur de la scène imagée par la paire d'images d'entraînement, ladite carte ayant été obtenue par une méthode tierce, par exemple une carte de profondeur acquise par un Lidar, au moyen d'une lumière structurée, par une caméra temps de vol, par stéréovision, etc. ;
- le traitement de la paire d'images d'entraînement par le modèle d'apprentissage automatique ;
- le calcul d'une valeur représentative de la performance du modèle d'apprentissage automatique par comparaison de la carte de profondeur de la scène fournie en sortie du modèle d'apprentissage automatique et de la carte de profondeur de la scène associée à la paire d'images d'entraînement.
Les paramètres du modèle d'apprentissage, par exemple les poids des connexions dans le cas d'un réseau de neurones, sont alors ajustés de sorte à réduire l'erreur de prédiction de la carte de profondeur. Par exemple, le gradient de l'erreur peut être calculé afin d'en déterminer une direction de variation et un déplacement dans une direction opposée au gradient est alors réalisé.
Cet entraînement peut être effectué au moyen d'une base de données de paires d'images, chacune associée à une carte de profondeur, divisées en des paires d'images d'entrainement et des paires d'images de test. Comme indiqué précédemment, l'entraînement d'un réseau de neurones consiste à déterminer la valeur de chacun de ses poids. Le réseau de neurones traite une paire d'images d'entrainement et en sortie il fait une prédiction. Sachant que l'on a connaissance de la profondeur pixel à pixel de chacune des images d'entraînement, il est possible de vérifier si cette prédiction est correcte. En fonction de la véracité de cette prédiction, les poids du réseau sont mis à jour par exemple selon l'algorithme de rétropropagation du gradient de l'erreur. Ce processus est répété avec la totalité des paires d'images d'entrainement. Une fois l'entrainement terminée, il est possible d'évaluer le modèle ainsi entraîné en lui présentant les paires d'images de test et en confrontant les sorties du modèle avec les cartes de profondeur associées aux paires d'images de test.
L'invention s'étend également à un produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes de traitement et de calcul du procédé d'entraînement du modèle d'apprentissage automatique.
L'invention offre les avantages suivants : un faible coût par rapport à un système actif de détermination d'une carte de profondeur, comme par exemple un système exploitant un Lidar, Le faible coût par rapport au système basé Lidar ; de meilleurs performances d'estimation en utilisant un indice de profondeur monoculaire clé, à savoir le flou, l'utilisation de l'ensemble des indices de profondeur combinés, grâce à l'image nette ;
La suppression de l'étape d'alignement des images grâce au système d'acquisition (images acquises au même instant et sans effet de parallaxe) ;
L'acquisition, et non l'estimation, d'une image all-in-focus exploitable dans les autres tâches de vision.

Claims

REVENDICATIONS
1. Dispositif d'aide à la navigation destiné à être embarqué sur un système mobile, comprenant une unité de vision par ordinateur (24) configurée pour calculer une trajectoire de navigation à partir d'une première image d'une scène (In) et d'une carte de profondeur de la scène (Dm), caractérisé en ce qu'il comporte en outre : une caméra monoculaire apte à acquérir simultanément la première image de la scène (In) avec une première profondeur de champ et au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ, et une unité d'estimation de profondeur (23) configurée pour déterminer la carte de profondeur de la scène (Dm) à partir de la première image de la scène et de l'au moins une deuxième image de la scène.
2. Dispositif selon la revendication 1, dans lequel pour déterminer la carte de profondeur de la scène l'unité d'estimation de profondeur (23) utilise un modèle d'apprentissage automatique, par exemple un réseau de neurones pré-entrainé.
3. Dispositif selon la revendication 2, dans lequel l'unité d'estimation de profondeur comprend deux branches d'extraction de caractéristiques (EXn, EXf) différentes pour calculer des cartes de caractéristiques respectivement de la première image (In) et de l'au moins une deuxième image (If) et un encodeur-décodeur (ENC, DEC) prenant en entrée les cartes de caractéristiques calculées par les deux branches d'extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
4. Dispositif selon l'une des revendications 1 à 3, dans lequel la caméra monoculaire comprend une lentille (5) présentant une première focale, une lentille (7, 15, N) présentant une deuxième focale supérieure à la première focale et un séparateur (4) apte à diriger un flux lumineux d'entrée vers chacune de la lentille présentant la première focale et de la lentille présentant la deuxième focale.
5. Dispositif selon l'une des revendications 1 à 4, dans lequel pour calculer la trajectoire de navigation l'unité de vision par ordinateur (24) exploite également l'au moins une deuxième image de la scène acquise par la caméra monoculaire.
6. Dispositif selon l'une des revendications 1 à 5, dans lequel la caméra monoculaire est apte à acquérirsimultanément la première image de la scène et une pluralité de deuxièmes images de la scène, les deuxièmes images présentant une mise au point en différents plans de la scène.
7. Dispositif selon l'une des revendications 1 à 6, dans lequel la première image est une image nette en tout point et l'au moins une deuxième image présente un flou de défocalisation par profondeur.
8. Procédé d'aide à la navigation d'un système mobile, comprenant une étape de calcul (NAV) d'une trajectoire de navigation à partir d'une première image d'une scène (In) et d'une carte de profondeur de la scène (Dm), caractérisé en ce qu'il comporte en outre une étape d'acquisition simultanée (ACQ) de la première image de la scène (In) avec une première profondeur de champ et d'au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ et une étape de détermination de la carte de profondeur de la scène (EST-D) à partir de la première image de la scène (In) et de l'au moins une deuxième image de la scène (If).
9. Procédé selon la revendication 8, dans lequel l'étape de détermination de la carte de profondeur est exécutée au moyen d'un modèle d'apprentissage automatique prenant en entrée la première image de la scène (In) et l'au moins une deuxième image de la scène (If) et fournissant en sortie la carte de profondeur de la scène.
10. Procédé selon la revendication 9, dans lequel le modèle d'apprentissage automatique comprend deux branches d'extraction de caractéristiques (EXn, EXf) différentes pour calculer des cartes de caractéristiques respectivement de la première image (In) et de l'au moins une deuxième image (If) et un encodeur-décodeur (ENC, DEC) prenant en entrée les cartes de caractéristiques calculées par les deux branches d'extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
11. Produit programme d'ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en oeuvre les étapes du procédé selon l'une des revendications 8 à 10 de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
PCT/FR2023/050691 2022-05-17 2023-05-15 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire WO2023222970A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2204663 2022-05-17
FR2204663A FR3135811A1 (fr) 2022-05-17 2022-05-17 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire

Publications (1)

Publication Number Publication Date
WO2023222970A1 true WO2023222970A1 (fr) 2023-11-23

Family

ID=82850602

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2023/050691 WO2023222970A1 (fr) 2022-05-17 2023-05-15 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire

Country Status (2)

Country Link
FR (1) FR3135811A1 (fr)
WO (1) WO2023222970A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226419A1 (en) * 2019-01-11 2020-07-16 Google Llc Depth Prediction from Dual Pixel Images
US20200242788A1 (en) * 2017-10-04 2020-07-30 Google Llc Estimating Depth Using a Single Camera
US20220046219A1 (en) * 2020-08-07 2022-02-10 Owl Autonomous Imaging, Inc. Multi-aperture ranging devices and methods
US20220101546A1 (en) * 2020-09-25 2022-03-31 Industrial Technology Research Institute Automated guided vehicle navigation device and method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200242788A1 (en) * 2017-10-04 2020-07-30 Google Llc Estimating Depth Using a Single Camera
US20200226419A1 (en) * 2019-01-11 2020-07-16 Google Llc Depth Prediction from Dual Pixel Images
US20220046219A1 (en) * 2020-08-07 2022-02-10 Owl Autonomous Imaging, Inc. Multi-aperture ranging devices and methods
US20220101546A1 (en) * 2020-09-25 2022-03-31 Industrial Technology Research Institute Automated guided vehicle navigation device and method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUO QI ET AL: "Compact single-shot metalens depth sensors inspired by eyes of jumping spiders", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, vol. 116, no. 46, 28 October 2019 (2019-10-28), pages 22959 - 22965, XP093006566, ISSN: 0027-8424, DOI: 10.1073/pnas.1912154116 *

Also Published As

Publication number Publication date
FR3135811A1 (fr) 2023-11-24

Similar Documents

Publication Publication Date Title
FR3081248A1 (fr) Systeme et procede de determination d’un emplacement pour le placement d'un paquet
EP1431907A1 (fr) Evaluation de la netteté d'une image d'iris d'oeil
EP3707676A1 (fr) Procédé d'estimation de pose d'une caméra dans le référentiel d'une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d'ordinateur associé
EP2593907A1 (fr) Procédé de détection d'une cible dans des images stéréoscopiques par apprentissage et classification statistique à partir d'une loi de probabilité
EP3614306A1 (fr) Procédé de localisation et d'identification de visage et de détermination de pose, à partir d'une vue tridimensionnelle
EP3866064A1 (fr) Procede d'authentification ou d'identification d'un individu
EP3901794A1 (fr) Procédé d'authentification ou d'identification d'un individu
EP2909671B1 (fr) Procede de conception d'un imageur monovoie passif capable d'estimer la profondeur de champ
FR3057095B1 (fr) Procede de construction d'une carte de profondeur d'une scene et/ou d'une image entierement focalisee
WO2023222970A1 (fr) Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire
WO2017093057A1 (fr) Procede de caracterisation d'une scene par calcul d'orientation 3d
FR3065097B1 (fr) Procede automatise de reconnaissance d'un objet
EP3274913B1 (fr) Dispositif et procede pour l'acquisition biometrique de l'iris
EP2877979B1 (fr) Methode monocamera de determination d'une direction d'un solide
EP3757943B1 (fr) Procédé et dispositif de télémétrie passive par traitement d'image et utilisation de modeles en trois dimensions
EP1371958A1 (fr) Procédé et dispositif d'extraction de signature spectrale d'une cible ponctuelle
EP3072110B1 (fr) Procédé d'estimation du mouvement d'un objet
FR3082936A1 (fr) Traitement stereoscopique de donnees de vehicules connectes
BE1015708A3 (fr) Procede pour mesurer la hauteur de spheres ou d'hemispheres.
EP3757942A1 (fr) Procédé et dispositif de télémétrie passive par traitement d'image
WO2017187059A1 (fr) Methode de reglage d'un appareil de prise de vue stereoscopique
EP3394795B1 (fr) Procédé de détection d'un timon d'attelage et produit programme d'ordinateur associé
FR3128561A1 (fr) Procédé de calibration automatique des paramètres extrinsèques d’un réseau de caméras optiques ; Produit programme d’ordinateur, système de vision par ordinateur et véhicule automobile associés.
FR3141763A1 (fr) Système et procédé d’aide à la navigation d’un système mobile
FR3054678B1 (fr) Kit pour dispositif imageur

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23729811

Country of ref document: EP

Kind code of ref document: A1