WO2018185104A1

WO2018185104A1 - Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes

Info

Publication number: WO2018185104A1
Application number: PCT/EP2018/058493
Authority: WO
Inventors: Amine KACETE; Thomas WENTZ
Original assignee: B<>Com
Priority date: 2017-04-06
Filing date: 2018-04-03
Publication date: 2018-10-11
Also published as: FR3065100B1; FR3065100A1

Abstract

L'invention concerne un procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, comprenant les étapes suivantes : - Obtention (E1) d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra; - Extraction (E2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image; - Formation (E3) d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite; - Prédiction(E4) de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de lascène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue; - Estimation (E5) d'une pose de la caméra à partir de la pluralité de poses prédites.

Description

Procédé d'estimation de pose, dispositif, système et programme d'ordinateur associés

1. Domaine de l'invention

Le domaine de l'invention est celui de l'estimation de la pose d'une caméra dans le référentiel d'une scène tridimensionnelle (3D).

L'invention peut notamment, mais non exclusivement, s'appliquer à l'insertion d'un ou plusieurs objets virtuels ou réels dans l'image de la scène réelle vue par la caméra .

2. Présentation de l'art antérieur On connaît du document de Shotton et al. , intitulé « Scène Coordinate Régression Forests for Caméra Relocalisation in RGB-D images », publié par la Conférence IEEE Conférence on Computer Vision and Pattern Récognition, en 2013, une solution permettant de calculer la pose d'une caméra RGB-D (pour « Red Green Blue - Depth », en anglais) à l'aide d'un système d'apprentissage automatique, pour (« machine learning », en anglais), qui prédit, à partir d'une image d'intensités de couleurs et une image de profondeur acquises par la caméra, un nuage de points correspondants dans un référentiel de la scène 3D. La pose de la caméra est ensuite estimée sur la base du nuage de points prédit.

Un avantage de cette solution est qu'elle prédit la pose de la caméra de façon complètement automatique sans aucune hypothèse géométrique.

3. Inconvénients de l'art antérieur

Un premier inconvénient de cette méthode est qu'elle impose de manipuler des nuages de points, ce qui la rend complexe à mettre en œuvre, notamment parce qu'elle nécessite des ressources importantes de calcul et de stockage. Un deuxième inconvénient de cette méthode est qu'elle comprend une transformation préalable de l'image destinée à prendre en compte des paramètres intrinsèques de la caméra, tels que des focales ou des centres de projection. Cette étape nécessite une calibration préalable de la caméra.

Objectifs de l'invention

L'invention vient améliorer la situation. L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.

Plus précisément, un objectif de l'invention est de proposer une solution plus économe en ressources pour des performances comparables.

Un autre objectif de l'invention est de propose une méthode qui ne nécessite pas de calibration préalable de la caméra.

5. Exposé de l'invention

Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit procédé comprenant les étapes suivantes :

Obtention d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra ;

Extraction d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; - Formation d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;

Prédiction de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;

Estimation d'une pose de la caméra à partir de la pluralité de poses prédites.

L'invention propose donc de sélectionner un sous-ensemble pertinent des données acquises par la caméra, sous la forme d'imagettes centrées sur des points d'intérêt des images d'entrée, invariants aux translations, rotations et changements d'échelle, et de présenter ces imagettes telles quelles au système de prédiction automatique, sans nécessité de projection préalable de ces imagettes dans un référentiel de la caméra .

Avec l'invention, la prédiction automatique de la pose de la caméra ne se fait pas à partir de nuages de points obtenus par projection des points de l'image de profondeur dans le référentiel de la scène tridimensionnelle, comme le fait l'art antérieur, mais à partir de simples imagettes extraites directement des images d'entrée et positionnées sur des points d'intérêt de ces images.

Contrairement à l'art antérieur, l'invention ne nécessite donc pas de calibration préalable de la caméra, ce qui simplifie les opérations préalables à l'application du système de prédiction automatique.

La quantité de données à traiter par le système de prédiction automatique est ainsi fortement réduite.

Un avantage est de l'invention est qu'elle est plus simple à mettre en œuvre, avec des ressources de calcul et de stockage plus réduites, pour des performances équivalentes à celles de l'art antérieur.

Selon un aspect de l'invention, le procédé comprend une phase préalable d'apprentissage comprenant les étapes suivantes :

Obtention d'une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ;

Extraction d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;

Formation d'une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite;

Entraînement du système de prédiction automatique de pose à partir d'échantillons comprenant un dit couple d'imagettes et la pose du couple d'images dont elles sont issues.

Lors de l'apprentissage, l'ensemble de test comprend des imagettes associées à la pose de la caméra correspondante et le système est entraîné pour apprendre directement à prédire la pose d'une imagette d'entrée.

Un avantage est que l'apprentissage se fait lui aussi sur la base d'une quantité d'informations réduites.

Selon un autre aspect de l'invention, le système de prédiction automatique comprend une forêt décisionnelle aléatoire comprenant une pluralité d'arbres de décision, un arbre de décision comprenant des nœuds séparateurs, apte à séparer de façon binaire u n grou pe d'échantillons issu d'un nœud amont en sous-groupes, à transmettre les sous-groupes à des nœuds séparateurs aval, et des nœuds feuilles, aptes à stocker une distribution des poses associées à un sous-groupe reçu d'un nœud séparateur amont.

Selon l'invention, l'étape d'entraînement comprend, pour un échantillon, un calcul d'une pluralité de tests de séparation binaire basés sur une différence entre des informations d'intensité de couleur ou de profondeur d'une de ses imagettes, une évaluation pour le groupe de la séparation selon une mesure de pu reté des sous-groupes basée sur une distance entre les poses d'u n sous-groupe et le centroïde du sous-groupe et une étape de sélection du test de séparation qui maximise la mesure de pureté.

La phase d'apprentissage génère ainsi une pluralité de tests de séparation binaire des échantillons de la collection de données d'apprentissage, typiquement des centaines voire des milliers et sélectionne le meilleur sur la base du critère de pureté. Avec l'invention, l'entraînement de la forêt décisionnelle aléatoire se fait à partir de poses et d'imagettes, qui forment une quantité de données réduite par rapport à l'art antérieur. La complexité et le temps d'exécution de la phase d'apprentissage s'en trouvent réduits. Selon un autre aspect de l'invention, la mesure de pureté prend en compte une fonction objective qui s'exprime sous la forme suivante :

Avec L ensemble des nœuds fils gauche, R ensemble des nœuds fils droits, Sⁿ ensemble des échantillons qui arrivent au nœud aval gauche respectivement droit, |5ⁿ| désigne le cardinal de l'ensemble Sⁿ.

Le test sélectionné est celui qui minimise la fonction objective Q.

Un avantage de cette fonction est qu'elle est peu complexe, du fait qu'une pose yj comprend seulement 7 composantes. Son calcul nécessite donc beaucoup moins d'opérations que la fonction objective de l'art antérieur qui s'applique à des nuages de points Lj de dimensions égales à celles d'une image acquise par la caméra.

Selon un aspect de l'invention, le procédé comprend une étape de raffinement de la pose estimée de la caméra par recalage d'un nuage de points reconstruit dans un référentiel de la caméra à partir de l'image de profondeur d'entrée et d'un nuage de points dense de la scène projeté dans ledit référentiel à l'aide de la pose estimée. Un avantage est d'augmenter la précision de la pose estimée, ce qui peut être utile pour certaines applications.

L'invention concerne également un dispositif d'estimation de pose adapté pour mettre en œuvre le procédé selon l'un quelconque des modes particu liers de réalisation définis ci-dessus. Ce dispositif pourra bien sûr comporter les différentes caractéristiques relatives au procédé d'estimation de pose selon l'invention. Ainsi, les caractéristiques et avantages de ce dispositif sont les mêmes que ceux du procédé d'estimation de pose, et ne sont pas détaillés plus amplement.

Selon un mode particulier de réalisation de l'invention, un tel dispositif d'estimation de pose est compris dans un équipement terminal.

Corrélativement, l'invention concerne aussi un système de réalité augmentée comprenant : un module d'acquisition, comprenant une caméra apte à acquérir une image d'intensités de couleurs et une image de profondeur d'une scène tridimensionnelle réelle, un module de composition d'images apte à composer une image de sortie à partir d'une image d'entrée acquise de la scène par la caméra et au moins un objet réel ou virtuel, ladite image d'entrée étant localisée dans la scène à l'aide d'une pose estimée de la caméra, un module d'affichage apte à restituer l'image de sortie, un dispositif selon l'invention, apte à estimer ladite pose dans une phase de test.

Un tel système permet d'insérer des objets virtuels ou réels à la scène 3D à la bonne position et avec la bonne perspective grâce à l'estimation de pose réalisée par l'invention.

Avantageusement, le système comprend un module d'annotation d'images d'entrée, apte à calculer une pose d'une image d'entrée, ladite pose étant exploitée par le dispositif d'estimation de pose selon l'invention, dans une phase d'apprentissage.

De cette manière, le système est autonome et peut acquérir toutes les données nécessaires à l'apprentissage d'une nouvelle scène 3D.

L'invention concerne aussi un programme d'ordinateur comportant des instructions pour la mise en œuvre des étapes d'un procédé d'estimation de pose tel que décrit précédemment, lorsque ce programme est exécuté par un processeur.

Ce programme peut utiliser n'importe quel langage de programmation. Il peut être téléchargé depuis un réseau de communication et/ou enregistrés sur un support lisible par ordinateur. L'invention se rapporte enfin à des supports d'enregistrement, lisibles par un processeur, intégrés ou non au dispositif d'estimation de pose selon l'invention, éventuellement amovible, mémorisant respectivement un programme d'ordinateur mettant en œuvre un procédé d'estimation de pose, tel que décrit précédemment.

6. Liste des figures

D'autres avantages et caractéristiques de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation particulier de l'invention, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 décrit de façon schématique les étapes d'un procédé d'estimation de pose d'une caméra lors d'une phase d'apprentissage, selon un mode de réalisation de l'invention ; la figure 2 illustre un exemple de couple d'images acquises par une caméra RGB-D ; la figure 3 illustre des exemples de filtres utilisés pour extraire des points clés d'une image d'intensités de couleurs ; la figure 4 présente u n exemple d'extraction de points d'intérêt d'une image d'intensité de couleurs ; la figure 5 illustre de façon schématique un échantillon de la collection de données d'apprentissage selon l'invention, comprenant un couple d'imagettes et la pose du couple d'images dont elles sont issues; la figure 6 illustre de façon schématique un exemple de forêt décisionnelle aléatoire mis en œuvre par l'invention ; la figure 7 présente de façon schématique les étapes du procédé d'estimation de pose dans sa phase de test selon un mode de réalisation de l'invention ; la figure 8A illustre la trajectoire de la caméra lors de l'acquisition des images de l'ensemble d'apprentissage ; la figure 8B illustre les poses prédites par le système automatique, la pose estimée à partir de l'ensemble de poses prédites et la pose réelle de la caméra ; les figures 9A et 9B présentent des courbes d'évolution du taux d'erreur de translation obtenu par le procédé selon l'invention en fonction des dimensions de la forêt décisionnelle aléatoire ; les figures 10A à 10F présentent les erreurs quadratiques moyennes relatives à la translation et la rotation de la caméra obtenues par le procédé selon l'invention sur différentes bases d'images ; la figure 11 compare de façon schématique la phase d'apprentissage du procédé d'estimation de pose selon l'invention à celle de l'art antérieur ; la figure 12 compare de façon schématique la phase de test du procédé d'estimation de pose selon l'invention à celle de l'art antérieur ; la figure 13 illustre de façon schématique une projection de type sténopé des images acquises par la caméra dans un référentiel de la caméra selon l'art antérieur;

- les figures 14A à 14D comparent les temps d'apprentissage et la quantité de mémoire utilisée par un système de prédiction automatique de type forêt décisionnelle aléatoire du procédé selon l'invention avec l'art antérieur ; et la figure 15 illustre de façon schématique la structure matérielle d'un dispositif d'estimation de pose selon un mode de réalisation de l'invention.

7. Description d'un mode de réalisation particulier de l'invention

On considère une scène réelle et un référentiel de cette scène, appelé référentiel monde.

Le principe général de l'invention repose sur l'acquisition d'images d'intensité de couleur et de profondeur à l'aide d'une caméra RGB-D, sur l'extraction de ces images d'une pluralité d'imagettes centrées sur des points d'intérêt de l'image d'intensité de couleur et sur la prédiction d'une pose de la caméra à partir de cette pluralité d'imagettes par application d'un système de prédiction automatique préalablement entraîné à l'aide d'un ensemble d'apprentissage comprenant des imagettes associées à des poses connues.

Dans la suite de la description, le système de prédiction automatique considéré est une forêt décisionnelle aléatoire (pour « Random Forest », en anglais), connue en soi et par exemple décrite dans le document de Shotton déjà cité.

En relation avec la Figure 1, on décrit les étapes d'un procédé d'estimation de pose d'une caméra dans une phase d'apprentissage selon un mode de réalisation de l'invention.

Au cours d'une étape Al, des données d'apprentissage sont collectées. Ces données sont constituées d'une collection de N images (pour « frames », en anglais), avec N entier non nul, qui sont soit acquises directement par u ne caméra RGB-D, apte à fournir une image d'intensité de couleur I^e et son image de profondeur I^D associée, soit obtenues d'une base de données publiques. Ces données d'apprentissage comprennent aussi une pose de la caméra dans le référentiel monde, associée à chacune des images de la collection. N est par exemple compris entre 100 et 2000. Par exemple, les données d'apprentissage sont acquises par un module MACQ constitué par exemple d'un système « Kinect.v2 ® », marque déposée, apte à acquérir simultanément les images d'intensité de couleur et de profondeur et la pose de caméra associée. Ce système comprend un capteur RGB apte à générer une image de résolution w= 1920xh= 1080 pixels à 30 Hz et un capteur D de profondeur apte à capturer une image de résolution 512x424 avec la même fréquence. L'image d'intensité de couleur et l'image de profondeur sont ensuite alignées de telle sorte qu'elles présentent les mêmes dimensions w, h et correspondent à un unique point de vue de la caméra RGB-D.

Le système Kinect.v2 comprend en outre un émetteur laser et une caméra infrarouge. Le laser génère une onde modulée qui est capturée par la caméra infrarouge. Un temps de trajet de l'onde entre l'émetteur et un objet de la scène est calculé puis exploité pour en déduire une distance entre l'émetteur et l'objet.

Dans la suite, on désigne par (If, 1,°) avec i entier compris entre 1 et N, un couple d'images acquis par la caméra RGB-D. Un exemple de couple d'images (If, 1,°) est illustré par la Figure 2.

Selon l'exemple précédent, la pose de la caméra est obtenue à l'aide d'un module d'annotation apte à calculer une pose associée à chaque paire d'images de la caméra. Il s'agit par exemple d'un module « KinectFusion ®», marque déposée, inclus dans le système « Kinect.v2 ® », dont le principe de fonctionnement est par exemple décrit dans le document de Newcombe et a/. intitulé « KinectFusion : Real-time Dense Surface Mapping and Tracking », par la conférence IEEE International Symposium on Mixed and Augmented Reality (ISMAR), 2011. Ce système est basé sur une méthode de reconstruction dense 3D et temps-réel qui s'appuie sur une technique de Localisation et Mise en correspondance simultanées ou SLAM (pour « Simultaneous Localization and Mapping », en anglais). Une telle technique fait des hypothèses géométriques et temporelles sur la scène. Elle considère une paire d'images en entrée, en extrait des points d'intérêts et les met en correspondance, ce qui lui permet, en résolvant un système linéaire d'équations, de déterminer précisément la pose de la caméra et de reconstruire un modèle 3D de la scène X_M- Un exemple de reconstruction dense d'un sujet à partir des images acquises par une caméra RGB-D qui se déplace selon une trajectoire particulière dans la scène, est illustré par la Figure 8B. La trajectoire de la caméra est représentée sur a Figure 8A par une succession de sphères, une sphère étant représentative de la pose de la caméra associée à un couple d'images. Le sujet est reconstruit dans le référentiel monde (O, x, y, z) à partir des vues correspondant aux différentes images acquises successivement par la caméra.

Ce système fournit donc les valeurs de pose y, de la caméra associées à chaque instant d'acquisition d'un couple d'images RGB-D If, 1,°. Ces informations constituent une « vérité terrain » nécessaire à l'apprentissage du système de prédiction de pose qui va être décrit ci-après.

On notera qu'il existe d'autres systèmes d'annotation de poses, qui utilisent des marqueurs positionnés sur la caméra RGB-D. Par exemple, ils sont composés d'un matériau qui offre une réponse maximale à un module de segmentation comprenant un laser, apte à les localiser. Par exemple, la base de données CORBS décrite dans le document de Wasenmûller et al., intitulé « Corbs : Comprehensive RGB-D Benchmark for SLAM using Kinect v2 », publié par la conférence Applications of Computer Vision, en 2016, pages 1-7, a été annotée de cette manière.

On peut aussi obtenir directement le couple d'images et leur pose associée d'une base d'images.

De façon connue en soi, la pose d'un couple d'images s'exprime par exemple sous la forme y, = (Oj, Ti), avec Oj un quaternion unitaire comprenant 4 composantes de rotation q_w, q_x, q_y, q_z et T, u n vecteur comprenant 3 composantes de translation t_x, t_y, t_z de la caméra dans le référentiel monde (O, x, y, z).

Au cours d'une étape A2, on extrait K points d'intérêt de l'image d'intensité de couleur If, avec K entier non nul, inférieur à au nombre w. h de pixels contenus dans l'image If. On désigne par points d'intérêt, ou points clés, des points invariants aux rotations/translations/ changements d'échelle. Ce module détecte des points isolés (pour « sparse », en anglais) par exemple à l'aide d'une méthode dite SURF et décrite dans le document de Bay et al. , intitulé « Speeded-up Robust Features (SURF) », publié dans la revue Computer Vision and Image Understanding , numéro 110, pages 346-359, en 2008.

La méthode SURF exploite une matrice Hessienne Ή(χ, σ) définie comme suit :

avec

d²

L_xx(pc, σ) = /(x) x g(a), L_xy(x, a) = Ι(χ) χ— α(σ)

d²x² où I(x) représente l'image dans laquelle on cherche à extraire les points clés. g(&) définit une gaussienne avec un noyau σ. La convolution de l'image avec la gaussienne a pour but de représenter l'image à plusieurs résolutions, sous la forme d'une pyramide d'échelles. Une dérivation seconde est

/ d² d² \

appliquée a aux images de la pyramide ^, -^) ce qui correspond a une intensité de variation de contraste. Concrètement, pour calculer les dérivées secondes sur l'image on utilise des noyaux discrets convolutifs. En relation avec la Figure 3, on présence des exemples de filtres permettant de calculer L_xx et L_xy respectivement.

On calcule ensuite le déterminant de ¾^" qui estdéfini comme suit :

DetÇK) = D_xxD_yy - (0.9D_xy)² où D_xx est l'approximation de L_xx par une convolution avec un noyau discret. Une réponse maximale correspond à un point clé KP(x, y, s) dont la position dans l'image vaut x, y et s correspond à l'échelle à laquelle il a été extrait. Une orientation de ce point clé est calculée à partir d'une ondelette de Haar dans les directions x, y sur un voisinage prédéterminé. Une orientation principale est calculée comme étant la somme de toute les réponses des ondelettes sur un secteur de π/3. En relation avec la Figure 4, on présente un exemple de points d'intérêt extraits d'une image d'intensités de couleur If. On note qu'il s'agit par exemple de points correspondant à des angles et des changements de contraste importants.

On extrait généralement entre 30 et 200 points d'intérêt par image. On associe à chaque point sa valeu r d'échelle et son orientation. La valeur d'échelle indique le niveau de détails et d'importance du point clé extrait. L'orientation indique la nature du changement de contraste.

Au cours d'une étape A3, illustrée par la Figure 5, on forme ensuite des imagettes (pour « patches », en anglais) centrées sur les points d'intérêt KP extraits, dans chacune des images du couple (If, 1,°). Dans cet exemple de réalisation, elles sont toutes choisies avec les mêmes dimensions, égales à 20x20. Plus généralement, on choisit avantageusement le nombre de points d'intérêts et la dimension des imagettes de telle sorte qu'au total la somme de leurs points représente moins de 50 % des points de l'image d'entrée.

A l'issue de cette étape, on dispose d'un ensemble de K cou ples d'imagettes (¾,¾) avec k entier compris entre 1 et K, annotés par la pose y, associée à leur couple d'images d'origine (If, 1,°). Dans la suite, on désigne par échantillon Ej,i_< un couple d'imagettes et leur pose associée : Ej,i_< = {(¾,¾), yi}. Les étapes A2 et A3 sont répétées pour les N couples d'images d'entrée.

A l'issue de l'étape A3, on dispose donc d'une collection de N. K échantillons d'apprentissage {E,^}.

Au cours d'une étape E4, on présente cet ensemble de N. K échantillons {E,^} en entrée d'un système de prédiction automatique. Dans cet exemple de réalisation de l'invention, il s'agit d'une forêt décisionnelle aléatoire, de type « Random Forest » dont un exemple est illustré par la figure 6.

Une forêt décisionnelle aléatoire comprend plusieurs arbres, typiquement M, avec M entier non nul.

Chaque arbre AD_m, avec m entier compris entre 1 et M, reçoit un sous-ensemble choisi de façon aléatoire de la collection d'échantillons d'apprentissage. Un arbre comprend des nœuds intermédiaires S, au niveau desquels il se sépare en deux branches, qui aboutissent à deux nœuds fils gauche respectivement droit S^L, S^R. Un test binaire simple t est réalisé à chaque nœud intermédiaire S. En fonction de son résultat, un échantillon de données Ej,k, à savoir un couple d'imagettes et sa pose y,, est dirigé vers le nœud fils de gauche ou le nœud fils de droite.

Les paramètres d'un test binaire ts au niveau d'un nœud S sont générés aléatoirement puis modifiés au cours de l'apprentissage de façon à réaliser une séparation optimale des échantillons qu'il reçoit en deux groupes homogènes d'un point de vue de leur valeur de pose.

Avantageusement, le test t appliqué, de façon aléatoire à l'une des deux imagettes d'un échantillon au niveau d'un nœud S peut s'exprimer de la façon suivante :

ou

Où x, x' représentent deux positions de pixels dans l'échantillon {E,^} et τ un seuil généré aléatoirement et dont la valeur est optimisée au cours de l'apprentissage.

Une supervision de l'apprentissage consiste à évaluer globalement la séparation au niveau de chaque nœud S non feuille à l'aide d'une fonction objective ou fonction de perte Q définie comme suit :

Où L désigne l'ensemble des nœuds droits et R l'ensemble de nœuds gauches et Sⁿ l'ensemble des échantillons disponibles au niveau du nœud intermédiaire courant.

Plus la valeur de Q est faible, plus le sous-groupe de poses est compact. On recherche au niveau de chaque nœud non feuille S le test optimal t* qui minimise Q et maximise ainsi une mesure de pureté du regroupement (pour « data clustering », en anglais) réalisé par le nœud S.

Ce calcul est fait au niveau de chaque nœud intermédiaire d'un arbre de décision AD.

Les nœuds terminaux sont appelés feuilles I. L'arbre forme des groupes optimaux d'échantillons GOi, avec I entier compris entre 1 et L, L étant le nombre de feuilles d'un arbre, qu'il stocke au niveau de ses feuilles. Le processus d'apprentissage se termine lorsque certaines conditions d'arrêt prédéterminées sont satisfaites, par exemple lorsque les données atteignent une profondeur maximale prédéterminée de l'arbre ou bien lorsque le nombre d'échantillons passe en-deçà d'un seuil permettant la création de feuilles.

Chaque nœud intermédiaire ou non feuille stocke en mémoire les paramètres optimaux pour le test séparateur binaire t* qu'il applique aux données.

Chaque feuille I stocke une distribution gaussienne de toutes les poses comprises dans son groupe optimal, qui s'exprime comme une distribution normale, de la façon suivante :

N(y, y,∑_y)

où y désigne la moyenne des poses stockées par la feuille I et∑_y leur covariance.A l'issue de la phase d'apprentissage qui vient d'être décrite, chaque feuille des M arbres de décision AD_m de la forêt stocke la distribution Gaussienne des poses de son groupe optimal.

En relation avec la figure 7, on décrit maintenant le procédé d'estimation de pose dans la phase de test, selon un mode de réalisation de l'invention.

Au cours d'une étape El, on obtient un couple d'images d'entrée (If, 1,°) acquis par une caméra RGB-D, par exemple de type Kinect V2, Kinect VI, Xtion®, marque déposée, ou toute autre caméra RGB-D.

Au cours d'une étape E2, on extrait un nombre K prédéterminé de points clés KP, par exemple selon la méthode SURF précédemment décrite. Au cours d'une étape E3, on forme autant d'imagettes KP que de points clés extraits, une imagette étant centrée sur un point clé et de dimensions prédéterminées, par exemple égales à 30x40.

A l'issue de cette étape, on dispose donc le couple d'images (If, 1,°) de K échantillons {E'i,i_<} avec k entier compris entre 1 et K, à présenter en entrée du système de prédiction automatique, qui est dans cet exemple de réalisation, la forêt décisionnelle aléatoire FD qui a subi la phase d'apprentissage précédemment décrite.

Au cours d'une étape E4, les K échantillons {E'i,i_< } sont traités par la forêt FD, qui produit une estimation de pose y'i,_k par échantillon. Pour ce faire, chaque échantillon est traité par la pluralité d'arbres AD_m entraînés de la forêt. Chaque arbre traite l'ensemble d'échantillons {E'i,i_< } en utilisant le test binaire optimal t* stocké en mémoire jusqu'à atteindre une feuille I. La pose prédite par un arbre de décision AD_m est donnée par la feuille I. Il s'agit d'une distribution Gaussienne multivariée p y\l) de toutes les poses obtenues par la feuille I. Comme déjà évoqué, elle est définie comme suit : p(y) = -W( , ,∑_y) La pose d'un échantillon E'i,i_< prédite par la forêt FD, c'est-à-dire l'ensemble des arbres qui la constituent, est calculée de la façon suivante :

Où M est le nombre d'arbres de la forêt décisionnelle aléatoire.

Au cours d'une étape E5, on estime une pose y,' associée au couple d'images d'entrée (If, Ii^D) à partir des prédictions de pose y^' de la pluralité d'échantillons {E'i,i_< }.

Pour ce faire, on commence par supprimer les prédictions de pose issues de feuilles ayant une variance élevée, considérées comme non pertinentes. On regroupe ensuite les prédictions de pose en sous-groupes et on localise un centroïde des sous-groupes à l'aide d'une technique non paramétrique et itérative dite de « mean-shift » basée sur un noyau Gaussien et par exemple décrite dans le document de Chen, intitulé « Mean Shift, mode seeking and clustering' » , publié par la revue IEEE transaction on pattern analysis and machine en 1995.

Supposons un jeu de données ^ = {x₀, x₁, .. , x_n}, cette technique définit une fenêtre noyau glissante K(x) permettant de sélectionner à chaque itération t un sous ensemble de données X' = {x₀, x₁, .. , x_m} avec (m < n) à partir duquel on calcule un centroïde c_t à l'instant t. Ce centroïde est mis à jour à travers les itérations jusqu'à convergence. La densité finale des données (x) est définie comme suit :

où h désigne la taille du noyau K(x) . Cette expression correspond à la définition d'une fenêtre de Parzen qui permet de calculer des histogrammes continus.

Le noyau le plus utilisé est le noyau Gaussien que l'on définit comme suit :

K( ) = e- I²

En relation avec la Figure 8A, on a représenté l'ensemble H des prédictions de pose y^' stockées par les feuilles des arbres de la forêt FD et la trajectoire Tr de la caméra . La Figure 8B montre l'ensemble des poses prédites par le système de prédiction automatique et le centroïde (triangle) résultant d'un regroupement non paramétrique des estimations de pose selon l'étape E5. La valeur réelle de la pose correspond au carré. A l'issue de l'étape E5, on dispose d'une pose y,' estimée pour le couple d'images d'entrée

(Ii^c, Ii^D). Les Figures 9A et 9B illustrent l'évolution des performances du système automatique de prédiction en termes d'erreur moyenne de translation sur un ensemble d'images de test, en l'espèce une première base de données RGB-D publique, telle que décrite dans le document de Wasenmûller et al., déjà cité, en fonction d'un nombre d'arbres respectivement d'un nombre d'imagettes. La Figure 9A montre que l'erreur diminue lorsque le nombre d'arbres augmente. Le taux d'erreur est réduit d'environ 15% lorsqu'on passe d'une forêt de 3 arbres à une forêt de 9 arbres. On remarque aussi qu'il est inutile d'augmenter le nombre d'arbres au-delà d'une quinzaine, car cela n'apporte plus d'amélioration des performances.

En relation avec la Figure 9B, on voit que lorsqu'on augmente le nombre d'imagettes de 4 à 12 on fait chuter l'erreur de translation d'environ 80%. Ceci s'explique par le fait que les arbres disposent de plus d'informations sur les images d'entrée ce qui leur permet de produire une prédiction plus précise.

Par exemple, pour la suite de l'expérimentation, on extrait 15 imagettes de taille 20x20 pixels et on utilise une forêt comprenant 15 arbres. On suppose que le système automatique de prédiction selon l'invention a été entraîné à partir de la première base de données publique, d'une deuxième base de données publiques, telle que décrite dans le document de Lai et al. intitulé « Unsupervised Feature Learning for 3D Scène Learning », publié par la conférence IEEE International Conférence on Robotic and Automation » en 2014, pages 3050-3057 et à partir de notre propre base. Les figures 10 présentent l'erreur quadratique moyenne relative à la tr ainsi que l'erreur quadratique moyenne relative à la rotation MSE_R =

Les Figures 10A et 10B présentent les erreurs quadratiques de la première bases, les Figures 10C et 10D présentent les erreurs obtenus sur des images de la deuxième base et les Figures 10E et 10F les erreurs obtenus sur des images de notre propre base.

Pour la première base, on rapporte une erreur quadratique moyenne de 0.047m en translation et 2.46° par rapport à la rotation. Le système selon l'invention, entraîné sur la deuxième base obtient de meilleurs résultats avec une erreur de 0.029 m pour la translation, et de 1.34° pour la rotation.

Ces résultats sont au moins comparables à ceux de l'état de l'art.

On note des différences en termes de précision entre les deux bases. Elles sont directement liées à la nature de la trajectoire de la caméra . En effet, pour la deuxième base, la caméra présente de petits mouvements à la fois en translation et en rotations (translation selon x et z, rotation seulement autour de y) produisant une meilleure séparation des données au niveau des nœuds des arbres. Au contraire, pour la première base, une trajectoire plus compliquée de la caméra produit un espace de poses de la caméra qui est plus complexe.

Avec nos propres échantillons, on rapporte les erreurs suivantes: 0.051 m, 1.95°, pour la translation et rotation respectivement, donc des performances du même niveau que celles obtenues avec les deux bases publiques.

Avec nos propres échantillons, on rapporte les erreurs suivantes: 0,031 m, 0,017 m et 0,035 m pour les translations et 1,14°, 0,98° et 0,82° pour les rotations, donc des performances du même niveau que celles obtenues avec les deux bases publiques.

Lors de la réalisation de ces expérimentations, 50 % des échantillons des bases ont été utilisés pour l'apprentissage, ce qui représente environ 1500 images issues des scènes de la première base et 400 images de celles de la deuxième base, et les 50 % restants pour le test. Notre base contient 17 scènes. Le même ratio 50-50 lui a été appliqué.

Au cours d'une étape E6 optionnelle, on raffine la pose y,^' estimée pour le couple d'images d'entrée (Ii^c, Ii^D). Cette étape utilise le nuage de points dense X_M de la scène dans le référentiel monde, obtenu suite à l'annotation des images de la base d'apprentissage. Elle nécessite aussi le calcul d'un nuage courant de points L correspondant à l'image de profondeur 1,° dans le référentiel de la caméra (projection sténopé), comme dans la méthode de l'art antérieur.

L'étape E6 s'appuie sur une méthode itérative de recalage dite ICP (pour « Itérative Closest Point », en anglais), par exemple décrite dans le document de Besl et al., intitulé "A Method for Registration of 3-D Shapes", publié par la conférence IEEE Trans. on Pattern Analysis and Machine Intelligence, qui s'est tenue à Los Alamitos, CA, USA: en 1992. Cette méthode permet de minimiser itérativement la distance ou décalage entre le nuage dense X_M projeté dans le référentiel de la caméra et le nuage de points courant, comme suit :

min||£_M - yi^* . {yV . L^ W

On suppose que le nuage de points courant L = {v₀, v₁, ... v_N jcomprend N =wxh points ou vertex , le fait de multiplier ce nuage par la pose yi' estimée (constituée d'une rotation R, et translation T), par l'étape E5, peut s'écrire comme suit : yi'.L = {(R. v₀ + T), (R. _Vl + T), ... (Λ. v_N + T)}

Avec _M : nuage dense reconstruit de la scène.

£ : nuage courant (projection de J^d via le modèle sténopé). yi' : pose estimée à la sortie de l'étape d'estimation E5. yi* : pose finale raffinée par I'ICP. Après itération, on obtient une pose yi^** raffinée de la caméra .

Cette étape de raffinement optionnelle induit une complexité accrue et nécessite une calibration préalable de la caméra . Elle présente néanmoins l'avantage d'offrir une précision supérieure dans des cas d'usage particuliers pour lesquels une erreur de pose inférieure à celles décrites précédemment est requise.

En relation avec les Figures 11 et 12, on illustre maintenant des différences essentielles entre le procédé selon l'invention et celui de l'art antérieur de Shotton déjà cité. Le procédé selon l'invention est présenté dans la colonne de gauche et celui de l'art antérieur dans la colonne de droite.

Ces différences concernent notamment : la nature des données présentées en entrée du système automatique d'apprentissage ; la supervision du système automatique d'apprentissage ; la nature des données stockées dans les feuilles des arbres ; le post-traitement des données prédites par le système.

Lors de la phase d'entraînement, illustrée par la Figure 11, le procédé selon l'invention fournit au système d'apprentissage des échantillons {Ej,i_<} de N images RGB-D (If, 1,°) sous la forme de K imagettes (Pf,

extraites du couple d'images autour de points clés KP et annotées de la pose y, de la caméra lors de l'acquisition de l'image RGB-D.

Comme précédemment évoqué, le procédé selon l'art antérieur applique un prétraitement au couple d'images d'entrée (If, 1,°) annoté de la pose y,, illustré par la Figure 13. Ce prétraitement comprend d'une part une première projection des images (If, 1,°) dans un référentiel de la caméra, à l'aide de paramètres intrinsèques de cette caméra, comprenant un centre de projection (c_x,c_y), une focale horizontale f_x et une focale verticale f_y. On notera que dans le cas de pixels carrés, on a fx= fy.

A partir des paramètres intrinsèques du capteur de profondeur de la caméra RGB-D, chaque valeur de profondeu r d (représentée par deux coordonnées de pixel u, v) est projetée dans un référentiel

3D de la caméra, selon un modèle de projection dit de sténopé (pour « pinhole », en anglais) connu en soi, en 3 coordonnées (x, y, z) selon les formules suivantes :

Il s'agit d'une modélisation simple et linéaire du processus de formation des images au sein d'une caméra . Ce modèle suppose que le système optique de la caméra, c'est-à-dire sa lentille respecte les conditions de Gauss. On obtient un nuage de points L qui comprend hxw points (x,y,z), avec w largeur et h hauteu r de l'image If

A l'aide de la pose y, de la caméra, comprenant les paramètres extrinsèques de la caméra, Q et R déjà cités, correspondant à la vérité terrain, ce nuage de points est projeté dans le référentiel monde de la scène (0,x,y,z), selon une deuxième projection basée sur une transformation rigide. Un nuage de points final L comprenant les points projetés (x',y',z') est obtenu.

Les données d'entrée du système automatique d'apprentissage prennent alors la forme suivante : { If, Ii^D, X,'} avec i allant de 1 à N, N étant le nombre d'images de la collection de données d'apprentissage. Les échantillons d'entrée présentés au système de prédiction automatique diffèrent donc entre les deux méthodes et ils représentent une quantité de données plus grande que les NxK imagettes du procédé selon l'invention.

En ce qui concerne la supervision des arbres, un test binaire t de séparation des données à chaque nœud, est généré de façon similaire pour les deux méthodes, à l'aide d'une fonction f qui calcule une différence d'intensité de couleurs, respectivement une différence de profondeurs, entre pixels de l'image If respectivement 1,°. En revanche, les deux méthodes évaluent les performances de ces séparations de façon distincte, car elles s'appuient sur des fonctions objectives Q différentes.

L'invention minimise une fonction Q définie précédemment comme une distance Euclidienne entre un centroïde des poses et une pose courante atteignant les nœuds fils d'un nœud . Ceci vise à maximiser une pureté de séparation des données. L'art antérieur maximise/minimise une entropie H(s) entre le nœud S parent et ses nœuds fils gauche S^L et droit S^R.

Quant aux données stockées dans les feuilles, l'invention produit et stocke une distribution Gaussienne des poses prédites par imagette, tandis que l'art antérieur stocke dans une feuille I la prédiction d'un nuage de points moyen X'i dans le référentiel monde.

En ce qui concerne enfin le post-traitement des données prédites par le système de prédiction automatique lors de la phase de test illustrée par la Figure 12, l'art antérieur génère à partir du nuage moyen prédit, un ensemble d'hypothèses de pose de la caméra. Il le fait à l'aide d'un algorithme de type Kabsh, décrit dans le document de Kabsch et al. , intitulé « A solution for the best rotation to relate two sets of vectors », publié par « Acta Cryst. », en 1976. Cet algorithme permet de trouver la meilleure rotation et la meilleure translation entre deux nuages de points en minimisant une erreur quadratique.

Cet ensemble d'hypothèses de poses est ensuite raffiné par des itérations en Ransac (pour « Random Sample Consensus », en anglais) afin de ne garder que les hypothèses les plus plausibles U y;. En utilisant le nuage de points courant X construit à partir de l'échantillon RGB-D courant et une calibration préalable de la caméra RGB-D (projection sténopé), une minimisation d'énergie basée sur un recalage rigide entre X et X, est par les hypothèses de pose générées est réalisée. Ces opérations présentent une importante complexité du fait qu'elles sont directement reliées à la résolution du nuage points (w x h) stocké par une feuille. Au contraire, l'invention propose d'estimer directement une pose moyenne par couple d'images d'entrées à partir des K poses y'i,k prédites pour les K imagettes, par regroupement itératif non paramétrique de type « mean-shift » . Les données de sortie post-traitées par le procédé selon l'invention et la solution de l'art antérieur sont de nature différente, mais la quantité de données à manipuler est elle aussi différente. Le procédé selon l'invention traite K poses prédites par couple d'images d'entrée, tandis que la solution de l'art antérieur traite de façon itérative un nuage de points. On comprend que le post-traitement mis en œuvre par invention est beaucoup moins complexe que celui de l'art antérieur, en termes de nombre d'opérations, temps de calcul et ressources de stockage.

Cette différence de complexité entre les deux méthodes, au profit de l'invention, est confirmée par les Figures 14A à 14D, qui comparent les temps d'apprentissage des deux systèmes en fonction respectivement d'une quantité de données d'apprentissages respectivement en fonction d'un nombre de tests binaires réalisés par leurs arbres. La méthode de l'invention s'avère plus rapide que celle de l'art antérieur. On mesure un ratio de vitesse d'entraînement égal à 1,50 + 0,3 sur la Fig. 14A et à 1,20 + 0,15 sur la Fig .14B. Cette différence apparente est directement liée à la nature des fonctions objectives Q utilisées pour superviser l'apprentissage dans les deux approches. Celle de l'invention est basée sur une distance Euclidienne entre poses, ce qui est beaucoup plus simple et rapide à calculer qu'une distance Euclidienne entre nuages de points de dimensions (w x h) comme dans l'art antérieur.

La Figure 14C compare les quantités de mémoire utilisées par les deux systèmes en fonction de la profondeur de leurs arbres. La Figure 14D compare la quantité de mémoire utilisée en fonction du nombre de données d'apprentissage. L'augmentation de la profondeur maximale d'un arbre augmente le nombre de nœuds de séparation et nécessite plus de mémoire pour enregistrer les paramètres de l'arbre. L'augmentation des données d'entraînement augmente seulement le nombre de feuilles ce qui conduit à une faible variation de la mémoire occupée par l'arbre.

On constate sur ces 4 figures que l'invention permet de réduire notablement les quantités de mémoire et les temps de calcul consommés. En ce qui concerne la mémoire occupée, cet écart s'explique par le fait que la solution de l'art antérieur enregistre approximativement (w x h) sommets correspondant à un nuage de points centroïde au niveau de chaque feuille, tandis que l'invention stocke seulement les paramètres liés à la pose y de la caméra .

L'invention propose ainsi une approche basée sur une forêt décisionnelle aléatoire qui permet d'estimer de façon régressive la pose d'une caméra RGB-D dans un environnement non contraint. Contrairement à l'art antérieur, les échantillons d'apprentissage sont collectés de façon clairsemée ou non dense (pour « sparse », en anglais), sous la forme d'une pluralité d'imagettes centrées sur des points clés du couple d'images acquises par la caméra . Les résultats obtenus, notamment en termes d'erreurs en translation et rotation réalisées sur des bases de données publiques valident cette approche et montrent notamment que le ciblage des régions pertinentes dans les images augmente la robustesse et la généralisation des forêts décisionnelles. En outre, le fait de prédire directement une valeur de pose au niveau d'une feuille plutôt qu'un nuage de points, permet de réduire encore davantage la complexité du système, en termes de quantité de mémoire et de temps de calcul, ce qui est confirmé par les performances comparées entre l'invention et la solution de l'art antérieur.

On notera que l'invention qui vient d'être décrite, peut être mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, les termes « module » et « entité », utilisés dans ce document, peuvent correspondre soit à un composant logiciel, soit à un composant matériel, soit encore à un ensemble de composants matériels et/ou logiciels, aptes à mettre en œuvre la ou les fonctions décrites pour le module ou l'entité concerné(e).

En relation avec la figure 15, on présente maintenant un exemple de structure simplifiée d'un dispositif 100 d'estimation de pose d'une caméra selon l'invention. Le dispositif 100 met en œuvre le procédé d'estimation de pose selon l'invention qui vient d'être décrit.

Cette figure 15 illustre seulement une manière particulière, parmi plusieurs possibles, de réaliser l'algorithme détaillé ci-dessus. En effet, la technique de l'invention se réalise indifféremment sur une machine de calcul reprogrammable (un ordinateur PC, un processeur DSP ou un microcontrôleur) configurée pour exécuter un programme comprenant une séquence d'instructions, ou sur une machine de calcul dédiée (par exemple un ensemble de portes logiques comme un FPGA ou un ASIC, ou tout autre module matériel).

Dans le cas où l'invention est implantée sur une machine de calcul reprogrammable, le programme correspondant (c'est-à-dire la séquence d'instructions) pourra être stocké dans un médium de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce médium de stockage étant lisible partiellement ou totalement par un ordinateur ou un processeur.

Par exemple, le dispositif 100 comprend une unité de traitement 110, équipée d'un processeur μΐ, et pilotée par un programme d'ordinateur Pg l 120, stocké dans une mémoire 130 et mettant en œuvre le procédé de selon l'invention.

A l'initialisation, les instructions de code du programme d'ordinateur Pgi 120 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 110. Le processeur de l'unité de traitement 110 met en œuvre les étapes du procédé décrit précédemment, selon les instructions du programme d'ordinateur 120.

Dans cet exemple de réalisation de l'invention, le dispositif 100 comprend une machine kde calcul reprogrammable ou une machine de calcul dédiée, apte à et configurée pour : - Obtenir OBT au moins une image d'intensités de couleur et une image de profondeur de la scène capturées par la caméra ;

Extraire EXTR une pluralité de points d'intérêt de ladite au moins une image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; - Former DET PT une pluralité d'imagettes issues de ladite au moins une image d'intensités de couleur et de ladite image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;

Prédire PRED une pose de la pluralité d'imagettes par application d'un système d'apprentissage automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;

Estimation EST d'une pose de la caméra à partir de la pluralité de poses prédites. Avantageusement, la machine de calcul est configurée pour mettre en œuvre les modes de réalisation de l'invention qui viennent d'être décrits en relation avec les Figures 1 et 7. Optionnellement, elle peut mettre en œuvre un raffinement de la pose de la caméra tel que décrit en relation avec la Figure 7.

Elle est en outre apte à mettre en œuvre la phase d'apprentissage et la phase de test du système de prédiction automatique selon l'invention telles que précédemment décrites. Elle est alors configurée pour :

Obtenir une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ; - Extraire une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ; Former une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite;

Entraîner un système automatique de prédiction de pose à partir d'échantillons comprenant un dit cou ple d'imagettes et la pose du couple d'images dont elles sont issues.

Le dispositif 100 comprend en outre une unité Mi 140 de stockage, telle qu'une mémoire, par exemple de type mémoire tampon (pour « buffer », en anglais), apte à stocker par exemple les échantillons d'apprentissage {Ei,i_< }, les paramètres de séparation au niveau des nœuds non feuilles ou les distributions Gaussiennes de poses au niveau des feuilles par le système.

Ces unités sont pilotées par le processeur μΐ de l'unité de traitement 110.

De façon avantageuse, un tel dispositif 100 d'estimation de pose peut être intégré à un système 10 de réalité augmentée.

Un tel système 10 comprend, en plus du dispositif 100, au moins un module d'acquisition MACQ d'images d'entrée, comprenant par exemple une caméra RGB-D apte à capturer des images d'une scène réelle, un module d'annotation de poses ANNOT apte à déterminer les poses à associer aux images d'entrée pour la phase d'apprentissage, un module de composition COMP apte à composer une image de sortie, dite « augmentée » à partir d'une image d'entrée de la scène acquise par la caméra et au moins un objet réel ou virtuel, à l'aide d'une position initiale dudit au moins un objet dans la scène et d'une pose estimée de la caméra et un module DISP d'affichage apte à restituer l'image de sortie.

Selon une variante, le dispositif 100, une fois entraîné, peut être intégré à un équipement terminal ET, par exemple un ordinateur personnel, qui peut être mobile, comme une tablette ou un téléphone intelligent (pour « smartphone », en anglais), est lui-même compris dans le système 10. Le dispositif 100 est alors agencé pour coopérer au moins avec les modules suivants du système

10 ou de l'équipement terminal ET: un module E/R d'émission/réception de données, par l'intermédiaire duquel une image RGB- D est obtenue, par exemple en provenance d'une base de données distante; et/ou le module d'acquisition MACQ de la séquence d'images d'entrée, tel que par exemple une caméra vidéo RGB-D, par exemple via un câble HDMI ; le module d'annotation ANNOT apte à produire une pose associée à une image RGB-D acquise par la caméra, par exemple de type kinectfusion® ;

- le dispositif d'affichage DISP, configuré pour restituer une composition d'u ne image RGB-D dans la scène virtuelle ou réelle à l'aide de la pose estimée de la caméra .

Grâce à ses bonnes performances et à sa simplicité de mise en œuvre, l'invention qui vient d'être décrite permet plusieurs usages. Une première application est d'augmenter la réalité d'une scène filmée par la caméra RGB-D, en y injectant des objets supplémentaires, virtuels ou réels. On connaît par exemple une application de décoration intérieure, qui permet à un client de tester virtuellement l'agencement d'un mobilier dans une pièce de son appartement, avant se décider à l'achat. Cette application nécessite une estimation de la pose de la caméra dans un référentiel de la pièce, de façon à localiser l'image qu'elle acquiert dans la scène et à y insérer, lors de leur restitution sur un dispositif d'affichage, le mobilier virtuel avec les bonnes dimensions et la bonne perspective. Une position spatiale du mobilier virtuel est initialisée dans la scène. Elle nécessite une connaissance a priori d'une structure 3D de la pièce. Ensuite, un suivi de la trajectoire de la caméra est réalisé en estimant sa pose dans un référentiel de la scène selon l'invention, ce qui permet, pour chaque nouvelle image acquise, de projeter le mobilier virtuel dans la scène, à la bonne position et avec la bonne perspective. Avec l'invention, du fait que le traitement est moins complexe, il devient envisageable de mettre en œuvre cette application, au moins pour sa phase de test, sur un équipement terminal mobile, de type tablette ou téléphone intelligent (pour « smartphone », en anglais), pourvu qu'elle soit équipée d'une caméra RGB-D.

Une deuxième application envisagée est l'assistance d'un opérateur de maintenance, par exemple d'avions. On suppose qu'il acquiert une image de pièces du moteur à partir d'un équipement terminal mobile, de type tablette. Le système selon l'invention lui permet, dans sa phase de test, d'estimer la pose de la caméra dans la scène constituée par le moteur de l'avion à partir de l'image courante. La connaissance au préalable de la structure 3D du moteur permet d'initialiser un rendu d'informations supplémentaires relatives à une de ses pièces. Par exemple, on affiche une référence du modèle, des informations relatives à sa qualité, une date d'installation etc. Avec l'invention, il est possible de suivre la trajectoire de la caméra et d'estimer sa pose à chaque nouvelle image acquise. De cette manière, les informations supplémentaires sont projetées dans chaque nouvelle image acquise par la caméra avec la bonne perspective, ce qui garantit de maintenir au cours du temps un réalisme du rendu de la scène vue par la caméra. Lorsqu'il s'agit d'insérer dans la scène des modèles virtuels d'informations supplémentaires associés à deux pièces voisines du moteur, un niveau de précision accru peut être nécessaire pour garantir que la projection d'un modèle coïncide exactement avec la pièce à laquelle il se rapporte. Dans ce cas, un raffinement par recalage itératif de la pose estimée selon l'invention peut être avantageusement mis en œuvre.

Il va de soi que les modes de réalisation qui ont été décrits ci-dessus ont été donnés à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention.

Claims

1. Procédé d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit procédé étant caractérisé en ce qu'il comprend les étapes suivantes :

Obtention (El) d'une image d'intensités de couleur et d'une image de profondeur de la scène capturées par la caméra ;

Extraction (E2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;

Formation (E3) d'une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;

Prédiction (E4) de pose de la pluralité d'imagettes par application d'un système de prédiction automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;

Estimation (E5) d'une pose de la caméra à partir de la pluralité de poses prédites.

Procédé selon la revendication précédente, caractérisé en ce qu'il comprend une phase préalable d'apprentissage comprenant les étapes suivantes :

Obtention (Al) d'une collection de données d'apprentissage, comprenant une pluralité de couples d'images d'intensité de couleur et de profondeur de la scène acquises par la caméra, un couple étant associé à une pose connue de la caméra ;

Extraction (A2) d'une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;

Formation (A3) d'une pluralité de couples d'imagettes, respectivement dans l'image d'intensités de couleur et dans l'image de profondeu r, une imagette comprenant un point d'intérêt de la pluralité de points d'intérêts extraite; Entraînement (A4) du système automatique de prédiction de pose à partir d'échantillons comprenant un dit couple d'imagettes et la pose du couple d'images dont elles sont issues.

Procédé d'estimation de pose d'une caméra selon la revendication 2, caractérisé en ce que, le

système de prédiction automatique comprenant une forêt décisionnelle aléatoire (FD) comprenant une pluralité d'arbres de décision (ADm), un arbre de décision comprenant des nœuds séparateurs (nd), apte à séparer de façon binaire un groupe d'échantillons issu d'un nœud amont en sous-groupes, à transmettre les sous-groupes à des nœuds séparateurs aval, et des nœuds feuilles (I), aptes à stocker une distribution des poses associées à un sous-groupe reçu d'un nœud séparateur amont, l'étape (A4) d'entraînement comprend un calcul d'un test de séparation binaire sur une différence de valeurs entre deux pixels d'une imagette de l'échantillon, une évaluation de la séparation selon une mesure de pureté des sous-groupes basé sur une distance entre les poses d'un sous-groupe et le centroïde du sous-groupe, et une sélection du test qui maximise la mesure de pureté.

Procédé d'estimation de pose selon la revendication précédente, caractérisé en ce que le deuxième critère prend en compte une fonction objective qui s'exprime sous la forme suivante :

où L est l'ensemble des nœuds fils gauche, R l'ensemble des nœuds fils droits, Sⁿ ensemble des échantillons qui arrivent au nœud aval gauche respectivement droit, |5ⁿ| désigne le cardinal de l'ensemble Sⁿ.

Procédé d'estimation de pose selon l'une des revendications précédentes, caractérisé en ce qu'il comprend une étape (E6) de raffinement de la pose estimée de la caméra par recalage d'un nuage de points reconstruit dans un référentiel de la caméra à partir de l'image de profondeur et d'un nuage de points dense de la scène projeté dans ledit référentiel à l'aide de la pose estimée.

Dispositif (100) d'estimation de pose d'une caméra dans un référentiel d'une scène tridimensionnelle, ledit dispositif comprenant une machine de calcul dédiée à ou configurée pour :

Obtenir (ACQ) une image d'intensités de couleur et u ne image de profondeur de la scène capturées par la caméra ; Extraire (EXTR) une pluralité de points d'intérêt de ladite image d'intensités de couleurs, un dit point étant invariant par transformation géométrique de l'image ;

Former (DET PT) une pluralité d'imagettes dans l'image d'intensités de couleur et dans l'image de profondeur, une imagette comprenant un point d'intérêt de la pluralité extraite;

Prédire (PRED) une pluralité de poses à partir de la pluralité d'imagettes par application d'un système d'apprentissage automatique, ledit système ayant été entraîné pour produire une pose prédite de la caméra par imagette, à l'aide d'un ensemble d'apprentissage comprenant un groupe d'imagettes associées à une pose connue dans le référentiel de la scène, lesdites imagettes étant issues d'une pluralité d'images de la scène acquises par la caméra depuis une pluralité de points de vue;

Estimation (DET PS) d'une pose de la caméra à partir de la pluralité de poses prédites.

Système (10) de réalité augmentée comprenant : un module (MACQ) d'acquisition d'images comprenant une caméra apte à acquérir une image d'intensités de couleurs et une image de profondeur d'une scène tridimensionnelle réelle, un module (COMP) de composition d'images apte à composer une image de sortie à partir d'une image d'entrée acquise de la scène par la caméra et au moins un objet réel ou virtuel, à l'aide d'une position initiale dudit au moins un objet dans la scène et d'une pose estimée de la caméra, un module (DISP) d'affichage apte à restituer l'image de sortie, caractérisé en ce qu'il comprend un dispositif selon la revendication 6, apte à estimer ladite pose dans une phase de test.

Système (10) de réalité augmentée selon la revendication 7, caractérisé en ce qu'il comprend un module (ANNOT) d'annotation d'images d'entrée, apte à calculer une pose d'une image d'entrée, ladite pose étant exploitée par le dispositif (100) d'estimation de pose selon la revendication 6, dans une phase d'apprentissage.

Programme d'ordinateur (Pg l) comportant des instructions pour la mise en œuvre du procédé de suivi de cible selon l'une quelconque des revendications 1 à 5, lorsque ledit programme est exécuté par un processeur. Support d'enregistrement lisible par un ordinateur, sur lequel est enregistré un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'une des revendications 1 à 5.