WO2010142895A1

WO2010142895A1 - Procédé et dispositif de suivi d'objets en temps réel dans une séquence d'images en présence de flou optique

Info

Publication number: WO2010142895A1
Application number: PCT/FR2010/051104
Authority: WO
Inventors: Nicolas Livet; Thomas Pasquier
Original assignee: Total Immersion
Priority date: 2009-06-08
Filing date: 2010-06-04
Publication date: 2010-12-16
Also published as: FR2946446A1; FR2946446B1; EP2441047A1

Abstract

L'invention a notamment pour objet un procédé et un dispositif de suivi d'une représentation d'objets dans une séquence d'images, en temps réel, au moins une image de ladite séquence d'images comprenant un effet de flou optique. Après avoir identifié une représentation des objets dans une première image de la séquence, la représentation identifiée des objets est suivie (200) dans une seconde image, suivant la première, selon un premier mode de suivi d'objets utilisant une image clé. Lorsque la présence de flou est détectée (205) dans une troisième image, distincte de la première, la représentation identifiée des objets est suivie (230) dans la troisième image, selon un second mode de suivi d'objets, distinct dudit premier mode de suivi. La pose des objets dans la troisième image est alors estimée selon la représentation identifiée des objets dans la troisième image.

Description

Procédé et dispositif de suivi d'objets en temps réel dans une séquence d'images en présence de flou optique

La présente invention concerne la combinaison d'images réelles et virtuelles en temps réel, dans un système de réalité augmentée, et plus particulièrement un procédé et un dispositif de suivi d'objets en temps réel dans une séquence d'images comprenant des images floues.

La réalité augmentée a pour objet d'insérer un ou plusieurs objets virtuels dans les images d'un flux vidéo. Selon le type d'application, la position et l'orientation de ces objets virtuels peuvent être déterminées par des données externes de la scène représentée par les images, par exemple des coordonnées issues directement d'un scénario de jeu, ou par des données liées à certains éléments de cette scène, par exemple des coordonnées d'un point particulier de la scène tel que la main d'un joueur ou un élément du décor. Lorsque la position et l'orientation sont déterminées par des données liées à certains éléments de cette scène, il peut être nécessaire de suivre ces éléments en fonction des mouvements de la caméra ou des mouvements de ces éléments eux-mêmes dans la scène. Les opérations de suivi d'éléments et d'incrustation d'objets virtuels dans les images réelles peuvent être exécutées par des calculateurs distincts ou par un même calculateur.

L'objectif des algorithmes de suivi utilisés à ces fins est de retrouver de façon très précise, dans une scène réelle, la pose, c'est-à-dire la position et l'orientation, d'un objet dont l'information de géométrie est généralement disponible ou, de manière équivalente, de retrouver les paramètres extrinsèques de position et d'orientation d'une caméra filmant cet objet, grâce, par exemple, à l'analyse d'image.

Il existe plusieurs méthodes pour suivre un objet dans une séquence d'images, c'est-à-dire dans un flux vidéo. Généralement, les algorithmes de suivi, aussi appelé algorithmes de poursuite de cible, utilisent un marqueur qui peut être visuel ou utiliser d'autres moyens tel que des capteurs, de préférence sans fil de type radio fréquences ou infrarouge. Alternativement, certains algorithmes utilisent une reconnaissance de forme pour suivre un élément particulier dans un flux d'image.

L'Ecole Polytechnique Fédérale de Lausanne a développé un algorithme de suivi visuel n'utilisant pas de marqueur et dont l'originalité réside dans l'appariement de points particuliers entre l'image courante d'un flux vidéo avec une image clé, appelée keyframe en terminologie anglo-saxonne, obtenue à l'initialisation du système et une image clé mise à jour durant l'exécution du suivi visuel. Le principe de cet algorithme est décrit par exemple dans l'article intitulé « Fusing Online and Offline Information for Stable 3D Tracking in Real- Time » - Luca Vacchetti, Vincent Lepetit, Pascal Fua - IEEE Transactions on Pattern Analysis and Machine Intelligence 2004.

L'objectif de cet algorithme de suivi visuel est de retrouver, dans une scène réelle, la pose d'un objet dont le maillage tridimensionnel (3D) est disponible sous forme de modèle 3D, ou de retrouver, de manière équivalente, les paramètres extrinsèques de position et d'orientation d'une caméra filmant cet objet, immobile, grâce à l'analyse d'image.

L'image courante est ici comparée avec une ou plusieurs images clés enregistrées pour retrouver un nombre important de correspondances, ou d'appariements, entre ces paires d'images afin d'estimer la pose de l'objet. A cette fin, une image clé est composée de deux éléments : une image capturée du flux vidéo et une pose (orientation et position) de l'objet réel apparaissant dans cette image. Les images clés sont des images extraites du flux vidéo dans lesquelles l'objet à suivre a été placé manuellement grâce à l'utilisation d'un dispositif de pointage tel qu'une souris. Les images clés caractérisent de préférence la pose d'un même objet dans plusieurs images. Elles sont crées et enregistrées « hors ligne », c'est-à-dire hors du régime permanent de l'application de suivi. Il est intéressant de noter que pour des cibles ou objets de type planaire, par exemple un magazine, ces images clés peuvent être directement générées à partir d'une image disponible de l'objet, par exemple au format JPEG ou bitmap.

Chaque image clé hors ligne comprend une image dans laquelle l'objet est présent et une pose pour caractériser l'emplacement de cet objet ainsi qu'un certain nombre de points d'intérêts qui caractérisent l'objet dans l'image. Les points d'intérêts sont, par exemple, construits à partir d'un détecteur de points de Harris, de points de type SURF (acronyme de Speeded- Up Robust Features en terminologie anglo-saxonne), SIFT (acronyme de Scale-lnvariant Feature Transform en terminologie anglo-saxonne) ou YAPE (acronyme de Yet Another Point Extractor en terminologie anglo-saxonne) et représentent des emplacements avec des fortes valeurs de gradients directionnels dans l'image et une description de variation de l'image au voisinage de ces points. Avant d'initialiser l'application de suivi, il est nécessaire de déterminer une ou plusieurs images clés hors ligne. Il s'agit généralement d'images extraites du flux vidéo, qui contiennent l'objet à suivre, et auxquelles sont associées une position et une orientation du modèle tridimensionnel de cet objet. Pour cela, un opérateur fait correspondre visuellement un modèle filaire à l'objet réel. La phase de préparation manuelle consiste donc à retrouver une première estimation de la pose de l'objet dans une image extraite du flux vidéo, ce qui revient à formaliser la transformation affine initiale T_p→c , matrice de passage entre le repère associé à l'objet suivi vers le repère attaché à la caméra. L'utilisation de ce modèle permet d'établir le lien entre les coordonnées des points du modèle tridimensionnel de l'objet exprimées dans le repère de l'objet et les coordonnées de ces points dans le repère de la caméra. Pour le suivi d'objets planaires, il est important de noter que, de manière équivalente, une simple image peut être utilisée pour la construction d'une image clé hors ligne. Lors de l'initialisation de l'application de suivi, les images clés hors ligne sont traitées afin de positionner des points d'intérêts en fonction des paramètres choisis lors du lancement de l'application. Ces paramètres sont spécifiés de façon empirique pour chaque type d'utilisation de l'application et permettent d'adapter l'application de détection et d'appariement pour obtenir une meilleure qualité d'estimation de la pose de l'objet selon les caractéristiques de l'environnement réel. Ensuite, lorsque l'objet réel dans l'image courante est dans une pose qui est proche de la pose de ce même objet dans une des images clé hors lignes, le nombre d'appariements devient important. Il est alors possible de retrouver la transformation affine permettant de caler le modèle tridimensionnel de l'objet sur l'objet réel.

Lorsqu'une telle correspondance a été trouvée, l'algorithme de suivi passe en régime permanent. Les déplacements de l'objet sont suivis d'une image sur l'autre et les dérives éventuelles sont compensées grâce aux informations contenues dans l'image clé hors ligne retenue lors de l'initialisation. Il convient de noter que pour des besoins de précision, cette image clé hors ligne peut être reprojetée en utilisant la pose estimée de l'image précédente. Cette reprojection permet ainsi d'avoir une image clé qui contient une représentation de l'objet similaire à celle de l'image courante et peut ainsi permettre à l'algorithme de fonctionner avec des points d'intérêts et des descripteurs non robustes aux rotations.

L'application de suivi combine ainsi deux types d'algorithme distinct : une détection de points d'intérêts, par exemple une version modifiée de détection de points de Harris ou encore de détection de points de type SIFT ou SURF, et une technique de reprojection des points d'intérêts positionnés sur le modèle tridimensionnel vers l'image plane. Cette reprojection permet de prévoir le résultat d'une transformation spatiale d'une image sur l'autre, extraites du flux vidéo. Ces deux algorithmes combinés permettent un suivi robuste d'un objet selon six degrés de liberté.

D'une façon générale, un point p de l'image est la projection d'un point P de la scène réelle avec p ~ P₁ • P_E • T_p→c • P où Pi est la matrice des paramètres intrinsèques de la caméra, c'est-à-dire sa focale, le centre de l'image et le décalage, P_E est la matrice des paramètres extrinsèques de la caméra, c'est-à-dire la position de la caméra dans l'espace réel, et T_p→c est la matrice de passage entre le repère associé à l'objet suivi vers le repère attaché à la caméra. Seule la position relative de l'objet par rapport à la position relative de la caméra est ici considérée, ce qui revient à placer le repère de la scène réelle au niveau du centre optique de la caméra. Il en résulte la relation P - P₁ - T_p→c • P . La matrice Pi étant connue, le problème de suivi consiste donc à déterminer la matrice T_p→c , c'est à dire la position et l'orientation de l'objet par rapport au repère de la caméra.

Pour ce faire, un algorithme dit de « minimisation d'erreur » est employé afin de trouver la meilleure solution pour l'estimation T_p→c en utilisant l'ensemble des correspondances tridimensionnelles sur le modèle géométrique et bidimensionnelles (2D) dans l'image courante et dans l'image clé. A titre d'exemple, un algorithme de type RANSAC (acronyme de RANdom SAmple Consensus en terminologie anglo-saxonne) ou PROSAC (acronyme de PROgressive SAmple Consensus en terminologie anglo-saxonne), permettant de supprimer les erreurs de mesures (correspondances 2D/3D erronées) peut être combiné avec un algorithme de type Levenberg-Marquardt pour converger rapidement vers une solution optimale qui réduit l'erreur de reprojection.

Le demandeur a développé un algorithme de suivi visuel d'objets n'utilisant pas de marqueur et dont l'originalité réside dans l'appariement de points particuliers entre l'image courante (et précédente) d'un flux vidéo et un ensemble d'images clés, obtenues automatiquement à l'initialisation du système. Un tel algorithme est notamment décrit dans la demande de brevet français FR 2 911 707. Cet algorithme permet, dans un premier temps, d'identifier l'objet positionné devant la caméra puis d'initialiser de façon totalement automatique, sans contrainte de positionnement, le procédé de suivi de l'objet. Cet algorithme permet notamment de reconnaître et de suivre un grand nombre d'objets présents au même instant dans un flux vidéo et permet ainsi l'identification et la poursuite de cibles ou d'objets dans une scène réelle. Ces objets peuvent être de géométries différentes et présenter des aspects colorimétriques variés. A titre d'exemple, mais de façon non limitative, il peut s'agir de plateaux textures, de visages, d'habits, de scènes naturelles ou encore de studio de télévision ou de bâtiments.

Cependant, lorsque la mesure d'erreur devient trop importante, c'est- à-dire lorsque le nombre d'appariements entre l'image courante et l'image clé courante devient trop faible, le suivi subit un décrochage (il est considéré que l'estimation de la pose de l'objet n'est plus suffisamment cohérente) et une nouvelle phase d'initialisation est nécessaire. Par ailleurs, une limite généralement admise des systèmes de suivi d'objets concerne la difficulté de leur adaptation à des applications appartenant à un contexte dit « grand public ». En effet, les principales contraintes de mise en œuvre de ces solutions pour de telles applications sont, en particulier, une quantité de mémoire et une puissance de calcul limitées. De plus, ces systèmes nécessitent généralement l'utilisation de caméras de très bonne qualité et non de caméras à bas coûts telles que celles fournies avec les ordinateurs portables de type PC (sigle de Personal Computer en terminologie anglo- saxonne) et les web-camera, appelées webcam en terminologie anglo-saxonne. Ces caméras à bas coûts sont souvent équipées d'optiques de qualité variable et sont ainsi très sensibles aux conditions lumineuses extérieures. Elles nécessitent souvent des temps d'exposition importants.

Dans de telles conditions, les mouvements rapides de la caméra, c'est-à-dire du capteur d'image, et/ou des objets présents dans la scène réelle engendrent souvent des effets de flou optique de bougé, appelés motion blur en terminologie anglo-saxonne.

Alors que l'utilisation de caméras professionnelles permet de réduire considérablement ces effets de flou, ces caméras restent néanmoins sensibles aux mouvements rapides d'objets de la scène, par exemple un ballon de football frappé par un joueur.

Ce phénomène de flou entraîne fréquemment des décrochages des applications de suivi utilisées.

Pour contrer ce phénomène, il est possible d'utiliser des systèmes de réduction de flou de bougé. Dans le domaine de la photographie, diverses approches ont été développées. Il existe notamment des stabilisateurs qui équipent les appareils de photographie numérique, en particulier les réflex. Deux sortes de stabilisateur sont principalement utilisés : le stabilisateur optique et le stabilisateur numérique. Ils sont particulièrement efficaces dans de faibles conditions lumineuses ou lorsque le temps d'ouverture est volontairement long.

Le principe d'un stabilisateur optique est de lier le groupe optique avec un capteur de type accéléromètre pour détecter les mouvements de l'appareil photographique et déplacer légèrement ce groupe en conséquence afin de contrer les mouvements de l'appareil photographique.

Les stabilisateurs numériques fonctionnent en modifiant le cadrage de la photographie dans l'image issue du capteur. Cette approche exige l'utilisation d'un capteur dont la résolution est supérieure à celle de l'image. La détection des mouvements de l'appareil photographique peut être réalisée par l'utilisation d'accéléromètre gyroscopique ou par analyse d'images.

Cependant, ces approches de stabilisations, optiques ou numériques, ne répondent pas aux besoins des algorithmes de suivi dans le cadre d'applications de Réalité Augmentée. En effet, la plupart des web- caméras et des caméras « grand public » n'intègrent pas de capteurs de type accéléromètre. Par ailleurs, l'utilisation d'un capteur surdimensionné réduit la taille de l'image globale et ne permet finalement de stabiliser l'image que pour des mouvements de faible amplitude. Dans le contexte de systèmes de suivi d'objets, non seulement les mouvements de la caméra sont amples mais en outre, les objets présents devant la caméra peuvent être en mouvement de façon indépendante. Ce type de mouvements, localisés dans l'image, ne peut ainsi pas être détecté par une approche globale telle que celle proposée par l'utilisation d'un stabilisateur. II existe néanmoins, dans le domaine de l'analyse d'image, une approche, initialement proposée par Jianbo Shi et Carlo Tomasi (« Good Feature to Track » IEEE CVPR 1994), appelée « KLT feature Tracker », permettant de suivre des points caractéristiques dans une séquence d'images et d'estimer un flot optique temporel, ou optical flow en terminologie anglo- saxonne, c'est-à-dire le déplacements de pixels (acronyme de Picture Elément en terminologie anglo-saxonne) entre deux images. Cette méthode vise ainsi à trouver un pixel v dans une image J qui semble le plus similaire à un pixel u d'une image I en estimant ainsi le déplacement d de ce pixel entre les deux images. En d'autres termes, les coordonnées du pixel v peuvent s'exprimer de la façon suivante : v = u + d = [ux + dx, uy + dy].

En notant que le mouvement affine d'une sous-fenêtre entre deux images I et J peut être décrit par la relation suivante, / (Jx - «l ι _ /{ x t où x représente les coordonnées d'un point de la sous-fenêtre par rapport au centre de cette sous-fenêtre. Le point x se déplace donc en Ax + d dans la seconde image avec,

L'approche vise ainsi à minimiser la fonction suivante qui décrit l'erreur résiduelle entre deux régions qui appartiennent à deux images I et J,

é^* ≈≈ Cj^ [J[Ax + d) - I{y)f M v )dx

où W décrit le voisinage autour de x et w(x) représente une fonction de pondération telle qu'une gaussienne.

Pour être efficace, ce suivi de points caractéristiques doit cependant être couplé à un détecteur de points d'intérêt dans une image initiale. Pour la mise en œuvre de cette étape préliminaire, il est nécessaire de rechercher des zones d'image qui présentent une signature haute fréquence. Les points d'intérêts sont ainsi localisés, dans l'image initiale, sur les pixels qui présentent de fortes valeurs de dérivées secondes sur leur voisinage.

Une implémentation de la recherche et du suivi de ces descripteurs est proposée dans la librairie publique connue sous le nom d'OpenCV (acronyme d'Open Computer Vision en terminologie anglo-saxonne), développée par la société Intel. Cette implémentation propose notamment l'utilisation d'une pyramide d'images sous-échantillonnées afin d'accroître la robustesse de la solution aux changements d'échelle lorsque la taille de l'objet dans l'image varie fortement.

Une telle solution de suivi d'éléments caractéristiques, aussi appelée template matching en terminologie anglo-saxonne, permet de suivre des points d'intérêts en utilisant une portion d'image autour de la position de ce point qui rend la répétabilité de ces points d'intérêt plus robuste aux effets de flou.

Cependant la mise en œuvre de cette solution présente des contraintes importantes. Tout d'abord, elle permet seulement d'estimer les mouvements de pixels dans une image, c'est-à-dire avec deux degrés de liberté, et non d'estimer la pose d'un objet présent dans l'image selon six degrés de liberté. De plus, le temps de calcul de telles correspondances dans des images successives est coûteux en performances. Enfin, la position des points suivis dérive rapidement dans le temps, notamment lorsque la texture dans l'image présente des zones similaires proches les unes des autres. Il est également admis que ce type de suivi d'éléments caractéristiques provoque des phénomènes locaux de dérive qui introduisent au cours du temps des imprécisions sur leur position dans l'image.

D'autres approches pour déterminer et corriger le flou optique dans une image existent. Il s'agit par exemple de techniques basées sur la détection de ligne, aussi appelée edge détection en terminologie anglo-saxonne. Elles sont cependant souvent peu robustes car elles nécessitent la présence de contours marqués. De plus, ces contours ont tendance à disparaître avec du flou de type radial qui résulte d'un mouvement de rotation autour de l'axe de vue de la caméra ou d'un mouvement de rotation de type roulis de l'objet dans la scène.

D'autres approches encore visent à estimer, pour chaque pixel d'une image, la direction de mouvement (flot optique). A titre d'exemple, il est possible de transformer une image dite « spatiale » dans un domaine de fréquence à l'aide d'une transformée de Fourier. Un tel procédé est notamment décrit dans le document de thèse intitulé « Visual Motion Estimation based on Motion Blur Interprétation » de bannis Rekleitis (1995). Cependant, ces approches sont souvent coûteuses en termes de calculs et donc difficilement applicables à un contexte de temps réel pour des applications grand public. De plus, elles ne permettent pas d'obtenir d'informations facilement exploitables pour un procédé de suivi d'objet.

L'invention permet de résoudre au moins un des problèmes exposés précédemment.

L'invention a ainsi pour objet un procédé de suivi d'une représentation d'au moins un objet dans une séquence d'images, en temps réel, au moins une image de ladite séquence d'images comprenant au moins un effet de flou optique, ce procédé comprenant les étapes suivantes, - identification d'une représentation dudit au moins un objet dans une première image de ladite séquence d'images ;

- suivi de ladite représentation identifiée dudit au moins un objet dans une seconde image de ladite pluralité d'images, ladite seconde image suivant ladite première image, selon un premier mode de suivi d'objets utilisant une image clé ;

- détection de flou dans une troisième image de ladite séquence d'images, distincte de ladite première image ;

- suivi de ladite représentation identifiée dudit au moins un objet dans ladite troisième image, selon un second mode de suivi d'objets, distinct dudit premier mode de suivi ; et,

- estimation de la pose dudit objet dans ladite troisième image selon ladite représentation identifiée dudit au moins un objet dans ladite troisième image. Le procédé selon l'invention permet ainsi de suivre en temps réel un ou plusieurs objets réels dans une séquence d'images dont certaines images comprennent un effet de flou optique, local ou global, tout en optimisant les ressources nécessaires.

Selon un mode de réalisation particulier, ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend une étape de détermination de correspondances entre une pluralité de points d'intérêt de ladite seconde image et d'une image clé correspondante, ladite étape de détection de flou comprenant une étape de comparaison du nombre de correspondances entre ladite pluralité de points d'intérêt de ladite seconde image et de ladite image clé correspondante avec un seuil.

Le procédé selon l'invention permet ainsi de bénéficier des calculs effectués pour le suivi de représentations d'objets réels aux fins de détection d'effets de flou. Toujours selon un mode de réalisation particulier, ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans une troisième image comprend une étape de recherche de points caractéristiques dans ladite première ou seconde image, la pose dudit au moins un objet étant au moins partiellement déterminée par reprojection desdits points caractéristiques sur un modèle tridimensionnel dudit au moins un objet. Le procédé selon l'invention permet ainsi d'affiner le suivi d'objets réels. Toujours selon un mode de réalisation particulier, ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans une troisième image comprend une étape de recherche de points caractéristiques dans une image clé correspondant à ladite troisième image, la pose dudit au moins un objet étant au moins partiellement déterminée par reprojection desdits points caractéristiques sur un modèle tridimensionnel dudit au moins un objet. Le procédé selon l'invention permet ainsi d'affiner le suivi d'objets réels.

De façon avantageuse, ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend une étape de détermination d'une pluralité de points d'intérêt dans lesdites première et seconde images, lesdits points d'intérêt étant identifiés comme des points de Harris ou des points de type SURF, SIFT ou YAPE. De façon similaire, ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend, de préférence, une étape de détermination d'une pluralité de points d'intérêt dans ladite première ou seconde image et dans une image clé correspondante, lesdits points d'intérêt étant identifiés comme des points de Harris ou des points de type SURF, SIFT ou YAPE.

Toujours selon un mode de réalisation particulier, le procédé est appliqué de façon récursive sur plusieurs images de ladite pluralité d'images pour améliorer le suivi d'objets réels. L'invention a également pour objet un programme d'ordinateur comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé décrit précédemment lorsque ledit programme est exécuté sur un ordinateur ainsi que des moyens de stockage d'informations, amovible ou non, partiellement ou totalement lisible par un ordinateur ou un microprocesseur comportant des instructions de code d'un programme d'ordinateur pour l'exécution de chacune des étapes de ce procédé. L'invention a aussi pour objet un dispositif comprenant des moyens adaptés à la mise en œuvre de chacune des étapes du procédé décrit précédemment.

Les avantages procurés par ce programme d'ordinateur, ces moyens de stockage et ce dispositif sont similaires à ceux évoqués précédemment.

D'autres avantages, buts et caractéristiques de la présente invention ressortent de la description détaillée qui suit, faite à titre d'exemple non limitatif, au regard des dessins annexés dans lesquels :

- la figure 1 , comprenant les figures 1 a, 1 b, 1 c et 1d, illustre schématiquement différents types de flou qui peuvent apparaître dans une image ;

- la figure 2 illustre schématiquement un exemple d'algorithme combinant le suivi de mouvement et la détection de flou pour permettre le suivi d'objets malgré la présence de flou global ou local dans une ou plusieurs images d'une séquence d'images dans laquelle des objets sont suivis ;

- la figure 3 présente un premier mode de réalisation de l'algorithme illustré sur la figure 2 ;

- la figure 4 illustre l'extraction des correspondances 2D/3D entre une image courante et un modèle 3D en utilisant le suivi d'éléments caractéristiques robustes au flou entre une image courante et l'image la précédant dans la séquence ; et,

- la figure 5 illustre un exemple de dispositif adapté à mettre en œuvre l'invention ou une partie de l'invention.

L'invention vise le suivi robuste et rapide d'un ou de plusieurs objets, en temps réel, dans des séquences d'images qui peuvent présenter des effets de flous optiques temporels. La combinaison d'un algorithme d'identification et de suivi d'objets tel que celui développé par la société Total Immersion avec un algorithme de suivi de caractéristiques d'images plus robuste au flou de bougé est ici mise en œuvre pour résoudre les problèmes de décrochages qui peuvent survenir en présence de flou.

Comme indiqué précédemment, ces décrochages peuvent être fréquents lorsque des caméras de basse qualité sont utilisées ou lorsque les mouvements des objets réels devant la caméra sont rapides. Ils sont le plus souvent la conséquence d'une suite d'images, généralement sur une durée ponctuelle, qui présentent un effet de flou optique.

Les effets dits de flou d'images sont généralement des flous « globaux », le plus souvent provoqués par des mouvements rapides de la caméra, plus précisément du capteur d'images, ou « locaux », provoqués par le déplacement rapide d'objets présents dans le champ de vision.

La figure 1 , comprenant les figures 1 a, 1 b, 1 c et 1d, illustre schématiquement différents types de flou qui peuvent apparaître dans une image.

La figure 1 a est une représentation schématique d'une image 100-1 issue d'une séquence d'images, par exemple un flux vidéo provenant d'une caméra intégrant un capteur d'images. L'image 100-1 représente ici une scène 105 dans laquelle sont placés les objets 110, 115 et 120. Ces objets sont ici statiques et la caméra dont est issue l'image 100-1 est stable. L'image 100-1 ne présente donc aucun flou.

La figure 1 b représente une image 100-2 similaire à l'image 100-1 , provenant de la même caméra. Cependant, durant la capture de l'image 100-2, le capteur a bougé, engendrant ainsi un flou global sur l'image. La figure 1 c représente une image 100-3 similaire à l'image 100-1 , provenant de la même caméra. Cependant, durant la capture de l'image 100-3, l'objet 120 a bougé rapidement selon l'axe de translation 125, engendrant ainsi un flou local directionnel sur l'image.

La figure 1d représente une image 100-4 similaire à l'image 100-1 , provenant de la même caméra. Cependant, durant la capture de l'image 100-4, l'objet 120 a bougé rapidement selon l'axe de rotation 130, engendrant ainsi un flou local radial ou rotatif sur l'image.

La figure 2 illustre schématiquement un exemple d'algorithme combinant le suivi de mouvement et la détection de flou pour permettre le suivi d'objets malgré la présence de flou global ou local dans une ou plusieurs images d'une séquence d'images dans laquelle les objets sont suivis. L'algorithme illustré ici est mis en œuvre sur chacune des images de la séquence, de façon séquentielle.

Comme illustré, une première étape a ici pour objet de détecter la présence du ou des objets à suivre dans les images et de les suivre (étape 200). Le mode de suivi utilisé ici est par exemple un algorithme standard de suivi d'objet, en régime permanent (la phase d'initialisation, automatique ou non, a été préalablement effectuée), utilisant des descripteurs dits « stables » tels que des points de Harris ou encore des descripteurs de type SIFT, SURF ou YAPE. Le régime permanent indique qu'un ou plusieurs objets sont détectés et suivis dans la séquence d'images issue de la caméra. La pose d'un objet est dans ce cas déterminée de façon précise dans chacune des images issues successivement du capteur d'image.

Des appariements récursifs, consistant à déterminer les points correspondants dans des images successives, de proche en proche, peuvent être utilisés dans ce mode de suivi standard en utilisant les points caractéristiques de l'image précédente.

Il en va de même pour les appariements entre des points d'une image courante et d'images clés. Si ces deux types d'appariements sont utilisés, le mode de suivi est dit « hybride ». Dans ce cas, les appariements déterminés entre une image courante et des images clés sont ajoutés aux appariements déterminés entre l'image courante et l'image précédente pour évaluer la pose.

Les appariements récursifs sont particulièrement robustes aux effets de vibration tandis que les appariements avec des images clés permettent d'éviter des dérives liés aux appariements récursifs. L'utilisation de ces deux types d'appariements permet donc un suivi visuel plus robuste et plus stable.

Ces appariements donnent ainsi les correspondances entre des coordonnées de points d'une image et les coordonnées de points correspondants du modèle géométrique tridimensionnel associé à l'objet suivi. Ils sont avantageusement utilisés pour estimer la pose d'un objet dans l'image courante selon la pose de l'objet dans l'image précédente et/ou dans l'image clé utilisée. Une étape suivante a pour objet de détecter la présence éventuelle de flou dans l'image en cours de traitement (étape 205), c'est-à-dire de détecter des mouvements rapides des objets dans la scène ou de tremblements de la caméra. En d'autres termes, si un ou plusieurs objets sont présents et suivis dans le champ de le caméra, une étape de détection de flou optique est exécutée, de façon systématique ou non. Cette détection est une mesure qui permet de déterminer la présence de flou optique dans l'image courante ou dans une suite d'images. Elle peut être basée, par exemple, sur la variation du nombre d'appariements entre les points d'intérêts utilisés dans le mode de suivi standard d'objets. Si cette variation est supérieure à un seuil prédéterminé, pour un objet suivi donné ou pour l'ensemble des objets suivis, la présence de flou est détecté.

De façon avantageuse, cette étape n'est réalisée que sous certaines conditions (étape 210), par exemple en utilisant des capteurs de mouvements tels que des accéléromètres ou gyroscopes, pour le cas de tremblement de la caméra, ou suite à la perte d'informations pertinentes, notamment lorsqu'une chute du nombre d'appariements entre les points d'intérêts utilisés dans le mode de suivi standard d'objets est observée. Dans ce dernier cas, les étapes 205 et 210 sont combinées.

S'il n'est pas nécessaire de détecter la présence de flou optique dans l'image, l'algorithme se poursuit de façon classique (étape 200).

L'étape de mesure de flou dans une séquence d'images est importante car elle permet de déterminer le moment précis où le suivi d'objets de type classique n'est plus adapté au suivi des objets et risque d'engendrer rapidement un décrochage.

Suite à l'étape de détection de flou optique, un test est effectué pour déterminer si l'image contient un flou optique (étape 215). Si la mesure est négative, c'est-à-dire si aucun flou optique n'est détecté dans l'image traitée, l'algorithme se poursuit de façon classique (étape 200). Dans le cas contraire, un nouveau mode de suivi d'objets est utilisé pour permettre le suivi d'objets dans des images floues. Si la présence de flou optique dans l'image est détectée, une étape suivante consiste à déterminer si le mode de suivi d'objets utilisé pour permettre le suivi d'objets dans des images floues est initialisé (étape 220).

Si ce mode n'a pas été initialisé, il l'est (étape 225). L'initialisation consiste notamment à créer des informations relatives à l'utilisation d'un procédé de suivi d'éléments caractéristiques robustes au flou dans une séquence d'images floues, en particulier à détecter des éléments caractéristiques robustes au flou dans les images. Cette étape peut, dans certaines mises en œuvre, être effectuée « hors ligne », au lancement de l'application, notamment lorsque ces éléments caractéristiques robustes au flou sont construits directement sur des images clés hors ligne.

Le mode de suivi d'éléments caractéristiques robustes au flou dans une séquence d'images floues est ensuite mis en œuvre (étape 230). A titre d'illustration, un tel mode de suivi d'éléments caractéristiques robustes au flou peut être basé sur l'utilisation de descripteurs de type KLT ou encore de suivi de lignes de forts gradients comme décrit précédemment. De façon avantageuse, ces deux solutions sont combinées pour obtenir un résultat plus robuste.

Dans cette étape, au moins une partie des descripteurs dits stables, utilisés dans le suivi d'objet de type classique (étape 200), est remplacé par les descripteurs déterminés durant la phase d'initialisation du mode de suivi d'objets utilisé pour permettre le suivi d'objets dans des images floues, plus robustes aux effet de flou optiques « locaux » et « globaux ».

Lorsque le flou optique disparaît (étapes 205 et 215), le mode de suivi standard est utilisé à nouveau (étape 200). Dans le cas contraire, le mode de suivi d'objets utilisé pour permettre le suivi d'objets dans des images floues est maintenu (étape 230).

Selon un premier mode de réalisation particulier de l'algorithme illustré sur la figure 2, un algorithme de suivi d'objets comprenant une étape d'identification d'objets, une étape d'initialisation en fonction du ou des objets en présence dans le champ optique de la caméra et une étape de suivi de ces objets est combiné avec un algorithme de suivi de points caractéristique de type KLT, avantageusement adapté au contexte du suivi d'objets dans une séquence d'images floues. Un opérateur de détection de flou optique dans une image est directement extrait de l'algorithme de suivi.

La figure 3 illustre en partie ce premier mode de réalisation pour suivre des objets dans une image courante 300.

Une première étape vise à identifier, ou à détecter, le ou les objets à suivre présents dans le champ de la caméra et à initialiser le suivi de ces objets (étape 305). Cette étape met ici en œuvre un algorithme connu, tel que celui développé par la société Total Immersion, présenté précédemment, qui utilise une base de données contenant un grand nombre de descripteurs, par exemple des points d'intérêt et des descripteurs de type HARRIS, SIFT, SURF ou YAPE, appartenant à un grand nombre d'objets référencés 310.

Ces descripteurs sont, de préférence, organisés en arbres de classification tels que des arbres de décision binaires (voir par exemple l'article « Keypoint Récognition using Randomized Trees » V. Lepetit and P. Fua, EPFL, 2006) ou encore selon des structures à ramifications multiples, aussi appelées arbres de décision de type ferns (voir par exemple l'article « Fast Keypoint Récognition using Random Ferns » M. Ozuysal, P. Fua et V. LepetitJ, permettant une classification simple et rapide par comparaison d'intensité d'image autour d'un point d'intérêt pour permettre l'identification rapide et robuste d'un ou de plusieurs objets dans l'image courante.

Cette étape de détection estime également une pose approximative des objets reconnus dans l'image afin de simplifier l'étape d'initialisation. Cette estimation permet en outre la création d'une image clé dite courante, référencée 315, qui est ensuite utilisée dans le procédé de suivi d'objets.

Si au moins un objet a été reconnu, l'image clé courante 315 est utilisée pour initialiser le système de suivi. Lors de cette initialisation, des points d'intérêt, par exemple des points de Harris, sont calculés sur l'image clé courante 315 pour être utilisés dans le suivi du ou des objets identifiés. Après avoir été initialisé, le procédé de suivi d'objets est lancé (étape

320). Ce procédé est ici un procédé « hybride » qui utilise un opérateur de corrélation, par exemple un opérateur de corrélation de type ZNCC (sigle de Zero-mean Normal Cross Corrélation en terminologie anglo-saxonne) pour déterminer des appariements entre l'image courante 300 et l'image clé courante 315 et entre l'image courante 300 et l'image précédente 325, précédant l'image courante dans la séquence d'images. Cet ensemble de correspondances est ensuite utilisé pour déterminer la pose (position et orientation) des objets suivis. Il convient de remarquer ici que plus ces points sont nombreux et plus leur position est précise, plus le résultat de l'estimation de pose est précis.

Une étape suivante a pour objet de déterminer si l'image courante contient un effet de flou optique (étape 330). Selon le mode de réalisation décrit ici, les deux ensembles d'appariements entre l'image courante 300 et l'image précédente 325 et entre l'image courante 300 et l'image clé courante 315 sont utilisés comme un indicateur de la qualité de l'image courante. Lorsque le nombre de ces appariements chute de façon substantielle et devient inférieur à un seuil, il est considéré qu'au moins une partie de l'image contient un flou optique (étape 335). Un tel seuil peut être prédéterminé ou déterminé de façon dynamique. Il est important de noter qu'une chute substantielle du nombre d'appariements peut également avoir lieu dans le cas où l'objet disparaît partiellement de l'image. Cependant, dans ce cas, le nombre de points reste souvent important et le nombre d'appariements diminue progressivement au cours de la séquence d'images traitée.

Si le nombre de ces appariements demeure supérieur au seuil, le suivi des objets se poursuit de façon standard (étape 320).

Si, au contraire, le nombre de ces appariements chute de façon substantielle et devient inférieur à un seuil, un mode particulier de suivi, ici l'algorithme de suivi de points KLT, est initialisé (étape 340).

Dans cette étape, l'image précédente 325 et la pose précédente issue de l'algorithme de suivi sont utilisées pour rechercher des éléments caractéristiques à suivre, robustes au flou. L'image précédente est a priori non floue puisque le détecteur d'image floue (étape 330) a trouvé un nombre suffisamment grand de correspondances sur cette image. Les éléments caractéristiques à suivre, robustes au flou, appelés caractéristiques KLT, sont recherchés dans cette image précédente grâce à l'estimation des dérivées secondes pour chaque pixel de l'image. Lorsque ces dérivées secondes sont importantes, c'est-à-dire supérieures à un seuil prédéterminé, dans au moins une des deux directions principales, il est considéré que le pixel caractérise un point d'intérêt robuste au flou. Ces points sont mémorisés (référence 345). Ensuite, connaissant la pose de l'objet dans l'image précédente 325 et connaissant le modèle géométrique 400 de l'objet, il est possible d'estimer la reprojection de ces caractéristiques KLT et d'en extraire des coordonnées 3D correspondantes précises sur le modèle géométrique 400 de l'objet.

Dans une étape suivante (étape 350), les correspondances des caractéristiques KLT de l'image précédente 345 sont recherchées dans l'image courante 300. Ce procédé de suivi d'éléments caractéristiques tel que décrit dans l'état de l'art permet de suivre des points sur des images successives. Il s'avère particulièrement robuste pour identifier des mouvements de pixels dans différentes portions de l'image globale. Les correspondances telles qu'illustrées sur la figure 4 sont alors obtenues (référence 355).

La figure 4 illustre l'extraction des correspondances 2D/3D entre l'image courante et le modèle 3D 400 en utilisant le suivi de caractéristiques KLT entre l'image précédente 325 et l'image courante 300. Il est ainsi montré que la connaissance des correspondances 2D/3D entre l'image précédente 325 et le modèle géométrique 3D 400 et la construction des appariements 2D/2D entre l'image courante et l'image précédente permet l'extraction de correspondances 2D/3D entre l'image courante et le modèle géométrique 3D. Ces nouvelles correspondances permettent, comme décrit précédemment, d'estimer la pose de l'objet dans l'image courante. Il est à noter que dans la figure 4 il est possible de remplacer l'image précédente 325 par une image clé. Cette figure décrit donc aussi bien les appariements récursifs image courante - image précédente, que les appariements image courante - image clé.

Une étape suivante (étape 360) a pour objet le suivi d'objets utilisant les correspondances des caractéristiques KLT calculées précédemment. Cette étape consiste notamment à utiliser les correspondances récursives entre images précédente et courante afin d'extraire une liste d'appariements entre le plan image et le modèle géométrique de l'objet. Ces appariements sont connus car lors de l'étape 340, les éléments caractéristiques de l'image précédente ont été reprojetés sur le modèle géométrique de l'objet.

Ensuite, les appariements des caractéristiques KLT entre les points des images courante et précédente permettent de faire correspondre les éléments caractéristiques de l'image courante avec des points géométriques sur le modèle de l'objet. Enfin, un algorithme classique dit de minimisation est utilisé pour estimer la pose de l'objet dans l'image courante. Il peut par exemple s'agir d'une approche de type Levenberg-Marquardt, combinée avec un algorithme RANSAC qui permet d'éliminer de mauvaises correspondances 2D/3D.

Lorsque le nombre d'appariements de caractéristiques KLT est insuffisant (étape 365) par rapport à un seuil prédéterminé ou déterminé dynamiquement, il est considéré que l'objet n'est plus présent dans le champ de la caméra. Dans ce cas, le procédé de suivi d'objets subit alors un décrochage et une nouvelle phase de détection d'objets est exécutée (étapes 365 et 305) afin de détecter les objets qui sont potentiellement dans le champ de la caméra.

Il convient de remarquer ici que, lorsque les images précédente et courante contiennent un effet de flou optique, l'étape d'initialisation (étape 340) n'est pas répétée, comme illustré par la flèche en trait pointillé entre les blocs 335 et 350.

Selon un second mode de réalisation particulier de l'algorithme illustré sur la figure 2, l'initialisation du suivi d'éléments caractéristiques dans une séquence d'images comprenant un effet de flou optique (étape 340 de la figure 3) est avantageusement remplacée par un suivi indépendant de l'image précédente. Dans ce cas, les caractéristiques KLT utilisées pour l'initialisation ne sont pas estimés sur l'image précédente mais en utilisant l'image clé courante, reprojetée en fonction de la pose précédente, estimée lors de l'étape de suivi sur l'image précédente. De cette façon, les caractéristiques KLT suivis dans l'image courante sont similaires à ceux de cette image clé reprojetée, ce qui permet un taux de détection plus rapide dans les images successives de la séquence d'images. Ce second mode de réalisation permet d'éviter d'éventuelles erreurs qui seraient liées à une estimation de pose erronée sur l'image précédente ainsi que d'éventuels problèmes d'occultation de l'objet, par exemple lorsque la main d'un utilisateur passe devant un objet réel. II convient de remarquer qu'il est possible de combiner les deux modes de réalisation décrits afin d'obtenir des résultats plus robustes pour le suivi d'objets. Cependant, une telle combinaison augmente les coûts en termes de calcul.

Un dispositif adapté à mettre en œuvre l'invention ou une partie de l'invention est illustré sur la figure 5. Le dispositif représenté est, de préférence, un dispositif standard, par exemple un ordinateur personnel.

Le dispositif 500 comporte ici un bus interne de communication 505 auquel sont reliés :

- une unité centrale de traitement ou microprocesseur 510 (CPU, sigle de Central Processing Unit en terminologie anglo-saxonne) ;

- une mémoire morte 515 (ROM, acronyme de Read OnIy Memory en terminologie anglo-saxonne) pouvant comporter les programmes nécessaires à la mise en œuvre de l'invention ;

- une mémoire vive ou mémoire cache 520 (RAM, acronyme de Random Access Memory en terminologie anglo-saxonne) comportant des registres adaptés à enregistrer des variables et paramètres créés et modifiés au cours de l'exécution des programmes précités ;

- une interface de communication 540 adaptée à transmettre et à recevoir des données vers et depuis un réseau de communication. Le dispositif 500 dispose également, de préférence, des éléments suivants :

- un disque dur 525 pouvant comporter les programmes précités et des données traitées ou à traiter selon l'invention ; et

- un lecteur de cartes mémoires 530 adapté à recevoir une carte mémoire 535 et à y lire ou à y écrire des données traitées ou à traiter selon l'invention. Le bus interne de communication permet la communication et l'interopérabilité entre les différents éléments inclus dans le dispositif 500 ou reliés à lui.

La représentation du bus interne n'est pas limitative et, notamment, le microprocesseur est susceptible de communiquer des instructions à tout élément du dispositif 500 directement ou par l'intermédiaire d'un autre élément du dispositif 500.

Le code exécutable de chaque programme permettant au dispositif programmable de mettre en œuvre les processus selon l'invention, peut être stocké, par exemple, dans le disque dur 525 ou en mémoire morte 515.

Selon une variante, la carte mémoire 535 peut contenir des données ainsi que le code exécutable des programmes précités qui, une fois lu par le dispositif 500, est stocké dans le disque dur 525.

Selon une autre variante, le code exécutable des programmes pourra être reçu, au moins partiellement, par l'intermédiaire de l'interface de communication 540, pour être stocké de façon identique à celle décrite précédemment.

De manière plus générale, le ou les programmes pourront être chargés dans un des moyens de stockage du dispositif 500 avant d'être exécutés.

Le microprocesseur 510 va commander et diriger l'exécution des instructions ou portions de code logiciel du ou des programmes selon l'invention, instructions qui sont stockées dans le disque dur 525 ou dans la mémoire morte 515 ou bien dans les autres éléments de stockage précités. Lors de la mise sous tension, le ou les programmes qui sont stockés dans une mémoire non volatile, par exemple le disque dur 525 ou la mémoire morte 515, sont transférés dans la mémoire vive 520 qui contient alors le code exécutable du ou des programmes selon l'invention, ainsi que des registres pour mémoriser les variables et paramètres nécessaires à la mise en œuvre de l'invention. Naturellement, pour satisfaire des besoins spécifiques, une personne compétente dans le domaine de l'invention pourra appliquer des modifications dans la description précédente.

Claims

REVENDICATIONS

1. Procédé de suivi d'une représentation d'au moins un objet dans une séquence d'images, en temps réel, au moins une image de ladite séquence d'images comprenant au moins un effet de flou optique, ce procédé étant caractérisé en ce qu'il comprend les étapes suivantes,

- identification (305) d'une représentation dudit au moins un objet dans une première image de ladite séquence d'images ;

- suivi (200, 320) de ladite représentation identifiée dudit au moins un objet dans une seconde image de ladite pluralité d'images, ladite seconde image suivant ladite première image, selon un premier mode de suivi d'objets utilisant une image clé ; - détection (205, 330) de flou dans une troisième image de ladite séquence d'images, distincte de ladite première image ;

- suivi (230, 360) de ladite représentation identifiée dudit au moins un objet dans ladite troisième image, selon un second mode de suivi d'objets, distinct dudit premier mode de suivi ; et, - estimation de la pose dudit objet dans ladite troisième image selon ladite représentation identifiée dudit au moins un objet dans ladite troisième image.

2. Procédé selon la revendication 1 selon lequel ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend une étape de détermination de correspondances entre une pluralité de points d'intérêt de ladite seconde image et d'une image clé correspondante, ladite étape de détection de flou comprenant une étape de comparaison du nombre de correspondances entre ladite pluralité de points d'intérêt de ladite seconde image et de ladite image clé correspondante avec un seuil.

3. Procédé selon la revendication 1 ou la revendication 2 selon lequel ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans une troisième image comprend une étape de recherche de points caractéristiques dans ladite première ou seconde image, la pose dudit au moins un objet étant au moins partiellement déterminée par reprojection desdits points caractéristiques sur un modèle tridimensionnel dudit au moins un objet.

4. Procédé selon l'une quelconque des revendications précédentes dans lequel ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans une troisième image comprend une étape de recherche de points caractéristiques dans une image clé correspondant à ladite troisième image, la pose dudit au moins un objet étant au moins partiellement déterminée par reprojection desdits points caractéristiques sur un modèle tridimensionnel dudit au moins un objet.

5. Procédé selon l'une quelconque des revendications précédentes selon lequel ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend une étape de détermination d'une pluralité de points d'intérêt dans lesdites première et seconde images, lesdits points d'intérêt étant identifiés comme des points de Harris ou des points de type SURF, SIFT ou YAPE.

6. Procédé selon l'une quelconque des revendications précédentes selon lequel ladite étape de suivi de ladite représentation identifiée dudit au moins un objet dans ladite seconde image comprend une étape de détermination d'une pluralité de points d'intérêt dans ladite première ou seconde image et dans une image clé correspondante, lesdits points d'intérêt étant identifiés comme des points de Harris ou des points de type SURF, SIFT ou YAPE.

7. Procédé selon l'une quelconque des revendications précédentes appliqué de façon récursive sur plusieurs images de ladite pluralité d'images.

8. Programme d'ordinateur comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé selon l'une quelconque des revendications précédentes lorsque ledit programme est exécuté sur un ordinateur.

9. Moyen de stockage d'informations, amovible ou non, partiellement ou totalement lisible par un ordinateur ou un microprocesseur comportant des instructions de code d'un programme d'ordinateur pour l'exécution de chacune des étapes du procédé selon l'une quelconque des revendications 1 à 7.

10. Dispositif comprenant des moyens adaptés à la mise en œuvre de chacune des étapes du procédé selon l'une quelconque des revendications 1 à 7.