WO2007090945A1 - Procede pour suivre la position de la tete en temps reel dans un flux d'images video - Google Patents

Procede pour suivre la position de la tete en temps reel dans un flux d'images video Download PDF

Info

Publication number
WO2007090945A1
WO2007090945A1 PCT/FR2007/000176 FR2007000176W WO2007090945A1 WO 2007090945 A1 WO2007090945 A1 WO 2007090945A1 FR 2007000176 W FR2007000176 W FR 2007000176W WO 2007090945 A1 WO2007090945 A1 WO 2007090945A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
head
torso
face
user
Prior art date
Application number
PCT/FR2007/000176
Other languages
English (en)
Inventor
Julien Faure
Grégory PALLONE
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to US12/223,536 priority Critical patent/US8571258B2/en
Priority to EP07730893A priority patent/EP1982306A1/fr
Publication of WO2007090945A1 publication Critical patent/WO2007090945A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention generally relates to the processing of video images generated by a camera, and more particularly to real-time tracking of a person's bust position on camera-generated images.
  • the present invention also relates to the measurement of the movements of an individual, in particular in the so-called context of "virtual reality", in which the movements of the individual are interpreted by computer means to be used, for example, for subsequent applications.
  • Head tracking systems or “head tracking” in Anglo-Saxon terms
  • head tracking from a stream of images taken from the head of the individual generally use:
  • one or two cameras such as cameras, for capturing the images
  • Computer resources such as a computer to process images through specific algorithmic processing.
  • GR Bradski, in Computer Vision Face Tracking For Use in a Perceptual User Interface, Intel Technology Journal, 1998 also uses the principle of color to identify the position of a face in the image of the camera. The image is filtered to obtain the probability distribution of the color that corresponds to the color of the skin (through a histogram). The center of gravity of this distribution gives the center of the face. The roll of the head is given by the calculation of the moments of the distribution.
  • US-6,580,810 discloses a three-dimensional face reconstruction method from a single camera. On the first image, three significant points are identified (for example the two eyes and the mouth), these points forming a triangle in 3D whose position of the points in the space is known. Then, for each of the captured images, the three characteristic points are identified and their 2D coordinates are calculated. The 3D model then undergoes rotations and translations to find the configuration that minimizes the error between the projection of the 3D model of the triangle and the 2D measurement.
  • a 3D model of the face obtained for example with two cameras, is compared to the image obtained with a camera.
  • a principal component analysis determines the orientation and position of the face.
  • the invention proposes a method of tracking the position of the bust of a user from a stream of video images, the bust comprising the torso and the head of the user, the method comprising determining the position of the torso on a first image, in which process
  • a virtual repository is associated with the torso on the first image, and in that, for a second image:
  • a new position of the virtual repository is determined on the second image
  • the invention is usable without calibration or without a 3D model of the user previously acquired or drawn for example from a library. These measurements are available in real time from a single video stream.
  • the invention consists in adding and following a virtual repository (positioned on the image of the torso of the user) so as to differentiate the rotations of the translations of the head. Moreover, the invention does not require an algorithm using an apprenticeship or a calibration.
  • the head of the user comprises the face of the user, and to deduce the relative position of the head, at least one position of the face is measured with respect to the new repository position on the current image.
  • the face can be easily recognized by a particular point such as the nose, eyes or mouth, neck or an external object such as a cap on the head, using techniques like the one mentioned before.
  • the comparison of the movement of the face with respect to the torso makes it possible in particular to determine the position of the head, a position that can be characterized for example by the azimuth, the elevation, as well as the horizontal and vertical translations of the latter.
  • one or more of the following may also be used: determining the position of the user's face on the first image, and deducing the position of the torso on said first image in order to associate a virtual repository with the first image,
  • the position of the torso is determined vertically to the position of the face
  • the head includes the neck, and the relative position of the head is characterized by:
  • T x O and Tyo the coordinates representative of the position of the torso on the first image
  • T x and T y the coordinates representative of the position of the torso on the second image
  • V ⁇ o and V y o the coordinates representative of the position of the face on the first image
  • V x and Vy the coordinates representative of the position of the face on the second image, these coordinates being measured in a common reference linked to the horizontal and vertical axes of the first and second images
  • C1 and C2 constants such as:
  • the coordinates representative of the position of the face and the torso on the first image are the coordinates of the center of gravity of a first cloud of points defined on the face and the center of gravity of a second cloud of points defined on the torso , the coordinates representative of the position of the face and the torso on the second image being the coordinates of the centers of gravity of the first and second point clouds considered in their new position on said second image.
  • the first image is a calibrati image .
  • the second image is a current image of the video image stream.
  • the invention also provides a system for tracking a user's bust position from a video image stream, the bust including the user's head and torso, the system comprising:
  • a video image capture system for generating at least a first image and a second image of the user's torso
  • the invention also relates to a computer program product, intended to be executed in a memory of the processing unit of a computer system, the program comprising instructions for implementing implementation of the method according to the invention during its execution in the processing unit.
  • FIG. 1 is a diagram of steps of one embodiment of the method according to the invention.
  • FIG. 2 is an illustration of a video image of the implementation of the method according to the invention
  • FIG. 3 is an illustration of the head of a user to define the azimuth and the elevation of said head.
  • the method according to the invention can be implemented from video image capture means, for example a webcam. It also requires calculation means such as a processor, and can thus be implemented by a computer.
  • the term "bust of the user” refers to the assembly comprising the head and the torso.
  • the head further includes the face of the user.
  • the position of the head can be described by its azimuth Az, its elevation E1, and its displacements or horizontal translations P x and vertical P y .
  • the azimuth corresponds to the rotation of the head about the axis constituted by the neck of the user; the zero rotation corresponding to the neutral position of the neck.
  • the elevation also defined in Figure 3, corresponds to the rotation of the head in the plane of symmetry of the face, the zero rotation also corresponding to the neutral position of the neck.
  • translational means the rectilinear displacement of the head, it has a horizontal component and a vertical component in directions parallel respectively to the horizontal and vertical edges of the video image.
  • FIG. 1 represents a diagram of steps of an implementation mode of the method according to the invention.
  • a camera for example a webcam, generates a stream of video images, and a first video image 10 is captured by the camera.
  • a first step 20 it is checked whether the process has been initialized.
  • a virtual repository is associated with the torso on the first image 10 in a step 30.
  • This step 30 includes determining the position of the user's torso. This position may for example be characterized by the coordinates T x0 and T y0 , coordinates representative of the position of the torso and measured on the first image 10. These coordinates correspond for example to the coordinates of a specific point of the torso identified in the plane of The first picture.
  • coordinates or translations can be measured in pixels or in distance (in meters for example), while rotations are expressed in degrees or radians.
  • the position of the user's face in the first image is first determined, for example by means of V x0 and V y0 , the coordinates representative of the position of the face on the first image. image of the face, and measured in the plane of the first image. This determination of V x0 and V y0 , the coordinates representative of the position of the face on the first image. image of the face, and measured in the plane of the first image. This determination of V x0 and
  • Vy 0 Vy 0
  • the user is then positioned in the center of the image and actuates the initialization command such as a key on the keyboard.
  • the initialization command such as a key on the keyboard.
  • a face recognition algorithm such as for example the algorithm CAMSHIFT developed by G. R. Bradski, and detailed in "Computer Vision Face Tracking for Use in a Perceptual face recognition algorithm
  • the torso is then considered vertically in the face and in the lower zone of the image capture. It is identified by the coordinates T x0 and T y0 .
  • the position of the head is then initialized. If it is characterized by its azimuth, elevation, and two translations, this data is initialized to a null value. Once the position of the torso determined, a virtual repository is associated with the torso on the first image 10. It thus allows to position the head relative to the torso.
  • step 30 the position of the head and the torso is determined for each subsequent current image of the video stream as follows.
  • a second image is generated by the camera.
  • steps 40 and 50 are identical and independent. They may consist in obtaining respectively:
  • Tracker Description of the algorithm ", Intel Corporation, 2000, can for example track the movement of pixels in the facial area and in the torso area compared to the previous image or the calibration image.
  • the new position of chest x T and T allows them to determine a new position of the virtual repository.
  • a relative position of the head relative to the new position of the virtual repository is computed, by comparison with the position of the virtual repository on the first image, to independently determine the movements of the head and the torso.
  • At least one position of the face is measured relative to the new position of the frame on the second frame, to deduce the relative position of the head.
  • the calculation is done as well.
  • the movements of the head are characterized by the calculation of the 4 degrees of freedom mentioned above, that is to say the azimuth Az, the elevation El, and its horizontal translations P x and vertical P y .
  • the calculations take into account the projection of the rotation of the head on a vertical plane and a horizontal plane.
  • FIG. 2 represents a current image of the video stream to which are associated a horizontal axis (axis XX 'of abscissas) and a vertical axis (axis YY' of ordinates), and which are respectively parallel to the sides of the image.
  • axis XX 'of abscissas a horizontal axis
  • axis YY' of ordinates a vertical axis
  • the relative position of the head 120 is measured from a comparison between the positions of the torso 130 and the face 115 on the first image, and the new positions of the torso 130 and the face 115 of the user on the second image.
  • the translation of the torso 130 is defined by its horizontal and vertical components with the following relations:
  • This definition defines the translation of the head to the identical of the translation of the torso. This definition makes it possible to overcome the displacement of the torso 130 and thus facilitate the calculation of rotations of the head.
  • C- 2 is a constant such as C 2 with - ⁇ El ⁇ -
  • the constants Ci and C 2 also have as unity the pixel.
  • the constant Ci is equal to the distance (in pixels) between the initial position of the center of the head with respect to the bust (V y0 - T y0 ) and the position of the head with respect to the bust (V y - T y ) when the latter has an elevation of 90 ° and an azimuth of 0 °.
  • the constant C 2 is equal to the distance (in pixels) between the initial position of the center of the head with respect to the bust (V x o - T x o) and the position of the head with respect to the bust (V x - T x ) when the latter has a zero elevation and an azimuth of 90 °.
  • the relative position of the head relative to the torso of the individual is characterized from its elevation El 1 and its azimuth Az, and translations P x and P y between the first and the second axis. second image.
  • This characterization is independent of the selected object tracking algorithm (s).
  • it is 4 degrees of freedom that define the relative position of the head relative to the torso, unlike known methods which are limited to two degrees of freedom.
  • the relative position of the head relative to the torso of the individual is characterized from at least one element among its elevation E1, its azimuth Az, and translations P x and P y between the first and the second image.
  • the first image may be replaced during the processing of the video image stream with a new image on which the positions of the face V x0 are determined and
  • This change of first image can be voluntary or automated, for example when the system implementing the method determines a positional deviation of the bust that is too significant between the first and the second image.
  • the first image is a calibration image while the second image is a current image of the video stream.
  • calibration image is meant a reference image identical to each processing of a new current image of the video stream.
  • the movements of the head on a current image are calculated by comparison with the same calibration image.
  • the change of the first image of the previous embodiment amounts to a change of calibration image.
  • a first step the user places his face in the center of a rectangle and for example launches the initialization command on the keyboard.
  • the camera captures a first image, the calibration image, shown in Figure 2.
  • a plurality of virtual points is located on the portion delimited by the rectangle 100 visible in Figure 2 and corresponding to an area around the nose 125. Their positions can be determined by the algorithm developed by J. Shi, and C. Tomasi, and presented in "Good features to track," IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 94), Seattle, 1994.
  • a equivalent number of virtual points is positioned in a second rectangle 110 vertically to the face 115, as shown in Figure 2. This number of points corresponds to the torso of the user.
  • the width of the second rectangle and its horizontal position are the same as those of the first rectangle. Its height is equal to a fraction, here 1/6 th , of the height of the image.
  • the second rectangle is positioned at the bottom of the image. The centers of gravity of the two scatter plots contained in each rectangle, with respective coordinates
  • V x0 , V yO j and (T XO , T y o) are then calculated, corresponding respectively to the position of the face and the torso on the first image.
  • the new position of the points is calculated for a current image using a pyramidal implementation of the Lucas-Kanade algorithm mentioned above.
  • the stability of the method is verified in an additional step performed after the determination of the new position of the virtual points.
  • the new center of gravity is calculated from non-replaced points.
  • the coordinates of the center of gravity related to the face are V x and V y
  • the coordinates of the center of gravity linked to the torso are T x and T y .
  • the translations P x and P y as well as the azimuth and the elevation are calculated respectively according to the equations (1.1), (1.2), (2) and (3).
  • the constants Ci and C 2 are for example equal to 70 pixels for an image width of 340 pixels. These values make it possible to obtain the exact values of azimuth and elevation for a person positioned at 50 cm from the camera. For other distances between the user and the camera, the measured values are then linearly proportional to the azimuth and the elevation.
  • 1D Kalman filters can be used to stabilize the calculated values.
  • the input values for the filters are then directly the azimuth Az, the elevation E1 and the two translations P x and P y .
  • the invention aims at a method of monitoring the bust of a user, fast and effective, and which provides the orientation of the head in azimuth and elevation and its lateral and vertical translations from a only video stream (for example a webcam) and in real time (30 images or more per second).
  • the method according to the invention makes it possible to position a virtual repository on the torso of the user which will make it possible to differentiate the rotations of the translations from the head.
  • the applications concerned by this invention are in the fields of telecommunications and leisure.
  • the efficiency of the method makes it possible to use the measurements made in virtual reality and in particular during applications using sound spatialization techniques and in particular binaural techniques.
  • the invention can be used as an additional control when using video games, especially for first person games (in English, "First Person Shooter”: these are games in which a player "is” a character of the game. play, hear and see what this character hears and sees).
  • the method can also be used to control the mouse with the head and can thus be a valuable aid to people with disabilities.
  • One can also consider using the results of the method according to the invention to seek to optimize the orientation of the webcam, the position of the head to control a steerable webcam through a motorized system according to the new position of the head of the user.
  • Another advantage of the invention is that the measured rotations are independent of the translations.
  • the implementation of the method according to the invention shows that the resultant performance improvement allows the use of inexpensive video capture equipment such as standard webcams.
  • the method allows a real-time measurement (at least 30 images per second) without processor saturation (5% to 20% of a 3GHz Pentium IV with a resolution of 160x120 to 320x240 pixels).
  • the invention also provides a system for tracking a user's bust position from a video image stream, the bust including the user's head and torso, the system comprising:
  • a video image capture system for generating at least a first image and a second image of the user's torso, memories, and
  • the invention also relates to a computer program product, intended to be executed in a memory of the processing unit of a computer system, the program comprising instructions for implementing the method according to the invention when its execution in the processing unit.

Abstract

L'invention concerne un procédé de suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, ledit buste comprenant le torse et la tête de l'utilisateur, le procédé comportant la détermination de la position du torse sur une première image, dans lequel un référentiel virtuel est associé au torse sur ladite première image, et dans lequel, pour une seconde image on détermine une nouvelle position du référentiel virtuel sur ladite seconde image, et, on mesure une position relative de la tête par rapport à ladite nouvelle position du référentiel virtuel par comparaison avec la position du référentiel virtuel sur ladite première image, pour déterminer indépendamment les mouvements de la tête et du torse.

Description

PROCEDE POUR SUIVRE LA POSITION DE LA TETE EN TEMPS REEL DANS UN FLUX D'IMAGES VIDEO
La présente invention concerne d'une manière générale le traitement d'images vidéo générées par une caméra, et plus particulièrement le suivi en temps réel de la position du buste d'une personne sur des images générées par caméra.
La présente invention concerne également la mesure des mouvements d'un individu, notamment en contexte dit de "réalité virtuelle", dans lequel les mouvements de l'individu sont interprétés par des moyens informatiques pour être par exemple utilisés pour des applications ultérieures.
La mesure des mouvements de la tête d'un individu en particulier à partir de^moyens de prise de vues et de traitement d'images simples comporte des difficultés spécifiques. Les systèmes de suivi de la tête (ou "head tracking" en vocable anglo-saxon) à partir d'un flux d'images prises de la tête de l'individu utilisent généralement :
- un ou deux dispositifs de prise de vues, tels que des caméras, pour capturer les images, et
- des moyens informatiques tel qu'un ordinateur pour traiter les images grâce à des traitements algorithmiques spécifiques.
On connaît des systèmes de ce type qui suivent un point, une zone ou un objet dans une image en repérant et mesurant la position d'un objet d'une image à l'autre. Des systèmes opérant en temps réel peuvent ainsi obtenir la position d'un objet dans l'image. Dans la demande de brevet US 2002/037,770, un utilisateur sélectionne un objet dans l'image. Cet objet est ensuite suivi d'une image à l'autre d'après trois mesures basées sur la couleur, le mouvement et le contour de l'objet à suivre.
Selon un principe différent mais qui mène au même résultat, D. O. Gorodnichy, S. Malik, et G. Rothdans dans « Nouse: Use Your Nose as a Mouse - a New Technology for Hands-free Games and Interfaces », Proceedings of International Conférence on Vision Interface, Calgary 2002, ont conçu un logiciel qui repère la forme particulière du nez afin de suivre sa position d'une image à l'autre. G. R. Bradski, dans Computer Vision Face Tracking For Use in a Perceptual User Interface, Intel Technology Journal, 1998 utilise aussi le principe de la couleur afin de repérer la position d'un visage dans l'image de la caméra. L'image est filtrée afin d'obtenir la distribution de probabilité de la couleur qui correspond à la couleur de la peau (par le biais d'un histogramme). Le centre de gravité de cette distribution donne le centre du visage. Le roulis de la tête est donné par le calcul des moments de la distribution.
Ces exemples peuvent permettre de piloter le curseur de la souris, ils sont très performants en terme de rapidité mais ne permettent pas de distinguer une rotation de la tête d'une translation. Les procédés de suivi d'objets sans réfèrentiel se contentent ainsi de repérer uniquement la position et non l'orientation du visage. Le nombre de degrés de liberté mesuré est seulement égal à 2, les rendant peu efficace notamment pour le pilotage du curseur de la souris. On connaît d'autres systèmes qui reconstituent pour des objets en trois dimensions leur position et orientation à partir de deux caméras ou à partir d'une caméra et d'un modèle 3D de l'objet.
Le document US-6,580,810 décrit une méthode de reconstruction du visage en trois dimensions à partir d'une seule caméra. Sur la première image, trois points significatifs sont repérés (par exemple les deux yeux et la bouche), ces points formant un triangle en 3D dont la position des points dans l'espace est connue. Ensuite, pour chacune des images capturées, les trois points caractéristiques sont repérés et leurs coordonnées 2D sont calculées. Le modèle 3D subit ensuite des rotations et des translations afin de retrouver la configuration qui minimise l'erreur entre la projection du modèle 3D du triangle et la mesure 2D.
La correspondance entre un modèle 3D et une image 2D est aussi connue de la demande de brevet US 2003/012,408. Un modèle 3D du visage, obtenu par exemple avec deux caméras, est comparé à l'image obtenue avec une caméra. Une analyse en composantes principales permet de déterminer l'orientation et la position du visage.
Ces méthodes cherchent la correspondance entre un modèle 3D qui peut subir toutes sortes de transformations et une image 2D. Le principal désavantage de cette technique reste cependant l'obtention du modèle en 3D. En effet, elle implique que ce dernier soit connu et donc mesuré au préalable. L'utilisation de modèles 3D génériques n'apporte pas non plus une solution satisfaisante en terme de résolution angulaire.
Dans "Affordable 3D Face Tracking Using Projective Vision", de D.O. Gorodnichy, S. Malik, et G. Roth, Proceedings of International Conférence on
Vision Interface, Calgary 2002, une reconstruction 3D à partir de deux caméras est décrite. Des points caractéristiques sont repérés sur les deux images, une matrice de transformation est calculée. Cette matrice dite fondamentale permet de reconstituer une partie de l'image en trois dimensions et en temps réel à partir des deux flux vidéo. Cette méthode calquée sur la vision nécessite deux caméras. Ces procédés de reconstruction en 3 dimensions utilisent deux caméras rendant cette reconstruction coûteuse en matériel et en temps de calcul.
Seules les techniques faisant appel à deux caméras, ou une caméra et un modèle 3D permettent à ce jour de distinguer l'orientation du mouvement de translation de la tête. Ces techniques restent complexes et demandent ainsi une puissance de calcul importante pour être appliquées en temps réel.
On connaît enfin les technologies par réseaux de neurones mais elles nécessitent une phase d'apprentissage et un temps de traitement peu adapté au temps réel comme par exemple le pilotage d'un jeu vidéo.
Un but de la présente invention est de proposer une méthode permettant de distinguer l'orientation du mouvement de translation de la tête à partir d'un seul flux vidéo. Un autre but de la présente invention est de proposer une méthode qui soit applicable en temps réel, c'est-à-dire à des flux par exemple de plus de 30 images par seconde. Enfin, un autre but de la présente invention est de proposer un procédé qui permette d'utiliser du matériel accessible au plus grand nombre d'utilisateurs, comme par exemple une seule caméra reliée à un réseau étendu ou « webcam ».
Ainsi, suivant un premier aspect, l'invention propose un procédé de suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, le buste comprenant le torse et la tête de l'utilisateur, le procédé comportant une détermination de la position du torse sur une première image, procédé dans lequel
- un référentiel virtuel est associé au torse sur la première image, et en ce que, pour une seconde image :
- on détermine une nouvelle position du référentiel virtuel sur la seconde image,
- et, on mesure une position relative de la tête par rapport à la nouvelle position du référentiel virtuel par comparaison avec la position du référentiel virtuel sur la première image, pour déterminer indépendamment les mouvements de la tête et du torse.
Ainsi, grâce au référentiel virtuel, l'invention est utilisable sans étalonnage ou sans un modèle 3D de l'utilisateur préalablement acquis ou tiré par exemple d'une bibliothèque. Ces mesures sont disponibles en temps réel à partir d'un seul flux vidéo.
Si l'invention nécessite l'utilisation d'algorithmes de suivi d'objets, elle reste indépendante du type d'algorithme employé.
Par rapport aux techniques connues qui suivent la position de la tête à partir d'un flux vidéo, l'invention consiste à rajouter et à suivre un référentiel virtuel (positionné sur l'image du torse de l'utilisateur) de façon à différencier les rotations des translations de la tête. Par ailleurs, l'invention ne nécessite pas d'algorithme utilisant un apprentissage ou un étalonnage.
Dans un mode de réalisation préférentiel du procédé selon l'invention, la tête de l'utilisateur comprend le visage de l'utilisateur, et pour en déduire la position relative de la tête, on mesure au moins une position du visage par rapport à la nouvelle position du référentiel sur l'image courante.
Le visage peut être aisément reconnu par un point particulier comme par exemple le nez, les yeux ou la bouche, le cou ou par un objet extérieur comme une casquette posée sur la tête, en utilisant des techniques comme celle mentionnée auparavant.
La comparaison du mouvement du visage par rapport au torse permet notamment de déterminer la position de la tête, position qui peut être caractérisée par exemple par l'azimut, l'élévation, ainsi que les translations horizontales et verticales de cette dernière.
Dans des modes de réalisation préférés de l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes : - on détermine la position du visage de l'utilisateur sur la première image, et on en déduit la position du torse sur ladite première image afin d'associer un référentiel virtuel à la première image,
- la position du torse est déterminée à la verticale de la position du visage,
- on mesure la position relative de la tête à partir d'une comparaison entre les positions du torse et du visage sur la première image, et les nouvelles positions du torse et du visage sur la seconde image,
- la tête comprend le cou, et la position relative de la tête est caractérisée par :
- une élévation correspondant à la rotation de la tête entre la première et seconde image, mesurée dans le plan de symétrie de ladite tête,
- un azimut correspondant à la rotation de la tête entre la première et seconde image, mesurée autour d'un axe défini par le cou de l'utilisateur,
- une translation de la tête entre la première et la seconde image.
- la position relative de la tête est donnée par les expressions :
°x= 'x " 'xθ Py=Ty -Ty0
EI = |-arccos([(vy0 -Ty0)-(Vy -Ty)].Cr1)
Figure imgf000007_0001
avec
TxO et Tyo les coordonnées représentatives de la position du torse sur la première image,
Tx et Ty les coordonnées représentatives de la position du torse sur la seconde image, Vχo et Vyo les coordonnées représentatives de la position du visage sur la première image, Vx et Vy les coordonnées représentatives de la position du visage sur la seconde image, ces coordonnées étant mesurées dans un repère commun lié aux axes horizontaux et verticaux de la première et seconde images, et C1 et C2 des constantes telles que :
Ci >[(Vy0 -Ty0)-(Vy -Ty)]
Figure imgf000008_0001
avec
Px la composante horizontale de la translation de la tête, Py la composante verticale de la translation de la tête, El l'élévation, Az l'azimut.
- les coordonnées représentatives de la position du visage et du torse sur la première image sont les coordonnées du centre de gravité d'un premier nuage de points définis sur le visage et du centre de gravité d'un second nuage de points définis sur le torse, les coordonnées représentatives de la position du visage et du torse sur la seconde image étant les coordonnées des centres de gravité des premier et second nuages de points considérés dans leur nouvelle position sur ladite seconde image.
- la première image est une image de calibrati.on et la seconde image est une image courante du flux d'images vidéo.
L'invention concerne également un système pour le suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, le buste comprenant la tête et le torse de l'utilisateur, le système comprenant :
- un système de capture d'images vidéo pour générer au moins une première image et une seconde image du buste de l'utilisateur,
- des mémoires, et,
- une unité de traitement reliée au système de capture d'images vidéo, l'unité de traitement faisant appel à des instructions disponibles dans les mémoires pour mettre en œuvre le procédé selon l'invention. L'invention concerne par ailleurs un produit programme d'ordinateur, destiné à être exécuté dans une mémoire de l'unité de traitement d'un système informatique, le programme comportant des instructions pour la mise en œuvre du procédé selon l'invention lors de son exécution dans l'unité de traitement.
D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins sur lesquels :
- la Figure 1 est un diagramme d'étapes d'un mode de mise en oeuvre du procédé selon l'invention ;
- la Figure 2 est une illustration sur une image vidéo de (a mise en œuvre du procédé selon l'invention ; - la Figure 3 est une illustration de la tête d'un utilisateur afin de définir l'azimut et l'élévation de ladite tête.
Le procédé selon l'invention peut être mis en œuvre à partir de moyens de capture d'image vidéo, par exemple une webcam. Elle nécessite également des moyens de calculs comme un processeur, et peut ainsi être mise en œuvre par un ordinateur.
Dans la suite de l'exposé, on entend par buste de l'utilisateur l'ensemble comprenant la tête et le torse. La tête comprend par ailleurs le visage de l'utilisateur. La position de la tête peut être décrite grâce à son azimut Az, son élévation El, et ses déplacements ou translations horizontal Px et vertical Py. Comme représenté à la figure 3, l'azimut correspond à la rotation de la tête autour de l'axe constitué par le cou de l'utilisateur; la rotation nulle correspondant à la position neutre du cou. L'élévation, également définie à la figure 3, correspond à la rotation de la tête dans le plan de symétrie du visage, la rotation nulle correspondant également à la position neutre du cou. Les coordonnées mentionnées sont déterminées selon un repère commun à toutes les images du flux vidéo, sur des axes correspondant par exemple aux bords horizontal et vertical de chaque image. Enfin, on entend par translation le déplacement rectiligne de la tête, elle a une composante horizontale et une composante verticale dans des directions parallèles respectivement aux bords horizontal et vertical de l'image vidéo.
La figure 1 représente un diagramme d'étapes d'un mode de mise en œuvre du procédé selon l'invention. Une caméra, par exemple une webcam, génère un flux d'images vidéo, et une première image vidéo 10 est capturée par la caméra. Dans une première étape 20, on vérifie si le procédé a été initialisé.
Dans la négative, un référentiel virtuel est associé au torse sur la première image 10 au cours d'une étape 30. Cette étape 30 comprend la détermination de la position du torse de l'utilisateur. Cette position peut par exemple être caractérisée par les coordonnées Tx0 et Ty0 , coordonnées représentatives de la position du torse et mesurées sur la première image 10. Ces coordonnées correspondent par exemple aux coordonnées d'un point précis du torse repéré dans le plan de la première image.
Dans la suite de l'exposé, les coordonnées ou les translations peuvent être mesurées en pixels ou en distance (en mètre par exemple), alors que les rotations sont exprimées en degrés ou en radians.
Différentes techniques peuvent être utilisées pour déterminer la position du torse. Dans un mode de réalisation préférentiel, on détermine dans un premier temps la position du visage de l'utilisateur dans la première image, par exemple par l'intermédiaire de Vx0 et Vy0 , les coordonnées représentatives de la position du visage sur la première image du visage, et mesurées dans le plan de la première image. Cette détermination de Vx0 et
Vy0 peut être effectuée :
- soit de manière manuelle, l'utilisateur se positionne alors au centre de l'image et actionne la commande d'initialisation comme par exemple une touche du clavier. Un point particulier, comme le nez ou autre point repérable sur le visage, est alors repéré,
- soit en utilisant un algorithme de reconnaissance du visage, comme par exemple l'algorithme CAMSHIFT développé par G. R. Bradski, et détaillé dans « Computer Vision Face Tracking For Use in a Perçeptual
User Interface », extrait du Intel Technology Journal, 1998. Le torse est alors considéré à la verticale du visage et dans la zone inférieure de la capture d'image. Il est repéré par les coordonnées Tx0 et Ty0.
La position de la tête est alors initialisée. Si elle est caractérisée par son azimut, son élévation et deux translations, ces données sont initialisées à une valeur nulle. Une fois la position du torse déterminée, un référentiel virtuel est associé au torse sur la première image 10. Il permet ainsi de positionner la tête par rapport au torse.
Une fois l'étape 30 réalisée, la position de la tête et du torse est déterminée pour chaque image courante ultérieure du flux vidéo de la façon suivante.
Une seconde image est générée par la caméra. L'étape d'initialisation
20 déjà effectuée, on détermine pour cette seconde image la nouvelle position de la tête et du torse, au cours respectivement des étapes 40 et 50. Ces deux étapes sont identiques et indépendantes. Elles peuvent consister à obtenir respectivement :
- la nouvelle position du visage Vx et Vy, coordonnées représentatives de la position de la tête sur la seconde image, au cours de l'étape 40 et,
- la nouvelle position du torse par l'intermédiaire de Tx et Ty , coordonnées représentatives de la position du torse sur la seconde image au cours de l'étape 50.
Des algorithmes de type « optical flow », comme celui décrit par J.-Y.
Bouguet, dans « Pyramidal Implementation of the Lucas Kanade Feature
Tracker: Description of the algorithm », Intel Corporation, 2000, peuvent par exemple suivre le déplacement des pixels dans la zone du visage et dans la zone du torse par rapport à l'image précédente ou l'image de calibration.
La nouvelle position du torse Tx et Ty permet de déterminer une nouvelle position du référentiel virtuel.
Dans une étape ultérieure 60, on calcule une position relative de la tête par rapport à la nouvelle position du référentiel virtuel, par comparaison avec la position du référentiel virtuel sur la première image, pour déterminer indépendamment les mouvements de la tête et du torse.
Dans un mode de réalisation préféré, on mesure au moins une position du visage par rapport à la nouvelle position du référentiel sur la seconde image, pour en déduire la position relative de la tête.
Le calcul est effectué ainsi. Les mouvements de la tête sont caractérisés par le calcul des 4 degrés de liberté mentionnés précédemment, c'est-à-dire l'azimut Az, l'élévation El, et ses translations horizontale Px et verticale Py. Les calculs prennent en compte la projection de la rotation de la tête sur un plan vertical et un plan horizontal.
La figure 2 représente une image courante du flux vidéo à laquelle sont associées un axe horizontal (axe XX' des abscisses) et un axe vertical (axe YY' des ordonnées), et qui sont respectivement parallèles aux côtés de l'image. On peut voir la tête 120, le visage 115, le torse 130, le cou 135 et le nez 125 de l'utilisateur.
On mesure la position relative de la tête 120 à partir d'une comparaison entre les positions du torse 130 et du visage 115 sur la première image, et les nouvelles positions du torse 130 et du visage 115 de l'utilisateur sur la seconde image.
La translation du torse 130 est définie par ses composantes horizontale et verticale avec les relations suivantes :
Px=Txx0 (1.1) Py=Ty -Ty0 (1.2) avec
Px la translation horizontale de la tête 120 entre la première et la seconde image,
Py la translation verticale de la tête 120 entre la première et la seconde image,
On définit ainsi la translation de la tête à l'identique de la translation du torse. Cette définition permet de s'affranchir du déplacement du torse 130 et de faciliter ainsi le calcul des rotations de la tête.
Les valeurs d'élévation et d'azimut, représentées à la figure 3, sont données respectivement par les relations suivantes :
EI = |-arccos([(vy0 -Ty0)-(Vy -Ty)].Cr1) (2)
Figure imgf000012_0001
avec : El l'angle correspondant à l'élévation de la tête, c'est-à-dire la rotation de la tête dans le plan de symétrie de ladite tête entre la première et seconde image, Az l'angle correspondant à l'azimut de la tête, c'est-à-dire la rotation de la tête autour de l'axe constitué par le cou 135 entre la première et seconde image. où Ci est une constante telle que C1 > [(Vy0 -Ty0)-(vy -Ty )J
et C-2 est une constante telle que C2
Figure imgf000013_0001
avec — < El < —
2 2
Si les positions du visage et du torse sont mesurées en pixel, les constantes Ci et C2 ont également comme unité le pixel. La constante Ci est égale à la distance (en pixels) entre la position initiale du centre de la tête par rapport au buste (Vy0 - Ty0) et la position de la tête par rapport au buste (Vy - Ty) lorsque cette dernière a une élévation de 90° et un azimut de 0°. La constante C2 est égale à la distance (en pixels) entre la position initiale du centre de la tête par rapport au buste (Vxo - Txo) et la position de la tête par rapport au buste (Vx - Tx) lorsque cette dernière a une élévation nulle et un azimut de 90°.
Ainsi, grâce au procédé selon l'invention, on caractérise la position relative de la tête par rapport au torse de l'individu à partir de son élévation El1 son azimut Az, et des translations Px et Py entre la première et la seconde image. Cette caractérisation est indépendante du ou des algorithmes de suivi d'objets sélectionnés. Par ailleurs, ce sont 4 degrés de liberté qui définissent la position relative de la tête par rapport au torse, contrairement aux procédés connus qui se limitent à deux degrés de liberté. Dans un mode de réalisation, on caractérise la position relative de la tête par rapport au torse de l'individu à partir d'au moins un élément parmi son élévation El, son azimut Az, et des translations Px et Py entre la première et la seconde image.
Dans un mode de réalisation supplémentaire, la première image peut être remplacée au cours du traitement du flux d'images vidéo par une nouvelle image sur laquelle sont déterminées les positions du visage Vx0 et
Vy0 et du torse Tx0 et Ty0 . Ce changement de première image peut être volontaire ou automatisé, lorsque par exemple, le système mettant en œuvre le procédé détermine un écart de position du buste trop significatif entre la première et la seconde image.
Dans un mode de réalisation additionnel, la première image est une image de calibration alors que la seconde image est une image courante du flux vidéo. On entend par image de calibration une image de référence, identique à chaque traitement d'une nouvelle image courante du flux vidéo. Ainsi les mouvements de la tête sur une image courante sont calculés par comparaison avec la même image de calibration. Utilisant cette terminologie, le changement de première image du mode de réalisation précédent revient à un changement d'imagé de calibration. Un exemple particulier de réalisation va être décrit ci-après. Cet exemple peut être mis en œuvre uniquement à partir des fonctions des librairies OpenCV d'Intel®.
Dans une première étape, l'utilisateur place son visage au centre d'un rectangle et lance par exemple au clavier la commande d'initialisation. La caméra capture une première image, l'image de calibration, représentée à la figure 2. Sur la partie délimitée par le rectangle 100 visible à la figure 2 et correspondant à une zone autour du nez 125, une pluralité de points virtuels est repérée. Leurs positions peuvent être déterminées par l'algorithme développé par J. Shi, et C. Tomasi, et présenté dans « Good features to track », IEEE Computer Society Conférence on Computer Vision and Pattern Récognition (CVPR 94), Seattle, 1994. Un nombre équivalent de points virtuels est positionné dans un second rectangle 110 à la verticale du visage 115, comme représenté à la figure 2. Ce nombre de points correspond au torse de l'utilisateur. La largeur du second rectangle et sa position horizontale sont les mêmes que celles du premier rectangle. Sa hauteur est égale à une fraction, ici 1/6eme, de la hauteur de l'image. Le second rectangle est positionné dans le bas de l'image. Les centres de gravité des deux nuages de points contenus dans chaque rectangle, de coordonnées respectives
(Vx0, VyOj et (TXO, Tyo) , sont alors calculés. Ils correspondent respectivement à la position du visage et du torse sur la première image.
Pour chaque image, la nouvelle position des points est calculée pour une image courante en utilisant une implémentation pyramidale de l'algorithme de Lucas-Kanade, mentionné précédemment. Dans un mode de réalisation préférentiel, on vérifie la stabilité du procédé dans une étape supplémentaire réalisée après la détermination de la nouvelle position des points virtuels.
Pour chaque nuage de points, si la nouvelle position d'un des points mesurée sur l'image courante s'éloigne trop du centre de gravité du nuage correspondant, ce point virtuel est replacé au centre de gravité. La surface de la zone pour laquelle les points ne sont pas replacés est équivalente au rectangle utilisé à l'initialisation.
Le nouveau centre de gravité est calculé à partir des points non replacés. Les coordonnées du centre de gravité lié au visage sont Vx et Vy , alors que les coordonnées du centre de gravité lié au torse sont Tx et Ty .
Les translations Px et Py ainsi que l'azimut et l'élévation sont calculés respectivement suivant les équations (1.1), (1.2), (2) et (3). Les constantes Ci et C2 sont par exemple égales à 70 pixels pour une largeur d'image de 340 pixels. Ces valeurs permettent d'obtenir les valeurs exactes d'azimut et d'élévation pour une personne positionnée à 50 cm de la caméra. Pour d'autres distances entre l'utilisateur et la caméra, les valeurs mesurées sont alors linéairement proportionnelles à l'azimut et à l'élévation.
Dans un mode de réalisation particulier, des filtres de Kalman 1D peuvent être utilisés pour stabiliser les valeurs calculées. Les valeurs d'entrée pour les filtres sont alors directement l'azimut Az, l'élévation El et les deux translations Px et Py.
Ainsi, l'invention vise un procédé de suivi du buste d'un utilisateur, rapide et efficace, et qui permet d'obtenir l'orientation de la tête en azimut et en élévation ainsi que ses translations latérales et verticales à partir d'un seul flux vidéo (par exemple une webcam) et en temps réel (soit 30 images ou plus par seconde). Le procédé selon l'invention permet de positionner un référentiel virtuel sur le torse de l'utilisateur qui permettra de différencier les rotations des translations de la tête. Les applications concernées par cette invention sont dans les domaines des télécommunications et des loisirs. L'efficacité du procédé permet d'utiliser les mesures réalisées en réalité virtuelle et notamment lors d'applications utilisant les techniques de spatialisation sonore et notamment les techniques binaurales. L'invention peut être utilisée comme une commande supplémentaire lors d'utilisation de jeux vidéo, notamment pour des jeux à la première personne (en anglais, « First Person Shooter » : ce sont des jeux dans lesquels un joueur « est » un personnage du jeu, entend et voit ce qu'entend et voit ce personnage). Le procédé peut aussi servir à piloter la souris avec la tête et peut ainsi être une aide précieuse aux personnes handicapées. On peut également envisager d'utiliser les résultats du procédé selon l'invention pour chercher à optimiser l'orientation de la webcam, la position de la tête permettant de piloter une webcam orientable grâce à un système motorisé en fonction de la nouvelle position de la tête de l'utilisateur.
Un autre avantage de l'invention est que les rotations mesurées sont indépendantes des translations.
La mise en œuvre du procédé selon l'invention montre que l'amélioration des performances qui en découle permet l'utilisation de matériels de capture vidéo peu coûteux tels que des webcams standards. Le procédé permet une mesure temps réel (au moins 30 images par seconde) sans saturation du processeur (5% à 20% d'un Pentium IV 3GHz selon la résolution de 160x120 à 320x240 pixels).
Un autre avantage de la présente invention réside dans le fait que sa simplicité autorise l'utilisation des algorithmes de calcul les plus performants (en termes de rapidité et de diminution des coûts) et permet d'envisager son implémentation dans des téléphones mobiles. Elle permet aussi d'envisager le couplage du suivi de la position avec des applications coûteuses telles que des jeux vidéo ou des applications utilisant le son spatialisé. L'invention concerne également un système pour le suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, le buste comprenant la tête et le torse de l'utilisateur, le système comprenant :
- un système de capture d'images vidéo pour générer au moins une première image et une seconde image du buste de l'utilisateur, - des mémoires, et,
- une unité de traitement reliée au système de capture d'images vidéo, l'unité de traitement faisant appel à des instructions disponibles dans les mémoires pour mettre en œuvre le procédé selon l'invention. L'invention concerne par ailleurs un produit programme d'ordinateur, destiné à être exécuté dans une mémoire de l'unité de traitement d'un système informatique, le programme comportant des instructions pour la mise en œuvre du procédé selon l'invention lors de son exécution dans l'unité de traitement.

Claims

REVENDICATIONS
1. Procédé de suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, ledit buste comprenant le torse (130) et la tête (120) de l'utilisateur, le procédé comportant une détermination de la position du torse (Tχo, Ty0) sur une première image (10), caractérisé en ce que:
- un référentiel virtuel est associé au torse sur ladite première image, et en ce que, pour une seconde image :
- on détermine une nouvelle position du référentiel virtuel sur ladite seconde image,
- et, on mesure une position relative de la tête (El, Az, Px, Py) par rapport à ladite nouvelle position du référentiel virtuel par comparaison avec la position du référentiel virtuel sur ladite première image, pour déterminer indépendamment les mouvements de la tête et du torse.
2. Procédé selon la revendication 1 , dans lequel la tête de l'utilisateur comprend le visage (115) de l'utilisateur, et caractérisé en ce que : - on mesure au moins une position du visage (Vx, Vy) par rapport à la nouvelle position du référentiel sur la seconde image, pour en déduire la position relative de la tête.
3. Procédé selon l'une des revendications précédentes, dans lequel pour associer un référentiel virtuel à la première image, on détermine la position du visage (Vx0, Vyo) de l'utilisateur sur ladite première image, et on en déduit la position du torse (Txo, Tyo) sur ladite première image.
4. Procédé selon la revendication précédente, dans lequel la position du torse (Txo, Tyo) est déterminée à la verticale de la position du visage.
5. Procédé selon l'une des revendications 2 à 4, dans lequel on mesure la position relative de la tête à partir d'une comparaison entre les positions du torse (Tχo, Ty0) et du visage (Vx0, Vy0) sur la première image, et les nouvelles positions du torse (Tx, Ty) et du visage (Vx, Vy) sur ladite seconde image.
6. Procédé selon l'une des revendications précédentes, dont la tête comprend le cou (135), et dans lequel la position relative de la tête est caractérisée par :
- une élévation correspondant à la rotation de la tête entre la première et seconde image, mesurée dans le plan de symétrie de ladite tête,
- un azimut correspondant à la rotation de la tête entre la première et seconde image, mesurée autour d'un axe défini par le cou de l'utilisateur,
- une translation de la tête entre la première et la seconde image.
7. Procédé selon la revendication précédente, dans lequel la position relative de la tête est donnée par les expressions :
" x= ' x " 'xθ T
Figure imgf000019_0001
IyO
EI = |-arccos([(vy0 -Ty0)-(vy -Ty)].Cf1)
Figure imgf000019_0002
avec
Txo et Tyo les coordonnées représentatives de la position du torse sur la première image, Tx et Ty les coordonnées représentatives de la position du torse sur la seconde image, Vx0 et Vyo les coordonnées représentatives de la position du visage sur la première image,
Vx et Vy les coordonnées représentatives de la position du visage sur la seconde image, ces coordonnées étant mesurées dans un repère commun lié aux axes horizontaux et verticaux de la première et seconde images, et C1 et C2 sont des constantes telles que :
Ci >[(Vy0 -Ty0)-(Vy -Ty)]
(Vχθ ~TXO)-(Vx -Tx) . π -_. π
C2 > et — <EI<— COS(EI) avec
Px la composante horizontale de la translation de la tête, Py la composante verticale de la translation de la tête, El l'élévation, Az l'azimut.
8. Procédé selon la revendication précédente, dans lequel les coordonnées représentatives de la position du visage et du torse sur la première image sont les coordonnées du centre de gravité d'un premier nuage de points définis sur le visage et du centre de gravité d'un second nuage de points défini sur le torse, les coordonnées représentatives de la position du visage et du torse sur la seconde image étant les coordonnées des centres de gravité des premier et second nuages de points considérés dans leur nouvelle position sur ladite seconde image.
9. Procédé selon l'une des revendications précédentes, dans lequel la première image est une image de calibration et la seconde image est une image courante du flux d'images vidéo.
10. Système pour le suivi de la position du buste d'un utilisateur à partir d'un flux d'images vidéo, le buste comprenant la tête et le torse de l'utilisateur, le système comprenant :
- un système de capture d'images vidéo pour générer au moins une première image et une seconde image dudit buste de l'utilisateur, - des mémoires, et,
- une unité de traitement reliée audit système de capture d'images vidéo, ladite unité de traitement faisant appel à des instructions disponibles dans lesdites mémoires pour mettre en œuvre le procédé selon l'une des revendications 1 à 9.
11. Produit programme d'ordinateur, destiné à être exécuté dans une mémoire de l'unité de traitement d'un système informatique, le programme comportant des instructions pour la mise en œuvre du procédé selon les revendications 1 à 9 lors de son exécution dans l'unité de traitement.
PCT/FR2007/000176 2006-02-07 2007-01-31 Procede pour suivre la position de la tete en temps reel dans un flux d'images video WO2007090945A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/223,536 US8571258B2 (en) 2006-02-07 2007-01-31 Method of tracking the position of the head in real time in a video image stream
EP07730893A EP1982306A1 (fr) 2006-02-07 2007-01-31 Procede pour suivre la position de la tete en temps reel dans un flux d'images video

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0601080 2006-02-07
FR0601080 2006-02-07

Publications (1)

Publication Number Publication Date
WO2007090945A1 true WO2007090945A1 (fr) 2007-08-16

Family

ID=36691470

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/000176 WO2007090945A1 (fr) 2006-02-07 2007-01-31 Procede pour suivre la position de la tete en temps reel dans un flux d'images video

Country Status (4)

Country Link
US (1) US8571258B2 (fr)
EP (1) EP1982306A1 (fr)
BR (1) BRPI0701982A (fr)
WO (1) WO2007090945A1 (fr)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8358348B2 (en) * 2008-05-09 2013-01-22 Elc Management Llc Method and system for automatic or manual evaluation to provide targeted and individualized delivery of cosmetic actives in a mask or patch form
US8597667B2 (en) * 2008-05-09 2013-12-03 Elc Management Llc Targeted and individualized cosmetic delivery
US8425477B2 (en) * 2008-09-16 2013-04-23 Elc Management Llc Method and system for providing targeted and individualized delivery of cosmetic actives
US8491926B2 (en) 2008-09-16 2013-07-23 Elc Management Llc Method and system for automatic or manual evaluation to provide targeted and individualized delivery of cosmetic actives in a mask or patch form
US8963829B2 (en) 2009-10-07 2015-02-24 Microsoft Corporation Methods and systems for determining and tracking extremities of a target
US8564534B2 (en) * 2009-10-07 2013-10-22 Microsoft Corporation Human tracking system
US7961910B2 (en) 2009-10-07 2011-06-14 Microsoft Corporation Systems and methods for tracking a model
US9582707B2 (en) 2011-05-17 2017-02-28 Qualcomm Incorporated Head pose estimation using RGBD camera
IL213506A (en) * 2011-06-13 2016-04-21 Israel Aerospace Ind Ltd Pursuing a goal
US8929598B2 (en) * 2011-06-29 2015-01-06 Olympus Imaging Corp. Tracking apparatus, tracking method, and storage medium to store tracking program
IL219639A (en) 2012-05-08 2016-04-21 Israel Aerospace Ind Ltd Remote object tracking
WO2014111923A1 (fr) 2013-01-15 2014-07-24 Israel Aerospace Industries Ltd Suivi à distance d'objets
IL224273B (en) 2013-01-17 2018-05-31 Cohen Yossi Delay compensation during remote sensor control
US11615460B1 (en) 2013-11-26 2023-03-28 Amazon Technologies, Inc. User path development
US10586203B1 (en) * 2015-03-25 2020-03-10 Amazon Technologies, Inc. Segmenting a user pattern into descriptor regions for tracking and re-establishing tracking of a user within a materials handling facility
US10810539B1 (en) 2015-03-25 2020-10-20 Amazon Technologies, Inc. Re-establishing tracking of a user within a materials handling facility
US11205270B1 (en) 2015-03-25 2021-12-21 Amazon Technologies, Inc. Collecting user pattern descriptors for use in tracking a movement of a user within a materials handling facility
US10679177B1 (en) 2015-03-25 2020-06-09 Amazon Technologies, Inc. Using depth sensing cameras positioned overhead to detect and track a movement of a user within a materials handling facility
US11328513B1 (en) 2017-11-07 2022-05-10 Amazon Technologies, Inc. Agent re-verification and resolution using imaging
US11386306B1 (en) * 2018-12-13 2022-07-12 Amazon Technologies, Inc. Re-identification of agents using image analysis and machine learning
US11315287B2 (en) * 2019-06-27 2022-04-26 Apple Inc. Generating pose information for a person in a physical environment
US11682153B2 (en) 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123754A1 (en) * 2001-12-31 2003-07-03 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240198B1 (en) * 1998-04-13 2001-05-29 Compaq Computer Corporation Method for figure tracking using 2-D registration
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
US7574016B2 (en) * 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7308112B2 (en) * 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US6967612B1 (en) * 2004-10-22 2005-11-22 Gorman John D System and method for standoff detection of human carried explosives
JP4830650B2 (ja) * 2005-07-05 2011-12-07 オムロン株式会社 追跡装置
US7574018B2 (en) * 2005-12-07 2009-08-11 Trw Automotive U.S. Llc Virtual reality scene generator for generating training images for a pattern recognition classifier
US20110044501A1 (en) * 2006-07-14 2011-02-24 Ailive, Inc. Systems and methods for personalized motion control
KR101588040B1 (ko) * 2009-02-13 2016-01-25 코닌클리케 필립스 엔.브이. 이동 애플리케이션을 위한 헤드 트래킹
WO2012047222A1 (fr) * 2010-10-07 2012-04-12 Sony Computer Entertainment Inc. Lunettes en 3d avec faisceau lumineux éclairé

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123754A1 (en) * 2001-12-31 2003-07-03 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A.S. MICILOTTA AND R.BOWDEN: "View-based Location and Tracking of Body Parts for Visual Interaction", PROCEEDINGS ON BRITISH MACHINE VISION CONFERENCE, vol. 2, September 2004 (2004-09-01), pages 849 - 859, XP002392458 *
JU S X ET AL: "Cardboard people: a parameterized model of articulated image motion", AUTOMATIC FACE AND GESTURE RECOGNITION, 1996., PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON KILLINGTON, VT, USA 14-16 OCT. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 14 October 1996 (1996-10-14), pages 38 - 44, XP010200397, ISBN: 0-8186-7713-9 *
RANA EL KALIOUBY, PETER ROBINSON: "Real-Time Inference of Complex Mental States from Facial Expressions and Head Gestures", REAL-TIME VISION FOR HUMAN-COMPUTER INTERACTION, 2005, Springer US, pages 181 - 200, XP002434984, ISBN: 978-0-387-27697-7, Retrieved from the Internet <URL:http://www.cl.cam.ac.uk/~pr10/publications/rtv4hci05.pdf> [retrieved on 20070524] *
WANG J J ET AL: "Video analysis of human dynamics-a survey", REAL-TIME IMAGING, ACADEMIC PRESS LIMITED, GB, vol. 9, no. 5, October 2003 (2003-10-01), pages 320 - 345, XP004472531, ISSN: 1077-2014 *
YOUDING ZHU ET AL: "3D head pose estimation with optical flow and depth constraints", 3-D DIGITAL IMAGING AND MODELING, 2003. 3DIM 2003. PROCEEDINGS. FOURTH INTERNATIONAL CONFERENCE ON 6-10 OCT. 2003, PISCATAWAY, NJ, USA,IEEE, 6 October 2003 (2003-10-06), pages 211 - 216, XP010662697, ISBN: 0-7695-1991-1 *

Also Published As

Publication number Publication date
US8571258B2 (en) 2013-10-29
US20090129631A1 (en) 2009-05-21
BRPI0701982A (pt) 2007-12-11
EP1982306A1 (fr) 2008-10-22

Similar Documents

Publication Publication Date Title
WO2007090945A1 (fr) Procede pour suivre la position de la tete en temps reel dans un flux d&#39;images video
US11238606B2 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
Kadambi et al. 3d depth cameras in vision: Benefits and limitations of the hardware: With an emphasis on the first-and second-generation kinect models
EP3707676B1 (fr) Procédé d&#39;estimation de pose d&#39;une caméra dans le référentiel d&#39;une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d&#39;ordinateur associé
Wang et al. Tofcut: Towards robust real-time foreground extraction using a time-of-flight camera
US20130129224A1 (en) Combined depth filtering and super resolution
CN108958473A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
US20110148868A1 (en) Apparatus and method for reconstructing three-dimensional face avatar through stereo vision and face detection
GB2533788A (en) Method for determining the position of a portable device
FR2882160A1 (fr) Procede de capture d&#39;images comprenant une mesure de mouvements locaux
US20220051372A1 (en) Feature matching using features extracted from perspective corrected image
US20220027659A1 (en) Learning illumination from diverse portraits
Schauerte et al. Saliency-based identification and recognition of pointed-at objects
WO2023071790A1 (fr) Procédé et appareil de détection de pose pour un objet cible, dispositif et support de stockage
EP4033399B1 (fr) Dispositif informatique et procédé pour l&#39;estimation de la densité d&#39;une foule
US8903124B2 (en) Object learning method, object tracking method using the same, and object learning and tracking system
WO2021149509A1 (fr) Dispositif d&#39;imagerie, procédé d&#39;imagerie et programme
CN114882106A (zh) 位姿确定方法和装置、设备、介质
EP1095358B1 (fr) Procede de modelisation d&#39;objets ou de scenes 3d
Li et al. Estimating gaze points from facial landmarks by a remote spherical camera
Ahn et al. Positional estimation of invisible drone using acoustic array with A-shaped neural network
Nichau et al. Pose-insensitive nose detection in TOF-scans
Bohez et al. Cloudlet-based large-scale 3D reconstruction using real-time data from mobile depth cameras
Jiddi Photometric registration of indoor real scenes using an RGB-D camera with application to mixed reality
Hallerbach Development of a toolset and benchmark framework for monocular event-based depth extraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
REEP Request for entry into the european phase

Ref document number: 2007730893

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007730893

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12223536

Country of ref document: US