WO2011089517A1

WO2011089517A1 - Procede et dispositif de reconnaissance de visages en conditions de poses variables

Info

Publication number: WO2011089517A1
Application number: PCT/IB2011/000098
Authority: WO
Inventors: Ngoc Son Vu; Alice Caplier
Original assignee: Vesalis; Institut Polytechnique De Grenoble
Priority date: 2010-01-25
Filing date: 2011-01-24
Publication date: 2011-07-28

Abstract

Procédé et dispositif de reconnaissance faciale permettant de reconnaître des individus en vues non frontales comprenant une phase d'apprentissage et une phase de reconnaissance, la seconde phase utilisant deux descripteurs locaux : des ondelettes de Gabor et des descripteurs LBP.

Description

PROCEDE ET DISPOSITIF DE RECONNAISSANCE DE VISAGES EN CONDITIONS DE POSE VARIABLES

DOMAINE TECHNIQUE DE L'INVENTION

[0001] L'invention concerne un procédé de reconnaissance faciale adapté pour effectuer des reconnaissances d'images de visage en cas de condition de poses variables, en particulier non vues de face. L'invention prévoit par ailleurs un dispositif de reconnaissance faciale correspondant.

ETAT DE LA TECHNIQUE ANTERIEURE

[0002] Au cours des dernières décennies, la reconnaissance de visages a été un des secteurs les plus actifs en reconnaissance des formes du fait de son intérêt potentiel pour des applications en interaction homme-machine, en vidéo surveillance et en systèmes de sécurité. A l'heure actuelle, il existe de nombreux procédés performants pour résoudre le problème de la reconnaissance faciale sous réserve que les conditions d'acquisition du visage de la personne à reconnaître soient contrôlées. Néanmoins, l'un des plus grands défis qui demeure est la reconnaissance de visage en conditions de pose et d'illumination variables.

[0003] Plusieurs techniques ont été proposées pour résoudre ce problème. La première consiste à prendre une seule image de visage à une pose donnée et à créer un modèle complet du visage en 3D pour le sujet considéré. Cette approche, bien que produisant de bons résultats, occasionne des temps de calculs importants et coûteux. De ce fait, une telle stratégie n'est pas appropriée pour des applications telles que la vidéo surveillance ou pour des applications en temps réel.

[0004] Plus récemment, une autre approche a été développée dont le but est de rechercher dans le visage des caractéristiques qui sont invariantes. Une telle

CONFIRMATION C0PV approche nécessite cependant la détection manuelle sur l'image de visage d'un nombre important de points.

[0005] Une troisième technique est basée sur une approche statistique : le but est de modéliser en quoi l'apparence des visages change en fonction de la pose, d'une part pour un individu donné et d'autre part entre différents individus. Les méthodes statistiques connues sont classées en deux groupes: celles qui s'appuient sur une modélisation globale et celles qui s'appuient sur une modélisation locale. Généralement, les méthodes à base de modèles statistiques locaux sont plus performantes que celles à base de modèles globaux.

[0006] Les performances actuelles obtenues à l'aide des diverses techniques connues de reconnaissance faciale sont toujours limitées, de sorte que les utilisateurs potentiels attendent toujours une amélioration sensible des résultats avant d'envisager des applications pratiques.

[0007] Pour pallier ces différents inconvénients, l'invention prévoit différents moyens techniques.

EXPOSE DE L'INVENTION

[0008] Tout d'abord, un premier objet de l'invention consiste à prévoir un procédé permettant d'effectuer de façon fiable la reconnaissance de visages en conditions de pose variables.

[0009] Un autre objet de l'invention consiste à prévoir un procédé permettant d'effectuer de façon fiable la reconnaissance de visages en conditions de pose non vue de face.

[0010] Encore un autre objet de l'invention consiste à prévoir un dispositif permettant d'effectuer de façon fiable la reconnaissance de visages en conditions de pose non vue de face. [0011] Encore un autre objet de l'invention consiste à prévoir un dispositif et un procédé permettant d'effectuer des reconnaissances de visages en vue non frontale, sachant que la base d'images de référence ne contient que des vues de face des individus à reconnaître.

[0012] Pour ce faire, l'invention prévoit un procédé de reconnaissance faciale à partir de données d'images, comprenant les étapes consistant à :

-fournir une base de données d'apprentissage, comportant des données d'images de visages avec une pluralité de vues distinctes pour chaque personne ;

-effectuer au moins une phase d'apprentissage lors de laquelle des modèles probabilistes décrivant des distributions de probabilité conjointes de sous-parties ou patchs faciaux entre une pluralité d'images de visage à différentes poses sont appris ;

-fournir une base de données de référence, comportant des images en vues sensiblement frontales de personnes connues ;

-effectuer au moins une phase de reconnaissance faciale consistant à :

-fournir une image, éventuellement non vue de face, d'un visage d'un individu non connu, en vue d'une reconnaissance ;

-calculer des valeurs de similarité entre des patchs de l'image à reconnaître et des patchs d'images de la base de référence ;

-en se basant sur les paramètres des modèles appris, déterminer la probabilité que les valeurs de similarité établies proviennent d'un même individu.

[0013]Pour une tâche d'identification, l'image de la base de référence avec laquelle la probabilité est la plus grande sert à fournir l'identité recherchée. Pour une tâche de vérification, si la probabilité est supérieure à un seuil donné, une alerte de détection est générée.

[0014] Ces caractéristiques permettent d'obtenir une nouvelle approche basée sur des caractéristiques faciales locales (calculées sur des sous-parties ou « patchs » du visage) robustes aux variations de pose. [0015] Le procédé a l'avantage d'une part de ne nécessiter qu'une seule image de référence pour chaque individu et d'autre part le fait que l'ajout d'un nouvel individu dans la base de données de visages ne requiert pas de réapprendre les modèles.

[0016] Selon un mode de réalisation avantageux, la phase d'apprentissage est effectuée en temps masqué, préalablement à toute phase de reconnaissance.

[0017] Selon un autre mode de réalisation avantageux, les traits caractéristiques de visages sont caractérisés en utilisant des ondelettes de Gabor et/ou des descripteurs LBP. Il est fait appel à une combinaison de ces deux descripteurs au lieu d'utiliser l'intensité de pixels. Les ondelettes de Gabor sont d'un grand intérêt pour la reconnaissance du visage, car elles peuvent capturer des propriétés visuelles et saillantes comme la localisation spatiale, l'orientation, et les caractéristiques de fréquences spatiales. Elles permettent aussi la reconnaissance de visages sans correspondance parfaite. En d'autres termes, la représentation en ondelettes de Gabor d'une image faciale est robuste aux mauvais alignements d'images de visage.

[0018] Il est également proposé d'utiliser un filtre rétine comme technique de prétraitement.

[0019] L'invention prévoit par ailleurs un procédé de reconnaissance faciale permettant de reconnaître des images faciales d'individus en vues non frontales comprenant une phase d'apprentissage et une phase de reconnaissance, la seconde phase utilisant au moins deux descripteurs locaux dont des ondelettes de Gabor et des descripteurs LBP.

[0020] Le procédé est avantageusement centré sur la modélisation de la façon dont l'apparence du visage change lorsque le point de vue varie. [0021] L'invention prévoit également un dispositif de reconnaissance faciale comprenant :

-une base de données d'apprentissage, comportant des données d'images de visages avec une pluralité de vues distinctes pour chaque personne ;

-une base de données de référence, comportant des images en vues sensiblement frontales de personnes connues ;

-une entrée permettant de fournir les données d'images non frontales d'individus à reconnaître ;

-un module de reconnaissance faciale, permettant d'effectuer une phase de comparaison entre les données des images à traiter et les données de la base de référence et d'indiquer la probabilité que deux visages d'orientations différentes proviennent d'un même individu,

-le module de reconnaissance faciale comportant un comparateur permettant de calculer des valeurs de similarité entre des patchs de l'image à reconnaître et des patchs d'images de la base de référence, et, en se basant sur les paramètres des modèles appris, de déterminer la probabilité que les valeurs de similarité établies proviennent d'un même individu.

[0022] De manière avantageuse, le dispositif comprend un module d'apprentissage, permettant d'effectuer un prétraitement des données de la base de données d'images faciales d'apprentissage, le prétraitement comportant au moins une phase d'apprentissage lors de laquelle des modèles probabilistes décrivant les distributions de probabilité conjointes de patchs faciaux entre images de visage à différentes poses sont appris.

[0023] Egalement de manière avantageuse, les traits caractéristiques de visages sont caractérisés en utilisant des ondelettes de Gabor et/ou des descripteurs LBP.

DESCRIPTION DES FIGURES [0024] Tous les détails de réalisation sont donnés dans la description qui suit, complétée par les figures 1 à 5, présentées uniquement à des fins d'exemples non limitatifs, et dans lesquelles:

-la figure 1 est une représentation schématique d'un dispositif de reconnaissance faciale selon l'invention;

-la figure 2 est un organigramme fonctionnel présentant les principales étapes du procédé de reconnaissance faciale conforme à l'invention ;

-la figure 3 est image sur laquelle on aperçoit des points permettant de réaliser une extraction de la région du visage ;

-la figure 4 montre des exemples de la base Feret : en haut, les images originales; en bas, les images prétraitées par un filtre rétine ;

-la figure 5A présente graphiquement le taux de reconnaissance obtenu pour différentes poses : performances de la méthode proposée et comparaison ;

-la figure 5B présente graphiquement le taux de reconnaissance obtenu pour différentes poses: performances de la méthode proposée lorsque la pose de la requête est connue ou non.

DESCRIPTION DETAILLEE DE L'INVENTION

[0025] La figure 1 illustre un exemple d'un dispositif de reconnaissance faciale conforme à l'invention, comportant une base de données 1A d'apprentissage, comportant des données d'images de visages avec une pluralité de vues distinctes pour chaque personne. Cette base est avantageusement utilisée pour effectuer une « phase d'apprentissage », permettant de générer des paramètres de modèles appris. Ces paramètres sont stockés dans une base de données de paramètres 1B. Cette phase d'apprentissage est décrite plus en détails plus loin dans le présent document. Le dispositif comprend également une base de données de référence 1C, comportant des images en vues sensiblement frontales de personnes connues. Une base de données ou une entrée d'images à traiter 2 est également prévue. Un module de reconnaissance faciale 3 est relié aux bases 1B, 1C et 2. Il comprend un comparateur 6, permettant de réaliser l'étape de reconnaissance décrite plus loin. Le module de reconnaissance faciale 3 est avantageusement pourvu de moyens de calculs tel qu'un microprocesseur 4 et d'un module mémoire 5 de travail.

[0026] Le dispositif comporte un module d'apprentissage 7 avantageusement pourvu de moyens de calculs tel qu'un microprocesseur 8 et d'un module mémoire 9 de travail. Le module d'apprentissage permet d'effectuer la phase d'apprentissage décrite plus loin.

[0027] Selon diverses variantes de réalisation, les moyens de calculs 4 et 8, tout comme les mémoires de travail 5 et 9 peuvent être centralisés pour tous les modules ou tout le dispositif, ou encore être agencés de façon externe, avec connexion aux différents modules.

[0028] La mise en oeuvre des différents modules préalablement décrits (par exemple les modules 3 et 7) est avantageusement réalisée au moyen d'instructions de mise en œuvre, permettant aux modules d'effectuer la ou les opérations spécifiquement prévues pour le module concerné. Les instructions peuvent être sous la forme d'un ou plusieurs logiciels ou modules de logiciels mis en œuvre par un ou plusieurs microprocesseurs. Le ou les modules et/ou le ou les logiciels sont avantageusement prévus dans un produit programme d'ordinateur comprenant un support d'enregistrement ou médium d'enregistrement utilisable par un ordinateur et comportant un code programmé lisible par un ordinateur intégré dans ledit support ou médium, permettant à un logiciel applicatif son exécution sur un ordinateur ou autre dispositif comportant un microprocesseur.

[0029] Le procédé est constitué de deux phases : une phase d'apprentissage avantageusement « offline » ou en temps masqué, et une phase de reconnaissance. La figure 2 présente les étapes du procédé conforme à l'invention. Des bases de données d'apprentissage 1A et de référence 1C sont fournies (étape 10). La phase d'apprentissage concerne l'étape d'apprentissage 11. Dans cette phase d'apprentissage, en utilisant une base de données de visage indépendante, des modèles probabilistes décrivant les distributions de probabilité conjointes de patchs faciaux entre images de visage à différentes poses sont appris. Les paramètres résultants sont conservés dans la base de paramètres 1 B.

[0030] La phase de reconnaissance faciale s'échelonne des étapes 12 à 15. Dans la phase de reconnaissance, les paramètres des modèles appris de la base 1B sont utilisés pour calculer la probabilité que deux visages d'orientation différente proviennent du même individu. Le procédé utilise deux descripteurs locaux pour caractériser les informations spécifiques d'un visage, à savoir des ondelettes de Gabor et des descripteurs LBP (« Local Binary Patterns »), tous deux de type connu en utilisation indépendante ou pour des détections avec des vues de face uniquement.

[0031] A l'étape 13, une image est reçue de la base ou entrée 2. Cette image présente un visage d'un individu à reconnaître, en vue quelconque, c'est-à-dire frontale on non. A l'étape 14, on calcule des valeurs de similarité entre des patchs de l'image à reconnaître et des patchs d'images de la base de référence 1C. A l'étape 15, en se basant sur les paramètres des modèles appris, on détermine la probabilité que les valeurs de similarité établies proviennent d'un même individu.

[0032] Le procédé utilise avantageusement une base telle que la base de données FERET qui se compose d'images issues de 200 individus. Pour chaque personne, les visages ont été acquis à neuf poses différentes qui correspondent aux angles de vue : 0°, - 60°, - 45°, - 25°, - 15°, + 15°, + 25°, + 45°, + 60°. D'autres vues à d'autres angles peuvent aussi être utilisées, selon la base de référence.

[0033] Les algorithmes de reconnaissance faciale étant très sensibles à l'alignement des deux visages à comparer, la région du visage est classiquement extraite manuellement et avec soin de manière à ce que les yeux soient alignés sur la même position. Pour ce faire, les coordonnées des centres des yeux doivent être estimées très précisément. Or, les outils d'extraction automatique ne permettent pas encore de telles opérations. Pour lever cette contrainte, les points clés du visage sont extraits à partir de la connaissance de deux pixels - Si - quelconques des yeux et un pixel quelconque de la bouche, aucun de ces pixels n'étant situé ni au centre des yeux ni au centre de la bouche. L'extraction de ces pixels est effectuée à l'aide d'un algorithme automatique de type connu, comme par exemple la méthode «Viola-Jones » et/ou la méthode « C3F » (« Convolutional face Finder ») de Garcia. A partir de ces 3 points, la zone englobant le visage est construite, tel que montré à la figure 3. On utilise avantageusement un filtre rétine comme prétraitement. Plusieurs filtres de ce type sont bien connus. La Figure 4 montre les visages extraits à neuf poses différentes pour une même personne de la base Feret : en haut, les images originales; en bas, les images prétraitées par un filtre rétine.

Les ondelettes de Gabor

[0034] Selon un mode de réalisation avantageux, on prévoit une représentation d'une image en ondelettes de Gabor impliquant une convolution de l'image avec une famille de 40 noyaux de Gabor, de 5 échelles et 8 orientations différentes. Ainsi, pour chaque pixel, 40 valeurs complexes sont calculées. En général, seules les amplitudes sont utilisées pour former la représentation finale parce que les phases sont trop sensibles aux petits déplacements.

[0035] Dans le modèle utilisé, chaque image après convolution est avantageusement sous-échantillonné pour donner une image de taille 10x10. Puisque l'image du visage est également divisée en 10x10 patchs non superposés, le descripteur de chaque patch est un vecteur de 40 valeurs. La similitude entre deux patchs est calculée en utilisant la distance cosinus. Grâce au sous-échantillonnage de l'image faciale, les caractéristiques sont plus robustes aux mauvais alignements.

Descripteur LBP

[0036] L'opérateur LBP est un procédé connu pour décrire des textures. L'opérateur étiquette chaque pixel d'une image par seuillage sur un voisinage 3x3 avec la valeur centrale et le résultat est considéré comme un nombre binaire. L'histogramme des étiquettes est utilisé comme descripteur de texture. [0037] Dans le modèle conforme à l'invention, la région du visage est divisée en 10x10 patchs non superposés, chacun de taille de 12x10. Puis, un vecteur de 59 valeurs correspondant à des histogrammes d'indices LBP^U2 ₈,₂ (descripteur d'un patch visage avec U2 descripteurs LBP uniformes ; 8,2 désignent respectivement le nombre de voisins et la taille de l'échelle). Grâce à cette approche, les histogrammes locaux des régions sont robustes aux mauvais alignements. La similarité entre les deux histogrammes est ensuite calculée en utilisant de préférence la distance du Chi-square.

[0038] Dans le cadre de l'invention, on modélise comment l'apparence du visage change lorsque le point de vue varie. Pour ce faire, on se réfère avantageusement à l'évolution de deux caractéristiques locales de visage, à savoir les ondelettes de Gabor et les coefficients LBP. Par ailleurs, deux approches différentes de fusion de ces deux descripteurs sont possibles: une fusion au niveau des décisions (fusion haut niveau) et une fusion au niveau des caractéristiques (fusion bas niveau).

[0039] Dans la phase d'apprentissage, on détermine la distribution de probabilité de similitude entre deux patchs de visage, compte tenu de la pose de la requête :

P(S_r | w, φ_ρ), φ_ρ e{même, dif}

où S_r est la similarité entre le patch r de l'image galerie et la requête (la similarité peut être un scalaire dans le cas de l'utilisation de la fusion haut niveau ou un vecteur en cas de la fusion bas niveau), φ_ρ est l'angle de vue de la requête et w définit si la galerie et les requêtes proviennent du même sujet ou de sujets différents.

[0040] Pour calculer ces distributions, les histogrammes de similarité de chaque descripteur considéré sont établis. Ensuite, les distributions obtenues sont modélisées par une fonction appropriée. En cas de fusion au niveau des décisions, les distributions sont calculées pour chaque caractéristique considérée en utilisant des lois de Gauss à variable unique. En revanche, en cas de fusion au niveau des caractéristiques, les distributions sont approchées en utilisant une loi de Gauss à plusieurs variables.

[0041] Des expérimentations effectuées à partir de la base Feret ont permis de valider le concept et de ses performances. La base utilisée a été divisée en deux groupes de même taille : le groupe A et le groupe B. Une phase d'apprentissage est effectuée en utilisant les images du groupe A. Les tests de performance de reconnaissance faciale sont ensuite effectués sur les images du groupe B. Dans un second temps, une validation croisée est réalisée: le modèle est appris sur les images du groupe B et les tests sont menés sur les images du groupe A. Pour chaque expérience de reconnaissance, seules les images de face sont utilisées en tant que référence et toutes les autres images de visage à pose variable sont utilisées comme requête.

[0042] Lors de la première phase de validation, la pose de l'image requête a été supposée connue. Afin d'évaluer l'efficacité de la combinaison des caractéristiques ondelettes de Gabor et coefficients LBP, le taux de reconnaissance dans chacun des cas suivants est calculé: en utilisant chaque caractéristique séparément puis en utilisant la combinaison des deux descripteurs. En référence aux figures 5A et 5B, on constate tout d'abord que l'utilisation soit des ondelettes de Gabor soit des coefficients LBP conduit à d'excellentes performances. On constate également que la combinaison des deux descripteurs permet un gain de performance significatif, notamment quand l'angle de pose de l'image requête est grand. Ne sont présentés ici que les résultats obtenus avec la fusion du niveau des décisions, la stratégie de fusion au niveau des caractéristiques conduisant aux mêmes performances.

[0043] Pour la deuxième expérience, le taux de reconnaissance a été calculé quand la pose de l'image requête est inconnue. Dans ce cas, les distributions sont estimées en utilisant les distributions marginales. Il ressort clairement des Figures 5A et 5B que le procédé proposé conduit à de très bons taux de reconnaissance que la pose de l'image requête soit connue ou non.

[0044] Les résultats expérimentaux obtenus sur la base de données Feret montrent que le procédé est efficace pour des variations importantes de la pose.

[0045] Les Figures et leurs descriptions faites ci-dessus illustrent l'invention plutôt qu'elles ne la limitent. En particulier, l'invention et ses différentes variantes viennent d'être décrites en relation avec un exemple particulier effectué à partir de la base Feret. Néanmoins, il est évident pour un homme du métier que l'invention peut être étendue à d'autres modes de réalisation dans lesquels en variantes, on utilise une ou plusieurs autres bases à titre de référence.

[0046] Les signes de références dans les revendications n'ont aucun caractère limitatif. Les verbes "comprendre" et "comporter" n'excluent pas la présence d'autres éléments que ceux listés dans les revendications. Le mot "un" précédant un élément n'exclue pas la présence d'une pluralité de tels éléments.

Claims

REVENDICATIONS

1. Procédé de reconnaissance faciale à partir de données d'images, comprenant les étapes consistant à :

-fournir (10) une base de données d'apprentissage comportant des données d'images de visages avec une pluralité de vues distinctes pour chaque personne ;

-effectuer au moins une phase d'apprentissage (11 ) lors de laquelle des modèles probabilistes décrivant des distributions de probabilité conjointes de sous-parties ou patchs faciaux entre une pluralité d'images de visage à différentes poses sont appris ;

-fournir (10) une base de données de référence comportant des images en vues sensiblement frontales de personnes connues ;

-effectuer au moins une phase de reconnaissance faciale (12) consistant à :

-fournir une image (13), éventuellement non vue de face, d'un visage d'un individu non connu, en vue d'une reconnaissance ;

-calculer (14) des valeurs de similarité entre des patchs de l'image à reconnaître et des patchs d'images de la base de référence ;

-en se basant sur les paramètres des modèles appris, déterminer (15) la probabilité que les valeurs de similarité établies proviennent d'un même individu.

2. Procédé de reconnaissance faciale selon la revendication , dans lequel la phase d'apprentissage (11 ) est effectuée en temps masqué, préalablement à toute phase de reconnaissance.

3. Procédé de reconnaissance faciale selon l'une des revendications 1 ou 2, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant des ondelettes de Gabor.

4. Procédé de reconnaissance faciale selon l'une des revendications 1 ou 2, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant des descripteurs LBP.

5. Procédé de reconnaissance faciale selon l'une des revendications 1 ou 2, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant des ondelettes de Gabor et des descripteurs LBP.

6. Procédé de reconnaissance faciale permettant de reconnaître des images faciales d'individus en vues non frontales comprenant une phase d'apprentissage et une phase de reconnaissance, la seconde phase utilisant au moins deux descripteurs locaux dont des ondelettes de Gabor et des descripteurs LBP.

7. Dispositif de reconnaissance faciale comprenant :

-une base de données d'apprentissage (1A), comportant des données d'images de visages avec une pluralité de vues distinctes pour chaque personne ;

-une base de données de référence (1 B), comportant des images en vues sensiblement frontales de personnes connues ;

-une entrée (2) permettant de fournir les données d'images non frontales d'individus à reconnaître ;

-un module de reconnaissance faciale (3), permettant d'effectuer une phase de comparaison entre les données des images à traiter et les données de la base de référence et d'indiquer la probabilité que deux visages d'orientations différentes proviennent d'un même individu,

-le module de reconnaissance faciale comportant un comparateur (6) permettant de calculer des valeurs de similarité entre des patchs de l'image à reconnaître et des patchs d'images de la base de référence, et, en se basant sur les paramètres des modèles appris, de déterminer la probabilité que les valeurs de similarité établies proviennent d'un même individu.

8. Dispositif de reconnaissance faciale selon la revendication 7, comprenant par ailleurs un module d'apprentissage (7), permettant d'effectuer un prétraitement des données de la base de données d'images (1 ) faciales de référence, le prétraitement comportant au moins une phase d'apprentissage lors de laquelle des modèles probabi listes décrivant les distributions de probabilité conjointes de patchs faciaux entre images de visage à différentes poses sont appris.

9. Dispositif de reconnaissance faciale selon l'une des revendications 7 ou 8, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant les ondelettes de Gabor.

10. Dispositif de reconnaissance faciale selon l'une des revendications 7 ou 8, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant des descripteurs LBP.

11. Dispositif de reconnaissance faciale selon l'une des revendications 7 ou 8, dans lequel les traits caractéristiques de visages sont caractérisés en utilisant les ondelettes de Gabor et des descripteurs LBP.