WO2008047028A1

WO2008047028A1 - Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant

Info

Publication number: WO2008047028A1
Application number: PCT/FR2007/052109
Authority: WO
Inventors: Michel Plu; Saïd KHARBOUCHE; Patrick Vannoorenberghe
Original assignee: France Telecom; VANNOORENBERGHE, Capucine; VANNOORENBERGHE, Robin
Priority date: 2006-10-17
Filing date: 2007-10-09
Publication date: 2008-04-24
Also published as: EP2095295A1; FR2907243A1

Abstract

Ce procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1) comporte : a) une étape (24) d'analyse de l 'image (1) pour déterminer au moins une zone de l'image (1) dans laquelle un visage de personne est détecté et un score de détection de visage; pour une zone déterminée à l'étape a): b) une étape (25) d'analyse de la zone courante pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone et un score de détection d'identifiant; et c) une étape (26) d'analyse de la zone pour déterminer des scores d'identification du sexe de la personne détectée; d) une étape de fusion ( 27) des scores de détection de visage, de détection d'identifiant et d' identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone.

Description

PROCEDE ET SYSTEME DE DETERMINATION D'UNE PROBABILITE DE

PRESENCE D'UNE PERSONNE DANS AU MOINS UNE PARTIE D'UNE

IMAGE ET PROGRAMME D'ORDINATEUR CORRESPONDANT

La présente invention concerne un procédé de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte. Elle concerne également un système de détermination correspondant et un programme d'ordinateur pour cette application.

Plus particulièrement, l'invention se rapporte au domaine de la gestion d'images à contenus numériques par exemple des photos numériques.

De façon générale, la photo numérique a profondément modifié l'accès à l'image. D'une part, le coût nul associé à chaque prise de vue et d'autre part la multiplication des appareils disposant de la fonction "prise de vue numérique" entraînent la prolifération des photos numériques. En effet, de plus en plus d'appareils électroniques (appareils photos numériques, mais aussi téléphones mobiles, ordinateurs de poches, ...) disposent de cette fonction. Ainsi, les utilisateurs disposant presque toujours d'un appareil de prise de vue numérique, et ces prises de vue ne coûtant rien, les photos numériques prolifèrent.

Le problème qui survient alors réside dans la gestion de photos aussi nombreuses. Pour faciliter la gestion de ces photos, il est nécessaire de pouvoir associer à chacune des photos des index descripteurs de la photo.

On connaît, dans l'état de la technique, trois méthodes de description permettant de générer et d'associer des index descripteurs à des images.

La première méthode est la description contextuelle telle que la date de la prise de vue, la position géographique, l'auteur, des mots clés pour l'image etc. La production de cette description contextuelle peut être automatique ou manuelle. La deuxième méthode est la description objective par analyse d'image. Selon cette méthode, l'analyse d'une image permet de fournir des éléments descripteurs, par exemple de type portrait, paysage de campagne, mer, montagne, etc. Cette deuxième méthode permet en outre la reconnaissance de personnes ou de monuments contenus dans un dictionnaire de références.

La troisième méthode est la description subjective par annotation textuelle ou vocale. Selon cette méthode, l'utilisateur annote une photo de façon à déclarer ce qui lui semble être pertinent et/ou ce qui peut être absent de l'image, par exemple un lien de parenté. Cette description subjective peut également être incluse dans un message de communication du contenu décrit.

Différents exemples de l'utilisation de ces trois méthodes de description pour la gestion d'images existent actuellement.

Ainsi, la plupart des outils de gestion de contenus visuels, par exemple la gestion d'albums de photos, offrent la possibilité de créer des index descripteurs et de les exploiter pour retrouver des photos. Cette création d'index descripteurs est facilitée par la combinaison de différents outils, par exemple de type agenda ou carnet d'adresse et dispositifs par exemple de type GPS ou horloge. Le document WO 2004/062263 au nom de la demanderesse concerne ainsi un procédé et un dispositif permettant l'annotation, l'indexation et la recherche automatiques de contenus numériques.

Par ailleurs, de nombreux systèmes notamment de reconnaissance de visage utilisent la méthode de description objective. Il existe également un moteur de recherche sur Internet (http://www.riya.com/) qui utilise cette méthode.

Il est également connu que les moteurs de recherche d'images de vidéos sur Internet indexent les images par l'extraction de mots clés du contexte des contenus identifiés comme par exemple le nom du fichier, le texte du lien hypermédia pointant vers le contenu ou un texte suffisamment proche de ce lien. Ces textes sont considérés comme une description subjective de l'image. Les contenus sont alors retrouvables uniquement à partir de recherches contenant ces mots clés.

Il existe, par ailleurs, un système expérimental d'IBM appelé « MARVEL » qui exploite l'ensemble des descriptions objectives et subjectives des contenus visuels.

Actuellement, les technologies exploitant la description subjective et notamment des annotations vocales, sont celles de la reconnaissance de la parole. Dans ce cadre, le document WO 2006/077196 au nom de la demanderesse fournit un procédé de génération d'un index descripteur textuel à partir d'une annotation vocale.

Il existe également des systèmes d'exploitation d'annotations textuelles comme par exemple le système « ARIA » développé au MIT média Lab.

Ces méthodes de description, utilisées seules ou en combinaison, ont représenté un progrès important dans le domaine de la gestion d'images. Cependant, elles présentent un certain nombre d'inconvénients.

Tout d'abord, la description objective par analyse d'images trouve ses limites dans la complexité et la diversité des images à traiter.

Ceci s'illustre par la diversité d'éclairage, de cadrage et de positionnement des éléments à reconnaître dans une image. Par exemple on arrive a reconnaître à 95% un visage lorsque celui-ci est pris de face avec une image de bonne qualité et un éclairage correct. Par contre, ces performances se dégradent rapidement si le visage est tourné, si l'éclairage est incorrect ou si l'image est légèrement floue. Une autre limitation de cette méthode de description est qu'un système de reconnaissance de visage ne pourra reconnaître que des visages déjà appris à partir d'exemples. La fiabilité de la reconnaissance d'un visage dépendra du nombre de personnes pouvant être reconnues, et du nombre d'exemples de photos de ce visage que le système de reconnaissance aura appris.

La description subjective par annotation apparaît comme un mode complémentaire de la description objective par analyse d'image. L'annotation vocale à l'intérêt considérable de pouvoir être créée lors de la production du contenu car elle ne nécessite qu'un micro et elle est très naturelle. Par contre l'extraction efficace et fiable d'index descripteurs pertinents reste aujourd'hui limitée car elle dépend des techniques d'analyse d'un signal de parole, qui peut être bruité par l'environnement sonore présent lors de son enregistrement et/ou de mauvaise qualité selon les dispositifs (micro, codage) de son enregistrement.

Même avec un signal de parole de bonne qualité, les résultats de son analyse peuvent rester imprécis à cause des syllabes muettes. Par exemple des prénoms comme Michel ou Michelle, Frédéric et Frédérique seront souvent proposés simultanément.

L'annotation textuelle a l'avantage d'avoir un codage (ASCII ou unicode) plus fiable de l'information. De nombreux travaux existent dans le domaine de l'indexation de textes. Mais la difficulté est aujourd'hui déplacée dans l'analyse du sens de ces annotations textuelles. En effet l'extraction de mots clés est souvent insuffisante pour retrouver les contenus indexés car ces mots clés sont souvent ambigus et trop généralistes. De plus, l'extraction de mots clés n'est pas aussi efficace que pour des documents textuels souvent beaucoup plus longs et beaucoup plus redondants en informations que de simples annotations textuelles souvent très courtes.

Enfin que ce soit pour des annotations vocales ou textuelles, les mots clés extraits peuvent être ambigus, comme par exemple les prénoms Dominique ou Nancy , qui référencent dans le premier cas une personne de sexe masculin ou féminin et dans le deuxième cas une personne ou une ville.

Pour améliorer la fiabilité des descripteurs pouvant être associés a une images différents travaux de recherche ont été menés en fusionnant les différentes descriptions disponibles.

Parmi ces travaux de recherche, on trouve : - des travaux combinant une description objective et une annotation textuelle comme par exemple les travaux publiés de Shen, H. T., ooi, B. C, et tan, K. L. : « Giving meanings to www images », on Proceedings of ACM Multimedia, ACM, New York, 39-48. et de Dimitrova, N., Agnihotri, L., and Wei, G. : "Video Classification Based on HMM Using Text and Faces", European Signal Processing Conférence, Tampere, Finland, 2000.

- des travaux combinant une description contextuelle et une description objective comme par exemple les travaux publiés de Marc Davis,

Michael Smith, John Canny, Nathan Good, Simon King, et Rajkumar Janakiraman : "Towards Context-Aware Face Récognition", in Proceedings of 13th Annual ACM International Conférence on Multimedia (MM 2005), Singapore, ACM Press, 483-486, 2005., ou de Naaman, Mor; Paepcke, Andréas; Garcia-Molina, Hector, "From Where to What: Metadata Sharing for Digital Photographs with Géographie Coordinates", 10th International Conférence on Coopérative Information Systems (COOPIS).

Les limitations principales de toutes les méthodes de description d'images de l'état de la technique sont essentiellement les suivantes: - le bruit qui fait que des index descripteurs générés par ces méthodes sont faux ;

- le silence qui fait qu'aucun index descripteur n'est proposé pour certaines personnes présentes dans l'image ;

- l'incertitude qui fait que des index descripteurs générés par ces méthodes sont non fiables ;

- l'imprécision qui fait que différentes possibilités sont proposées sur une image pour une même personne.

La présente invention vient améliorer la situation. A cet effet, l'invention a pour objet un procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image, caractérisé en ce qu'il comporte : a) une étape d'analyse de l'image pour déterminer au moins une zone de l'image dans laquelle un visage de personne est détecté et d'association d'un score de détection de visage ; pour une zone courante déterminée à l'étape a): b) une étape d'analyse de la zone courante par comparaison du visage détecté à des visages de personnes identifiées stockés au préalable dans une base de données pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et d'association d'un score de détection d'identifiant ; et c) une étape d'analyse de la zone courante pour déterminer des scores d'identification du sexe de la personne détectée ; d) une étape de fusion des scores de détection de visage, de détection d'identifiant et d'identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone courante. Ainsi, l'invention permet de pallier les inconvénients des méthodes de l'état de la technique grâce à la fusion d'informations issues des différentes étapes d'analyse. Cette fusion d'information va permettre de réduire l'incertitude et l'imprécision des index descripteurs relatifs aux personnes présentes dans au moins une partie de l'image en tenant compte de la probabilité déterminée à l'étape d).

Les descripteurs qui ne sont pas en conflit avec les informations issues des différentes étapes d'analyse et qui sont donc plus certains peuvent être pris en considération réduisant ainsi l'inconvénient de bruit.

Selon un mode de réalisation de l'invention, le procédé comporte : - une étape de fusion des scores de zone des zones de l'image pour lesquelles un visage de personne est détecté afin de calculer un deuxième score de zone représentant la probabilité de présence de personnes identifiées dans chaque zone ;

- une étape de détermination pour chaque personne identifiée d'une première probabilité de présence de cette personne dans l'image ; une étape de détermination d'un coefficient d'incertitude représentant l'incertitude sur cette probabilité de présence.

Les avantages que la méthode apportait au niveau d'une zone de l'image sont maintenant appliqués à l'image dans sa globalité. On augmente la précision, on réduit l'imprécision et l'incertitude en diminuant pour chaque zone l'indicateur de croyance des descripteurs de personnes qui sont reconnus dans différentes zones. Ces descripteurs ne seront conservés pour une zone que si leur indicateur de croyance est suffisamment grand.

Dans un mode particulier de réalisation, le procédé comporte en outre: - une étape d'analyse d'informations de contexte associées à l'image pour obtenir des informations complémentaires sur l'identification des personnes mentionnées dans les informations de contexte et d'association d'un score d'identité pour une source d'informations de contexte donnée;

- une étape de détermination que l'image contient une répartition donnée entre les personnes de sexe masculin et les personnes de sexe féminin à partir des scores d'identification de sexe des personnes détectées dans les zones de l'image pour lesquelles un visage de personne est détecté;

- une étape de test de compatibilité entre les scores d'identité de l'image et la répartition déterminée pour déterminer une deuxième probabilité de présence d'une personne mentionnée dans les informations de contexte dans l'image, pour une source d'informations de contexte donnée;

- une étape de fusion des scores d'identité d'une pluralité de sources d'informations de contexte pour générer pour chaque personne identifiée une troisième probabilité de présence dans l'image; -une étape de fusion finale pour générer une probabilité de présence d'une personne détectée dans l'image et une incertitude de cette probabilité en fonction des première et troisième probabilités.

Ainsi d'autres informations provenant d'informations de contexte associées à l'image et issues d'une autre étape d'analyse permettront encore de réduire les inconvénients d'incertitude, d'imprécision, de bruit évoqués ci- dessus. Le silence se trouve aussi réduit en ajoutant de nouveau descripteurs issus de ces sources.

Avantageusement, selon d'autres caractéristiques de l'invention :

- les informations de contexte de l'image contiennent une annotation vocale et l'étape d'analyse des informations de contexte de l'image comprend une étape de reconnaissance dans cette annotation vocale de dénominations de personnes prononcées ; - les informations de contexte de l'image contiennent une annotation textuelle et l'étape d'analyse des informations de contexte de l'image comprend une étape de reconnaissance dans cette annotation textuelle de dénominations de personnes écrites. Ainsi, des indicateurs de probabilité et de certitude vont permettre de prendre des décisions plus fiables sur la présence ou pas de personnes dans l'image.

La présente invention vise également un système de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image caractérisé en ce qu'il comporte : a) un module d'analyse de l'image apte à déterminer au moins une zone de l'image dans laquelle un visage de personne est détecté et à association un score de détection de visage ; b) un module d'analyse d'une zone courante apte à comparer le visage détecté dans la zone courante à des visages de personnes identifiées stockés au préalable dans une base de données et à fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et à associer un score de détection d'identifiant ; c) un module d'analyse de la zone courante apte à déterminer des scores d'identification du sexe de la personne détectée dans la zone courante ; et e) des moyens de fusion apte à fusionner les scores de détection de visage, de détection d'identifiant et d'identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone courante.

La présente invention concerne enfin un programme d'ordinateur comprenant des instructions de code qui, lorsque ce programme est exécuté sur un ordinateur, permettent la mise en œuvre du procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image.

Le système de l'invention comporte également: - un module d'analyse d'une annotation vocale pour reconnaître des dénominations de personnes prononcées ;

- un module d'analyse d'une annotation textuelle pour reconnaître des dénominations de personnes écrites ; et - une base de données, qui pour un ensemble de dénominations d'une personne donne la probabilité que la personne ainsi dénommée soit une femme.

Les informations obtenues par ces modules sont les suivantes :

- les identifiants possibles des visages reconnus pour chaque zone de l'image où un visage a été détecté ;

- la probabilité que chaque visage détecté soit celui d'une femme ;

- les identifiants des personnes dont la dénomination a été reconnue dans une annotation vocale, les dénominations associées à chaque identifiant étant enregistrées dans la base Bp 1 1 ; - les identifiants des personnes dont la dénomination a été reconnue dans une annotation textuelle, les dénominations associées à chaque identifiant étant enregistrées dans la base Bp 1 1.

La fusion de ces informations consiste à identifier la compatibilité ou au contraire le conflit entre ces informations. Il y a conflit sur un index descripteur: a) lorsque le visage d'une même personne est reconnu dans deux zone différentes d'une même image ; ou b) lorsque l'identifiant associé à un visage est plus probablement attribué à une personne du sexe opposé à celui identifié; ou c) lorsque le détecteur de visage n'a détecté qu'un seul visage dans une zone correspondant à un pourcentage suffisamment important de l'image analysée, et que la reconnaissance de visage ne propose pas le même identifiant que ceux détectés dans les annotations textuelle et vocale.

En fusionnant ainsi ces informations, l'invention permet de réduire : - l'incertitude des index descripteurs qui sont proposés par différents modules de manière compatible ; - l'imprécision en ne retenant que les index descripteurs possibles qui sont les plus certains ;

- le bruit des index descripteurs en prenant ceux qui sont les plus certains et ceux qui ne sont pas en conflit ; et - le silence en renforçant la certitude de certains index descripteurs et en exploitant chaque module pouvant produire ces descripteurs.

L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés sur lesquels : - la figure 1 est un schéma synoptique illustrant la structure d'un système de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte selon l'invention ;

- la figure 2 est un organigramme illustrant le fonctionnement d'un procédé de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte selon l'invention ;

- la figure 3 est un organigramme illustrant la fusion des informations concernant le sexe et les hypothèses sur l'identifiant d'une personne identifiée dans une image obtenues par l'analyse de l'image ;

- la figure 4 est un organigramme illustrant la fusion des informations de différentes zones d'une image où des visages ont été reconnus obtenus par l'analyse de l'image ;

- les figures 5A et 5B sont des organigrammes illustrant la fusion des informations concernant le sexe d'une personne identifiée dans l'image par analyse d'image et les hypothèses sur l'identifiant de personne obtenues par analyse du contexte de l'image ; et

- la figure 6 est un organigramme illustrant la fusion finale de toutes les informations obtenues par l'analyse de l'image et de son contexte.

Un système de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte est illustré sur la figure 1. A titre d'exemple, ce système est mis en œuvre sur un ordinateur personnel d'un utilisateur. Cet ordinateur personnel comporte des moyens d'enregistrement d'images numériques sous forme de fichiers de format « .jpg », « .gif », « .bmp », etc.

Selon un mode de réalisation de l'invention, ce système utilise la théorie des fonctions de croyance également appelée théorie de l'évidence. Cette théorie est présentée dans la publication de Ph. Smets et R. Kennes : « The transférable Belief Model », Artificial Intelligence, 66(2) : 191 -234, 1994.

Ce système est propre à traiter une image I, par exemple une photo numérique, désignée par la référence 1 et associée à un contexte 2 comportant une annotation vocale 3 et une annotation textuelle 5. L'annotation vocale 3 est un fichier son contenant des informations telles que les dénominations des personnes présentes sur l'image. L'annotation textuelle 5 est un fichier texte comportant des informations relatives à l'image telles que les dénominations de personne. Ce système comprend différents modules afin d'obtenir des informations sur les personnes présentes dans l'image I 1. Ces modules sont : - un module 7, noté DV, d'analyse de l'image 1 fournissant une liste de zones (Z₁, Z₂,..., Z₁, ...,Z_n} de l'image 1 où des visages de personnes sont détectés. A chaque visage détecté par le module 7, correspond ainsi une zone Z₁ de l'image 1 , l'ensemble des zones formant une partition de l'image 1. Le module 7 fournit également un score formé d'un nombre rationnel non nul compris entre 0 et 1 noté MV(DV, I, Z₁) pour chaque zone Z₁ de l'image I 1 où un visage a été détecté, correspondant à la croyance que la zone Z₁ contient un visage ;

- un module 9, noté RV, d'analyse de chaque zone de la liste de zones de l'image où des visages de personnes ont été détectés par comparaison des visages détectés à des visages de personnes identifiées stockés au préalable dans une base de données B_p 1 1 pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans chaque zone d'image. La base de données B_p 1 1 contient une liste d'identifiants de personnes notée L_p avec L_p = {p-ι,p₂,..., P_j , ..., p_r, inconnu, inconnue,^*} avec pour chaque identifiant P_j une ou plusieurs dénominations (par exemple le prénom) de cette personne. Les identifiants « inconnu » respectivement « inconnue », représentent des personnes de sexe masculin, respectivement féminin ne faisant pas partie de la liste Lp. Le symbole ^* est utilisé lorsqu' aucun visage n'est détecté dans l'image I 1. Le module 9 fournit également pour chaque zone d'image Z₁ de l'image I 1 , des scores compris entre 0 et 1 notés MP(RV, I, Z₁) (F₃), F_a étant un sous- ensemble de {p-i, p₂, ..., p_r} avec chaque identifiant de personne p_j appartenant au moins à un sous-ensemble F_a. Le score MP(RV, I, Z₁ )(F_a) est un indicateur de croyance que la zone Z₁ de l'image I 1 contient le visage d'une personne correspondant à p-i, p₂... ou p_r de l'ensemble F_a Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour une zone d'image Z₁ est égale à 1 ; - un module 13, noté HF, d'analyse de chaque visage de personne détectée dans chaque zone d'image pour déterminer le sexe de la personne détectée par exemple selon une méthode conventionnelle comme celle décrite dans la publication de Yi D. Cheng, Alice J. OToole, Hervé Abdi :" Classifying adults' and children's faces by sex:computational investigations of subcategorical feature encoding" publiée dans Cognitive Science 25 (2001 ) 819-838. Le module 13 fournit, pour chaque zone Z₁ de l'image I 1 un score compris entre 0 et 1 noté MHF(HF, I, Z,)(homme) respectivement MHF( HF, I, Z,)(femme), correspondant à la probabilité que la zone Z₁ de l'image I représente un homme, respectivement une femme. Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour une zone d'image Z₁ est égale à 1 ;

- un module 15, noté AV, d'analyse de l'annotation vocale 3 pour reconnaître des dénominations de personnes prononcés. Ce module fournit des scores compris entre 0 et 1 notés MP(AV, I)(A₃), A₃ étant un ensemble d'identifiants de personnes {p-ι,p₂... p_r}- Ces scores sont un indicateur de croyance que l'image I 1 contient le visage d'une personne correspondant à soit p-i, p₂ ... ou p_r. Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour l'image I l est égale à 1 ; et

- un module 17, noté AT, d'analyse de l'annotation textuelle 5 pour reconnaître des dénominations de personnes écrits. Ce module fournit des scores compris entre 0 et 1 notés MP(AT, I)(C₃), C₃ étant un ensemble d'identifiants de personnes {p-ι,p₂... p_r}. Ces scores sont un indicateur de croyance que l'image I 1 contient le visage d'une personne correspondant à soit p-i, p₂ ... ou p_r. Ces scores sont normalisés, c'est à dire que la somme de tous les scores pour l'image I 1 est égale à 1.

Le système selon l'invention comporte également une base de données B_h/f 19, contenant pour un ensemble de dénomination de personne la probabilité que chacune de ces dénominations soit attribuée à une personne de sexe féminin, laquelle est calculée à partir d'un fichier statistique (non représenté) enregistrant le sexe et les dénominations associées à des personnes, Par ailleurs il est prévu selon l'invention une base de données notée

B_s 21 contenant pour chaque image I 1 analysée les résultats de l'analyse des modules 7, 9, 13, 15 et 17. Ainsi, la base de données B_s 21 contient :

- les scores MV(DV, I, Z₁) fournis par le module 7 ;

- les scores MP(RV, I, Z₁ )(F_a) fournis par le module 9 ; - les scores MHF(HF, I, Z,)(homme) et MHF(HF, I, Z,)(femme) fournis par le module 13 ; et

- les scores MP(AV, I)(A₃) fournis par le module 15 et les scores MP(AT, I)(C₃) fournis par le module 17. Ces scores seront notés MP(S_q, I)(D₃), D₃ étant un ensemble d'identifiants de personnes {pi,p2- -- p_r} et S_q étant une source d'information du contexte 2 de l'image I 1 représentant l'annotation vocale 3 ou l'annotation textuelle 5.

Le système selon l'invention comporte également une base de données B_ιr,dex 22 contenant des images et une liste d'identifiants de personnes associée à chacune de ces images. La liste d'identifiants de personnes pour une image donnée est vide lors de la création de l'enregistrement de cette image.

Enfin le système selon l'invention comporte un module logiciel 23 produisant à partir des bases de données 1 1 , 19, 21 et 22 la probabilité notée P(I, P_J) qu'il y a dans l'image I 1 , une personne ayant la dénomination p_j ainsi qu'une information notée INCERTAIN(I, p^ indiquant l'incertitude que l'on a sur cette probabilité. Ce module 23 enregistre ces informations de probabilité et d'incertitude dans la base B_ιr,dex 22 en association à l'image I 1. Les modules 7, 9, 13, 15 et 17, ainsi que le module 23 s'exécutent sur l'ordinateur de l'utilisateur ou sur un ordinateur accessible par celui-ci. Par ailleurs, les bases de données 1 1 , 19, 21 et 22 sont enregistrées dans une ou plusieurs mémoires volatiles ou sur des supports magnétiques accessibles par cet ordinateur.

Le fonctionnement du procédé selon un mode de réalisation de l'invention est décrit ci-dessous en référence aux figures 2 à 6.

La première partie du procédé consiste à analyser l'image I 1 afin d'en extraire différentes informations sur les personnes présentes dans l'image I 1. Cette partie est exécutée par les modules 7, 9 et 13 d'analyse d'image.

D'abord, le module 7 analyse en 24 l'image I 1 pour détecter des visages dans cette image I 1. Il fournit une liste de zones où des visages de personnes sont détectés et fournit pour chacune de ces zones Z₁ le score de détection de visage MV(DV, I, Z₁) correspondant. Soit n le nombre de zones Z₁ de l'image I 1 pour lesquelles il existe un score MV(DV, I, Z₁) dans la base B_s 21. n correspond ainsi au nombre de zones Z₁ de l'image I où un visage a été détecté par le module DV 7.

Si le nombre n est nul, le procédé s'arrête.

Si le nombre n est non nul, pour chaque zone Z₁ : - le module 9 analyse en 25 les n zones Z₁ où un visage a été détecté par le module 7 et fournit une liste F_k d'identifiants, appartenant à la liste L_p, de personnes pouvant être présentes dans chaque zone d'image, ainsi que le score correspondant MP(RV, I, Z₁) d'indicateur de croyance de cette hypothèse F_k de personnes identifiées; et - le module 13 analyse en 26 chaque visage de personne détectée dans chaque zone d'image pour déterminer le sexe de la personne détectée et fournit pour chaque zone Z₁ de l'image I 1 les scores d'identification de sexe MHF(HF, I, Z,)(homme) et MHF(HF, I, Z,)(femme).

Suite à l'étape d'analyse de l'image I 1 en 24, 25 et 26, les scores MV(DV, I, Z₁), MP(RV, I, Z₁) (F_k) et MHF(HF, I, Zi) sont enregistrés dans la base

B_s 21. Puis, des indicateurs de croyance ou scores de zones notés

MP(RV+DV+HF, I, Z₁) fusionnant tous les indicateurs de croyance MP(RV, I, Z₁) MHF(HF, I, Z₁) et MV(DV, I, Z₁) de la base B_s 21 sont calculés dans un processus noté Fusionlmage 27. Ce processus Fusionlmage 27 vérifie que les hypothèses du module 9, concernant la présence dans la zone Z₁ de personnes dont les identifiants sont contenus dans une liste F_k , sous ensemble de L_p, sont compatibles avec l'hypothèse du module 13 que cette zone Z₁ contient un visage d'homme ou de femme et selon la croyance du module 7 que la zone Z₁ contient un visage. Ce processus définit une nouvelle liste d'hypothèses, sous ensemble de L_p, sur l'identification de la personne dans la zone Z₁.

Ce processus Fusionlmage 27 est décrit ci-dessous en référence à la figure 3.

Ensuite, tous les indicateurs de croyance MP(RV + DV + HF, I, Z₁) calculés pour chaque zone Z₁ sont fusionnés à l'aide d'un processus noté FusionZones désigné par la référence 29. Ce processus FusionZones 29 calcule pour chaque personne identifiée par un identifiant ft appartenant à L_p des indicateurs de croyance notés M(lmage, I, ft) ou encore appelés premières probabilités P(lmage, I, ft) que cette personne ft est dans l'image I 1 et un coefficient noté INCERTAIN(lmage, I, P_j) représentant l'incertitude sur cette croyance.

Ce processus de fusion agrège les hypothèses sur les personnes présentes dans chaque zone Z₁ et favorise pour chaque zone Z₁ les hypothèses de personnes présentes dans cette zone Z₁ (c'est-à-dire pour lesquelles l'indicateur de croyance MP(RV + DV + HF, I , Z₁)(P_j) calculé en 27 est non nul) et non présentes dans une autre zone.

Ce processus FusionZones 29 est décrit de manière détaillée ci- dessous en référence à la figure 4.

Une probabilité P_f, respectivement P_h, que toutes les zones Z₁ de l'image I 1 ne contiennent que des femmes, respectivement que des hommes, est calculée en 30 à partir des indicateurs de croyance MHF(HF, I, Z,)(femme) respectivement MHF(HF, I, Z,)(homme) de la base B_s 21. Cette probabilité P_h, respectivement P_f est égale au produit des scores MHF(HF, I, Z,)(femme), respectivement MHF(HF, I, Z,)(homme) pour toutes les zones Z₁ de l'image I 1. Les étapes 27 à 30 ont ainsi permis la fusion des informations résultant de l'analyse de l'image I 1 en 24, 25 et 26.

La deuxième partie du procédé consiste à analyser le contexte 2 de l'image I 1 afin d'extraire de nouvelles informations sur les personnes présentes dans l'image I 1.

D'abord, le module 15 analyse en 31 l'annotation vocale 3 pour reconnaître des identifiants de personnes prononcés et fournit les scores MP(AV, I). De la même manière, le module 17 analyse en 32 l'annotation textuelle 5 pour reconnaître des identifiants de personnes écrits et fournit les scores MP(AT, I).

Les scores MP(AV, I) et MP(AT, I) fournis en 31 et 32 sont enregistrés dans la base B_s 21 et notés en tant que scores d'identité MP(S_q, I), Sq étant la source d'information du contexte 2 considérée (annotation vocale 3 ou annotation textuelle 5). Ensuite, pour chaque source S_q pour laquelle il existe dans la base

B_s 21 des indicateurs de croyance MP (S_q, I) (D₃) non nuls, un test de compatibilité des hypothèses D_a, des identifiants trouvés dans cette source S_q est appliqué par un processus noté Test CompatibilitéHF désigné par la référence 33. Ce processus TestCompatibilitéHF 33 calcule des indicateurs de croyance MP(S_q, I) (E₃) sur un nouvel ensemble d'hypothèses E₃. Ce processus diminue les indicateurs de croyance sur des hypothèses E_a qui contiennent des identifiants de personnes avec des identifiants incompatibles avec la probabilité calculée en 30 de n'avoir que des hommes ou des femmes dans l'image, la probabilité qu'une dénomination de personne soit féminin étant déduite à partir de la base de données B_h/f 19. Il calcule aussi à partir de ces indicateurs de croyance MP(S_q, I)(E₃) portant sur des ensembles d'hypothèses E_a la probabilité P(S_q, l)(p'_j) encore appelée deuxième probabilité qu'une personne avec un identifiant p'_j appartienne à l'image, celle-ci est d'autant plus grande que les indicateurs de croyance MP(S_q, I)(E₃) avec p'_j appartenant à E₃, sont grands.

Le processus TestCompatibilitéHF 33 est décrit de manière détaillée ci-dessous en référence à la figure 5. Dans le cas où le nombre n de zones Z₁ de l'image I 1 où un visage est détecté est supérieur à 1 , pour chaque identifiant de personne p'_j pour lequel il existe une source S_q telle que la probabilité P(S_q, I) (p'_j) que la personne ayant l'identifiant p'_j appartient à l'image est non nulle, un processus de fusion d'informations noté FusionAnoti désigné par la référence 35 calcule un indicateur de croyance M(Anot, I, p'_j) à partir de l'ensemble des sources S_q noté Anot. Ce processus de fusion FusionAnoti 35 agrège toutes les hypothèses de personnes citées dans une source d'informations en renforçant les identifiants de personnes cités dans différentes sources. Il calcule également l'indicateur d'incertitude sur la croyance noté INCERTAIN(AnOt, I,

P J)-

Dans le cas où il y a une seule zone Z₁ de l'image I 1 où un visage est détecté, c'est-à-dire que le nombre n est égal à 1 , pour chaque identifiant de personne p'_j tel qu'il existe une source S_q telle que la probabilité P(S_q, I) (p'_j) que la personne ayant l'identifiant ft appartient à l'image est non nulle, un processus de fusion d'informations noté FusionAnot2 désigné par la référence 37 calcule un indicateur de croyance M(Anot, I, p'_j) encore appelé troisième probabilité P(Anot, I, p'_j) à partir de l'ensemble des sources S_q noté Anot. Ce processus de fusion FusionAnot2 37 gère les conflits entre toutes les hypothèses de personnes citées dans une source en diminuant la croyance de chacune des hypothèses si différentes hypothèses sont possibles.

Les processus de fusion FusionAnoti 35 et FusionAnot2 37 sont décrits de manière détaillée ci-dessous.

Enfin, un processus de fusion finale de toutes les informations noté FusionFinale désigné par la référence 39 calcule les indicateurs de croyance M(I, P_J) que la personne ayant l'identifiant P_j soit dans l'image I 1 en fusionnant l'indicateur de croyance M(Anot, I, P_j) calculé par le processus FusionAnoti 35 ou le processus FusionAnot2 37 et M(lmage, I, P_j) calculé par le processus FusionZones 29. Le processus FusionFinale 39 gère les conflits entre les différentes hypothèses en diminuant la croyance de chacune des hypothèses si différentes hypothèses sont possibles. Il calcule également un indicateur d'incertitude INCERTAIN(I, P_j) sur les indicateurs de croyance M(I, ft) ainsi que la probabilité P(I, P_j) que la personne P_j soit dans l'image I 1.

Dans le système selon l'invention, il est également prévu d'enregistrer en 41 dans la base d'informations B_ιr,dex 22 les identifiants P_j et leur probabilité P(I, P_j) en association avec l'image I 1 seulement si cette probabilité est supérieure à un seuil S_pr0b et que l'indicateur d'incertitude INCERTAIN(I, p_j) est inférieur à un seuil S_mc- Les coefficients S_pr0b et S_ιnc sont déterminés manuellement et fixés à l'avance. Selon un mode de réalisation de l'invention, ces valeurs sont S_prθb=0,7 et S_ιnc=0,3. La première partie de la description, faite en référence aux figures 1 et 2 a concerné une description de la structure et du fonctionnement du procédé et système selon l'invention de manière globale.

Dans la suite de la description faite en référence aux figures 3 à 6, un mode de réalisation particulier des différents processus de fusion 27, 29, 33, 35, 37 et 39 intervenant dans le procédé selon l'invention sera décrit de manière détaillée.

La théorie des fonctions de croyance, mise en application dans ce mode de réalisation, utilise un opérateur de fusion dénommé somme conjonctif normalisée pour fusionner des indicateurs de croyances notés m₁ et m₂ attribués à tout sous-ensemble A d'un ensemble Ω. Cet opérateur est défini de la manière suivante :

\-m_γ (\ \)m₂ (φ) avec

Cet opérateur est appelé par la suite opérateur conjonctif normalisé de fusion et est noté (+).

On appellera opérateur conjonctif non normalisé l'opérateur de fusion noté (+)', défini de la manière suivante :

(M₁ (+)' M₂ )(A) = (M₁ (D)WI₂ )(A) Vfi ≠ A ς Ω . En considérant l'ensemble Ω comme un ensemble d'événements possibles, cette théorie permet aussi de calculer la probabilité qu'une hypothèse singleton w_k appartenant à Ω se réalise selon les indicateurs de croyance m pour chaque événement w_k. cette probabilité notée BetPm(w_k) est appelée probabilité pignistique et est définie de la manière suivante:

Le mode de réalisation présenté ci-dessous applique ces opérateurs aux indicateurs de croyances sur différentes hypothèses H_a d'identifiants de personnes dans une image. Ces opérateurs seront appliqués à ces hypothèse H_a d'ensembles Ω étant soit l'ensemble L_p des personnes enregistrées dans la base Bp 1 1 pour l'utilisateur U et complété des éléments « inconnu » ,« inconnue » et "^*", soit l'ensemble L_p' l'ensemble des identifiants de personnes trouvés dans une source d'information S_q pour l'image I 1 , soit un ensemble {pertinent, non-pertinent}. Le mode de calcul de ces opérations consiste en des multiplications de matrices inspiré de la publication de Ph. Smets: "The application of the matrix calculus to belief functions", Int. J. Approx. Reasoning 31 (1 -2): 1 -30 (2002).

Le processus de fusion Fusionlmage 27 est décrit en référence à l'organigramme de la figure 3.

En 43, le processus Fusionlmage 27 calcule des indicateurs de croyance MP(HF|p_j, I, Z₁) que la personne ft détectée dans la zone Z₁ de l'image I est un homme de la manière suivante :

Soit F_{J =} L_p - {_Pj}, si ( (f_r0,5) x (MHF(HF, I ,Z,)(femme)-0,5)> 0 ) alors MP(HF|p_J; I, Z₁)

(F_j)=O sinon MP(HF|p_j,l ,Z₁)(F_j) = -4x (f_r0,5) x (MHF(HF, I ,Z,)(femme)-0,5) avec f_j la probabilité que la personne P_j soit une femme et MP(HF|_Pj,l ,Z₁) (Lp) = 1 - MP(HF|_Pj,l ,Z₁)(F_j). La probabilité f_j est la probabilité maximale des probabilités enregistrées dans la base B_h/f 19 de chaque dénomination associée à l'identifiant ft dans la base B_p 1 1. Si aucune dénomination de P_j n'est trouvée dans la base B_h/f 19 alors f_j est égale à 0,5.

Ensuite pour chaque zone Z₁, pour laquelle il existe dans la base B_s

21 un indicateur de croyance positif MHF(HF, I, Z₁), le processus 27 calcule en 45 les indicateurs de croyance MP(HF, I, Z₁) en fusionnant avec l'opérateur de somme conjonctive normalisé l'ensemble des indicateurs de croyance notés

MP(HF|p_j, I ,Z₁) pour chaque P_j de L_p :

MP( HF, I ,Z₁) = W MP(HFIP_JJ ,Z₁).

Enfin pour chaque zone Z₁, le processus de fusion 27 calcule en 47 les indicateurs de croyance MP(RV+DV+HF, I, Z₁) en fusionnant avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(RVJ ,Z₁) trouvés dans la base B_s 21 , MP(HFJ ,Z₁) calculés précédemment et MP(DVJ ,Z₁)(P_j) pour tout P_j de L_p avec MP( DVJ ,Z₁)(P_j) = MV(DV, I ,Z₁), enregistré dans la base B_s 21 : MP(RV₊DV₊HF, I, Z₁) = MP(RVJ ,Z₁) (+) MP(DVJ ,Z₁) (+) MP(HF, I

,Z₁).

Le processus de fusion FusionZones 29 est décrit en référence à l'organigramme de la figure 4. Il est réalisé en utilisant le même opérateur conjonctif normalisé pour gérer les conflits entre zones lorsqu'une même personne est reconnue dans deux zones différentes.

Ce processus 29 calcule en 49, pour chaque zone Z₁, la probabilité P

(P_J, Z₁) que la personne ayant l'identifiant P_j appartienne à la zone Z₁ en calculant la probabilité pignistique BetPm(p_j) selon l'indicateur de croyance m =

MP(RV₊DV₊HF, I, Z₁) ainsi P(p_J; Z₁) = BetPm(p_j) avec m = MP (RV₊DV₊HF, I, Z₁).

Ensuite, le processus FusionZones 29 calcule en 51 un indicateur de croyance noté MP(Z₁' , I, Z₁) sur l'information que peut apporter la zone Z₁- à la zone Z₁ dans l'image I 1. Ce calcul se fait de la manière suivante : pour chaque P_j appartenant à L_p, MP(Z₁', I, Z₁) (F_j1)= ak MP (RV₊DV₊HF, I, Z,){p_j} pour toute zone Z₁' de l'image I 1 différente de Z₁, avec F_j1 l'ensemble complémentaire de {p_j} par rapport à l'ensemble L_p et ak = ( 1 - MP

(RV₊DV₊HF, I, Z₁') ({}) ^*(max1 - max2) , max1 étant le maximum des P(p_J;Z,) pour tous les P_j de L_p, et max2 le maximum des P(P_j1Z,') pour tous les P_j de L_p en enlevant max1.

Puis, le processus 29 fusionne en 53 avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(Z,', I₁ Z₁) et les indicateurs de croyance MP(RV+DV+HF, I₁ Z₁) pour toute zone Z₁' différente de Z₁ pour obtenir les indicateurs de croyance MP(lmage,l ,Z₁) ainsi,

MP(lmage,l ,Z₁ ) = MP (RV+DV+HF, I, Z₁) (+) MP(ZJ, Z₁) pour chaque Z₍ différent de Z₁

Pour chaque personne P_j de L_p et pour chaque zone Z₁, le processus 29 calcule en 55 la probabilité P (p_j5Z,) que la personne P_j appartienne à la zone Z₁ en calculant les probabilités pignistiques P(p_j,Z,)=BetPm(p_j) avec pour indicateurs de croyance m = MP(lmage,l ,Z₁)

P ( P_j5Z₁) = BetPm(p_j) avec m = MP(lmage,l ,Z₁).

Puis, pour chaque personne P_j de L_p , le processus 29 calcule en 57 la probabilité P(lmage,l)(p_j) que la personne P_j appartient à l'image I 1 en prenant P(lmage,l)(p_j) =Max(P(p_J; Z₁)).

Puis, le processus 29 calcule en 59 les indicateurs de croyance M(lmage, I₁ P_j) sur l'ensemble des hypothèses {pertinent, non-pertinent} représentant une croyance que l'identifiant de personne P_j est pertinent, respectivement non-pertinent pour l'image I 1 ainsi :

M( Image,! , ^({pertinent}) = ALPHA-IMAGE ^*P (Image,! ) (P_j) et

M(lmage, I₁ P_j)({pertinent, non-pertinent})= 1 - M(lmage,l,p_j)({pertinent}), ALPHA-IMAGE étant une constante comprise entre 0 et 1 que l'on attribue globalement au processus d'analyse d'image incluant les modules 7, 9 et 13.

Selon un mode de réalisation de l'invention, la constante ALPHA- IMAGE est fixée à 0,7.

Enfin, le processus FusionZones 29 calcule en 61 le coefficient d'incertitude INCERTAIN(lmage,P_j) = M(lmage,l,P_j)({pertinent,non-pertinent}) et l'indicateur de croyance M(lmage,l ,p_j)= M(lmage,l,p_j)({pertinent}. Le processus TestCompatibilitéHF 33 est décrit en référence à l'organigramme des figures 5A et 5B.

Les notations suivantes sont utilisées pour la description du fonctionnement du processus 33 : - Sq désigne une source d'informations du contexte de l'image telle qu'il existe un ensemble D_a d'identifiants de personnes tel que l'indicateur de croyance MP(S_q, I) (D₃) est non nul dans la base B_s 21 ;

- Lp' désigne l'ensemble des identifiants ft dans tous les D_a. Cet ensemble L_p' est différent de L_p car il est possible que le contexte 2 de l'image I 1 fasse référence à une personne non connue dans la base B_p 1 1 , dans ce cas , lorsque la dénomination reconnue n'est associé à aucun identifiant, le nouvel identifiant P_j est automatiquement généré;

- P_h désigne la probabilité que toutes les zones contiennent un homme ; - Pf désigne la probabilité que toutes les zones contiennent une femme ; et

- S_hf est un paramètre fixé supérieure à 0,5. Dans un mode de réalisation de l'invention S_hf = 0,8.

Dans le cas où Pf>S_hf, le processus 33 est décrit en référence à la figure 5A.

Ce processus 33 calcule en 63 pour chaque p'_j de L_p' des indicateurs de croyance notés MP'(HF, l)(femme) de la manière suivante: soit F_j = L_p'- {p'_j} si (f_r0,5) x (PrO, 5)> 0 alors MP'(HF,I, Femme) (F_j)=O sinon MP'(HF,I, Femme) (F_j)= -4x (f_j-0,5) x (P_f-0,5) avec f_j la probabilité enregistrée dans la base Bh/f 19 que la personne P_j soit une femme et MP'(HF,l,femme) (L_P')=1 -MP'(HF,I, femme)(F_j). La probabilité f_j est la probabilité maximale des probabilités enregistrées dans la base B_h/f 19 de chaque dénomination associée à l'identifiant P_j dans la base B_p 1 1. Si aucune dénomination de P_j n'est trouvée dans la base B_h/f 19 alors f_j est égale à 0,5. Le processus 33 calcule ensuite en 65 un indicateur de croyance noté MP'(S_q,l ) en fusionnant par un opérateur conjonctif normalisé les indicateurs de croyance MP'(S_q+HF,l ) et MP'(HF,I, femme)

MP'(S_q+HF,l)= MP'(S_q,l ) (+)MP'(HF,I .femme) si P_h>S_hf. Dans le cas où P_h > S_hf, le processus 33 est décrit en référence à la figure 5B. Ce processus 17 calcule alors en 67 pour chaque p'_j de L_p' des indicateurs de croyance notés MP'(HF, l)(homme) de la manière suivante :

si (h_j-0,5) x (P_h-0,5)> 0 alors MP'(HF,I, Homme) (F_j)=O sinon MP'(HF,I, Homme) (F_j)= -4x(h_r0,5) x (P_h-0,5) avec h, = 1 - f_j , la probabilité que la personne P_j soit un homme et MP'(HF,I, homme ) (L_p') = 1 - MP(HFJ ,homme)(F_j).

Le processus 33 calcule ensuite en 69 un indicateur de croyance noté MP'(S_q+HF,l) en fusionnant par un opérateur conjonctif normalisé les indicateurs de croyance MP'(S_q,l ) et MP'(HF,I , homme)

MP'(S_q + HFJ )= MP'(S_qJ ) (+)MP'(HF,I, homme).

Dans le cas où ni P_g>S_hf ni P_h>S_hf, le processus 33 calcule l'indicateur de croyance MP(S_q + HF, I) (F_j) = MP(S_q, I) (F_j) pour tout F_j.

Enfin, le processus 33 calcule dans tous les cas en 71 un indicateur de croyance P(S_q,l)(p'_j), la probabilité que p'_j soit dans l'image I, à partir de la probabilité pignistique BetPm(p'_j) selon l'indicateur de croyance m= MP'(S_q+HF,l)

P (Sq₁I)(P¹ _J)= BetPm(p'_j) .

Concernant le processus FusionAnoti 35, celui-ci comprend l'étape consistant à calculer les indicateurs de croyance M(Anot,l,p'_j) pour chaque identifiant p'_j tel qu'il existe dans la base d'information B_s 21 un ensemble F et une source S_q tels que MP'(S_j+HF,l,)(F)>0. M(Anot,l,p'_j){pertinent} et

M(Anot,l, p'_j){pertinent, non-pertinent} sont calculés en utilisant un opérateur de fusion conjonctif non normalisé de manière à uniquement renforcer les hypothèses trouvées dans plusieurs annotations M(Anot,l,p'_j) = (+)' M(S_q,l,p'_j) pour toute source S_q avec

M(SqJ, p'_j) {pertinent^ Prob(S_q,l)(p'_j) et

M(SqJ, p'_j) {pertinent, non-pertinent} = 1 - M(S_q,l,p'_j) {pertinent}. Ensuite , le processus 35 calcule l'indicateur d'incertitude

INCERTAIN(Anot, p'_j) = M(Anot,p'_j){pertinent, non-pertinent} , l'indicateur de croyance

M(Anot,p'_j) = M(Anot,p'_j){pertinent} et la probabilité P(Anot,l)(p'_j)= M(S_q,l,p'_j) {pertinent}.

Le processus FusionAnot2 37, comprend l'étape consistant à calculer les indicateurs de croyances M(Anot,l,p'_j) pour chaque identifiant p'_j tel qu'il existe dans la base d'information B_s 21 un ensemble F et une source S_q tels que MP'(S_q+HF,l,)(F)>0. M(Anot,l,p'_j){pertinent} et M(Anot,l,p'_j){pertinent, non-pertinent} sont calculés en utilisant un opérateur de fusion conjonctif normalisé de manière à diminuer les hypothèses si il y a des conflits entre elles M(Anot,l,p'_j) = (+) M(S_J, I, p'_j) pour toute source S_q avec M(S_q,l,p'_j) {pertinente Prob(S_q,l)(p'_j) et M(S_q, I, p'_j) {pertinent, non-pertinent} = 1 - M(S_q,l,p'_j) {pertinent}. Le processus 37 calcule ensuite l'indicateur d'incertitude

INCERTAIN(Anot, p'_j) = M(Anot,p'_j){pertinent, non-pertinent}, l'indicateur de croyance M(Anot,p'_j) = M(Anot,p'_j){pertinent} et la probabilité P (Anot,l)(p'_j)= M(S_q,l,p'_j) {pertinent}.

Enfin, le processus FusionFinale 39 est décrit en référence à la figure

6. Ce processus calcule en 73 les indicateurs de croyance MP(DV+RV,I,Z,)

({inconnu, inconnue} pour chaque zone Z₁ de l'image I 1 en fusionnant avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(RVJ, Z₁) et

MP(DVJ₅Z₁) dans la base B_s 21.

Ensuite, pour chaque p'_j tel que M(Anot,l,p'_j)(pertinent) > 0 et p'_j n'appartenant pas à L_p, le processus 39 calcule en 75

M(lmage,l,p'_j)(pertinent)=Max(MP(RV+DV+HF,l,Z_l)({inconnu,lnconue,^*} )) pour toutes les zones Z₁ et

M((lmage,l,p'_j){pertinent,non-pertinent)=1_M(lmage,l,p'_j)(pertinent). Puis, le processus 39 fusionne en 77 les indicateurs de croyance M(Anot, I, P_J) et M(lmage,l,p_j) avec un opérateur conjonctif normalisé afin de calculer les indicateurs de croyance M(I, p_j) pour tous les P_j appartenant à L_p' ou à

M(I, p_j) = M(Anot,l, p,) (+)M(lmage,l,p_J).

Enfin, le processus 39 calcule en 79 P(I, P_j) = M(l,p_j){pertinent} et INCERTAIN (l,p_j)= M(l,p_j){pertinent, non-pertinent}.

Ainsi, le procédé selon l'invention permet d'associer à chaque image numérique créée par l'utilisateur et enregistrée dans son ordinateur au niveau de la base B_ιr,dex 22, la liste d'identifiants P_j de personnes ayant une probabilité P(I, P_j) supérieure à S_pr0b d'être présentes dans l'image, l'incertitude

INCERTAIN (I, P_j) sur cette probabilité étant inférieure à S_ιnc-

L'utilisateur dispose ainsi, grâce à l'invention, d'un outil lui permettant d'indexer ses images de manière très fiable. En effet, le procédé de détermination de la probabilité et de l'incertitude selon l'invention réalise une fusion très complète des informations de l'analyse de l'image et de son contexte afin de réduire au maximum les limitations (bruit, silence, incertitude, imprécision) des méthodes de description d'image de l'état de la technique.

Claims

REVENDICATIONS

1. Procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ), caractérisé en ce qu'il comporte : a) une étape (24) d'analyse de l'image (1 ) pour déterminer au moins une zone de l'image (1 ) dans laquelle un visage de personne est détecté et d'association d'un score de détection de visage (MV(DV, I, Z₁)) ; pour une zone courante (Z₁) déterminée à l'étape a): b) une étape (25) d'analyse de la zone courante (Z₁) par comparaison du visage détecté à des visages de personnes identifiées stockés au préalable dans une base de données (1 1 ) pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante (Z₁) et d'association d'un score de détection d'identifiant (MP(RV, I, Z₁)) ; et c) une étape (26) d'analyse de la zone courante pour déterminer des scores d'identification du sexe de la personne détectée (MHF(HF,l,Z,)(homme), MHF(HF,l,Z,)(femme)); d) une étape de fusion (27) des scores de détection de visage (MV(DV, I, Z₁)), de détection d'identifiant (MP(RV, I, Z₁)) et d'identification de sexe (MHF(HFJ, Z,)(homme), MHF(HFJ, Z,)(femme)) pour déterminer un score de zone (MP (RV + DV +HF, I, Z₁) ) représentant la probabilité de présence de personnes identifiées dans la zone courante (Z₁).

2. Procédé selon la revendication 1 , caractérisé en ce qu'il comporte :

- une étape de fusion (29) des scores de zone des zones de l'image (1 ) pour lesquelles un visage de personne est détecté afin de calculer un deuxième score de zone (MP (RV + DV +HF, I, Z₁)) représentant la probabilité de présence de personnes identifiées dans chaque zone (Z₁); - une étape de détermination pour chaque personne identifiée (P_j) d'une première probabilité (P(lmage, I) (P_j)) de présence de cette personne dans l'image (1 ); une étape de détermination d'un coefficient d'incertitude (INCERTAIN (Image, I, P_j)) représentant l'incertitude sur cette probabilité de présence.

3. Procédé selon la revendication 2, caractérisé en ce qu'il comporte en outre:

- une étape (31 ,32) d'analyse d' informations de contexte (2) associées à l'image (1 ) pour obtenir des informations complémentaires sur l'identification des personnes mentionnées dans les informations de contexte (2) et d'association d'un score d'identité (MP(SqJ)) pour une source d'informations de contexte (S_q) donnée;

- une étape de détermination (30) que l'image contient une répartition donnée entre les personnes de sexe masculin et les personnes de sexe féminin à partir des scores d'identification de sexe des personnes détectées dans les zones de l'image (1 ) pour lesquelles un visage de personne est détecté;

- une étape de test de compatibilité (33) entre les scores d'identité de l'image et la répartition déterminée pour déterminer une deuxième probabilité (P(S_q,l) (P_J)) de présence d'une personne (p_j) mentionnée dans les informations de contexte dans l'image (1 ), pour une source d'informations de contexte (2) donnée;

- une étape de fusion (35,37) des scores d'identité d'une pluralité de sources d'informations de contexte (2) pour générer pour chaque personne identifiée (p_j) une troisième probabilité (P(Anot,l) (P_j)) de présence dans l'image (1 );

-une étape de fusion (39) finale pour générer une probabilité (P(I, P_j)) de présence d'une personne détectée dans l'image (1 ) et une incertitude (INCERTAIN (I ,P_j)) de cette probabilité en fonction des première, et troisième probabilités (P(lmage, I) (p_j), P(Anot,l) (p_j)) .

4. Procédé selon la revendication 3, caractérisé en ce que les informations de contexte (2) de l'image (1 ) contiennent une annotation vocale (3) et l'étape d'analyse (31 ) des informations de contexte (2) de l'image (1 ) comprend une étape de reconnaissance dans cette annotation vocale (3) de dénominations de personnes prononcées.

5. Procédé selon l'une quelconque des revendications 3 ou 4, caractérisé en ce que les informations de contexte (2) de l'image (1 ) contiennent une annotation textuelle (5) et l'étape d'analyse (32) des informations de contexte (2) de l'image (1 ) comprend une étape de reconnaissance dans cette annotation textuelle (5) de dénominations de personnes écrites.

6. Système de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ) caractérisé en ce qu'il comporte : a) un module (7) d'analyse de l'image (1 ) apte à déterminer au moins une zone de l'image (1 ) dans laquelle un visage de personne est détecté et à association un score de détection de visage (MV(DV, I, Z₁)) ; b) un module (9) d'analyse d'une zone courante (Z₁) apte à comparer le visage détecté dans la zone courante (Z₁) à des visages de personnes identifiées stockés au préalable dans une base de données (1 1 ) et à fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et à associer un score de détection d'identifiant (MP(RV, I, Z₁)); c) un module (13) d'analyse de la zone courante apte à déterminer des scores d'identification du sexe de la personne détectée dans la zone courante (MHF(HF,l,Z,)(homme), MHF(HF,l,Z,)(femme)); et e) des moyens de fusion (23) apte à fusionner les scores de détection de visage (MV(DV, I, Z₁)), de détection d'identifiant (MP(RV, I, Z₁)) et d'identification de sexe (MHF(HF, I, Z,)(homme), MHF(HF, I, Z,)(femme)) pour déterminer un score de zone (MP (RV + DV +HF, I, Z₁)) représentant la probabilité de présence de personnes identifiées dans la zone courante (Z₁).

7. Programme d'ordinateur comprenant des instructions de code qui, lorsque ce programme est exécuté sur un ordinateur, permettent la mise en œuvre du procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ) selon l'une des revendications 1 à 5.