WO2008047028A1 - Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant - Google Patents

Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant Download PDF

Info

Publication number
WO2008047028A1
WO2008047028A1 PCT/FR2007/052109 FR2007052109W WO2008047028A1 WO 2008047028 A1 WO2008047028 A1 WO 2008047028A1 FR 2007052109 W FR2007052109 W FR 2007052109W WO 2008047028 A1 WO2008047028 A1 WO 2008047028A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
person
probability
face
detected
Prior art date
Application number
PCT/FR2007/052109
Other languages
English (en)
Inventor
Michel Plu
Saïd KHARBOUCHE
Patrick Vannoorenberghe
Original Assignee
France Telecom
VANNOORENBERGHE, Capucine
VANNOORENBERGHE, Robin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom, VANNOORENBERGHE, Capucine, VANNOORENBERGHE, Robin filed Critical France Telecom
Priority to EP07858539A priority Critical patent/EP2095295A1/fr
Publication of WO2008047028A1 publication Critical patent/WO2008047028A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/814Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level using belief theory, e.g. Dempster-Shafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/257Belief theory, e.g. Dempster-Shafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • the present invention relates to a method for determining a probability of presence of a person in an image associated with a context. It also relates to a corresponding determination system and a computer program for this application.
  • the first method is the contextual description such as date of shooting, geographical position, author, keywords for image etc.
  • the production of this contextual description can be automatic or manual.
  • the second method is the objective description by image analysis. According to this method, the analysis of an image makes it possible to provide descriptor elements, for example of portrait, landscape, sea, mountain, etc. type. This second method also allows the recognition of people or monuments contained in a reference dictionary.
  • the third method is the subjective description by textual or vocal annotation.
  • the user annotates a photo so as to declare what appears to be relevant and / or what may be absent from the image, for example a relationship.
  • This subjective description may also be included in a communication message of the described content.
  • the subjective description by annotation appears as a complementary mode of the objective description by image analysis.
  • the voice annotation has the considerable interest to be created during the production of the content because it requires only a microphone and is very natural.
  • the efficient and reliable extraction of relevant descriptor indexes remains limited today because it depends on the techniques of analysis of a speech signal, which can be noisy by the sound environment present during its recording and / or of poor quality according to the devices (micro, coding) of its recording.
  • Textual annotation has the advantage of having more reliable coding (ASCII or unicode) of the information.
  • ASCII or unicode many works exist in the field of text indexing. But the difficulty is today displaced in the analysis of the meaning of these textual annotations. Indeed the extraction of keywords is often insufficient to find indexed content because these keywords are often ambiguous and too general. Moreover, the extraction of key words is not as effective as for textual documents often much longer and much more redundant in information than simple textual annotations often very short.
  • extracted key words can be ambiguous, as for example the first names Miguel or Nancy, which reference in the first case a person of male or female and in the second case a person or a city.
  • the subject of the invention is a method for determining a probability of the presence of a person in at least a part of an image, characterized in that it comprises: a) a step of analysis of the image for determining at least one area of the image in which a person's face is detected and for associating a face detection score; for a current zone determined in step a): b) a step of analyzing the current zone by comparison of the detected face with faces of identified persons stored in the preliminarily in a database to provide a list of face identifiers of persons that may be present in the current area and a combination of an identifier detection score; and c) a step of analyzing the current area to determine gender identification scores of the detected person; d) a step of merging the face detection, identifier detection and gender identification scores to determine an area score representing the probability of presence of identified persons in the current area.
  • the invention makes it possible to overcome the drawbacks of the methods of the state of the art by merging information from the various analysis steps. This fusion of information will make it possible to reduce the uncertainty and inaccuracy of the descriptor indexes relating to the persons present in at least part of the image, taking into account the probability determined in step d).
  • the method comprises: a step of merging the zone scores of the zones of the image for which a person's face is detected in order to calculate a second zone score representing the probability of presence identified persons in each zone;
  • the method further comprises: a step of analyzing context information associated with the image to obtain additional information on the identification of the persons mentioned in the context and association information an identity score for a given context information source;
  • the context information of the image contains a voice annotation and the step of analyzing the contextual information of the image comprises a recognition step in this voice annotation of denominations of persons spoken;
  • the context information of the image contains a textual annotation and the step of analyzing the context information of the image comprises a recognition step in this textual annotation of names of written persons.
  • the present invention finally relates to a computer program comprising code instructions which, when this program is executed on a computer, allow the implementation of the method of determining a probability of presence of a person in at least a part of an image.
  • the system of the invention also comprises: a module for analyzing a voice annotation to recognize denominations of persons spoken;
  • an analysis module of a textual annotation to recognize names of written people to recognize names of written people
  • a database which for a set of names of a person gives the probability that the person so named is a woman.
  • the identifiers of the persons whose denomination has been recognized in a voice annotation the denominations associated with each identifier being recorded in the base Bp 1 1; the identifiers of the persons whose denomination has been recognized in a textual annotation, the denominations associated with each identifier being recorded in the database Bp 1 1.
  • the invention makes it possible to reduce: the uncertainty of the descriptor indexes that are proposed by different modules in a compatible manner; - inaccuracy by retaining only the possible descriptor indexes that are most certain;
  • FIG. 1 is a block diagram illustrating the structure of a system of determining a probability of presence of a person in an image associated with a context according to the invention
  • FIG. 2 is a flowchart illustrating the operation of a method for determining a probability of presence of a person in an image associated with a context according to the invention
  • FIG. 3 is a flowchart illustrating the fusion of the information concerning the sex and the hypotheses on the identifier of a person identified in an image obtained by the image analysis;
  • the first part of the method consists in analyzing the image I 1 in order to extract different information on the persons present in the image I 1. This part is executed by the image analysis modules 7, 9 and 13.
  • the module 7 analyzes in 24 the image I 1 to detect faces in this image I 1. It provides a list of areas where faces of people are detected and provides for each of these zones Z 1 the score of corresponding MV (DV, I, Z 1 ) face detection.
  • n be the number of zones Z 1 of the image I 1 for which there exists a score MV (DV, I, Z 1 ) in the base B s 21. n thus corresponds to the number of zones Z 1 of the image I where a face was detected by the DV 7 module.
  • the module 9 analyzes in 25 the n zones Z 1 where a face has been detected by the module 7 and provides a list F k of identifiers, belonging to the list L p , of persons who may be present in each image zone, as well as the corresponding score (RV, I, Z 1 ) of belief indicator of this hypothesis F k of identified persons; and the module 13 analyzes at 26 each person face detected in each image zone to determine the sex of the detected person and provides for each zone Z 1 of the image I 1 the MHF sex identification scores (HF , I, Z,) (human) and MHF (HF, I, Z,) (female).
  • MHF sex identification scores HF , I, Z,
  • MP (RV + DV + HF, I, Z 1 ) merging all the belief indicators MP (RV, I, Z 1 ) MHF (HF, I, Z 1 ) and MV (DV, I, Z 1 ) of the base B s 21 are computed in a process noted FusionMage 27.
  • FusionMage 27 verifies that the assumptions of the module 9, concerning the presence in the zone Z 1 of persons whose identifiers are contained in a list F k , subset of L p , are compatible with the hypothesis of module 13 that this zone Z 1 contains a face of a man or a woman and according to the belief of the module 7 that the zone Z 1 contains a face.
  • This process defines a new list of hypotheses, subset of L p , on the identification of the person in zone Z 1 .
  • a probability P f , respectively P h , that all the zones Z 1 of the image I 1 contain only women, respectively men, is calculated from the MHF belief indicators (HF, I, Z, ) (female) respectively MHF (HF, I, Z,) (male) of the base B s 21.
  • This probability P h , respectively P f is equal to the product of the scores MHF (HF, I, Z,) (female) , respectively MHF (HF, I, Z,) (human) for all the zones Z 1 of the image I 1.
  • the steps 27 to 30 have thus allowed the fusion of the information resulting from the analysis of the image I 1 at 24, 25 and 26.
  • the scores MP (AV, I) and MP (AT, I) provided at 31 and 32 are recorded in the base B s 21 and noted as identity scores MP (S q , I), Sq being the source of context 2 information considered (voice annotation 3 or textual annotation 5). Then, for each source S q for which it exists in the database
  • an information fusion process noted FusionAnot2 designated by reference 37 calculates a belief indicator M (Anot, I, p ' j ) also called third probability P (Anot, I, p' j ) from the set of sources S q noted Anot.
  • This FusionAnot2 merge process 37 manages the conflicts between all the assumptions of people quoted in a source by decreasing the belief of each hypothesis if different hypotheses are possible.
  • the FusionZones process 29 calculates at 51 a belief indicator denoted by MP (Z 1 ', I, Z 1 ) on the information which the zone Z 1 - can bring to the zone Z 1 in the image I 1.
  • the process 29 merges into 53 with the standardized conjunctive operator the belief indicators MP (Z, ', I 1 Z 1 ) and the belief indicators MP (RV + DV + HF, I 1 Z 1 ) for any zone Z 1 'different from Z 1 to obtain the belief indicators MP (lmage, l, Z 1 ) thus,
  • the process 29 calculates at 59 the belief indicators M (lmage, I 1 P j ) on the set of assumptions ⁇ relevant, irrelevant ⁇ representing a belief that the person identifier P j is relevant, respectively no -pertinent for the image I 1 as well:
  • ALPHA-IMAGE being a constant between 0 and 1 that the overall, the image analysis process including modules 7, 9 and 13 is attributed.
  • the HF TestCompatibility process 33 is described with reference to the flowchart of FIGS. 5A and 5B.
  • Sq denotes a source of information of the context of the image such that there exists a set D a of person identifiers such as the belief indicator MP (S q , I) (D 3 ) is non-zero in the base B s 21;
  • This set L p ' is different from L p because it is possible that the context 2 of the image I 1 refers to a person not known in the base B p 1 1, in this case, when the recognized denomination is associated with no identifier, the new identifier P j is automatically generated;
  • P h denotes the probability that all zones contain a human
  • - Pf is the probability that all areas contain a woman
  • the process 33 then calculates at 69 a belief indicator denoted MP '(S q + HF, 1) by merging by a normalized connective operator the belief indicators MP' (S q , l) and MP '(HF, I, human )
  • the process 37 then calculates the uncertainty indicator
  • UNCERTAIN (Anot, p ' j ) M (Anot, p' j ) ⁇ relevant, irrelevant ⁇
  • the belief indicator M (Anot, p ' j ) M (Anot, p' j ) ⁇ relevant ⁇
  • the probability P (Anot, l) (p ' j ) M (S q , l, p' j ) ⁇ relevant ⁇ .
  • M (I, p j ) M (Anot, l, p,) (+) M (lmage, l, p J ).
  • the user thus has, thanks to the invention, a tool allowing him to index his images very reliably.
  • the method for determining the probability and the uncertainty according to the invention achieves a very complete fusion of the information of the analysis of the image and its context in order to reduce as much as possible the limitations (noise, silence, uncertainty, imprecision) of prior art image description methods.

Abstract

Ce procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1) comporte : a) une étape (24) d'analyse de l 'image (1) pour déterminer au moins une zone de l'image (1) dans laquelle un visage de personne est détecté et un score de détection de visage; pour une zone déterminée à l'étape a): b) une étape (25) d'analyse de la zone courante pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone et un score de détection d'identifiant; et c) une étape (26) d'analyse de la zone pour déterminer des scores d'identification du sexe de la personne détectée; d) une étape de fusion ( 27) des scores de détection de visage, de détection d'identifiant et d' identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone.

Description

PROCEDE ET SYSTEME DE DETERMINATION D'UNE PROBABILITE DE
PRESENCE D'UNE PERSONNE DANS AU MOINS UNE PARTIE D'UNE
IMAGE ET PROGRAMME D'ORDINATEUR CORRESPONDANT
La présente invention concerne un procédé de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte. Elle concerne également un système de détermination correspondant et un programme d'ordinateur pour cette application.
Plus particulièrement, l'invention se rapporte au domaine de la gestion d'images à contenus numériques par exemple des photos numériques.
De façon générale, la photo numérique a profondément modifié l'accès à l'image. D'une part, le coût nul associé à chaque prise de vue et d'autre part la multiplication des appareils disposant de la fonction "prise de vue numérique" entraînent la prolifération des photos numériques. En effet, de plus en plus d'appareils électroniques (appareils photos numériques, mais aussi téléphones mobiles, ordinateurs de poches, ...) disposent de cette fonction. Ainsi, les utilisateurs disposant presque toujours d'un appareil de prise de vue numérique, et ces prises de vue ne coûtant rien, les photos numériques prolifèrent.
Le problème qui survient alors réside dans la gestion de photos aussi nombreuses. Pour faciliter la gestion de ces photos, il est nécessaire de pouvoir associer à chacune des photos des index descripteurs de la photo.
On connaît, dans l'état de la technique, trois méthodes de description permettant de générer et d'associer des index descripteurs à des images.
La première méthode est la description contextuelle telle que la date de la prise de vue, la position géographique, l'auteur, des mots clés pour l'image etc. La production de cette description contextuelle peut être automatique ou manuelle. La deuxième méthode est la description objective par analyse d'image. Selon cette méthode, l'analyse d'une image permet de fournir des éléments descripteurs, par exemple de type portrait, paysage de campagne, mer, montagne, etc. Cette deuxième méthode permet en outre la reconnaissance de personnes ou de monuments contenus dans un dictionnaire de références.
La troisième méthode est la description subjective par annotation textuelle ou vocale. Selon cette méthode, l'utilisateur annote une photo de façon à déclarer ce qui lui semble être pertinent et/ou ce qui peut être absent de l'image, par exemple un lien de parenté. Cette description subjective peut également être incluse dans un message de communication du contenu décrit.
Différents exemples de l'utilisation de ces trois méthodes de description pour la gestion d'images existent actuellement.
Ainsi, la plupart des outils de gestion de contenus visuels, par exemple la gestion d'albums de photos, offrent la possibilité de créer des index descripteurs et de les exploiter pour retrouver des photos. Cette création d'index descripteurs est facilitée par la combinaison de différents outils, par exemple de type agenda ou carnet d'adresse et dispositifs par exemple de type GPS ou horloge. Le document WO 2004/062263 au nom de la demanderesse concerne ainsi un procédé et un dispositif permettant l'annotation, l'indexation et la recherche automatiques de contenus numériques.
Par ailleurs, de nombreux systèmes notamment de reconnaissance de visage utilisent la méthode de description objective. Il existe également un moteur de recherche sur Internet (http://www.riya.com/) qui utilise cette méthode.
Il est également connu que les moteurs de recherche d'images de vidéos sur Internet indexent les images par l'extraction de mots clés du contexte des contenus identifiés comme par exemple le nom du fichier, le texte du lien hypermédia pointant vers le contenu ou un texte suffisamment proche de ce lien. Ces textes sont considérés comme une description subjective de l'image. Les contenus sont alors retrouvables uniquement à partir de recherches contenant ces mots clés.
Il existe, par ailleurs, un système expérimental d'IBM appelé « MARVEL » qui exploite l'ensemble des descriptions objectives et subjectives des contenus visuels.
Actuellement, les technologies exploitant la description subjective et notamment des annotations vocales, sont celles de la reconnaissance de la parole. Dans ce cadre, le document WO 2006/077196 au nom de la demanderesse fournit un procédé de génération d'un index descripteur textuel à partir d'une annotation vocale.
Il existe également des systèmes d'exploitation d'annotations textuelles comme par exemple le système « ARIA » développé au MIT média Lab.
Ces méthodes de description, utilisées seules ou en combinaison, ont représenté un progrès important dans le domaine de la gestion d'images. Cependant, elles présentent un certain nombre d'inconvénients.
Tout d'abord, la description objective par analyse d'images trouve ses limites dans la complexité et la diversité des images à traiter.
Ceci s'illustre par la diversité d'éclairage, de cadrage et de positionnement des éléments à reconnaître dans une image. Par exemple on arrive a reconnaître à 95% un visage lorsque celui-ci est pris de face avec une image de bonne qualité et un éclairage correct. Par contre, ces performances se dégradent rapidement si le visage est tourné, si l'éclairage est incorrect ou si l'image est légèrement floue. Une autre limitation de cette méthode de description est qu'un système de reconnaissance de visage ne pourra reconnaître que des visages déjà appris à partir d'exemples. La fiabilité de la reconnaissance d'un visage dépendra du nombre de personnes pouvant être reconnues, et du nombre d'exemples de photos de ce visage que le système de reconnaissance aura appris.
La description subjective par annotation apparaît comme un mode complémentaire de la description objective par analyse d'image. L'annotation vocale à l'intérêt considérable de pouvoir être créée lors de la production du contenu car elle ne nécessite qu'un micro et elle est très naturelle. Par contre l'extraction efficace et fiable d'index descripteurs pertinents reste aujourd'hui limitée car elle dépend des techniques d'analyse d'un signal de parole, qui peut être bruité par l'environnement sonore présent lors de son enregistrement et/ou de mauvaise qualité selon les dispositifs (micro, codage) de son enregistrement.
Même avec un signal de parole de bonne qualité, les résultats de son analyse peuvent rester imprécis à cause des syllabes muettes. Par exemple des prénoms comme Michel ou Michelle, Frédéric et Frédérique seront souvent proposés simultanément.
L'annotation textuelle a l'avantage d'avoir un codage (ASCII ou unicode) plus fiable de l'information. De nombreux travaux existent dans le domaine de l'indexation de textes. Mais la difficulté est aujourd'hui déplacée dans l'analyse du sens de ces annotations textuelles. En effet l'extraction de mots clés est souvent insuffisante pour retrouver les contenus indexés car ces mots clés sont souvent ambigus et trop généralistes. De plus, l'extraction de mots clés n'est pas aussi efficace que pour des documents textuels souvent beaucoup plus longs et beaucoup plus redondants en informations que de simples annotations textuelles souvent très courtes.
Enfin que ce soit pour des annotations vocales ou textuelles, les mots clés extraits peuvent être ambigus, comme par exemple les prénoms Dominique ou Nancy , qui référencent dans le premier cas une personne de sexe masculin ou féminin et dans le deuxième cas une personne ou une ville.
Pour améliorer la fiabilité des descripteurs pouvant être associés a une images différents travaux de recherche ont été menés en fusionnant les différentes descriptions disponibles.
Parmi ces travaux de recherche, on trouve : - des travaux combinant une description objective et une annotation textuelle comme par exemple les travaux publiés de Shen, H. T., ooi, B. C, et tan, K. L. : « Giving meanings to www images », on Proceedings of ACM Multimedia, ACM, New York, 39-48. et de Dimitrova, N., Agnihotri, L., and Wei, G. : "Video Classification Based on HMM Using Text and Faces", European Signal Processing Conférence, Tampere, Finland, 2000.
- des travaux combinant une description contextuelle et une description objective comme par exemple les travaux publiés de Marc Davis,
Michael Smith, John Canny, Nathan Good, Simon King, et Rajkumar Janakiraman : "Towards Context-Aware Face Récognition", in Proceedings of 13th Annual ACM International Conférence on Multimedia (MM 2005), Singapore, ACM Press, 483-486, 2005., ou de Naaman, Mor; Paepcke, Andréas; Garcia-Molina, Hector, "From Where to What: Metadata Sharing for Digital Photographs with Géographie Coordinates", 10th International Conférence on Coopérative Information Systems (COOPIS).
Les limitations principales de toutes les méthodes de description d'images de l'état de la technique sont essentiellement les suivantes: - le bruit qui fait que des index descripteurs générés par ces méthodes sont faux ;
- le silence qui fait qu'aucun index descripteur n'est proposé pour certaines personnes présentes dans l'image ;
- l'incertitude qui fait que des index descripteurs générés par ces méthodes sont non fiables ;
- l'imprécision qui fait que différentes possibilités sont proposées sur une image pour une même personne.
La présente invention vient améliorer la situation. A cet effet, l'invention a pour objet un procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image, caractérisé en ce qu'il comporte : a) une étape d'analyse de l'image pour déterminer au moins une zone de l'image dans laquelle un visage de personne est détecté et d'association d'un score de détection de visage ; pour une zone courante déterminée à l'étape a): b) une étape d'analyse de la zone courante par comparaison du visage détecté à des visages de personnes identifiées stockés au préalable dans une base de données pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et d'association d'un score de détection d'identifiant ; et c) une étape d'analyse de la zone courante pour déterminer des scores d'identification du sexe de la personne détectée ; d) une étape de fusion des scores de détection de visage, de détection d'identifiant et d'identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone courante. Ainsi, l'invention permet de pallier les inconvénients des méthodes de l'état de la technique grâce à la fusion d'informations issues des différentes étapes d'analyse. Cette fusion d'information va permettre de réduire l'incertitude et l'imprécision des index descripteurs relatifs aux personnes présentes dans au moins une partie de l'image en tenant compte de la probabilité déterminée à l'étape d).
Les descripteurs qui ne sont pas en conflit avec les informations issues des différentes étapes d'analyse et qui sont donc plus certains peuvent être pris en considération réduisant ainsi l'inconvénient de bruit.
Selon un mode de réalisation de l'invention, le procédé comporte : - une étape de fusion des scores de zone des zones de l'image pour lesquelles un visage de personne est détecté afin de calculer un deuxième score de zone représentant la probabilité de présence de personnes identifiées dans chaque zone ;
- une étape de détermination pour chaque personne identifiée d'une première probabilité de présence de cette personne dans l'image ; une étape de détermination d'un coefficient d'incertitude représentant l'incertitude sur cette probabilité de présence.
Les avantages que la méthode apportait au niveau d'une zone de l'image sont maintenant appliqués à l'image dans sa globalité. On augmente la précision, on réduit l'imprécision et l'incertitude en diminuant pour chaque zone l'indicateur de croyance des descripteurs de personnes qui sont reconnus dans différentes zones. Ces descripteurs ne seront conservés pour une zone que si leur indicateur de croyance est suffisamment grand.
Dans un mode particulier de réalisation, le procédé comporte en outre: - une étape d'analyse d'informations de contexte associées à l'image pour obtenir des informations complémentaires sur l'identification des personnes mentionnées dans les informations de contexte et d'association d'un score d'identité pour une source d'informations de contexte donnée;
- une étape de détermination que l'image contient une répartition donnée entre les personnes de sexe masculin et les personnes de sexe féminin à partir des scores d'identification de sexe des personnes détectées dans les zones de l'image pour lesquelles un visage de personne est détecté;
- une étape de test de compatibilité entre les scores d'identité de l'image et la répartition déterminée pour déterminer une deuxième probabilité de présence d'une personne mentionnée dans les informations de contexte dans l'image, pour une source d'informations de contexte donnée;
- une étape de fusion des scores d'identité d'une pluralité de sources d'informations de contexte pour générer pour chaque personne identifiée une troisième probabilité de présence dans l'image; -une étape de fusion finale pour générer une probabilité de présence d'une personne détectée dans l'image et une incertitude de cette probabilité en fonction des première et troisième probabilités.
Ainsi d'autres informations provenant d'informations de contexte associées à l'image et issues d'une autre étape d'analyse permettront encore de réduire les inconvénients d'incertitude, d'imprécision, de bruit évoqués ci- dessus. Le silence se trouve aussi réduit en ajoutant de nouveau descripteurs issus de ces sources.
Avantageusement, selon d'autres caractéristiques de l'invention :
- les informations de contexte de l'image contiennent une annotation vocale et l'étape d'analyse des informations de contexte de l'image comprend une étape de reconnaissance dans cette annotation vocale de dénominations de personnes prononcées ; - les informations de contexte de l'image contiennent une annotation textuelle et l'étape d'analyse des informations de contexte de l'image comprend une étape de reconnaissance dans cette annotation textuelle de dénominations de personnes écrites. Ainsi, des indicateurs de probabilité et de certitude vont permettre de prendre des décisions plus fiables sur la présence ou pas de personnes dans l'image.
La présente invention vise également un système de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image caractérisé en ce qu'il comporte : a) un module d'analyse de l'image apte à déterminer au moins une zone de l'image dans laquelle un visage de personne est détecté et à association un score de détection de visage ; b) un module d'analyse d'une zone courante apte à comparer le visage détecté dans la zone courante à des visages de personnes identifiées stockés au préalable dans une base de données et à fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et à associer un score de détection d'identifiant ; c) un module d'analyse de la zone courante apte à déterminer des scores d'identification du sexe de la personne détectée dans la zone courante ; et e) des moyens de fusion apte à fusionner les scores de détection de visage, de détection d'identifiant et d'identification de sexe pour déterminer un score de zone représentant la probabilité de présence de personnes identifiées dans la zone courante.
La présente invention concerne enfin un programme d'ordinateur comprenant des instructions de code qui, lorsque ce programme est exécuté sur un ordinateur, permettent la mise en œuvre du procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image.
Le système de l'invention comporte également: - un module d'analyse d'une annotation vocale pour reconnaître des dénominations de personnes prononcées ;
- un module d'analyse d'une annotation textuelle pour reconnaître des dénominations de personnes écrites ; et - une base de données, qui pour un ensemble de dénominations d'une personne donne la probabilité que la personne ainsi dénommée soit une femme.
Les informations obtenues par ces modules sont les suivantes :
- les identifiants possibles des visages reconnus pour chaque zone de l'image où un visage a été détecté ;
- la probabilité que chaque visage détecté soit celui d'une femme ;
- les identifiants des personnes dont la dénomination a été reconnue dans une annotation vocale, les dénominations associées à chaque identifiant étant enregistrées dans la base Bp 1 1 ; - les identifiants des personnes dont la dénomination a été reconnue dans une annotation textuelle, les dénominations associées à chaque identifiant étant enregistrées dans la base Bp 1 1.
La fusion de ces informations consiste à identifier la compatibilité ou au contraire le conflit entre ces informations. Il y a conflit sur un index descripteur: a) lorsque le visage d'une même personne est reconnu dans deux zone différentes d'une même image ; ou b) lorsque l'identifiant associé à un visage est plus probablement attribué à une personne du sexe opposé à celui identifié; ou c) lorsque le détecteur de visage n'a détecté qu'un seul visage dans une zone correspondant à un pourcentage suffisamment important de l'image analysée, et que la reconnaissance de visage ne propose pas le même identifiant que ceux détectés dans les annotations textuelle et vocale.
En fusionnant ainsi ces informations, l'invention permet de réduire : - l'incertitude des index descripteurs qui sont proposés par différents modules de manière compatible ; - l'imprécision en ne retenant que les index descripteurs possibles qui sont les plus certains ;
- le bruit des index descripteurs en prenant ceux qui sont les plus certains et ceux qui ne sont pas en conflit ; et - le silence en renforçant la certitude de certains index descripteurs et en exploitant chaque module pouvant produire ces descripteurs.
L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés sur lesquels : - la figure 1 est un schéma synoptique illustrant la structure d'un système de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte selon l'invention ;
- la figure 2 est un organigramme illustrant le fonctionnement d'un procédé de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte selon l'invention ;
- la figure 3 est un organigramme illustrant la fusion des informations concernant le sexe et les hypothèses sur l'identifiant d'une personne identifiée dans une image obtenues par l'analyse de l'image ;
- la figure 4 est un organigramme illustrant la fusion des informations de différentes zones d'une image où des visages ont été reconnus obtenus par l'analyse de l'image ;
- les figures 5A et 5B sont des organigrammes illustrant la fusion des informations concernant le sexe d'une personne identifiée dans l'image par analyse d'image et les hypothèses sur l'identifiant de personne obtenues par analyse du contexte de l'image ; et
- la figure 6 est un organigramme illustrant la fusion finale de toutes les informations obtenues par l'analyse de l'image et de son contexte.
Un système de détermination d'une probabilité de présence d'une personne dans une image associée à un contexte est illustré sur la figure 1. A titre d'exemple, ce système est mis en œuvre sur un ordinateur personnel d'un utilisateur. Cet ordinateur personnel comporte des moyens d'enregistrement d'images numériques sous forme de fichiers de format « .jpg », « .gif », « .bmp », etc.
Selon un mode de réalisation de l'invention, ce système utilise la théorie des fonctions de croyance également appelée théorie de l'évidence. Cette théorie est présentée dans la publication de Ph. Smets et R. Kennes : « The transférable Belief Model », Artificial Intelligence, 66(2) : 191 -234, 1994.
Ce système est propre à traiter une image I, par exemple une photo numérique, désignée par la référence 1 et associée à un contexte 2 comportant une annotation vocale 3 et une annotation textuelle 5. L'annotation vocale 3 est un fichier son contenant des informations telles que les dénominations des personnes présentes sur l'image. L'annotation textuelle 5 est un fichier texte comportant des informations relatives à l'image telles que les dénominations de personne. Ce système comprend différents modules afin d'obtenir des informations sur les personnes présentes dans l'image I 1. Ces modules sont : - un module 7, noté DV, d'analyse de l'image 1 fournissant une liste de zones (Z1, Z2,..., Z1, ...,Zn} de l'image 1 où des visages de personnes sont détectés. A chaque visage détecté par le module 7, correspond ainsi une zone Z1 de l'image 1 , l'ensemble des zones formant une partition de l'image 1. Le module 7 fournit également un score formé d'un nombre rationnel non nul compris entre 0 et 1 noté MV(DV, I, Z1) pour chaque zone Z1 de l'image I 1 où un visage a été détecté, correspondant à la croyance que la zone Z1 contient un visage ;
- un module 9, noté RV, d'analyse de chaque zone de la liste de zones de l'image où des visages de personnes ont été détectés par comparaison des visages détectés à des visages de personnes identifiées stockés au préalable dans une base de données Bp 1 1 pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans chaque zone d'image. La base de données Bp 1 1 contient une liste d'identifiants de personnes notée Lp avec Lp = {p-ι,p2,..., Pj , ..., pr, inconnu, inconnue,*} avec pour chaque identifiant Pj une ou plusieurs dénominations (par exemple le prénom) de cette personne. Les identifiants « inconnu » respectivement « inconnue », représentent des personnes de sexe masculin, respectivement féminin ne faisant pas partie de la liste Lp. Le symbole * est utilisé lorsqu' aucun visage n'est détecté dans l'image I 1. Le module 9 fournit également pour chaque zone d'image Z1 de l'image I 1 , des scores compris entre 0 et 1 notés MP(RV, I, Z1) (F3), Fa étant un sous- ensemble de {p-i, p2, ..., pr} avec chaque identifiant de personne pj appartenant au moins à un sous-ensemble Fa. Le score MP(RV, I, Z1 )(Fa) est un indicateur de croyance que la zone Z1 de l'image I 1 contient le visage d'une personne correspondant à p-i, p2... ou pr de l'ensemble Fa Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour une zone d'image Z1 est égale à 1 ; - un module 13, noté HF, d'analyse de chaque visage de personne détectée dans chaque zone d'image pour déterminer le sexe de la personne détectée par exemple selon une méthode conventionnelle comme celle décrite dans la publication de Yi D. Cheng, Alice J. OToole, Hervé Abdi :" Classifying adults' and children's faces by sex:computational investigations of subcategorical feature encoding" publiée dans Cognitive Science 25 (2001 ) 819-838. Le module 13 fournit, pour chaque zone Z1 de l'image I 1 un score compris entre 0 et 1 noté MHF(HF, I, Z,)(homme) respectivement MHF( HF, I, Z,)(femme), correspondant à la probabilité que la zone Z1 de l'image I représente un homme, respectivement une femme. Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour une zone d'image Z1 est égale à 1 ;
- un module 15, noté AV, d'analyse de l'annotation vocale 3 pour reconnaître des dénominations de personnes prononcés. Ce module fournit des scores compris entre 0 et 1 notés MP(AV, I)(A3), A3 étant un ensemble d'identifiants de personnes {p-ι,p2... pr}- Ces scores sont un indicateur de croyance que l'image I 1 contient le visage d'une personne correspondant à soit p-i, p2 ... ou pr. Ces scores sont normalisés, c'est-à-dire que la somme de tous les scores pour l'image I l est égale à 1 ; et
- un module 17, noté AT, d'analyse de l'annotation textuelle 5 pour reconnaître des dénominations de personnes écrits. Ce module fournit des scores compris entre 0 et 1 notés MP(AT, I)(C3), C3 étant un ensemble d'identifiants de personnes {p-ι,p2... pr}. Ces scores sont un indicateur de croyance que l'image I 1 contient le visage d'une personne correspondant à soit p-i, p2 ... ou pr. Ces scores sont normalisés, c'est à dire que la somme de tous les scores pour l'image I 1 est égale à 1.
Le système selon l'invention comporte également une base de données Bh/f 19, contenant pour un ensemble de dénomination de personne la probabilité que chacune de ces dénominations soit attribuée à une personne de sexe féminin, laquelle est calculée à partir d'un fichier statistique (non représenté) enregistrant le sexe et les dénominations associées à des personnes, Par ailleurs il est prévu selon l'invention une base de données notée
Bs 21 contenant pour chaque image I 1 analysée les résultats de l'analyse des modules 7, 9, 13, 15 et 17. Ainsi, la base de données Bs 21 contient :
- les scores MV(DV, I, Z1) fournis par le module 7 ;
- les scores MP(RV, I, Z1 )(Fa) fournis par le module 9 ; - les scores MHF(HF, I, Z,)(homme) et MHF(HF, I, Z,)(femme) fournis par le module 13 ; et
- les scores MP(AV, I)(A3) fournis par le module 15 et les scores MP(AT, I)(C3) fournis par le module 17. Ces scores seront notés MP(Sq, I)(D3), D3 étant un ensemble d'identifiants de personnes {pi,p2- -- pr} et Sq étant une source d'information du contexte 2 de l'image I 1 représentant l'annotation vocale 3 ou l'annotation textuelle 5.
Le système selon l'invention comporte également une base de données Bιr,dex 22 contenant des images et une liste d'identifiants de personnes associée à chacune de ces images. La liste d'identifiants de personnes pour une image donnée est vide lors de la création de l'enregistrement de cette image.
Enfin le système selon l'invention comporte un module logiciel 23 produisant à partir des bases de données 1 1 , 19, 21 et 22 la probabilité notée P(I, PJ) qu'il y a dans l'image I 1 , une personne ayant la dénomination pj ainsi qu'une information notée INCERTAIN(I, p^ indiquant l'incertitude que l'on a sur cette probabilité. Ce module 23 enregistre ces informations de probabilité et d'incertitude dans la base Bιr,dex 22 en association à l'image I 1. Les modules 7, 9, 13, 15 et 17, ainsi que le module 23 s'exécutent sur l'ordinateur de l'utilisateur ou sur un ordinateur accessible par celui-ci. Par ailleurs, les bases de données 1 1 , 19, 21 et 22 sont enregistrées dans une ou plusieurs mémoires volatiles ou sur des supports magnétiques accessibles par cet ordinateur.
Le fonctionnement du procédé selon un mode de réalisation de l'invention est décrit ci-dessous en référence aux figures 2 à 6.
La première partie du procédé consiste à analyser l'image I 1 afin d'en extraire différentes informations sur les personnes présentes dans l'image I 1. Cette partie est exécutée par les modules 7, 9 et 13 d'analyse d'image.
D'abord, le module 7 analyse en 24 l'image I 1 pour détecter des visages dans cette image I 1. Il fournit une liste de zones où des visages de personnes sont détectés et fournit pour chacune de ces zones Z1 le score de détection de visage MV(DV, I, Z1) correspondant. Soit n le nombre de zones Z1 de l'image I 1 pour lesquelles il existe un score MV(DV, I, Z1) dans la base Bs 21. n correspond ainsi au nombre de zones Z1 de l'image I où un visage a été détecté par le module DV 7.
Si le nombre n est nul, le procédé s'arrête.
Si le nombre n est non nul, pour chaque zone Z1 : - le module 9 analyse en 25 les n zones Z1 où un visage a été détecté par le module 7 et fournit une liste Fk d'identifiants, appartenant à la liste Lp, de personnes pouvant être présentes dans chaque zone d'image, ainsi que le score correspondant MP(RV, I, Z1) d'indicateur de croyance de cette hypothèse Fk de personnes identifiées; et - le module 13 analyse en 26 chaque visage de personne détectée dans chaque zone d'image pour déterminer le sexe de la personne détectée et fournit pour chaque zone Z1 de l'image I 1 les scores d'identification de sexe MHF(HF, I, Z,)(homme) et MHF(HF, I, Z,)(femme).
Suite à l'étape d'analyse de l'image I 1 en 24, 25 et 26, les scores MV(DV, I, Z1), MP(RV, I, Z1) (Fk) et MHF(HF, I, Zi) sont enregistrés dans la base
Bs 21. Puis, des indicateurs de croyance ou scores de zones notés
MP(RV+DV+HF, I, Z1) fusionnant tous les indicateurs de croyance MP(RV, I, Z1) MHF(HF, I, Z1) et MV(DV, I, Z1) de la base Bs 21 sont calculés dans un processus noté Fusionlmage 27. Ce processus Fusionlmage 27 vérifie que les hypothèses du module 9, concernant la présence dans la zone Z1 de personnes dont les identifiants sont contenus dans une liste Fk , sous ensemble de Lp, sont compatibles avec l'hypothèse du module 13 que cette zone Z1 contient un visage d'homme ou de femme et selon la croyance du module 7 que la zone Z1 contient un visage. Ce processus définit une nouvelle liste d'hypothèses, sous ensemble de Lp, sur l'identification de la personne dans la zone Z1.
Ce processus Fusionlmage 27 est décrit ci-dessous en référence à la figure 3.
Ensuite, tous les indicateurs de croyance MP(RV + DV + HF, I, Z1) calculés pour chaque zone Z1 sont fusionnés à l'aide d'un processus noté FusionZones désigné par la référence 29. Ce processus FusionZones 29 calcule pour chaque personne identifiée par un identifiant ft appartenant à Lp des indicateurs de croyance notés M(lmage, I, ft) ou encore appelés premières probabilités P(lmage, I, ft) que cette personne ft est dans l'image I 1 et un coefficient noté INCERTAIN(lmage, I, Pj) représentant l'incertitude sur cette croyance.
Ce processus de fusion agrège les hypothèses sur les personnes présentes dans chaque zone Z1 et favorise pour chaque zone Z1 les hypothèses de personnes présentes dans cette zone Z1 (c'est-à-dire pour lesquelles l'indicateur de croyance MP(RV + DV + HF, I , Z1)(Pj) calculé en 27 est non nul) et non présentes dans une autre zone.
Ce processus FusionZones 29 est décrit de manière détaillée ci- dessous en référence à la figure 4.
Une probabilité Pf, respectivement Ph, que toutes les zones Z1 de l'image I 1 ne contiennent que des femmes, respectivement que des hommes, est calculée en 30 à partir des indicateurs de croyance MHF(HF, I, Z,)(femme) respectivement MHF(HF, I, Z,)(homme) de la base Bs 21. Cette probabilité Ph, respectivement Pf est égale au produit des scores MHF(HF, I, Z,)(femme), respectivement MHF(HF, I, Z,)(homme) pour toutes les zones Z1 de l'image I 1. Les étapes 27 à 30 ont ainsi permis la fusion des informations résultant de l'analyse de l'image I 1 en 24, 25 et 26.
La deuxième partie du procédé consiste à analyser le contexte 2 de l'image I 1 afin d'extraire de nouvelles informations sur les personnes présentes dans l'image I 1.
D'abord, le module 15 analyse en 31 l'annotation vocale 3 pour reconnaître des identifiants de personnes prononcés et fournit les scores MP(AV, I). De la même manière, le module 17 analyse en 32 l'annotation textuelle 5 pour reconnaître des identifiants de personnes écrits et fournit les scores MP(AT, I).
Les scores MP(AV, I) et MP(AT, I) fournis en 31 et 32 sont enregistrés dans la base Bs 21 et notés en tant que scores d'identité MP(Sq, I), Sq étant la source d'information du contexte 2 considérée (annotation vocale 3 ou annotation textuelle 5). Ensuite, pour chaque source Sq pour laquelle il existe dans la base
Bs 21 des indicateurs de croyance MP (Sq, I) (D3) non nuls, un test de compatibilité des hypothèses Da, des identifiants trouvés dans cette source Sq est appliqué par un processus noté Test CompatibilitéHF désigné par la référence 33. Ce processus TestCompatibilitéHF 33 calcule des indicateurs de croyance MP(Sq, I) (E3) sur un nouvel ensemble d'hypothèses E3. Ce processus diminue les indicateurs de croyance sur des hypothèses Ea qui contiennent des identifiants de personnes avec des identifiants incompatibles avec la probabilité calculée en 30 de n'avoir que des hommes ou des femmes dans l'image, la probabilité qu'une dénomination de personne soit féminin étant déduite à partir de la base de données Bh/f 19. Il calcule aussi à partir de ces indicateurs de croyance MP(Sq, I)(E3) portant sur des ensembles d'hypothèses Ea la probabilité P(Sq, l)(p'j) encore appelée deuxième probabilité qu'une personne avec un identifiant p'j appartienne à l'image, celle-ci est d'autant plus grande que les indicateurs de croyance MP(Sq, I)(E3) avec p'j appartenant à E3, sont grands.
Le processus TestCompatibilitéHF 33 est décrit de manière détaillée ci-dessous en référence à la figure 5. Dans le cas où le nombre n de zones Z1 de l'image I 1 où un visage est détecté est supérieur à 1 , pour chaque identifiant de personne p'j pour lequel il existe une source Sq telle que la probabilité P(Sq, I) (p'j) que la personne ayant l'identifiant p'j appartient à l'image est non nulle, un processus de fusion d'informations noté FusionAnoti désigné par la référence 35 calcule un indicateur de croyance M(Anot, I, p'j) à partir de l'ensemble des sources Sq noté Anot. Ce processus de fusion FusionAnoti 35 agrège toutes les hypothèses de personnes citées dans une source d'informations en renforçant les identifiants de personnes cités dans différentes sources. Il calcule également l'indicateur d'incertitude sur la croyance noté INCERTAIN(AnOt, I,
P J)-
Dans le cas où il y a une seule zone Z1 de l'image I 1 où un visage est détecté, c'est-à-dire que le nombre n est égal à 1 , pour chaque identifiant de personne p'j tel qu'il existe une source Sq telle que la probabilité P(Sq, I) (p'j) que la personne ayant l'identifiant ft appartient à l'image est non nulle, un processus de fusion d'informations noté FusionAnot2 désigné par la référence 37 calcule un indicateur de croyance M(Anot, I, p'j) encore appelé troisième probabilité P(Anot, I, p'j) à partir de l'ensemble des sources Sq noté Anot. Ce processus de fusion FusionAnot2 37 gère les conflits entre toutes les hypothèses de personnes citées dans une source en diminuant la croyance de chacune des hypothèses si différentes hypothèses sont possibles.
Les processus de fusion FusionAnoti 35 et FusionAnot2 37 sont décrits de manière détaillée ci-dessous.
Enfin, un processus de fusion finale de toutes les informations noté FusionFinale désigné par la référence 39 calcule les indicateurs de croyance M(I, PJ) que la personne ayant l'identifiant Pj soit dans l'image I 1 en fusionnant l'indicateur de croyance M(Anot, I, Pj) calculé par le processus FusionAnoti 35 ou le processus FusionAnot2 37 et M(lmage, I, Pj) calculé par le processus FusionZones 29. Le processus FusionFinale 39 gère les conflits entre les différentes hypothèses en diminuant la croyance de chacune des hypothèses si différentes hypothèses sont possibles. Il calcule également un indicateur d'incertitude INCERTAIN(I, Pj) sur les indicateurs de croyance M(I, ft) ainsi que la probabilité P(I, Pj) que la personne Pj soit dans l'image I 1.
Dans le système selon l'invention, il est également prévu d'enregistrer en 41 dans la base d'informations Bιr,dex 22 les identifiants Pj et leur probabilité P(I, Pj) en association avec l'image I 1 seulement si cette probabilité est supérieure à un seuil Spr0b et que l'indicateur d'incertitude INCERTAIN(I, pj) est inférieur à un seuil Smc- Les coefficients Spr0b et Sιnc sont déterminés manuellement et fixés à l'avance. Selon un mode de réalisation de l'invention, ces valeurs sont Sprθb=0,7 et Sιnc=0,3. La première partie de la description, faite en référence aux figures 1 et 2 a concerné une description de la structure et du fonctionnement du procédé et système selon l'invention de manière globale.
Dans la suite de la description faite en référence aux figures 3 à 6, un mode de réalisation particulier des différents processus de fusion 27, 29, 33, 35, 37 et 39 intervenant dans le procédé selon l'invention sera décrit de manière détaillée.
La théorie des fonctions de croyance, mise en application dans ce mode de réalisation, utilise un opérateur de fusion dénommé somme conjonctif normalisée pour fusionner des indicateurs de croyances notés m1 et m2 attribués à tout sous-ensemble A d'un ensemble Ω. Cet opérateur est défini de la manière suivante :
\-mγ (\ \)m2 (φ) avec
Figure imgf000020_0001
Cet opérateur est appelé par la suite opérateur conjonctif normalisé de fusion et est noté (+).
On appellera opérateur conjonctif non normalisé l'opérateur de fusion noté (+)', défini de la manière suivante :
(M1 (+)' M2 )(A) = (M1 (D)WI2 )(A) Vfi ≠ A ς Ω . En considérant l'ensemble Ω comme un ensemble d'événements possibles, cette théorie permet aussi de calculer la probabilité qu'une hypothèse singleton wk appartenant à Ω se réalise selon les indicateurs de croyance m pour chaque événement wk. cette probabilité notée BetPm(wk) est appelée probabilité pignistique et est définie de la manière suivante:
Figure imgf000021_0001
Le mode de réalisation présenté ci-dessous applique ces opérateurs aux indicateurs de croyances sur différentes hypothèses Ha d'identifiants de personnes dans une image. Ces opérateurs seront appliqués à ces hypothèse Ha d'ensembles Ω étant soit l'ensemble Lp des personnes enregistrées dans la base Bp 1 1 pour l'utilisateur U et complété des éléments « inconnu » ,« inconnue » et "*", soit l'ensemble Lp' l'ensemble des identifiants de personnes trouvés dans une source d'information Sq pour l'image I 1 , soit un ensemble {pertinent, non-pertinent}. Le mode de calcul de ces opérations consiste en des multiplications de matrices inspiré de la publication de Ph. Smets: "The application of the matrix calculus to belief functions", Int. J. Approx. Reasoning 31 (1 -2): 1 -30 (2002).
Le processus de fusion Fusionlmage 27 est décrit en référence à l'organigramme de la figure 3.
En 43, le processus Fusionlmage 27 calcule des indicateurs de croyance MP(HF|pj, I, Z1) que la personne ft détectée dans la zone Z1 de l'image I est un homme de la manière suivante :
Soit FJ = Lp - {Pj}, si ( (fr0,5) x (MHF(HF, I ,Z,)(femme)-0,5)> 0 ) alors MP(HF|pJ; I, Z1)
(Fj)=O sinon MP(HF|pj,l ,Z1)(Fj) = -4x (fr0,5) x (MHF(HF, I ,Z,)(femme)-0,5) avec fj la probabilité que la personne Pj soit une femme et MP(HF|Pj,l ,Z1) (Lp) = 1 - MP(HF|Pj,l ,Z1)(Fj). La probabilité fj est la probabilité maximale des probabilités enregistrées dans la base Bh/f 19 de chaque dénomination associée à l'identifiant ft dans la base Bp 1 1. Si aucune dénomination de Pj n'est trouvée dans la base Bh/f 19 alors fj est égale à 0,5.
Ensuite pour chaque zone Z1, pour laquelle il existe dans la base Bs
21 un indicateur de croyance positif MHF(HF, I, Z1), le processus 27 calcule en 45 les indicateurs de croyance MP(HF, I, Z1) en fusionnant avec l'opérateur de somme conjonctive normalisé l'ensemble des indicateurs de croyance notés
MP(HF|pj, I ,Z1) pour chaque Pj de Lp :
MP( HF, I ,Z1) = W MP(HFIPJJ ,Z1).
Enfin pour chaque zone Z1, le processus de fusion 27 calcule en 47 les indicateurs de croyance MP(RV+DV+HF, I, Z1) en fusionnant avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(RVJ ,Z1) trouvés dans la base Bs 21 , MP(HFJ ,Z1) calculés précédemment et MP(DVJ ,Z1)(Pj) pour tout Pj de Lp avec MP( DVJ ,Z1)(Pj) = MV(DV, I ,Z1), enregistré dans la base Bs 21 : MP(RV+DV+HF, I, Z1) = MP(RVJ ,Z1) (+) MP(DVJ ,Z1) (+) MP(HF, I
,Z1).
Le processus de fusion FusionZones 29 est décrit en référence à l'organigramme de la figure 4. Il est réalisé en utilisant le même opérateur conjonctif normalisé pour gérer les conflits entre zones lorsqu'une même personne est reconnue dans deux zones différentes.
Ce processus 29 calcule en 49, pour chaque zone Z1, la probabilité P
(PJ, Z1) que la personne ayant l'identifiant Pj appartienne à la zone Z1 en calculant la probabilité pignistique BetPm(pj) selon l'indicateur de croyance m =
MP(RV+DV+HF, I, Z1) ainsi P(pJ; Z1) = BetPm(pj) avec m = MP (RV+DV+HF, I, Z1).
Ensuite, le processus FusionZones 29 calcule en 51 un indicateur de croyance noté MP(Z1' , I, Z1) sur l'information que peut apporter la zone Z1- à la zone Z1 dans l'image I 1. Ce calcul se fait de la manière suivante : pour chaque Pj appartenant à Lp, MP(Z1', I, Z1) (Fj1)= ak MP (RV+DV+HF, I, Z,){pj} pour toute zone Z1' de l'image I 1 différente de Z1, avec Fj1 l'ensemble complémentaire de {pj} par rapport à l'ensemble Lp et ak = ( 1 - MP
(RV+DV+HF, I, Z1') ({}) *(max1 - max2) , max1 étant le maximum des P(pJ;Z,) pour tous les Pj de Lp, et max2 le maximum des P(Pj1Z,') pour tous les Pj de Lp en enlevant max1.
Puis, le processus 29 fusionne en 53 avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(Z,', I1 Z1) et les indicateurs de croyance MP(RV+DV+HF, I1 Z1) pour toute zone Z1' différente de Z1 pour obtenir les indicateurs de croyance MP(lmage,l ,Z1) ainsi,
MP(lmage,l ,Z1 ) = MP (RV+DV+HF, I, Z1) (+) MP(ZJ, Z1) pour chaque Z( différent de Z1
Pour chaque personne Pj de Lp et pour chaque zone Z1, le processus 29 calcule en 55 la probabilité P (pj5Z,) que la personne Pj appartienne à la zone Z1 en calculant les probabilités pignistiques P(pj,Z,)=BetPm(pj) avec pour indicateurs de croyance m = MP(lmage,l ,Z1)
P ( Pj5Z1) = BetPm(pj) avec m = MP(lmage,l ,Z1).
Puis, pour chaque personne Pj de Lp , le processus 29 calcule en 57 la probabilité P(lmage,l)(pj) que la personne Pj appartient à l'image I 1 en prenant P(lmage,l)(pj) =Max(P(pJ; Z1)).
Puis, le processus 29 calcule en 59 les indicateurs de croyance M(lmage, I1 Pj) sur l'ensemble des hypothèses {pertinent, non-pertinent} représentant une croyance que l'identifiant de personne Pj est pertinent, respectivement non-pertinent pour l'image I 1 ainsi :
M( Image,! , ^({pertinent}) = ALPHA-IMAGE *P (Image,! ) (Pj) et
M(lmage, I1 Pj)({pertinent, non-pertinent})= 1 - M(lmage,l,pj)({pertinent}), ALPHA-IMAGE étant une constante comprise entre 0 et 1 que l'on attribue globalement au processus d'analyse d'image incluant les modules 7, 9 et 13.
Selon un mode de réalisation de l'invention, la constante ALPHA- IMAGE est fixée à 0,7.
Enfin, le processus FusionZones 29 calcule en 61 le coefficient d'incertitude INCERTAIN(lmage,Pj) = M(lmage,l,Pj)({pertinent,non-pertinent}) et l'indicateur de croyance M(lmage,l ,pj)= M(lmage,l,pj)({pertinent}. Le processus TestCompatibilitéHF 33 est décrit en référence à l'organigramme des figures 5A et 5B.
Les notations suivantes sont utilisées pour la description du fonctionnement du processus 33 : - Sq désigne une source d'informations du contexte de l'image telle qu'il existe un ensemble Da d'identifiants de personnes tel que l'indicateur de croyance MP(Sq, I) (D3) est non nul dans la base Bs 21 ;
- Lp' désigne l'ensemble des identifiants ft dans tous les Da. Cet ensemble Lp' est différent de Lp car il est possible que le contexte 2 de l'image I 1 fasse référence à une personne non connue dans la base Bp 1 1 , dans ce cas , lorsque la dénomination reconnue n'est associé à aucun identifiant, le nouvel identifiant Pj est automatiquement généré;
- Ph désigne la probabilité que toutes les zones contiennent un homme ; - Pf désigne la probabilité que toutes les zones contiennent une femme ; et
- Shf est un paramètre fixé supérieure à 0,5. Dans un mode de réalisation de l'invention Shf = 0,8.
Dans le cas où Pf>Shf, le processus 33 est décrit en référence à la figure 5A.
Ce processus 33 calcule en 63 pour chaque p'j de Lp' des indicateurs de croyance notés MP'(HF, l)(femme) de la manière suivante: soit Fj = Lp'- {p'j} si (fr0,5) x (PrO, 5)> 0 alors MP'(HF,I, Femme) (Fj)=O sinon MP'(HF,I, Femme) (Fj)= -4x (fj-0,5) x (Pf-0,5) avec fj la probabilité enregistrée dans la base Bh/f 19 que la personne Pj soit une femme et MP'(HF,l,femme) (LP')=1 -MP'(HF,I, femme)(Fj). La probabilité fj est la probabilité maximale des probabilités enregistrées dans la base Bh/f 19 de chaque dénomination associée à l'identifiant Pj dans la base Bp 1 1. Si aucune dénomination de Pj n'est trouvée dans la base Bh/f 19 alors fj est égale à 0,5. Le processus 33 calcule ensuite en 65 un indicateur de croyance noté MP'(Sq,l ) en fusionnant par un opérateur conjonctif normalisé les indicateurs de croyance MP'(Sq+HF,l ) et MP'(HF,I, femme)
MP'(Sq+HF,l)= MP'(Sq,l ) (+)MP'(HF,I .femme) si Ph>Shf. Dans le cas où Ph > Shf, le processus 33 est décrit en référence à la figure 5B. Ce processus 17 calcule alors en 67 pour chaque p'j de Lp' des indicateurs de croyance notés MP'(HF, l)(homme) de la manière suivante :
Figure imgf000025_0001
si (hj-0,5) x (Ph-0,5)> 0 alors MP'(HF,I, Homme) (Fj)=O sinon MP'(HF,I, Homme) (Fj)= -4x(hr0,5) x (Ph-0,5) avec h, = 1 - fj , la probabilité que la personne Pj soit un homme et MP'(HF,I, homme ) (Lp') = 1 - MP(HFJ ,homme)(Fj).
Le processus 33 calcule ensuite en 69 un indicateur de croyance noté MP'(Sq+HF,l) en fusionnant par un opérateur conjonctif normalisé les indicateurs de croyance MP'(Sq,l ) et MP'(HF,I , homme)
MP'(Sq + HFJ )= MP'(SqJ ) (+)MP'(HF,I, homme).
Dans le cas où ni Pg>Shf ni Ph>Shf, le processus 33 calcule l'indicateur de croyance MP(Sq + HF, I) (Fj) = MP(Sq, I) (Fj) pour tout Fj.
Enfin, le processus 33 calcule dans tous les cas en 71 un indicateur de croyance P(Sq,l)(p'j), la probabilité que p'j soit dans l'image I, à partir de la probabilité pignistique BetPm(p'j) selon l'indicateur de croyance m= MP'(Sq+HF,l)
P (Sq1I)(P1 J)= BetPm(p'j) .
Concernant le processus FusionAnoti 35, celui-ci comprend l'étape consistant à calculer les indicateurs de croyance M(Anot,l,p'j) pour chaque identifiant p'j tel qu'il existe dans la base d'information Bs 21 un ensemble F et une source Sq tels que MP'(Sj+HF,l,)(F)>0. M(Anot,l,p'j){pertinent} et
M(Anot,l, p'j){pertinent, non-pertinent} sont calculés en utilisant un opérateur de fusion conjonctif non normalisé de manière à uniquement renforcer les hypothèses trouvées dans plusieurs annotations M(Anot,l,p'j) = (+)' M(Sq,l,p'j) pour toute source Sq avec
M(SqJ, p'j) {pertinent^ Prob(Sq,l)(p'j) et
M(SqJ, p'j) {pertinent, non-pertinent} = 1 - M(Sq,l,p'j) {pertinent}. Ensuite , le processus 35 calcule l'indicateur d'incertitude
INCERTAIN(Anot, p'j) = M(Anot,p'j){pertinent, non-pertinent} , l'indicateur de croyance
M(Anot,p'j) = M(Anot,p'j){pertinent} et la probabilité P(Anot,l)(p'j)= M(Sq,l,p'j) {pertinent}.
Le processus FusionAnot2 37, comprend l'étape consistant à calculer les indicateurs de croyances M(Anot,l,p'j) pour chaque identifiant p'j tel qu'il existe dans la base d'information Bs 21 un ensemble F et une source Sq tels que MP'(Sq+HF,l,)(F)>0. M(Anot,l,p'j){pertinent} et M(Anot,l,p'j){pertinent, non-pertinent} sont calculés en utilisant un opérateur de fusion conjonctif normalisé de manière à diminuer les hypothèses si il y a des conflits entre elles M(Anot,l,p'j) = (+) M(SJ, I, p'j) pour toute source Sq avec M(Sq,l,p'j) {pertinente Prob(Sq,l)(p'j) et M(Sq, I, p'j) {pertinent, non-pertinent} = 1 - M(Sq,l,p'j) {pertinent}. Le processus 37 calcule ensuite l'indicateur d'incertitude
INCERTAIN(Anot, p'j) = M(Anot,p'j){pertinent, non-pertinent}, l'indicateur de croyance M(Anot,p'j) = M(Anot,p'j){pertinent} et la probabilité P (Anot,l)(p'j)= M(Sq,l,p'j) {pertinent}.
Enfin, le processus FusionFinale 39 est décrit en référence à la figure
6. Ce processus calcule en 73 les indicateurs de croyance MP(DV+RV,I,Z,)
({inconnu, inconnue} pour chaque zone Z1 de l'image I 1 en fusionnant avec l'opérateur conjonctif normalisé les indicateurs de croyance MP(RVJ, Z1) et
MP(DVJ5Z1) dans la base Bs 21.
Ensuite, pour chaque p'j tel que M(Anot,l,p'j)(pertinent) > 0 et p'j n'appartenant pas à Lp, le processus 39 calcule en 75
M(lmage,l,p'j)(pertinent)=Max(MP(RV+DV+HF,l,Zl)({inconnu,lnconue,*} )) pour toutes les zones Z1 et
M((lmage,l,p'j){pertinent,non-pertinent)=1_M(lmage,l,p'j)(pertinent). Puis, le processus 39 fusionne en 77 les indicateurs de croyance M(Anot, I, PJ) et M(lmage,l,pj) avec un opérateur conjonctif normalisé afin de calculer les indicateurs de croyance M(I, pj) pour tous les Pj appartenant à Lp' ou à
M(I, pj) = M(Anot,l, p,) (+)M(lmage,l,pJ).
Enfin, le processus 39 calcule en 79 P(I, Pj) = M(l,pj){pertinent} et INCERTAIN (l,pj)= M(l,pj){pertinent, non-pertinent}.
Ainsi, le procédé selon l'invention permet d'associer à chaque image numérique créée par l'utilisateur et enregistrée dans son ordinateur au niveau de la base Bιr,dex 22, la liste d'identifiants Pj de personnes ayant une probabilité P(I, Pj) supérieure à Spr0b d'être présentes dans l'image, l'incertitude
INCERTAIN (I, Pj) sur cette probabilité étant inférieure à Sιnc-
L'utilisateur dispose ainsi, grâce à l'invention, d'un outil lui permettant d'indexer ses images de manière très fiable. En effet, le procédé de détermination de la probabilité et de l'incertitude selon l'invention réalise une fusion très complète des informations de l'analyse de l'image et de son contexte afin de réduire au maximum les limitations (bruit, silence, incertitude, imprécision) des méthodes de description d'image de l'état de la technique.

Claims

REVENDICATIONS
1. Procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ), caractérisé en ce qu'il comporte : a) une étape (24) d'analyse de l'image (1 ) pour déterminer au moins une zone de l'image (1 ) dans laquelle un visage de personne est détecté et d'association d'un score de détection de visage (MV(DV, I, Z1)) ; pour une zone courante (Z1) déterminée à l'étape a): b) une étape (25) d'analyse de la zone courante (Z1) par comparaison du visage détecté à des visages de personnes identifiées stockés au préalable dans une base de données (1 1 ) pour fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante (Z1) et d'association d'un score de détection d'identifiant (MP(RV, I, Z1)) ; et c) une étape (26) d'analyse de la zone courante pour déterminer des scores d'identification du sexe de la personne détectée (MHF(HF,l,Z,)(homme), MHF(HF,l,Z,)(femme)); d) une étape de fusion (27) des scores de détection de visage (MV(DV, I, Z1)), de détection d'identifiant (MP(RV, I, Z1)) et d'identification de sexe (MHF(HFJ, Z,)(homme), MHF(HFJ, Z,)(femme)) pour déterminer un score de zone (MP (RV + DV +HF, I, Z1) ) représentant la probabilité de présence de personnes identifiées dans la zone courante (Z1).
2. Procédé selon la revendication 1 , caractérisé en ce qu'il comporte :
- une étape de fusion (29) des scores de zone des zones de l'image (1 ) pour lesquelles un visage de personne est détecté afin de calculer un deuxième score de zone (MP (RV + DV +HF, I, Z1)) représentant la probabilité de présence de personnes identifiées dans chaque zone (Z1); - une étape de détermination pour chaque personne identifiée (Pj) d'une première probabilité (P(lmage, I) (Pj)) de présence de cette personne dans l'image (1 ); une étape de détermination d'un coefficient d'incertitude (INCERTAIN (Image, I, Pj)) représentant l'incertitude sur cette probabilité de présence.
3. Procédé selon la revendication 2, caractérisé en ce qu'il comporte en outre:
- une étape (31 ,32) d'analyse d' informations de contexte (2) associées à l'image (1 ) pour obtenir des informations complémentaires sur l'identification des personnes mentionnées dans les informations de contexte (2) et d'association d'un score d'identité (MP(SqJ)) pour une source d'informations de contexte (Sq) donnée;
- une étape de détermination (30) que l'image contient une répartition donnée entre les personnes de sexe masculin et les personnes de sexe féminin à partir des scores d'identification de sexe des personnes détectées dans les zones de l'image (1 ) pour lesquelles un visage de personne est détecté;
- une étape de test de compatibilité (33) entre les scores d'identité de l'image et la répartition déterminée pour déterminer une deuxième probabilité (P(Sq,l) (PJ)) de présence d'une personne (pj) mentionnée dans les informations de contexte dans l'image (1 ), pour une source d'informations de contexte (2) donnée;
- une étape de fusion (35,37) des scores d'identité d'une pluralité de sources d'informations de contexte (2) pour générer pour chaque personne identifiée (pj) une troisième probabilité (P(Anot,l) (Pj)) de présence dans l'image (1 );
-une étape de fusion (39) finale pour générer une probabilité (P(I, Pj)) de présence d'une personne détectée dans l'image (1 ) et une incertitude (INCERTAIN (I ,Pj)) de cette probabilité en fonction des première, et troisième probabilités (P(lmage, I) (pj), P(Anot,l) (pj)) .
4. Procédé selon la revendication 3, caractérisé en ce que les informations de contexte (2) de l'image (1 ) contiennent une annotation vocale (3) et l'étape d'analyse (31 ) des informations de contexte (2) de l'image (1 ) comprend une étape de reconnaissance dans cette annotation vocale (3) de dénominations de personnes prononcées.
5. Procédé selon l'une quelconque des revendications 3 ou 4, caractérisé en ce que les informations de contexte (2) de l'image (1 ) contiennent une annotation textuelle (5) et l'étape d'analyse (32) des informations de contexte (2) de l'image (1 ) comprend une étape de reconnaissance dans cette annotation textuelle (5) de dénominations de personnes écrites.
6. Système de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ) caractérisé en ce qu'il comporte : a) un module (7) d'analyse de l'image (1 ) apte à déterminer au moins une zone de l'image (1 ) dans laquelle un visage de personne est détecté et à association un score de détection de visage (MV(DV, I, Z1)) ; b) un module (9) d'analyse d'une zone courante (Z1) apte à comparer le visage détecté dans la zone courante (Z1) à des visages de personnes identifiées stockés au préalable dans une base de données (1 1 ) et à fournir une liste d'identifiants de visages de personnes pouvant être présentes dans la zone courante et à associer un score de détection d'identifiant (MP(RV, I, Z1)); c) un module (13) d'analyse de la zone courante apte à déterminer des scores d'identification du sexe de la personne détectée dans la zone courante (MHF(HF,l,Z,)(homme), MHF(HF,l,Z,)(femme)); et e) des moyens de fusion (23) apte à fusionner les scores de détection de visage (MV(DV, I, Z1)), de détection d'identifiant (MP(RV, I, Z1)) et d'identification de sexe (MHF(HF, I, Z,)(homme), MHF(HF, I, Z,)(femme)) pour déterminer un score de zone (MP (RV + DV +HF, I, Z1)) représentant la probabilité de présence de personnes identifiées dans la zone courante (Z1).
7. Programme d'ordinateur comprenant des instructions de code qui, lorsque ce programme est exécuté sur un ordinateur, permettent la mise en œuvre du procédé de détermination d'une probabilité de présence d'une personne dans au moins une partie d'une image (1 ) selon l'une des revendications 1 à 5.
PCT/FR2007/052109 2006-10-17 2007-10-09 Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant WO2008047028A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP07858539A EP2095295A1 (fr) 2006-10-17 2007-10-09 Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0609084A FR2907243A1 (fr) 2006-10-17 2006-10-17 Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant.
FR0609084 2006-10-17

Publications (1)

Publication Number Publication Date
WO2008047028A1 true WO2008047028A1 (fr) 2008-04-24

Family

ID=37907192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/052109 WO2008047028A1 (fr) 2006-10-17 2007-10-09 Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant

Country Status (3)

Country Link
EP (1) EP2095295A1 (fr)
FR (1) FR2907243A1 (fr)
WO (1) WO2008047028A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1017019A2 (fr) * 1998-12-31 2000-07-05 Eastman Kodak Company Méthode de détermination automatique de sujets principaux dans des images photographiques
US20050089223A1 (en) * 1999-11-23 2005-04-28 Microsoft Corporation Object recognition system and process for identifying people and objects in an image of a scene
WO2006077196A1 (fr) 2005-01-19 2006-07-27 France Telecom Procede de generation d'index textuel a partir d'une annotation vocale

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1017019A2 (fr) * 1998-12-31 2000-07-05 Eastman Kodak Company Méthode de détermination automatique de sujets principaux dans des images photographiques
US20050089223A1 (en) * 1999-11-23 2005-04-28 Microsoft Corporation Object recognition system and process for identifying people and objects in an image of a scene
WO2006077196A1 (fr) 2005-01-19 2006-07-27 France Telecom Procede de generation d'index textuel a partir d'une annotation vocale

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
ASLANDOGAN Y A ET AL ASSOCIATION FOR COMPUTING MACHINERY: "MULTIPLE EVIDENCE COMBINATION IN IMAGE RETRIEVAL: DIOGENES SEARCHESFOR PEOPLE ON THE WEB", SIGIR 2000. PROCEEDINGS OF THE 23RD. ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL. ATHENS, GREECE, JULY 24-28, 2000, ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATIO, vol. CONF. 23, 24 July 2000 (2000-07-24), pages 88 - 95, XP000970720, ISBN: 1-58113-226-3 *
ASLANDOGAN Y A ET AL: "ROBUST CONTENT-BASED IMAGE INDEXING USING CONTEXTUAL CLUES AND AUTOMATIC PSEUDOFEEDBACK", MULTIMEDIA SYSTEMS, ACM, NEW YORK, NY, US, vol. 9, no. 6, June 2004 (2004-06-01), pages 548 - 560, XP001196275, ISSN: 0942-4962 *
DE NAAMAN, MOR ET AL.: "From Where to What: Metadata Sharing for Digital Photographs with Geographic Coordinates", 10TH INTERNATIONAL CONFERENCE ON COOPERATIVE INFORMATION SYSTEMS (COOPIS)
FOUCHER S ET AL: "Face recognition in video using Dempster-Shafer theory", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2004. PROCEEDINGS. (ICASSP '04). IEEE INTERNATIONAL CONFERENCE ON MONTREAL, QUEBEC, CANADA 17-21 MAY 2004, PISCATAWAY, NJ, USA,IEEE, vol. 3, 17 May 2004 (2004-05-17), pages 545 - 548, XP010718247, ISBN: 0-7803-8484-9 *
KHARBOUCHE S: "FONCTIONS DE CROYANCE ET INDEXATION MULTIMODALE", THÈSE DE DOCTORAT, 8 December 2006 (2006-12-08), pages 1 - 170, XP001249230 *
LI; JAIN: "Handbook of face recognition", 2005, SPRINGER, NEW YORK, US, XP002429512 *
MARC DAVIS ET AL.: "Proceedings of 13th Annual ACM International Conference on Multimedia (MM 2005)", 2005, ACM PRESS, article "Towards Context-Aware Face Recognition", pages: 483 - 486
NAAMAN, MOR ET AL.: "From Where to What: Metadata Sharing for Digital Photographs with Geographic Coordinates", 10TH INTERNATIONAL CONFERENCE ON COOPERATIVE INFORMATION SYSTEMS (COOPIS)
PH. SMETS: "The application of the matrix calculus to belief functions", INT. J. APPROX. REASONING, vol. 31, no. 1-2, 2002, pages 1 - 30, XP007902060, DOI: doi:10.1016/S0888-613X(02)00066-X
PH. SMETS; R. KENNES: "The transferable Belief Model", ARTIFICIAL INTELLIGENCE, vol. 66, no. 2, 1994, pages 191 - 234
See also references of EP2095295A1
SHEN, H. T.; OOI, B. C.; TAN, K. L.: "Proceedings of ACM Multimedia", ACM, article "Giving meanings to www images", pages: 39 - 48
WISKOTT, L. AND FELLOUS, J.M. AND KR{\"U}GER, N. AND VON DER MALSBURG, C: "Face Recognition and Gender Determination", PROC. INT'L WORKSHOP ON AUTOMATIC FACE AND GESTURE RECOGNITION, IWAFGR'95, 26 June 1995 (1995-06-26) - 28 June 1995 (1995-06-28), Zurich, pages 92 - 97, XP002429505 *
YI D. CHENG; ALICE J. O'TOOLE; HERVÉ ABDI: "Classifying adults' and children's faces by sex:computational investigations of subcategorical feature encoding", COGNITIVE SCIENCE, vol. 25, 2001, pages 819 - 838

Also Published As

Publication number Publication date
EP2095295A1 (fr) 2009-09-02
FR2907243A1 (fr) 2008-04-18

Similar Documents

Publication Publication Date Title
KR100813170B1 (ko) 사진 의미 인덱싱 방법 및 그 시스템
WO2002067142A2 (fr) Dispositif d'extraction d'informations d'un texte a base de connaissances
TWI262416B (en) Pornographic picture censoring system and method thereof
JP5692074B2 (ja) 情報分類装置、情報分類方法、及びプログラム
WO2018138423A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN112561907B (zh) 一种基于双流网络的视频篡改操作检测方法及装置
FR3006472A1 (fr) Procede de recherche dans une base de donnees
FR2899708A1 (fr) Procede de de-doublonnage rapide d'un ensemble de documents ou d'un ensemble de donnees contenues dans un fichier
FR3068807A1 (fr) Procede de traitement d'une image montrant un document structure comprenant une zone d'inspection visuelle a partir d'une zone de lecture automatique ou de type code-barres
WO2008047028A1 (fr) Procede et systeme de determination d'une probabilite de presence d'une personne dans au moins une partie d'une image et programme d'ordinateur correspondant
EP1839213A1 (fr) Procede de generation d'index textuel a partir d'une annotation vocale
Liu et al. Anti‐noise image source identification
WO2013117872A1 (fr) Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe
EP1554687B1 (fr) SystEme associatif flou de description d objets multimEdia
FR3139644A1 (fr) Methode pour le traitement automatise d’un document pour son utilisation par des personnes en situation de handicap
EP4198971A1 (fr) Method for selecting voice contents recorded in a database, according to their veracity factor
FR3104767A1 (fr) Procede d'aide a l'identification d'un individu recherche et produit programme d'ordinateur associe
FR3130422A1 (fr) Procédé de sélection de contenus vocaux en- registrés dans une base de données, en fonction de leur facteur de véracité.
FR3139211A1 (fr) Procédé et dispositif de rendu de contenus numériques
CN116600247A (zh) 一种信息关联匹配方法、装置、设备以及存储介质
EP2902927B1 (fr) Procédé et dispositif d'étiquetage d'au moins un objet multimédia
WO2024002959A1 (fr) Procédé de classification d'images, dispositif électronique et produit programme d'ordinateur correspondant
WO2023047071A1 (fr) Procédé de traitement d'un contenu numérique exprimant un récit d'une expérience, et applications de ce procédé pour la recommandation de contenus et/ou d'expériences
FR2939538A1 (fr) Procede de recherche de correspondances entres differentes sources de donnees.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07858539

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2007858539

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007858539

Country of ref document: EP