WO2006077196A1 - Method for generating a text-based index from a voice annotation - Google Patents

Method for generating a text-based index from a voice annotation Download PDF

Info

Publication number
WO2006077196A1
WO2006077196A1 PCT/EP2006/050193 EP2006050193W WO2006077196A1 WO 2006077196 A1 WO2006077196 A1 WO 2006077196A1 EP 2006050193 W EP2006050193 W EP 2006050193W WO 2006077196 A1 WO2006077196 A1 WO 2006077196A1
Authority
WO
WIPO (PCT)
Prior art keywords
images
vocabulary
voice
context
annotation
Prior art date
Application number
PCT/EP2006/050193
Other languages
French (fr)
Inventor
Delphine Charlet
Michel Plu
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP06704145A priority Critical patent/EP1839213A1/en
Publication of WO2006077196A1 publication Critical patent/WO2006077196A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Definitions

  • the field of the invention is that of image management. More specifically, the invention relates to a technique for producing and associating textual indexes (also called textual annotations) to images.
  • the invention applies in particular, but not exclusively, to the association of textual indexes with an image or a video sequence taken by a portable electronic device such as a digital camera, a digital video camera, a mobile telephone or a handheld computer. .
  • descriptor indexes (hereinafter also referred to as descriptor elements) are used to facilitate the management of these many images. Two methods of description are known in the state of the art for producing and associating descriptor indexes with images.
  • the "objective" description by image analysis is a first method
  • This first method also allows the recognition of person or monument contained in a reference dictionary, and thus, if necessary to obtain the corresponding descriptor indexes.
  • the "intentional" description by textual or vocal annotation is a second method according to which the user annotates a photograph so as to declare that which seems to be the most relevant and / or what may be missing from the image, for example a relationship, the age of a person, etc. It is well known in the prior art that the "intentional” description can be used as a complementary mode of the "objective” description. These description methods, used alone or in combination, have been an important advance in the descriptor element and image management mechanism. However, they have a number of disadvantages.
  • the user may not remember what has been photographed, for example the name of a particular monument.
  • the person who ranks the photos in the digital album may not be the user who made the different shots, so this person does not necessarily know the exact content of each photo and can by therefore produce irrelevant or erroneous textual annotations.
  • an objective of the invention is to provide a technique for generating reliable textual indexes, based on voice annotations, which is simple and effective to implement, especially in terms of defining the vocabulary to be recognized by a user. voice recognition performed on these voice memos.
  • the invention also aims to provide such a technique which, in at least one embodiment, is inexpensive and compatible with all existing digital cameras.
  • a method of generating at least one text index associated with a set of images comprising at least one image, starting from at least one voice annotation previously associated with said set of images, said method comprising a voice recognition step applied to said at least one voice annotation with a predetermined recognizable vocabulary, so as to perform a search in said at least one voice annotation of at least one word contained in said vocabulary to be recognized, the one or more words identified during the search forming said text index.
  • a method advantageously comprises a step of defining said vocabulary to be recognized, which itself comprises the following steps: definition of a context; search in a linguistic system of a list of words associated with said context and forming said vocabulary to be recognized.
  • the invention is based on an entirely new and inventive approach to the definition of the vocabulary to be recognized. Indeed, this definition of the vocabulary to be searched is done automatically, from a context.
  • the present invention covers both the case in which one or more word (s) of the vocabulary to be recognized can (wind) be identified in the vocal annotation, that the case in which no word of the vocabulary to recognize is present (and therefore could not be identified) in the voice annotation.
  • said set of images comprises at least one photo and / or at least one video sequence.
  • said context comprises at least one context element belonging to the group comprising: at least one information relating to said set of images, provided by at least one user through a man / machine interface; at least one piece of information relating to the geographical position of the place of shooting of said set of images, provided by a location device; at least one information relating to said set of images, resulting from the processing of said set of images by an image analysis module; at least one user profile comprising at least one profile information relating to a user; at least one piece of information understood in a default context.
  • a context element is information relating to the set of images (for example a photo) coming from a software tool, from the creator (photographer) or from any other user having knowledge of the existence of this Photo.
  • contextual information of different natures can be combined to provide an even more precise context.
  • context we mean for example the first names and / or the most common surnames. In this case, in the absence of any other context element, we use this default context which makes it possible to search among the given names and / or common names.
  • said method comprises a step of selecting a language model according to at least one context element of said context, and in that said voice recognition step is performed in transcription mode, with the language model selected.
  • the invention also relates to a computer program product comprising program code instructions for executing the steps of the aforementioned method, when said program is executed on a computer.
  • the invention further relates to a storage medium, possibly totally or partially removable, readable by a computer, storing a set of instructions executable by said computer to implement the above method.
  • the invention also relates to a device for generating at least one text index associated with a set of images comprising at least one image, from at least one voice annotation previously associated with said set of images, comprising means for defining said vocabulary to be recognized, including themselves:
  • the invention also relates to an apparatus for recording images and recording associated voice annotations, comprising the device for generating at least one aforementioned text index.
  • the invention also relates to an apparatus for managing / viewing images and recording associated voice annotations, comprising the device for generating at least one aforementioned text index. 5.
  • FIG. 1 shows a functional chain for generating textual indexes of a particular embodiment of the generation method of the invention
  • FIG. 2 represents a flowchart of a particular embodiment of the generation method of the invention
  • FIG. 3 presents the structure of a particular embodiment of a device for generating textual indexes according to the invention
  • FIG. 4 shows the structure of a particular embodiment of an image taking apparatus according to the invention
  • FIG. 5 shows the structure of a particular embodiment of an image management / vision apparatus according to the invention.
  • the general principle of the invention is based on a technique for automatically generating a vocabulary to be recognized (from a context), used to identify by voice recognition applied to a voice annotation of the keywords or expressions, so as to generate a textual index associated with an image.
  • the automatic production technique of a vocabulary to be recognized according to the invention can notably make different context-element-providing modules coexist. Such a technique can notably use in parallel and / or jointly several context elements of identical and / or distinct natures to provide a vocabulary to be recognized more precisely.
  • This method of generating textual indexes according to the invention makes for example a language system comprising a lexicon and a semantic network.
  • a voice recognition module 12 receives: on a first input, a voice annotation 15 associated with a photo 14
  • a vocabulary 17 to recognize on a second input, a vocabulary 17 to recognize, so as to allow searching in the voice annotation 15 of the words contained in the vocabulary to recognize, then automatically generate a textual index 16 which will be associated with this photo.
  • the vocabulary to be recognized 17 is automatically generated by a generation module 11 which receives the picture 14 as input.
  • This generation module of the vocabulary to be recognized 11 comprises several modules for providing context elements, among which one finds an image processing module 111, a textual input module 112, a geographic location module 113 (for example of the GPS type), and a user profile management module 116.
  • This module 11 also comprises a data module. extraction of the vocabulary to be recognized 114 which receives the aforementioned contextual elements and questions according to these a linguistic system 115.
  • the linguistic system 115 thus receives as input a set of context elements (themes) specific to a photo or a series of photos.
  • the context elements are themes entered by the user.
  • a theme for example "Pink Granite Coast”
  • search the linguistic system for the vocabulary for the vocabulary (tourist in this example) associated with this theme.
  • the linguistic system 115 searches from these contextual elements the language used by the user.
  • this system looks for each element of context in a data structure specific to this language, also called lexicon.
  • Each lexicon is composed of words associated with concepts.
  • the set of words corresponds to all inflected forms of language, place nominations, monuments, or any geographical element such as rivers, rivers.
  • These elements and nominations are for example defined in a thesaurus such as the TGN (Getty Thesaurus of geography names) (see www.getty.edu/research/tools/vocabulary/tgn/).
  • the linguistic system 115 searches, for each concept associated in the lexicon to each context element, the neighboring concepts in a data structure called semantic network.
  • This semantic network connects concepts by typed relationships. These relationships can be, for example, synonymy, composition, geographic inclusion or other relationships. By definition, a concept is said to be close to another if there is a relationship between them.
  • the linguistic system 115 then returns the set of associated words in the lexicon to each of these neighboring concepts.
  • the vocabulary to be searched is then composed of the words returned by the linguistic system 115 (including the context elements entered by the user) for each set of context elements entered by a user. It should be noted that several of these sets can be associated with the same picture if several users have produced context elements for this photo.
  • the theme of the photo series is coupled with information resulting from the analysis of the photo by the image processing module 111. For example, the user has made many photos all over Brittany, and when he returns the theme Brittany in its indexing application, the language system generates a vocabulary too large to allow speech recognition with satisfactory performance (tens of thousands of entrances, between religious heritage, prehistoric, maritime, daunting, landscape).
  • the image analysis module 111 recognizes a church in the picture and the linguistic system 115 is then restricted (by the extraction module 114) to the only list of the remarkable churches of Brittany, of more reasonable size for the speech recognition .
  • the image analysis module 111 recognizes that there is a person in the photo, and the application (and more specifically the extraction module 114) also launches voice search for first names or familiar names, in a list that can be either generic (ie the 2000 most common first names, as well as the names of family links (mom, dad, etc) is personalized by the user, a combination of both, so that the application will be able to produce, by rotating the voice recognition module 12 in keyword detection mode on the vocabulary of the churches and on the first names, starting from the vocal annotation: "that it is Patrick in front of Brissevenez ", the textual indexes:" Patrick, Brissevenez ".
  • the application having knowledge that the photo contains a person and a church, uses a language model defined specifically for the theme (person, place) and allows the recognition module 12 to produce the written transcript of the entire vocal annotation: "That's Patrick in front of Brissevenez".
  • the application has a profile of the user (names of his relatives, hobbies, vocabulary of text annotations of previously indexed photos), provided by the management module of user profiles 116, and generates the vocabulary to search according to this profile.
  • the extraction module 114 interrogates the linguistic system 115 with a theme (for example "the pink granite coast") but imposing a geographical restriction resulting from a piece of information. position given for example by a GPS function available on some cameras.
  • a theme for example "the pink granite coast”
  • FIG. 2 illustrates the sequential sequence of the different steps in a particular embodiment of the method according to the invention.
  • a shooting phase comprises a first step 20, during which the user takes a picture by means of an electronic device having both "digital pictures” and “voice annotations” functions.
  • a voice recording phase comprises a step 21, during which the user records a voice annotation using the apparatus used in step 20.
  • the following steps relate to a definition phase of the vocabulary to be recognized.
  • context elements are defined from one or more information that can be provided directly by the user himself (via a human / machine interface 112 of the microphone, keyboard, etc. type). a positioning system of the GPS type 113, or by an image processing module 111 (information relating to an image analysis), a user profile management module 116, etc.
  • step 23 the language used by the user is searched from at least one of these context elements.
  • step 24 a list of words associated with the context elements is searched in an appropriate linguistic system 115, so as to establish a vocabulary to be recognized.
  • the next step is related to a phase of generating textual indexes.
  • the voice activity of the user is processed by voice recognition means 12, so as to perform a search in the voice annotation previously recorded in step 21 of words or expressions contained in the vocabulary to be recognized. Words or phrases identified during the search form the textual index.
  • FIG. 3 shows the structure of a text index generation device 32 according to the invention, which comprises a memory 322, and a processing unit 321 equipped with a microprocessor ⁇ P, which is controlled by a computer program (or application) 323 implementing the method according to the invention.
  • the processing unit 321 receives as input a voice annotation 31 associated with a set of images.
  • the microprocessor ⁇ P processes this voice annotation, according to the instructions of the program 323, to generate textual indexes 33 representative of the words identified in the voice annotation.
  • FIG. 4 shows the structure of an image taking apparatus 41 according to the invention, which comprises the text index generating device 32 described in FIG. 3, and an image taking unit 411 equipped with an image sensor Ci, which cooperates with a voice recording unit 412.
  • the image pickup unit 411 receives a signal representative of an image 42 captured by the image sensor Ci
  • the image unit voice record 412 receives a signal representative of a voice annotation 43.
  • These two signals are transmitted to the text index generator 32, which first analyzes the signal representative of an image and then uses the representative signal a voice annotation, so as to automatically produce relevant textual indexes.
  • FIG. 5 shows the structure of an image management / vision apparatus 51 according to the invention, which comprises the text index generating device 32 described in FIG. 3, and a management unit / image view. 511, which cooperates with a voice recording unit 512.
  • the management unit / image view 511 captures an image 52 in a given context, the voice recording unit 512 receives a voice annotation 53 associated with this image .
  • These two pieces of information are transmitted to the text index generating device 32, which initially analyzes the captured image, then performs a voice recognition in the voice annotation, so as to produce textual indexes representative of the words identified in the text. voice annotation.
  • the invention proposes a method for generating a text index associated with at least one image from a voice annotation, recorded by means of an image management / viewing apparatus or a video recording device.
  • digital shooting equipped with a voice memo recorder This method has many advantages, including that of automatically defining a vocabulary to be recognized from a context (for example a theme entered by the user, a GPS data, a user profile, an image analysis, etc.). , so as to perform a search in the voice annotation of words or phrases contained in such a vocabulary to recognize.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to a method for generating a text-based index (16) associated with images from a voice annotation (15). The inventive method consists in carrying out a speech recognition (25) applied to the voice annotation (15) with a predetermined recognisable vocabulary (17) in such a way that it makes it possible to search at least one word contained in the recognisable vocabulary (17) in the voice annotation, wherein said word or words identified during the search form the text-based index (16). Said method also comprises a step for defining the recognisable vocabulary consisting in defining (22) a context and in searching (24) a list of words associated with the context in a language system and in forming the recognisable vocabulary (17).

Description

PROCEDE DE GENERATION D' INDEX TEXTUEL A PARTIR D' UNE ANNOTATION VOCALEMETHOD FOR GENERATING A TEXTUAL INDEX FROM A VOICE ANNOTATION
1. Domaine de l'invention1. Field of the invention
5 Le domaine de l'invention est celui de la gestion d'images. Plus précisément, l'invention concerne une technique permettant de produire et d'associer des index textuels (aussi appelés annotations textuelles) à des images. L'invention s'applique notamment, mais non exclusivement, à l'association d'index textuels à une image ou une séquence vidéo prise par un appareil 10 électronique portable du type appareil photo numérique, caméscope numérique, téléphone mobile ou encore ordinateur de poche.The field of the invention is that of image management. More specifically, the invention relates to a technique for producing and associating textual indexes (also called textual annotations) to images. The invention applies in particular, but not exclusively, to the association of textual indexes with an image or a video sequence taken by a portable electronic device such as a digital camera, a digital video camera, a mobile telephone or a handheld computer. .
2. Solutions et inconvénients de l'art antérieur2. Solutions and disadvantages of the prior art
De façon générale, la photo numérique a profondément modifié l'accès à l'image. En effet la multiplication des appareils électroniques disposant d'uneIn general, digital photography has profoundly changed the access to the image. Indeed the multiplication of electronic devices with a
15 fonction « prise de vue numérique » et le coût nul associé à chaque prise de vue ont entraîné la prolifération des photos numériques. Actuellement, de plus en plus d'usagers possèdent un appareil de prise de vue numérique leur permettant de réaliser et de stocker une grande quantité d'images dans une mémoire amovible ou intégrée dans l'appareil.15 "digital shooting" function and the zero cost associated with each shot have led to the proliferation of digital photos. Currently, more and more users have a digital camera allowing them to make and store a large amount of images in a removable memory or integrated in the device.
20 Généralement, des index descripteurs (aussi appelés par la suite éléments descripteurs) sont utilisés pour faciliter la gestion de ces nombreuses images. On connaît, dans l'état de la technique, deux méthodes de description permettant de produire et d'associer des index descripteurs à des images.Generally, descriptor indexes (hereinafter also referred to as descriptor elements) are used to facilitate the management of these many images. Two methods of description are known in the state of the art for producing and associating descriptor indexes with images.
La description « objective » par analyse d'image est une première méthodeThe "objective" description by image analysis is a first method
25 selon laquelle l'analyse d'une image permet de fournir des éléments descripteurs, par exemple de type portrait, paysage de compagne, mer, montagne, etc. Cette première méthode permet en outre la reconnaissance de personne ou de monument contenus dans un dictionnaire de références, et donc, le cas échéant d'obtenir les index descripteurs correspondants.25 according to which the analysis of an image makes it possible to provide descriptor elements, for example of the portrait, companion landscape, sea, mountain, etc. type. This first method also allows the recognition of person or monument contained in a reference dictionary, and thus, if necessary to obtain the corresponding descriptor indexes.
30 La description « intentionnelle » par annotation textuelle ou vocale est une seconde méthode selon laquelle l'usager annote une photo de façon à déclarer ce qui lui semble être le plus pertinent et/ou ce qui peut être absent de l'image, par exemple un lien de parenté, l'âge d'une personne, etc. Il est bien connu de l'art antérieur que la description « intentionnelle » peut être utilisée comme un mode complémentaire de la description « objective ». Ces méthodes de description, utilisées seules ou en combinaison, ont représenté un progrès important dans le mécanisme de production d'éléments descripteurs et de gestion d'images. Cependant, ils présentent un certain nombre d'inconvénients.The "intentional" description by textual or vocal annotation is a second method according to which the user annotates a photograph so as to declare that which seems to be the most relevant and / or what may be missing from the image, for example a relationship, the age of a person, etc. It is well known in the prior art that the "intentional" description can be used as a complementary mode of the "objective" description. These description methods, used alone or in combination, have been an important advance in the descriptor element and image management mechanism. However, they have a number of disadvantages.
Tout d'abord, la description « objective » par analyse d'image permet uniquement de générer des index descripteurs concernant le contenu strict de la photo, sans autre information.First of all, the "objective" description by image analysis only makes it possible to generate descriptor indexes concerning the strict content of the photo, without any other information.
Un autre inconvénient de cette première méthode connue, réside dans le fait que les performances en reconnaissance de visages, monuments, etc. sont encore assez limitées. Contrairement à la description « objective » par analyse d'image, la description « intentionnelle » par annotation est une technique de production d'index descripteurs permettant d'acquérir et de fournir des annotations relatives aux détails et/ou au sens donné par l'usager à des images numériques.Another disadvantage of this first known method lies in the fact that performance in recognition of faces, monuments, etc. are still quite limited. Contrary to the "objective" description by image analysis, the "intentional" description by annotation is a descriptor index production technique allowing to acquire and provide annotations relating to the details and / or the meaning given by the user to digital images.
Néanmoins, lorsqu'une annotation textuelle est réalisée à peu près simultanément à la prise de vue, l'ergonomie de cette seconde méthode connue est limitée par le fait que l'utilisateur doit, dans les conditions de la prise de photo qui sont parfois inconfortables et difficiles (temps de pluie, neige, etc.), entrer manuellement au moyen d'un clavier alphanumérique, généralement de petite taille, son annotation. En revanche, lorsqu'une annotation textuelle est réalisée postérieurement à la prise de vue, par exemple au moment où un usager classe ses multiples photos dans un album numérique au moyen d'un ordinateur personnel, cette méthode ne favorise pas forcément l'intelligibilité en terme de connaissance du contenu de chaque photo et du nombre de photo à indexer. En effet, ce classement pouvant se faire longtemps après la prise de vue, l'usager est contraint de regarder chaque photo pour déterminer son contenu et produire son annotation textuelle. Par ailleurs, l'usager peut ne pas se souvenir de ce qui a été photographié, par exemple le nom d'un monument particulier. En outre, la personne qui effectue le classement des photos dans l'album numérique peut ne pas être l'usager qui a réalisé les différents clichés, de ce fait cette personne n'a pas forcément connaissance du contenu exact de chaque photo et peut par conséquent produire des annotations textuelles non pertinentes ou erronées.Nevertheless, when a textual annotation is performed almost simultaneously with the shooting, the ergonomics of this second known method is limited by the fact that the user must, in the conditions of taking pictures that are sometimes uncomfortable and difficult (rain, snow, etc.), enter manually using an alphanumeric keyboard, usually small, annotation. On the other hand, when a textual annotation is carried out after the shooting, for example at the moment when a user classifies his multiple photos in a digital album by means of a personal computer, this method does not necessarily favor the intelligibility in term of knowledge of the content of each photo and the number of photos to index. Indeed, this classification can be done long after the shooting, the user is forced to look at each photo to determine its content and produce its textual annotation. By elsewhere, the user may not remember what has been photographed, for example the name of a particular monument. In addition, the person who ranks the photos in the digital album may not be the user who made the different shots, so this person does not necessarily know the exact content of each photo and can by therefore produce irrelevant or erroneous textual annotations.
Pour remédier à ces problèmes, il est traditionnellement envisagé d'utiliser une description « intentionnelle » par annotations vocales. Ceci permet par exemple à un usager d'enregistrer, juste après une prise de vue, une phrase au moyen d'un microphone embarqué dans un appareil de type téléphone mobile, appareil photo numérique, etc.To remedy these problems, it is traditionally envisaged to use an "intentional" description by voice annotations. This allows for example a user to record, just after shooting, a sentence by means of a microphone embedded in a mobile phone type device, digital camera, etc..
Ainsi, l'usager sait ce qu'il vient de photographier, et l'enregistrement d'une annotation vocale est une tâche beaucoup plus simple et ergonomique que l'entrée d'une annotation textuelle. La difficulté est cependant déplacée dans l'exploitation de ces annotations vocales. En effet, il ne suffit pas de stocker des annotations vocales associées aux photos, mais il faut produire des index textuels à partir des ces annotations vocales.Thus, the user knows what he has just photographed, and recording a voice annotation is a much simpler and more ergonomic task than entering a text annotation. The difficulty is however displaced in the exploitation of these vocal annotations. Indeed, it is not enough to store voice annotations associated with the photos, but it is necessary to produce textual indexes from these vocal annotations.
Il faut donc pour cela effectuer de la reconnaissance vocale sur chaque annotation vocale, pour transcrire l'annotation vocale toute entière ou uniquement un ou plusieurs mots-clés contenus dans celle-ci. Plusieurs modes peuvent être envisagés pour effectuer cette reconnaissance vocale.For this purpose, it is necessary to perform voice recognition on each voice annotation, to transcribe the entire voice annotation or only one or more keywords contained in it. Several modes can be considered to perform this speech recognition.
Parmi ces modes de traitement, on trouve :Among these modes of treatment, we find:
- un mode « indexation phonétique » tel que décrit notamment dans la publication suivante : Ferrieux, A. & Peillon, S. : « Phoneme-level indexing for fast and vocabulary independent voice/voice retrieval » (ou « Indexation phonétique rapide et récupération de vocabulaire vocale » en français), ESCA ETRW workshop on Accessing information in Spoken Audio, Cambridge, Angleterre, 19-20 avril 1999, pp. 60-63 ;a mode "phonetic indexing" as described in particular in the following publication: Ferrieux, A. & Peillon, S.: "Phoneme-level indexing for fast and vocabulary independent voice / voice retrieval" (or "fast phonetic indexing and recovery of vocal vocabulary "in French), ESCA ETRW workshop on Accessing information in Spoken Audio, Cambridge, England, 19-20 April 1999, pp. 60-63;
- un mode « détection de mot-clé » tel que décrit notamment dans la publication suivante : Rosé, R.C., Paul,D.B. : « A Hidden Markov- Model based keyword récognition System » (ou « dispositif de reconnaissance de mots-clés basé sur un modèle de Markov » en français), ICASSP 1990, pp. 129-132 ; et - un mode « transcription oral-écrit » tel que décrit notamment dans la publication suivante : Makhoul et al., « Speech and Languages technologies for audio indexing and retrieval » (ou « Technologies vocales et de langages pour indexation et récupération sonore » en français), Proceedings of the IEEE, vol.88, n.8, août 2000, pp.1338- 1353.a mode "keyword detection" as described in particular in the following publication: Rosé, RC, Paul, DB: "A Hidden Markov- Model Based Keyword Recognition System" (or "Markov Model Based Keyword Recognition Device" in English), ICASSP 1990, pp. 129-132; and a mode "oral-written transcription" as described in particular in the following publication: Makhoul et al., "Speech and Languages Technologies for Audio Indexing and Retrieval" (or "Voice and Language Technologies for Indexing and Sound Recovery" in French), Proceedings of the IEEE, vol.88, n.8, August 2000, pp.1338-1353.
La technique actuelle de génération d'index textuels à partir d'annotations vocales, par application d'une reconnaissance vocale à ces annotations vocales, présente des inconvénients.The current technique of generating text indexes from voice annotations, by applying a voice recognition to these voice annotations, has drawbacks.
En effet, en mode « indexation phonétique », comme en mode « détection de mot-clé », il est indispensable de définir les mots ou expressions que l'on recherche (que l'on appelle aussi vocabulaire recherché). Par ailleurs, en mode « transcription oral-écrit », il est en outre nécessaire de définir le modèle complet du vocabulaire (et relations entre les mots du vocabulaire, appelé modèle de langage) que l'on souhaite transcrire. Comme les performances de la reconnaissance vocale sont dépendantes de la taille du vocabulaire à reconnaître, il n'est pas réaliste de rechercher dans les annotations vocales « tous les mots possibles », si tant est qu'une telle liste existe. L'usager qui souhaite exploiter ses annotations vocales (pour générer des index textuels par reconnaissance vocale) est contraint d'établir, pour chaque annotation vocale, une liste de mots-clés ou d'expressions qu'il recherche (ou plus précisément que la reconnaissance vocale recherche) dans l'annotation. En d'autres termes, l'usager doit définir lui-même, pour chaque annotation vocale, un vocabulaire à reconnaître dans cette annotation vocale.Indeed, in "phonetic indexing" mode, as in "keyword detection" mode, it is essential to define the words or expressions that we are looking for (which we also call the searched vocabulary). Moreover, in "oral-written transcription" mode, it is also necessary to define the complete vocabulary model (and relations between the words of the vocabulary, called language model) that one wishes to transcribe. Since the performance of voice recognition is dependent on the size of the vocabulary to be recognized, it is not realistic to look for voice annotations "all possible words", if such a list exists. The user who wishes to use his voice annotations (to generate text indexes by voice recognition) is compelled to establish, for each voice annotation, a list of keywords or expressions that he seeks (or more precisely that the voice recognition search) in the annotation. In other words, the user must define himself, for each voice annotation, a vocabulary to recognize in this voice annotation.
L'inconvénient de cette solution actuelle est qu'il s'agit d'une tâche qui peut s'avérer extrêmement fastidieuse et qui a une limite intrinsèque : l'usager ne peut retrouver dans son annotation que des mots-clés qu'il recherche. Par ailleurs, cette recherche se faisant postérieurement à la prise de vue, l'usager peut avoir oublié les noms précis des monuments qu'il a photographiésThe disadvantage of this current solution is that it is a task that can be extremely tedious and has an intrinsic limit: the user can find in his annotation only keywords he seeks . Moreover, this search being done after the shooting, the user may have forgotten the precise names of the monuments he photographed
(ou ignorer quels monuments ont été photographiés si la personne qui effectue le classement n'est pas celle qui a pris les photos). En conséquence, il ne pourra pas faire rechercher ces noms précis par la reconnaissance vocale.(or ignore which monuments were photographed if the person doing the ranking is not the one who took the photos). As a result, he will not be able to search for these specific names by voice recognition.
En outre, et en particulier pour les raisons exposées ci-dessus, cette méthode de production d'index textuels à partir d'annotations vocales n'est pas optimale.In addition, and particularly for the reasons set out above, this method of producing text indexes from voice annotations is not optimal.
3. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur. Plus précisément, un objectif de l'invention est de fournir une technique de génération d'index textuels fiables, à partir d'annotations vocales, qui soit simple et efficace à mettre en œuvre, notamment en terme de définition du vocabulaire à reconnaître par une reconnaissance vocale effectuée sur ces annotations vocales.3. OBJECTIVES OF THE INVENTION The object of the invention is notably to overcome these disadvantages of the prior art. More specifically, an objective of the invention is to provide a technique for generating reliable textual indexes, based on voice annotations, which is simple and effective to implement, especially in terms of defining the vocabulary to be recognized by a user. voice recognition performed on these voice memos.
Un autre objectif de l'invention est de fournir une telle technique, qui soit ergonomique et supprime, ou tout le moins limite, les opérations de saisie manuelle devant être effectuées par l'utilisateur pour définir le vocabulaire à reconnaître par la reconnaissance vocale. Encore un autre objectif de l'invention est de fournir une telle technique, qui soit notamment bien adaptée aux usagers souhaitant, ultérieurement à la prise de vue, rechercher et/ou trier aisément une multitude d'images, sans devoir se souvenir du contenu exact de chaque image.Another object of the invention is to provide such a technique, which is ergonomic and eliminates, or at least limits, the manual input operations to be performed by the user to define the vocabulary to recognize by voice recognition. Yet another object of the invention is to provide such a technique, which is particularly well suited to users wishing, after the shooting, search and / or easily sort a multitude of images, without having to remember the exact content of each image.
L'invention a également pour objectif de fournir une telle technique qui, dans au moins un mode de réalisation, soit peu coûteuse et compatible avec tous les appareils de prise de vues numériques existants.The invention also aims to provide such a technique which, in at least one embodiment, is inexpensive and compatible with all existing digital cameras.
4. Résumé de l'invention4. Summary of the invention
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de génération d'au moins un index textuel associé à un ensemble d'images comprenant au moins une image, à partir d'au moins une annotation vocale préalablement associée audit ensemble d'images, ledit procédé comprenant une étape de reconnaissance vocale appliquée à ladite au moins une annotation vocale avec un vocabulaire à reconnaître prédéterminé, de façon à effectuer une recherche dans ladite au moins une annotation vocale d'au moins un mot contenu dans ledit vocabulaire à reconnaître, le ou les mots identifiés au cours de la recherche formant ledit index textuel. Selon l'invention, un tel procédé comprend avantageusement une étape de définition dudit vocabulaire à reconnaître, comprenant elle-même les étapes suivantes : définition d'un contexte ; recherche dans un système linguistique d'une liste de mots associés audit contexte et formant ledit vocabulaire à reconnaître.These objectives, as well as others that will appear later, are achieved by means of a method of generating at least one text index associated with a set of images comprising at least one image, starting from at least one voice annotation previously associated with said set of images, said method comprising a voice recognition step applied to said at least one voice annotation with a predetermined recognizable vocabulary, so as to perform a search in said at least one voice annotation of at least one word contained in said vocabulary to be recognized, the one or more words identified during the search forming said text index. According to the invention, such a method advantageously comprises a step of defining said vocabulary to be recognized, which itself comprises the following steps: definition of a context; search in a linguistic system of a list of words associated with said context and forming said vocabulary to be recognized.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la définition du vocabulaire à reconnaître. En effet, cette définition du vocabulaire à rechercher s'effectue de façon automatique, à partir d'un contexte.Thus, the invention is based on an entirely new and inventive approach to the definition of the vocabulary to be recognized. Indeed, this definition of the vocabulary to be searched is done automatically, from a context.
L'utilisateur est donc libéré de cette tâche fastidieuse. Il est à noter que si l'utilisateur peut être impliqué dans la définition du contexte (par exemple pour fournir un thème d'une série de photos), ce n'est pas obligatoire et en tout état de cause beaucoup moins contraignant que d'avoir à définir seul le vocabulaire à rechercher (cas de la technique actuelle).The user is freed from this tedious task. It should be noted that if the user can be involved in defining the context (for example to provide a theme of a series of photos), it is not mandatory and in any case much less restrictive than to have to define only the vocabulary to look for (case of the current technique).
Il est à noter que la présente invention couvre aussi bien le cas dans lequel un ou plusieurs mot(s) du vocabulaire à reconnaître peut(vent) être identifié(s) dans l'annotation vocale, que le cas dans lequel aucun mot du vocabulaire à reconnaître n'est présent (et n'a donc pu être identifié) dans l'annotation vocale.It should be noted that the present invention covers both the case in which one or more word (s) of the vocabulary to be recognized can (wind) be identified in the vocal annotation, that the case in which no word of the vocabulary to recognize is present (and therefore could not be identified) in the voice annotation.
En effet, c'est aussi un résultat de savoir qu'il n'y a aucun des mots du vocabulaire à reconnaître dans l'annotation vocale. Par ailleurs, lorsqu'un usager a au préalable enregistré et associé une annotation vocale à un ensemble de photos, les index textuels produits selon l'invention sont attribués à cet ensemble de photos.Indeed, it is also a result of knowing that there are no vocabulary words to recognize in the voice annotation. Furthermore, when a user has previously recorded and associated a voice annotation to a set of photos, the textual indexes produced according to the invention are assigned to this set of photos.
Selon un aspect avantageux de l'invention, ledit ensemble d'images comprend au moins une photo et/ou au moins une séquence vidéo. De façon préférentielle, ledit contexte comprend au moins un élément de contexte appartenant au groupe comprenant : au moins une information relative audit ensemble d'images, fournie par au moins un utilisateur grâce à une interface homme/machine ; au moins une information relative à la position géographique du lieu de prise de vue dudit ensemble d'images, fournie par un dispositif de localisation ; au moins une information relative audit ensemble d'images, résultant du traitement dudit ensemble d'images par un module d'analyse d'image ; au moins un profil d'utilisateur comprenant au moins une information de profil relative à un utilisateur ; au moins une information comprise dans un contexte par défaut. De manière générale, un élément de contexte est une information relative à l'ensemble d'images (par exemple une photo) provenant d'un outil logiciel, du créateur (photographe) ou de tout autre usager ayant connaissance de l'existence de cette photo. En outre, des informations contextuelles de natures différentes peuvent être associées pour fournir un contexte encore plus précis.According to an advantageous aspect of the invention, said set of images comprises at least one photo and / or at least one video sequence. Preferably, said context comprises at least one context element belonging to the group comprising: at least one information relating to said set of images, provided by at least one user through a man / machine interface; at least one piece of information relating to the geographical position of the place of shooting of said set of images, provided by a location device; at least one information relating to said set of images, resulting from the processing of said set of images by an image analysis module; at least one user profile comprising at least one profile information relating to a user; at least one piece of information understood in a default context. Generally speaking, a context element is information relating to the set of images (for example a photo) coming from a software tool, from the creator (photographer) or from any other user having knowledge of the existence of this Photo. In addition, contextual information of different natures can be combined to provide an even more precise context.
Par contexte par défaut, on entend par exemple les prénoms et/ou les noms de famille les plus fréquents. Dans ce cas, en l'absence de tout autre élément de contexte, on utilise ce contexte par défaut qui permet de rechercher parmi les prénoms et/ou noms usuels.By default context, we mean for example the first names and / or the most common surnames. In this case, in the absence of any other context element, we use this default context which makes it possible to search among the given names and / or common names.
De façon avantageuse, ledit procédé comprend une étape de sélection d'un modèle de langage en fonction d'au moins un élément de contexte dudit contexte, et en ce que ladite étape de reconnaissance vocale est effectuée en mode transcription, avec le modèle de langage sélectionné. L'invention concerne également un produit programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité, lorsque ledit programme est exécuté sur un ordinateur.Advantageously, said method comprises a step of selecting a language model according to at least one context element of said context, and in that said voice recognition step is performed in transcription mode, with the language model selected. The invention also relates to a computer program product comprising program code instructions for executing the steps of the aforementioned method, when said program is executed on a computer.
L'invention concerne en outre un moyen de stockage, éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en œuvre le procédé précité. L'invention concerne encore un dispositif de génération d'au moins un index textuel associé à un ensemble d'images comprenant au moins une image, à partir d'au moins une annotation vocale préalablement associée audit ensemble d'images, comprenant des moyens de définition dudit vocabulaire à reconnaître, comprenant eux-mêmes :The invention further relates to a storage medium, possibly totally or partially removable, readable by a computer, storing a set of instructions executable by said computer to implement the above method. The invention also relates to a device for generating at least one text index associated with a set of images comprising at least one image, from at least one voice annotation previously associated with said set of images, comprising means for defining said vocabulary to be recognized, including themselves:
- des moyens de définition d'un contexte ;means for defining a context;
- des moyens de recherche dans un système linguistique d'une liste de mots associés audit contexte et formant ledit vocabulaire à reconnaître.means for searching in a linguistic system for a list of words associated with said context and forming said vocabulary to be recognized.
L'invention concerne également un appareil de prise d'images et d'enregistrement d'annotations vocales associées, comprenant le dispositif de génération d'au moins un index textuel précité.The invention also relates to an apparatus for recording images and recording associated voice annotations, comprising the device for generating at least one aforementioned text index.
L'invention concerne aussi un appareil de gestion/vision d'images et d'enregistrement d'annotations vocales associées, comprenant le dispositif de génération d'au moins un index textuel précité. 5. Liste des figuresThe invention also relates to an apparatus for managing / viewing images and recording associated voice annotations, comprising the device for generating at least one aforementioned text index. 5. List of figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1 présente une chaîne fonctionnelle de génération d'index textuels d'un mode de réalisation particulier du procédé de génération de l'invention ; la figure 2 représente un organigramme d'un mode de réalisation particulier du procédé de génération de l'invention ; - la figure 3 présente la structure d'un mode de réalisation particulier d'un dispositif de génération d'index textuels selon l'invention ; la figure 4 présente la structure d'un mode de réalisation particulier d'un appareil de prise d'images selon l'invention ; et la figure 5 présente la structure d'un mode de réalisation particulier d'un appareil de gestion/vision d'images selon l'invention.Other features and advantages of the invention will appear more clearly on reading the following description of a preferred embodiment, given as a simple illustrative and nonlimiting example, and the appended drawings, among which: FIG. 1 shows a functional chain for generating textual indexes of a particular embodiment of the generation method of the invention; FIG. 2 represents a flowchart of a particular embodiment of the generation method of the invention; FIG. 3 presents the structure of a particular embodiment of a device for generating textual indexes according to the invention; FIG. 4 shows the structure of a particular embodiment of an image taking apparatus according to the invention; and FIG. 5 shows the structure of a particular embodiment of an image management / vision apparatus according to the invention.
6. Description détaillée de l'invention Le principe général de l'invention repose sur une technique de production automatique d'un vocabulaire à reconnaître (à partir d'un contexte), utilisé pour identifier par reconnaissance vocale appliquée à une annotation vocale des mots- clés ou expressions, de façon à générer un index textuel associé à une image. La technique de production automatique d'un vocabulaire à reconnaître selon l'invention peut notamment faire cohabiter différents modules de fourniture d'élément de contexte. Une telle technique peut notamment utiliser en parallèle et/ou conjointement plusieurs éléments de contexte de natures identiques et/ou distinctes pour fournir un vocabulaire à reconnaître plus précis. Ce procédé de génération d'index textuels selon l'invention fait par exemple intervenir un système linguistique comprenant un lexique et un réseau sémantique.6. Detailed description of the invention The general principle of the invention is based on a technique for automatically generating a vocabulary to be recognized (from a context), used to identify by voice recognition applied to a voice annotation of the keywords or expressions, so as to generate a textual index associated with an image. The automatic production technique of a vocabulary to be recognized according to the invention can notably make different context-element-providing modules coexist. Such a technique can notably use in parallel and / or jointly several context elements of identical and / or distinct natures to provide a vocabulary to be recognized more precisely. This method of generating textual indexes according to the invention makes for example a language system comprising a lexicon and a semantic network.
Cette approche est notamment illustrée en figure 1.This approach is illustrated in particular in FIG.
De façon classique, on suppose qu'un module de reconnaissance vocale 12 reçoit : sur une première entrée, une annotation vocale 15 associée à une photo 14In a conventional manner, it is assumed that a voice recognition module 12 receives: on a first input, a voice annotation 15 associated with a photo 14
(par exemple au moyen d'un appareil disposant à la fois de la fonction de prise de vues numériques et de prises d'annotations vocales associées) ; sur une seconde entrée, un vocabulaire à reconnaître 17, de façon à permettre la recherche dans l'annotation vocale 15 des mots contenus dans le vocabulaire à reconnaître, puis de générer automatiquement un index textuel 16 qui va être associé à cette photo.(for example by means of a device having both the digital shooting function and the associated voice annotation sockets); on a second input, a vocabulary 17 to recognize, so as to allow searching in the voice annotation 15 of the words contained in the vocabulary to recognize, then automatically generate a textual index 16 which will be associated with this photo.
Selon l'invention, le vocabulaire à reconnaître 17 est généré automatiquement par un module de génération 11 qui reçoit en entrée la photo 14. Ce module de génération du vocabulaire à reconnaître 11 comprend plusieurs modules de fourniture d'éléments de contexte, parmi lesquels on trouve un module de traitement d'image 111, un module de saisie textuelle 112, un module de localisation géographique 113 (par exemple de type GPS), et un module de gestion de profils utilisateurs 116. Ce module 11 comprend en outre un module d'extraction du vocabulaire à reconnaître 114 qui reçoit les éléments de contexte précités et interroge en fonction de ceux-ci un système linguistique 115. Le système linguistique 115 reçoit donc en entrée en ensemble d'éléments de contexte (thèmes) propre à une photo ou à une série de photos.According to the invention, the vocabulary to be recognized 17 is automatically generated by a generation module 11 which receives the picture 14 as input. This generation module of the vocabulary to be recognized 11 comprises several modules for providing context elements, among which one finds an image processing module 111, a textual input module 112, a geographic location module 113 (for example of the GPS type), and a user profile management module 116. This module 11 also comprises a data module. extraction of the vocabulary to be recognized 114 which receives the aforementioned contextual elements and questions according to these a linguistic system 115. The linguistic system 115 thus receives as input a set of context elements (themes) specific to a photo or a series of photos.
On décrit maintenant un premier exemple d'application du procédé selon l'invention, dans lequel les éléments de contexte sont des thèmes saisis par l'utilisateur. On suppose par exemple qu'à l'aide du module de saisie textuelle 112, l'utilisateur a entré un thème (par exemple « côte de Granit Rosé ») pour que l'application aille chercher dans le système linguistique le vocabulaire (touristique dans cet exemple) associé à ce thème.We now describe a first example of application of the method according to the invention, wherein the context elements are themes entered by the user. For example, it is assumed that with the help of the text input module 112, the user has entered a theme (for example "Pink Granite Coast") for the application to search the linguistic system for the vocabulary (tourist in this example) associated with this theme.
Dans un premier temps, le système linguistique 115 recherche à partir de ces éléments de contexte la langue utilisée par l'usager.In a first step, the linguistic system 115 searches from these contextual elements the language used by the user.
Dans un second temps, ce système recherche chaque élément de contexte dans une structure de données spécifique à cette langue, aussi appelée lexique. Chaque lexique est composé de mots associés à des concepts. L'ensemble des mots correspond à l'ensemble des formes fléchies de la langue, des nominations de lieu, de monuments, ou tout élément géographique comme des rivières, fleuves. Ces éléments et nominations sont par exemple définis dans un thésaurus tel que le TGN (Getty Thésaurus of géographie names) (cf. www.getty.edu/research/tools/vocabulary/tgn/).In a second step, this system looks for each element of context in a data structure specific to this language, also called lexicon. Each lexicon is composed of words associated with concepts. The set of words corresponds to all inflected forms of language, place nominations, monuments, or any geographical element such as rivers, rivers. These elements and nominations are for example defined in a thesaurus such as the TGN (Getty Thesaurus of geography names) (see www.getty.edu/research/tools/vocabulary/tgn/).
Le système linguistique 115 recherche ensuite, pour chaque concept associé dans le lexique à chaque élément de contexte, les concepts voisins dans une structure de données appelée réseau sémantique. Ce réseau sémantique relie les concepts par des relations typées. Ces relations peuvent être par exemple des relations de synonymies, de composition, d'inclusion géographique ou autre. Par définition, un concept est dit voisin d'un autre s'il existe une relation entre eux. Le système linguistique 115 retourne alors l'ensemble des mots associés dans le lexique à chacun de ces concepts voisins.The linguistic system 115 then searches, for each concept associated in the lexicon to each context element, the neighboring concepts in a data structure called semantic network. This semantic network connects concepts by typed relationships. These relationships can be, for example, synonymy, composition, geographic inclusion or other relationships. By definition, a concept is said to be close to another if there is a relationship between them. The linguistic system 115 then returns the set of associated words in the lexicon to each of these neighboring concepts.
Le vocabulaire à rechercher est alors composé des mots retournés par le système linguistique 115 (y inclus les éléments de contexte saisis par l'utilisateur) pour chaque ensemble d'éléments de contexte saisis par un usager. Il est à noter que plusieurs de ces ensembles peuvent être associés à une même photo si plusieurs utilisateurs ont produit des éléments de contexte pour cette photo. Dans un second exemple d'application du procédé de l'invention, le thème de la série de photo est couplé avec une information résultant de l'analyse de la photo par le module de traitement d'image 111. Par exemple, l'utilisateur a fait de nombreuses photos dans toute la Bretagne, et lorsqu'il rentre le thème Bretagne dans son application d'indexation, le système linguistique génère un vocabulaire de trop grande taille pour permettre une reconnaissance vocale aux performances satisfaisantes (des dizaines de milliers d'entrées, entre le patrimoine religieux, préhistorique, maritime, monumental, paysage). Le module d'analyse d'image 111 reconnaît une église sur la photo et le système linguistique 115 est alors restreint (par le module d'extraction 114) à la seule liste des églises remarquables de Bretagne, de taille plus raisonnable pour la reconnaissance vocale.The vocabulary to be searched is then composed of the words returned by the linguistic system 115 (including the context elements entered by the user) for each set of context elements entered by a user. It should be noted that several of these sets can be associated with the same picture if several users have produced context elements for this photo. In a second example of application of the method of the invention, the theme of the photo series is coupled with information resulting from the analysis of the photo by the image processing module 111. For example, the user has made many photos all over Brittany, and when he returns the theme Brittany in its indexing application, the language system generates a vocabulary too large to allow speech recognition with satisfactory performance (tens of thousands of entrances, between religious heritage, prehistoric, maritime, monumental, landscape). The image analysis module 111 recognizes a church in the picture and the linguistic system 115 is then restricted (by the extraction module 114) to the only list of the remarkable churches of Brittany, of more reasonable size for the speech recognition .
Dans un troisième exemple d'application du procédé de l'invention, le module d'analyse d'image 111 reconnaît qu'il y a une personne sur la photo, et l'application (et plus précisément le module d'extraction 114) lance également la recherche vocale de prénoms ou de noms familiers, dans une liste qui peut être soit générique (i.e. les 2000 prénoms les plus fréquents, ainsi que les noms de liens familiaux (maman, papa, etc) soit personnalisée par l'utilisateur, soit une combinaison des deux. Ainsi, l'application pourra produire, en faisant tourner le module de reconnaissance vocale 12 en mode détection de mot-clé sur le vocabulaire des églises et sur les prénoms, à partir de l'annotation vocale : « ça, c'est Patrick devant Brélévenez », les index textuels : « Patrick, Brélévenez ».In a third example of application of the method of the invention, the image analysis module 111 recognizes that there is a person in the photo, and the application (and more specifically the extraction module 114) also launches voice search for first names or familiar names, in a list that can be either generic (ie the 2000 most common first names, as well as the names of family links (mom, dad, etc) is personalized by the user, a combination of both, so that the application will be able to produce, by rotating the voice recognition module 12 in keyword detection mode on the vocabulary of the churches and on the first names, starting from the vocal annotation: "that it is Patrick in front of Brélévenez ", the textual indexes:" Patrick, Brélévenez ".
Dans un quatrième exemple d'application du procédé de l'invention, l'application ayant connaissance que la photo contient une personne et une église, utilise un modèle de langage défini spécifiquement pour le thème (personne, lieu) et permet au module de reconnaissance vocale 12 de produire la transcription écrite de la totalité de l'annotation vocale : « ça, c'est Patrick devant Brélévenez ».In a fourth example of application of the method of the invention, the application having knowledge that the photo contains a person and a church, uses a language model defined specifically for the theme (person, place) and allows the recognition module 12 to produce the written transcript of the entire vocal annotation: "That's Patrick in front of Brélévenez".
Dans un cinquième exemple d'application du procédé de l'invention, l'application dispose d'un profil de l'utilisateur (noms de ses proches, hobbies, vocabulaire des annotations textuelles des photos antérieurement indexées), fourni par le module de gestion de profils utilisateurs 116, et génère le vocabulaire à rechercher en fonction de ce profil.In a fifth example of application of the method of the invention, the application has a profile of the user (names of his relatives, hobbies, vocabulary of text annotations of previously indexed photos), provided by the management module of user profiles 116, and generates the vocabulary to search according to this profile.
Dans un sixième exemple d'application du procédé de l'invention, le module d'extraction 114 interroge le système linguistique 115 avec un thème (par exemple « la côte de Granit Rosé ») mais en imposant une restriction géographique découlant d'une information de position donnée par exemple par une fonction GPS disponible sur certains appareils de prise de vue.In a sixth example of application of the method of the invention, the extraction module 114 interrogates the linguistic system 115 with a theme (for example "the pink granite coast") but imposing a geographical restriction resulting from a piece of information. position given for example by a GPS function available on some cameras.
La figure 2 illustre l'enchaînement successif des différentes étapes dans un mode de réalisation particulier du procédé selon l'invention.FIG. 2 illustrates the sequential sequence of the different steps in a particular embodiment of the method according to the invention.
Une phase de prise de vue comprend une première étape 20, au cours de laquelle l'usager prend une photo au moyen d'un appareil électronique disposant à la fois des fonctions « prise de vues numériques » et « prise d'annotations vocales ».A shooting phase comprises a first step 20, during which the user takes a picture by means of an electronic device having both "digital pictures" and "voice annotations" functions.
Une phase d'enregistrement vocale comprend une étape 21, au cours de laquelle l'usager enregistre une annotation vocale au moyen de l'appareil utilisé à l'étape 20.A voice recording phase comprises a step 21, during which the user records a voice annotation using the apparatus used in step 20.
Les étapes suivantes sont relatives à une phase de définition du vocabulaire à reconnaître.The following steps relate to a definition phase of the vocabulary to be recognized.
Lors de l'étape 22, des éléments de contexte sont définis à partir d'une ou plusieurs informations pouvant être fournies directement par l'usager lui-même (via une interface homme/machine 112 de type microphone, clavier, etc.), un système de positionnement de type GPS 113, ou encore par un module de traitement d'image 111 (information relative à une analyse d'image), un module de gestion de profils utilisateurs 116, etc.In step 22, context elements are defined from one or more information that can be provided directly by the user himself (via a human / machine interface 112 of the microphone, keyboard, etc. type). a positioning system of the GPS type 113, or by an image processing module 111 (information relating to an image analysis), a user profile management module 116, etc.
Lors de l'étape 23, on recherche à partir d'au moins un de ces éléments de contexte la langue utilisée par l'usager.In step 23, the language used by the user is searched from at least one of these context elements.
Ensuite, lors de l'étape 24, on recherche dans un système linguistique approprié 115 une liste de mots associés aux éléments de contexte, de façon à établir un vocabulaire à reconnaître.Next, during step 24, a list of words associated with the context elements is searched in an appropriate linguistic system 115, so as to establish a vocabulary to be recognized.
L'étape suivante est relative à une phase de génération d'index textuels. Enfin, lors de l'étape 25, l'activité vocale de l'usager est traitée par des moyens de reconnaissance vocale 12, de façon à effectuer une recherche dans l'annotation vocale précédemment enregistrée à l'étape 21 de mots ou expressions contenus dans le vocabulaire à reconnaître. Les mots ou expressions identifiés au cours de la recherche forment l'index textuel.The next step is related to a phase of generating textual indexes. Finally, during step 25, the voice activity of the user is processed by voice recognition means 12, so as to perform a search in the voice annotation previously recorded in step 21 of words or expressions contained in the vocabulary to be recognized. Words or phrases identified during the search form the textual index.
La figure 3 présente la structure d'un dispositif de génération d'index textuel 32 selon l'invention, qui comprend une mémoire 322, et une unité de traitement 321 équipée d'un microprocesseur μP, qui est piloté par un programme d'ordinateur (ou application) 323 mettant en œuvre le procédé selon l'invention. L'unité de traitement 321 reçoit en entrée une annotation vocale 31 associée à un ensemble d'images. Le microprocesseur μP traite cette annotation vocale, selon les instructions du programme 323, pour générer des index textuels 33 représentatifs des mots identifiés dans l'annotation vocale.FIG. 3 shows the structure of a text index generation device 32 according to the invention, which comprises a memory 322, and a processing unit 321 equipped with a microprocessor μP, which is controlled by a computer program (or application) 323 implementing the method according to the invention. The processing unit 321 receives as input a voice annotation 31 associated with a set of images. The microprocessor μP processes this voice annotation, according to the instructions of the program 323, to generate textual indexes 33 representative of the words identified in the voice annotation.
La figure 4 présente la structure d'un appareil de prise d'images 41 selon l'invention, qui comprend le dispositif de génération d'index textuel 32 décrit à la figure 3, et une unité de prise d'image 411 équipé d'un capteur d'image Ci, qui coopère avec une unité d'enregistrement vocale 412. L'unité de prise d'image 411 reçoit un signal représentatif d'une image 42 saisie par le capteur d'image Ci, et l'unité d'enregistrement vocale 412 reçoit un signal représentatif d'une annotation vocale 43. Ces deux signaux sont transmis vers le dispositif de génération d'index textuel 32, qui analyse dans un premier temps le signal représentatif d'une image, puis exploite le signal représentatif d'une annotation vocale, de façon à produire automatiquement des index textuels pertinents.FIG. 4 shows the structure of an image taking apparatus 41 according to the invention, which comprises the text index generating device 32 described in FIG. 3, and an image taking unit 411 equipped with an image sensor Ci, which cooperates with a voice recording unit 412. The image pickup unit 411 receives a signal representative of an image 42 captured by the image sensor Ci, and the image unit voice record 412 receives a signal representative of a voice annotation 43. These two signals are transmitted to the text index generator 32, which first analyzes the signal representative of an image and then uses the representative signal a voice annotation, so as to automatically produce relevant textual indexes.
La figure 5 présente la structure d'un appareil de gestion/vision d'images 51 selon l'invention, qui comprend le dispositif de génération d'index textuel 32 décrit à la figure 3, et une unité de gestion/vision d'image 511, qui coopère avec une unité d'enregistrement vocale 512. L'unité de gestion/vision d'image 511 capte une image 52 dans un contexte donné, l'unité d'enregistrement vocale 512 reçoit une annotation vocale 53 associée à cette image. Ces deux informations sont transmises vers le dispositif de génération d'index textuel 32, qui analyse dans un premier temps l'image captée, puis effectue une reconnaissance vocale dans l'annotation vocale, de façon à produire des index textuels représentatifs des mots identifiés dans l'annotation vocale. En résumé, l'invention propose un procédé de génération d'un index textuel associé à au moins une image à partir d'une annotation vocale, enregistrée au moyen d'un appareil de gestion/vision d'images ou d'un appareil de prise de vue numérique équipé d'un enregistreur d'annotations vocales. Ce procédé présente de nombreux avantages, dont celui de définir automatiquement un vocabulaire à reconnaître à partir d'un contexte (par exemple un thème saisi par l'utilisateur, une donnée GPS, un profil utilisateur, une analyse d'image, etc.), de façon à effectuer une recherche dans l'annotation vocale de mots ou d'expressions contenus dans un tel vocabulaire à reconnaître. FIG. 5 shows the structure of an image management / vision apparatus 51 according to the invention, which comprises the text index generating device 32 described in FIG. 3, and a management unit / image view. 511, which cooperates with a voice recording unit 512. The management unit / image view 511 captures an image 52 in a given context, the voice recording unit 512 receives a voice annotation 53 associated with this image . These two pieces of information are transmitted to the text index generating device 32, which initially analyzes the captured image, then performs a voice recognition in the voice annotation, so as to produce textual indexes representative of the words identified in the text. voice annotation. In summary, the invention proposes a method for generating a text index associated with at least one image from a voice annotation, recorded by means of an image management / viewing apparatus or a video recording device. digital shooting equipped with a voice memo recorder. This method has many advantages, including that of automatically defining a vocabulary to be recognized from a context (for example a theme entered by the user, a GPS data, a user profile, an image analysis, etc.). , so as to perform a search in the voice annotation of words or phrases contained in such a vocabulary to recognize.

Claims

REVENDICATIONS
1. Procédé de génération d'au moins un index textuel associé à un ensemble d'images comprenant au moins une image (14), à partir d'au moins une annotation vocale (15) préalablement associée audit ensemble d'images, ledit procédé comprenant une étape de reconnaissance vocale (25) appliquée à ladite au moins une annotation vocale (15) avec un vocabulaire à reconnaître (17) prédéterminé, de façon à effectuer une recherche dans ladite au moins une annotation vocale (15) d'au moins un mot contenu dans ledit vocabulaire à reconnaître (17), le ou les mots identifiés au cours de la recherche formant ledit index textuel (16), caractérisé en ce qu'il comprend une étape de définition dudit vocabulaire à reconnaître, comprenant elle-même : une étape de définition d'un contexte (22); une étape de recherche (24) dans un système linguistique d'une liste de mots associés audit contexte et formant ledit vocabulaire à reconnaître.A method of generating at least one text index associated with a set of images comprising at least one image (14), from at least one voice annotation (15) previously associated with said set of images, said method comprising a voice recognition step (25) applied to said at least one voice annotation (15) with a predetermined recognizable vocabulary (17), so as to search in said at least one voice annotation (15) of at least a word contained in said vocabulary to be recognized (17), the word or words identified during the search forming said textual index (16), characterized in that it comprises a step of defining said vocabulary to be recognized, including itself : a step of defining a context (22); a search step (24) in a linguistic system of a list of words associated with said context and forming said vocabulary to be recognized.
2. Procédé selon la revendication 1, caractérisé en ce que ledit ensemble d'images comprend au moins une photo (14) et/ou au moins une séquence vidéo.2. Method according to claim 1, characterized in that said set of images comprises at least one photo (14) and / or at least one video sequence.
3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ledit contexte comprend au moins un élément de contexte appartenant au groupe comprenant : au moins une information relative audit ensemble d'images, fournie par au moins un utilisateur grâce à une interface homme/machine3. Method according to any one of claims 1 and 2, characterized in that said context comprises at least one context element belonging to the group comprising: at least one information relating to said set of images, provided by at least one user through at a man / machine interface
(112) ; au moins une information relative à la position géographique du lieu de prise de vue dudit ensemble d'images, fournie par un dispositif de localisation (113) ; au moins une information relative audit ensemble d'images, résultant du traitement dudit ensemble d'images par un module d'analyse d'image (111) ; - au moins un profil d'utilisateur comprenant au moins une information de profil relative à un utilisateur ; au moins une information comprise dans un contexte par défaut. (112); at least one piece of information relating to the geographical position of the place of shooting of said set of images, provided by a location device (113); at least one information relating to said set of images, resulting from the processing of said set of images by an image analysis module (111); at least one user profile comprising at least one profile information relating to a user; at least one piece of information understood in a default context.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ledit procédé comprend une étape de sélection (23) d'un modèle de langage en fonction d'au moins un élément de contexte dudit contexte, et en ce que ladite étape de reconnaissance vocale (25) est effectuée en mode transcription, avec le modèle de langage sélectionné.4. Method according to any one of claims 1 to 3, characterized in that said method comprises a step of selecting (23) a language model according to at least one context element of said context, and in that said voice recognition step (25) is performed in transcription mode with the selected language model.
5. Produit programme d'ordinateur (323), caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé selon l'une quelconque des revendications 1 à 4, lorsque ledit programme est exécuté sur un ordinateur. Computer program product (323), characterized in that it comprises program code instructions for performing the steps of the method according to any one of claims 1 to 4, when said program is executed on a computer.
6. Moyen de stockage (322), éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 4.6. Storage medium (322), possibly totally or partially removable, readable by a computer, storing a set of instructions executable by said computer to implement the method according to any one of claims 1 to 4.
7. Dispositif de génération (32) d'au moins un index textuel associé à un ensemble d'images comprenant au moins une image, à partir d'au moins une annotation vocale préalablement associée audit ensemble d'images, ledit dispositif comprenant des moyens de reconnaissance vocale permettant, quand ils traitent ladite au moins une annotation vocale avec un vocabulaire à reconnaître prédéterminé, d'effectuer une recherche dans ladite au moins une annotation vocale d'au moins un mot contenu dans ledit vocabulaire à reconnaître, le ou les mots identifiés au cours de la recherche formant ledit index textuel, caractérisé en ce qu'il comprend des moyens de définition dudit vocabulaire à reconnaître, comprenant eux-mêmes : des moyens de définition d'un contexte ; - des moyens de recherche dans un système linguistique d'une liste de mots associés audit contexte et formant ledit vocabulaire à reconnaître.7. Device for generating (32) at least one textual index associated with a set of images comprising at least one image, from at least one voice annotation previously associated with said set of images, said device comprising means voice recognition system which, when they process said at least one voice annotation with a predetermined recognizable vocabulary, perform a search in said at least one voice annotation of at least one word contained in said vocabulary to be recognized, the word or words identified during the research forming said textual index, characterized in that it comprises means for defining said vocabulary to be recognized, comprising themselves: means for defining a context; means for searching in a linguistic system for a list of words associated with said context and forming said vocabulary to be recognized.
8. Appareil de prise d'images (41) et d'enregistrement d'annotations vocales associées, permettant de prendre un ensemble d'images comprenant au moins une image, et d'associer au moins une annotation vocale audit ensemble d'images, caractérisé en ce qu'il comprend un dispositif de génération (32) d'au moins un index textuel selon la revendication 7. Apparatus for taking pictures (41) and recording associated voice annotations, for taking a set of images comprising at least one image, and associating at least one voice annotation with said set of images, characterized in that it comprises a device (32) for generating at least one textual index according to claim 7.
9. Appareil de gestion/vision d'images (51) et d'enregistrement d'annotations vocales associées, permettant de recevoir un ensemble d'images comprenant au moins une image, et de recevoir ou générer au moins une annotation vocale associée audit ensemble d'images, caractérisé en ce qu'il comprend un dispositif de génération (32) d'au moins un index textuel selon la revendication 7. Apparatus for managing / viewing images (51) and recording associated voice annotations, for receiving a set of images comprising at least one image, and receiving or generating at least one voice annotation associated with said set of images, characterized in that it comprises a generating device (32) of at least one text index according to claim 7.
PCT/EP2006/050193 2005-01-19 2006-01-12 Method for generating a text-based index from a voice annotation WO2006077196A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP06704145A EP1839213A1 (en) 2005-01-19 2006-01-12 Method for generating a text-based index from a voice annotation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0500547 2005-01-19
FR0500547 2005-01-19

Publications (1)

Publication Number Publication Date
WO2006077196A1 true WO2006077196A1 (en) 2006-07-27

Family

ID=34981744

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/050193 WO2006077196A1 (en) 2005-01-19 2006-01-12 Method for generating a text-based index from a voice annotation

Country Status (2)

Country Link
EP (1) EP1839213A1 (en)
WO (1) WO2006077196A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008047028A1 (en) 2006-10-17 2008-04-24 France Telecom Method and system for determining a probability of presence of a person in at least one part of an image and corresponding computer program
EP2378440A1 (en) * 2010-04-15 2011-10-19 Sony Ericsson Mobile Communications AB System and method for location tracking using audio input
CN103425668A (en) * 2012-05-16 2013-12-04 联想(北京)有限公司 Information search method and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184196A1 (en) * 2001-06-04 2002-12-05 Lehmeier Michelle R. System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
WO2004008344A1 (en) 2002-07-09 2004-01-22 Laboratories For Information Technology Annotation of digital images using text
WO2004043029A2 (en) * 2002-11-08 2004-05-21 Aliope Limited Multimedia management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184196A1 (en) * 2001-06-04 2002-12-05 Lehmeier Michelle R. System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
WO2004008344A1 (en) 2002-07-09 2004-01-22 Laboratories For Information Technology Annotation of digital images using text
WO2004043029A2 (en) * 2002-11-08 2004-05-21 Aliope Limited Multimedia management

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008047028A1 (en) 2006-10-17 2008-04-24 France Telecom Method and system for determining a probability of presence of a person in at least one part of an image and corresponding computer program
EP2378440A1 (en) * 2010-04-15 2011-10-19 Sony Ericsson Mobile Communications AB System and method for location tracking using audio input
CN103425668A (en) * 2012-05-16 2013-12-04 联想(北京)有限公司 Information search method and electronic equipment

Also Published As

Publication number Publication date
EP1839213A1 (en) 2007-10-03

Similar Documents

Publication Publication Date Title
US7574453B2 (en) System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
WO2002067142A2 (en) Device for retrieving data from a knowledge-based text
JP3936243B2 (en) Method and system for segmenting and identifying events in an image using voice annotation
US20050289111A1 (en) Method and apparatus for processing metadata
US7451090B2 (en) Information processing device and information processing method
FR2910143A1 (en) METHOD FOR AUTOMATICALLY PREDICTING WORDS IN A TEXT ASSOCIATED WITH A MULTIMEDIA MESSAGE
WO2004062263A1 (en) Method and device which can be used automatically to annotate and search remote digital content
EP2164212A1 (en) Communication method and system for determining a sequence of services associated with a conversation
US20150371629A9 (en) System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
WO2006077196A1 (en) Method for generating a text-based index from a voice annotation
EP2851891B1 (en) Mobile user terminal and method for controlling such a terminal
FR2825556A1 (en) GENERATION OF A DESCRIPTION IN A TAGGING LANGUAGE OF A STRUCTURE OF MULTIMEDIA CONTENT
EP1339061A1 (en) Video editing method
WO2024146958A1 (en) Method for improving the processing of data shared by a plurality of users
FR2891071A1 (en) Visual animation e.g. slideshows generating method, involves extracting data, before being annotated by attributes, from multimedia database according to rules associated to composition template
EP2902927B1 (en) Method and device for labelling at least one multimedia object
EP2388973B1 (en) Method for automatic retrieval of attached documents in a multimedia publication.
FR2934694A1 (en) Multimedia documents i.e. photographs, indexing method for identifying person, involves enriching lattice to generate enriched lattice completed by indexed document by comparing index of document with intention of concept
FR3096157A1 (en) multidimensional textual content indexing process
FR3041125A1 (en) AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME
WO2022129760A2 (en) Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium
FR2867583A1 (en) Semantic, syntax and lexical electronic proof reader for e.g. dyslexic person, has vocal interaction module to select expression matching most phonetically with dictated expression automatically and replace wrong expression in digital text
CA3154695A1 (en) Method and system for editorializing digital audiovisual or audio recording content of an oral presentation
Chen et al. Using Speech Annotation for Home Digital Image Indexing and Retrieval
WO2007088254A1 (en) Structured, relational and incremental information system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
REEP Request for entry into the european phase

Ref document number: 2006704145

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006704145

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006704145

Country of ref document: EP