Procédé d'indexation et de comparaison de documents multimédia
La présente invention concerne un procédé d'indexation, de stockage et de comparaison de documents multimédia, qui permet notamment des applications à la recherche de documents multimédia archivés.
Avec la révolution du numérique, on assiste à une explosion sans précédent du volume de données à traiter et les documents à exploiter sont de plus en plus souvent de type multimédia, c'est-à-dire faisant appel de façon simultanée et interactive à plusieurs modes de représentation de l'information : images fixes ou animées, sons, textes, photos, signaux vidéo, graphiques vectoriels animés,... On connaît déjà différents procédés de compression de données,
Toutefois, dans le cas où l'on effectue une compression de l'ensemble de l'information contenue dans un document multimédia, les volumes de données à traiter restent considérables lorsqu'il s'agit de procéder à des archivages ou surtout à des comparaisons entre plusieurs documents multimédia afin de retrouver une information déterminée incluse dans ces documents multimédia.
L'invention vise à résoudre le problème de la gestion de volumes de données importantes au sein de documents multimédia et à permettre d'effectuer des comparaisons entre documents multimédia sans procéder à un traitement de l'ensemble des données, même comprimées, contenues dans ces documents multimédia à comparer.
Ces buts sont atteints, conformément à l'invention, grâce à un procédé de comparaison d'un premier et d'un second documents multimédia composites comportant chacun au moins deux médias élémentaires choisis parmi des catégories comprenant des images, des
sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant à chacun des premier et deuxième documents multimédia composites, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des premier et deuxième documents multimédia composites, c/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire du deuxième document multimédia, d/ pour l'hypergraphe de chaque média élémentaire du premier document multimédia, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire du deuxième document multimédia et expression des distances entre les médias élémentaires en fonction de ces coûts, e/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des premier et deuxième documents multimédia composites, f/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, g/ pour l'hypergraphe de l'ensemble des médias élémentaires du premier document multimédia, détermination du coût de l'opération d'édition procurant l'identification maximale ou quasi maximale avec un
hypergraphe de l'ensemble des médias élémentaires du deuxième document multimédia, et expression de la distance entre les premier et deuxième documents multimédia composites en fonction de ce coût.
Chaque média élémentaire peut être un document monomédia appartenant à une seule catégorie de médias ou un document multimédia comportant des sous-éléments appartenant à des catégories de médias différentes.
Selon un mode particulier de réalisation du procédé selon l'invention, les étapes c/ et d/ comprennent elles-mêmes les étapes suivantes : cl/ pour chaque média élémentaire du premier document multimédia à comparer à un média élémentaire du deuxième document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût intra-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, c2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe de chacun des médias élémentaires du premier document multimédia en un hypergraphe le plus proche possible de l'hypergraphe de chacun des médias élémentaires du deuxième document multimédia, dl/ détermination du coût de chaque transformation suivant les règles définies à l'étape cl, et d2/ sélection, pour chacun des médias élémentaires du premier document multimédia, de la transformation dont le coût est minimal.
De même, les étapes f/ et g/ peuvent elles-mêmes comprendre les étapes suivantes : fl/ pour l'ensemble des médias élémentaires du premier document multimédia à comparer aux médias élémentaires du deuxième
document multimédia, définition, en fonction des similarités recherchées, d'une fonction de coût inter-média basée sur un principe d'édition des hypergraphes faisant référence à une distance de similitude entre hypergraphes, f2/ exploration de l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du premier document multimédia composite en un hypergraphe le plus proche possible de l'hypergraphe du deuxième document multimédia composite, gl/ détermination du coût de chaque transformation suivant les règles définies à l'étape fl/, et g2/ sélection de la transformation dont le coût est minimal. Selon un autre mode particulier de réalisation du procédé selon l'invention, les étapes c/ et d/ comprennent la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
De façon similaire, les étapes f/ et g/ peuvent comprendre la mise en œuvre d'un procédé d'optimisation sub-optimale tel qu'un algorithme génétique, un traitement par réseau de neurones ou par recuit simulé, pour produire une transformation dont le coût est le plus faible possible par rapport au procédé d'optimisation retenu.
Selon un aspect particulier de l'invention, lors de la comparaison d'un premier document multimédia composite affecté d'un méta-identifiant et segmenté en méta-segments, on procède à une comparaison point-à- point des méta-segments de nature vectorielle au moyen d'une distance vectorielle choisie parmi les distances de type Euclidienne, Riemann avec paramètre L et Mahalanobis, de manière à produire des résultats constituant des scores d'appariement entre les méta-segments comparés
deux à deux, et on procède à une comparaison des méta-segments des hypergraphes et à la production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents.
Le procédé selon l'invention est avantageusement appliqué au stockage de documents multimédia dans une base de données, cette opération de stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des documents multimédia à archiver.
De façon plus particulière, dans le cadre d'un procédé de stockage de documents multimédia dans une base de données, l'adjonction d'un nouveau méta-identifiant correspondant à un document multimédia à archiver, dans une base de données comprenant déjà un ensemble de méta-identifiants et un ensemble d'objets intermédiaires représentant des parties des méta-identifiants destinées à être facilement reconnues comprend les étapes suivantes : i/ décomposition du nouveau méta-identifiant en méta- identifiants élémentaires codant les différents médias élémentaires contenus dans le document multimédia à archiver, ii/ construction d'un arbre de production des relations entre médias élémentaires, iii/ application récursive des étapes i/ et ii/ à chaque méta- identifiant élémentaire pour produire des arbres de production de relations au sein de chacun des médias élémentaires, les arbres étant stockés de façon indépendante, mais des relations d'inclusion étant ajoutées pour noter le lien entre un média élémentaire décrit dans l'arbre de production des relations entre les médias élémentaires et les constituants de ce
média élémentaire dans l'arbre de production des relations au sein de ce média élémentaire considéré.
De façon plus particulière, l'étape de décomposition du nouveau méta-identifiant s'effectue en parcourant intégralement l'hypergraphe associé à ce nouveau méta-identifiant et en sélectionnant les groupes de nœuds voisins dont le média support est identique.
Avantageusement, l'étape de construction d'un arbre de production des relations entre médias élémentaires comprend notamment les opérations suivantes : - construction d'un hypergraphe simplifié en associant un nœud à chaque méta-identifiant élémentaire et en recopiant des relations liant les nœuds des médias élémentaires à leurs méta-identifiants respectifs, avec suppression des relations de même nature reliant deux mêmes nœuds, - découpage de l'hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds,
- rangement en classes de sous-hypergraphes similaires ayant le même nombre de nœuds,
- caractérisation de chaque classe par un représentant unique détenteur des propriétés moyennes des éléments de la classe, et
- organisation de manière hiérarchique des classes précédemment définies au moyen de relations de similarité de parties de leurs représentants.
L'invention concerne encore un procédé appliqué à la recherche d'un document multimédia archivé dans une base de données caractérisé en ce qu'il comprend les étapes suivantes :
- présentation d'une requête composite comprenant elle-même des documents multimédia liés entre eux par des opérateurs logiques,
- affectation d'un méta-identifiant à chacun des documents multimédia de la base de données, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia concerné,
- affectation d'un méta-identifiant à la requête composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant la requête composite, - récursion sur les arbres secondaires de relations intra-média des médias élémentaires de chacun des documents multimédia de la base de données,
- récursion sur les arbres secondaires de relations intra-média des médias élémentaires de la requête composite, - récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de chacun des documents multimédia de la base de données,
- récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires de la requête composite, - production d'un hypergraphe global réunissant l'ensemble des hypergraphes de la requête composite reliés par lesdits opérateurs logiques,
- comparaison dudit hypergraphe global avec les hypergraphes des documents multimédia de la base de données selon les étapes suivantes :
- pour l'hypergraphe de chaque média élémentaire de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données,
- pour l'hypergraphe de chaque média élémentaire de la requête composite, détermination des coûts des opérations d'édition procurant les identifications maximales ou quasi maximales avec un hypergraphe d'un média élémentaire de chacun des documents multimédia de la base de données et expression des distances entre les médias élémentaires en fonction de ces coûts,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, opération de maximalisation de l'identification avec l'hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données,
- pour l'hypergraphe de l'ensemble des médias élémentaires de la requête composite, détermination des coûts des opérations d'édition procurant l'identification maximale ou quasi maximale avec un hypergraphe de l'ensemble des médias élémentaires de chacun des documents multimédia de la base de données, et expression des distances entre la requête composite et chacun de ces documents multimédia de la base de données en fonction de ce coût,
- organisation de la liste des documents multimédia de la base de données par ordre décroissant des coûts calculés précédemment. Selon une variante de réalisation, le procédé appliqué à la recherche d'un document multimédia archivé dans une base de données est caractérisé en ce que les étapes de traitement individuel des documents multimédia de la base de données sont effectuées préalablement à la présentation d'une requête composite et les résultat de ces étapes de traitement individuel sont conservés pour le traitement d'un ensemble de requêtes composites différentes, en ce que la base de données est organisée avec un stockage comprenant le rangement par classification hiérarchique automatique de branches communes, identiques ou quasi identiques, d'hypergraphes représentant les méta-identifiants des
documents multimédia à archiver, et en ce que, au lieu d'effectuer une comparaison de l'hypergraphe global de la requête composite avec les hypergraphes de l'ensemble des documents multimédia de la base de données, on procède à une recherche hiérarchique dans l'arborescence des classes des hypergraphes de l'ensemble des documents multimédia de la base de données et on effectue des comparaisons entre l'hypergraphe global de la requête composite et les représentants desdites classes.
L'invention a également pour objet un procédé d'indexation d'un document multimédia composite comportant au moins deux médias élémentaires choisis parmi les catégories comprenant des images, des sons, des signaux vidéo, des graphiques vectoriels animés et des textes, caractérisé en ce qu'il comprend les étapes suivantes : a/ affectation d'un méta-identifiant au document multimédia composite, lequel méta-identifiant inclut sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque des médias élémentaires composant le document multimédia composite, b/ récursion sur les arbres secondaires de relations intra-média des médias élémentaires du document multimédia composite, et c/ récursion sur l'arbre principal de production des relations inter-média entre les médias élémentaires du document multimédia composite.
D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, faite en référence aux dessins annexés, donnés à titre d'exemples, sur lesquels :
- la Figure 1 est un schéma montrant les différentes étapes d'un exemple de procédé selon l'invention permettant l'indexation d'un document multimédia, le stockage de ce document dans une base de
données et une requête d'interrogation de la base de données faisant appel à des comparaisons entre documents multimédia,
- la Figure 2 est un ensemble de diagrammes explicitant différentes étapes de l'indexation d'un document multimédia à archiver dans une base de données selon un procédé conforme à l'invention,
- la Figure 3 est un ensemble de diagrammes explicitant différentes étapes du processus de recherche d'un document multimédia stocké dans une base de données, à partir d'une requête, en mettant en œuvre un procédé de comparaison conforme à l'invention, - la Figure 4 est un exemple de graphe de représentation d'un document multimédia,
- la Figure 5 est un exemple de décomposition du graphe de la Figure 4 en éléments binaires,
- la Figure 6 est un exemple de graphe de production de relation, - la Figure 7 est un diagramme de comparaison entre des exemples de graphes de représentation de deux documents multimédia,
- la Figure 8 est un diagramme illustrant un processus de segmentation d'un document multimédia en composantes plus élémentaires, - les Figures 9 et 10 représentent l'application de deux méthodes différentes pour extraire des informations locales sur deux séries de quatre images,
- la Figure 11 est un diagramme illustrant un processus de recherche de document multimédia faisant appel à un procédé de comparaison selon l'invention,
- la Figure 12 est analogue à la Figure 11 mais montre un diagramme se présentant sous la forme d'un hypergraphe requête, et
- les Figures 13 et 14 montrent deux exemples de comparaison de sous-hypergraphes simples d'un graphe de recherche avec des sous- hypergraphes simples classés dans la base de données.
Le procédé selon l'invention permet d'obtenir, à partir d'un document multimédia de nature quelconque, une trace reconnaissable qui permet ensuite de reconnaître, par comparaison, l'emploi ou le réemploi de tout ou partie de ce document ou de variante de ce document au sein d'un autre document multimédia, sans qu'il soit nécessaire de traiter l'ensemble du contenu des documents multimédia soumis à des comparaisons. La mise en évidence et la conservation de la trace reconnaissable constituent une opération qui sera désignée par le terme d'enregistrement dans la suite de la description.
Le procédé de comparaison de documents selon l'invention peut être mis en œuvre aussi bien sur des supports de stockage localisés que de façon répartie sur un réseau et peut être appliqué notamment à la traque de documents.
Le procédé d'enregistrement de documents multimédia par le contenu, qui est un préalable aux opérations de comparaison entre documents multimédia, comprend essentiellement trois étapes successives.
La première étape est une étape de méta-segmentation qui consiste à analyser le document dans son intégralité de manière à extraire les éléments monomédia ou multimédia concrets ou abstraits.
Dans une deuxième étape, les métasegments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations qui identifient de manière univoque les contenus des métasegments.
Dans une troisième étape, il est produit un méta-identifiant, composé à partir des informations identifiant de manière univoque les
contenus des métasegments. Le méta-identifiant autorise l'identification par le contenu.
Par exemple, un ensemble de valeurs numériques peut représenter des informations concrètes telles que l'histogramme des couleurs contenues dans une image du document ou les moments de Zernike de parties du document. Des informations abstraites peuvent par ailleurs être stockées sous la forme de champs de texte liés indiquant par exemple la relation liant l'image et la légende d'une figure ou encore les mots recouvrant un même espace sémantique dans deux documents, l'un sonore et l'autre textuel, de documents multimédia.
Le procédé de traque met en œuvre une structuration particulière des méta-identifiants qui permet d'effectuer des comparaisons de méta- identifiants efficaces au sein d'un nombre élevé de documents multimédia. Les comparaisons peuvent s'effectuer par la pondération spécifique (au moyen de paramètres multiplicatifs adaptés à chaque média, provenant de listes établies a priori et par amélioration de ces listes apportées par chaque utilisateur (en changeant directement les valeurs ou en les faisant changer par un mécanisme d'apprentissage du type réseau de neurones basé sur le profil de l'utilisateur) d'algorithmes d'évaluation de similitude de méta-segments.
Le processus de méta-segmentation consiste à mettre en œuvre plusieurs algorithmes de traitements numériques sur les données numériques qui constituent le document multimédia. Ces algorithmes sont employés de manière concurrente et produisent des informations redondantes auxquelles sont affectées des pondérations respectives en fonction des taux de réussite ou d'échecs des différentes méthodes et en fonction des niveaux de confiance accordés.
Si l'on considère d'abord la Figure 1, on verra les étapes principales d'un procédé d'indexation d'un document multimédia devant être ajouté
dans une base de données (module 100) et les étapes principales d'un procédé de recherche d'un document multimédia dans une base de données avec un processus de comparaison entre une requête et les traces de documents multimédia stockés dans la base de données (module 200).
Le procédé d'indexation d'un document multimédia 101 à indexer comprend l'étape initiale 110 d'ajout du document considéré à une base de données 170, l'étape 110 consistant à analyser le document à indexer 101 de manière à extraire des médias élémentaires pouvant être des éléments monomédia appartenant à une seule catégorie de médias, ou des éléments multimédia comportant eux-même des sous-éléments appartenant à des catégories de médias différentes.
Le processus de méta-segmentation peut être effectué de manière récursive en combinant des analyses intra-média et des analyses inter- média.
Après l'étape 110 de méta-segmentation, dans des étapes 120 qui peuvent être traitées en parallèle, les méta-segments obtenus sont caractérisés au moyen de traitements numériques spécifiques destinés à identifier des catégories d'informations concrètes et abstraites qui identifient de manière univoque les contenus de ces méta-segments.
Au cours de l'étape suivante 130, il est produit un méta-identifiant composé à partir des informations caractérisant les méta-segments. Les étapes 140 et 150 mettent en œuvre un processus de structuration des méta-identifiants et de définition de la structure qui, par le processus d'enregistrement du document de l'étape 160, sera intégrée dans la base de données 170.
L'étape 180 représente un processus d'amélioration de la représentation interne de la base de données 170 après adjonction de la structure S caractérisant le document 101, en procédant à des compa-
raisons avec les structures de documents multimédia précédemment enregistrées.
Le procédé de recherche d'un document multimédia illustré dans le module 200 comprend la présentation d'une requête 201 de recherche d'un document multimédia à retrouver.
La requête 201 est appliquée à une étape initiale 210 d'entrée qui, comme l'étape 100, constitue une étape d'analyse et de méta- segmentation pour extraire des médias élémentaires de la requête composite 201. La caractérisation des méta-segments de la requête composite 201 s'effectue dans une étape 220 qui est analogue à l'étape 120 du procédé d'indexation, et est elle-même suivie d'une étape 230 de production de méta-identifiants à partir des méta-segments, de façon analogue à l'étape 130. Les étapes suivantes 240 et 252, comme les étapes 140 et 150, mettent en œuvre un processus de structuration des méta-identifiants et de définition de la structure S qui sera comparée aux structures S de documents multimédia stockées dans la base de données 270 qui a été réorganisée après chaque ajout de nouveau document.
L'étape 260 consiste en une comparaison entre la structure S issue de la requête composite 201 et les structures S stockées dans la base de données 270, par évaluation de similitude de chaque méta-segment.
L'étape 280 consiste en une pondération de comparaison de méta- identifiants et l'étape 290 consiste en la présentation d'une liste de documents multimédia pertinents avec des scores.
Le mécanisme de méta-identifiant qui est mis en œuvre dans le procédé selon l'invention permet de représenter les caractéristiques de chaque média contenu au sein d'un document multimédia ainsi que la structure des relations complexes qui associent ces différents éléments. Ce mécanisme est hiérarchique avec un nombre de niveaux d'imbrication variable suivant la complexité du document multimédia. Son codage se
présente sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds. Les pondérations sur les nœuds et les arcs se présentent sous la forme de tenseurs de nombre codés en virgule flottante ou d'entiers. Chaque nœud représente une caractéristique qui pourra être considérée comme élémentaire au niveau correspondant de décomposition de cette hiérarchie. Au niveau le plus bas, il peut s'agir par exemple d'un ensemble de critères d'analyse du document : pour une image, il pourra s'agir de moments de Zernike calculés localement, d'histogrammes de couleurs, d'IFS (systèmes de fonctions itérées) ou de toute autre caractéristique locale dont des exemples seront donnés plus loin. A un niveau plus élevé, il s'agira de l'hypergraphe de caractéristiques de la partie du média analysé qui est symbolisé par ce nœud. Les arcs entre les nœuds représentent les relations structurelles qui relient les caractéristiques. Elles peuvent être de plusieurs natures : logiques (par exemple un nœud représentant un texte est la légende d'un autre nœud qui représente une figure), géométriques (par exemple un objet segmenté (nœud A) est à 50 pixels à droite de tel autre objet (nœud B)), abstraites (par exemple un nœud-texte contient un vocabulaire sémantiquement proche d'un autre nœud-texte). Les méta-identifiants incluant, sous la forme d'un hypergraphe pondéré de nœuds et de relations entre ces nœuds, des méta-segments identifiant de façon univoque les médias élémentaires, constituent des informations compactes capables de décrire les documents multimédia et à même de permettre la distinction ou l'identification de deux documents en autorisant la mesure de la similitude potentielle entre deux documents multimédia sans constituer pour autant une compression de l'ensemble de l'information contenue dans les documents qu'elles permettent d'identifier. Les méta-identifiants représentent ainsi un volume de données largement inférieur à celui des documents à partir desquels ils sont produits.
Le procédé d'indexation et de recherche illustré sur la Figure 1 sera à nouveau décrit dans sa généralité en se référant à un exemple particulier illustré sur les Figures 2 et 3.
On voit sur la Figure 2 l'illustration du processus d'indexation d'un document multimédia 10 dont l'analyse révèle qu'il comprend un premier média élémentaire 11 constitué par une image et deux autres médias élémentaires 12 et 13 constitués chacun par une partie textuelle. Suite au processus de méta-segmentation, les médias élémentaires 11 à 13 sont extraits du document multimédia 10 et constituent des méta-segments qui sont caractérisés au moyen de traitements numériques spécifiques adaptés au média concerné (texte ou image). Des relations inter-média 21 à 25 sont mises en évidence entre les médias élémentaires 11 à 13, tandis qu'au sein de chaque média élémentaire, des relations intra-média sont identifiées. A titre d'exemple, on a représenté trois composants 31, 32, 33 résultant de la segmentation de l'image 11 et donnant lieu à des relations intra-média 41 à 43.
Dans la séquence illustrée sur la Figure 2, on voit d'abord des hypergraphes de relations inter-média 21 à 25, puis l'incorporation de relations intra-média 41 à 43 au sein de l'image 11, puis enfin l'incorporation de relations intra-média 44, 45 au sein des blocs de texte 12 et 13.
La Figure 3 illustre un processus de recherche d'un document multimédia à partir d'une requête composite, appliqué au même exemple que celui de la Figure 2. La requête composite comprend la recherche d'un document multimédia dans lequel il existe d'une part une image 51 associée à un bloc de texte 52 et d'autre part la même image 51 associée à un autre bloc de texte 53. Chacune des parties de la requête composite liées par l'opérateur ET est traduite en une signature de méta-segments 51, 52
respectivement 51, 53 et ces méta-segments sont organisés en hypergraphes avec des relations intra-média 41 à 45 et inter-média 21, 22. Après réunion des hypergraphes correspondant à chacune des parties de la requête composite, il est procédé dans l'étape 60 à une comparaison de l'hypergraphe résultant de la requête composite et des hypergraphes des documents multimédia stockés dans la base de données, le meilleur score étant produit par la comparaison avec l'hypergraphe associé au document 10. La production du résultat à l'étape 70 fait apparaître le document 10 et un score d'appariement 71. On décrira maintenant de façon plus particulière en référence aux
Figures 4 à 6 le processus d'enregistrement d'un document multimédia dans une base de données et le processus d'amélioration de la représentation interne d'une base de données après ajout de nouveaux documents, par une méthode de comparaison entre documents. Pour permettre un accès rapide aux données multimédia contenues dans une base de données à partir de méta-identifiants conformément à l'invention, il est nécessaire d'effectuer un pré-rangement de ces méta- identifiants, qui sera dénommé "Agencement" et de construire des objets intermédiaires capables d'autoriser une comparaison rapide des méta- identifiants.
La base de données est composée originellement d'un ensemble de méta-identifiants et d'un ensemble d'objets intermédiaires qui vont représenter des parties des méta-identifiants destinées à être facilement reconnues. L'ajout d'un nouveau méta-identifiant dans la base s'effectue suivant le schéma d'insertion suivant : a/ décomposition du méta-identifiant en méta-identifiants codant les différents médias contenus dans l'objet (c'est-à-dire des identifiants monomédia). Cette décomposition s'effectue en parcourant
intégralement l'hypergraphe et en sélectionnant les groupes de nœuds voisins dont le média support est identique. b/ construction d'un arbre de production des relations entre médias. Cette opération s'effectue en associant un nœud à chaque identifiant monomédia et en recopiant les relations liant les nœuds de ces monomédias à leur identifiant respectif. Les relations de même nature qui lient deux mêmes nœuds sont supprimées (réduction de redondance). On obtient ainsi un hypergraphe simplifié et une approximation des relations existant dans le document multimédia complet. On découpe ensuite cet hypergraphe en sous-hypergraphes connexes par nombre croissant de nœuds. On obtient ainsi tous les sous-hypergraphes de deux nœuds inclus dans l'hypergraphe. On recherche ensuite les sous-hypergraphes similaires au moyen d'une comparaison point-à-point, un sous-hypergraphe étant comparé à un autre sous-hypergraphe pour toutes les combinaisons de sous-hypergraphes de même nombre d'éléments. On classe par catégorie les sous-hypergraphes similaires et on leur associe un codage entropique : à chaque classe est associée une représentation de longueur inversement proportionnelle au nombre de sous-hypergraphes similaires au sein de cette classe. On ne retient que l'ensemble des classes de sous- hypergraphes d'une longueur de représentation inférieure à une valeur fixée à l'avance. On recommence le processus pour tous les sous- hypergraphes de trois nœuds dont un sous-hypergraphe de deux nœuds appartient à l'ensemble ainsi sélectionné, et ainsi de suite pour quatre nœuds, etc. jusqu'à une limite fixée à l'avance pour éviter l'explosion combinatoire ou jusqu'à ce qu'il ne reste plus de nœuds dans l'hypergraphe du méta-identifiant analysé. Pour chaque méta-identifiant, on relie alors les classes de sous-hypergraphes par des arcs pondérés qui vont contenir l'information d'instantiation de ce méta-identifiant. L'ensemble des arcs entre toutes les classes de la base construit un
arbre : c'est l'arbre de production des relations entre médias. Si l'on a arrêté le processus d'analyse avant la limite fixée (c'est-à-dire que l'on s'est arrêté par épuisement des nœuds à traiter), on obtient la propriété suivante : un trajet au sein de cet arbre de la racine jusqu'à une feuille représente un méta-identifiant. Si ce n'est pas le cas, il faut rajouter un nœud qui va relier l'ensemble des sous-hypergraphes de valeur terminale par un arc contenant dans sa pondération les informations permettant la reconstitution du reste de l'arbre. c/ le même processus est appliqué au sein de chaque identifiant de monomédia pour produire un arbre pour chaque média : il s'agit de l'arbre de production de relations au sein de ce média. Ces différents arbres sont stockés indépendamment, mais on ajoute des relations d'inclusions pour noter le lien entre un média décrit dans l'arbre de production des relations entre les médias et les constituants de ce média dans l'arbre de production des relations au sein du média correspondant. Cette relation est obtenue en recopiant l'arc original du méta-identifiant qui traduit cette relation.
Il est à noter que chacun des arbres ainsi considérés possède comme nœuds des hypergraphes de relations. La base de données est alors constituée d'un arbre principal codant les relations entre les médias au sein des documents et d'arbres secondaires codant pour chacun des médias. Chaque méta-identifiant (et donc chaque document) est représenté de manière unique au moyen d'un trajet au sein de l'arbre principal et d'un ou plusieurs trajets dans les arbres secondaires nécessaires en fonction des médias employés.
Cette structure est également employée lors de l'estimation de similarité entre méta-identifiants (c'est-à-dire entre documents).
La Figure 4 représente le graphe de représentation d'un document multimédia avec à titre d'exemple, des éléments A et B liés par une
première relation 301, des éléments C et D liés par cette même relation 301, les éléments A et C d'une part et B et D d'autre part étant chacun liés par une même relation 302 différente de la relation 301. L'élément D est lui-même relié à un autre élément E par une troisième relation 303. La Figure 5 montre la décomposition du graphe de la Figure 4 en éléments binaires. Les éléments liés par la relation 301 appartiennent à une classe Bl. Les éléments liés par la relation 302 appartiennent à une classe B2. Les éléments liés par la relation 303 appartiennent à une classe B3. La Figure 6 montre le graphe de production de relations avec des liaisons entre une classe C4 d'éléments liés à la fois par la relation 301 et la relation 302 et d'une part la classe Bl des éléments reliés par la seule relation 301 et d'autre part la classe B2 des éléments reliés par la seule relation 302. On décrira maintenant de façon générale le processus de comparaison de méta-identifiants.
La similarité entre deux méta-identifiants nécessite de comparer à la fois chacun de ces composants (nœuds et arcs avec leurs pondérations), les relations qui les lient et enfin d'associer une distance synthétique à l'ensemble de ceux-ci.
Le calcul de la similarité s'effectue au moyen de méthodes récursives sur les éléments de l'hypergraphe du méta-identifiant. Une fonction de coût basée sur un principe d'édition des hypergraphes (cf. String-edit ou graph-edit) est appliquée pour déterminer la distance entre les hypergraphes pondérés des deux méta-identifiants. On calcule l'opération d'édition qui procure l'identification maximale entre ces deux hypergraphes. Le coût de cette opération constitue la distance de similitude entre les deux méta-identifiants.
De façon plus détaillée, la comparaison de documents multimédia au moyen de leurs méta-identifiants s'effectue de la façon suivante :
Le processus est composé de deux boucles opératoires imbriquées : la première est une récursion au sein de chaque média élémentaire au sein des documents composites, la seconde est une récursion sur tous les médias élémentaires dans les documents composites.
Pour déterminer la distance entre deux documents composites A et
B : on cherche à trouver l'identification la plus forte possible entre les parties des documents composites et les transformations de coût le plus faible possible pour transformer un document composite A en un document composite B.
Les transformations autorisées pour passer d'un document A à un document B sont les opérations d'éditions : ajout d'un lien, d'une branche ou d'une feuille terminale, suppression d'un lien, d'une branche ou d'une feuille terminale, changement du contenu d'une branche ou d'une feuille terminale.
La notion de coût associé à ces opérations d'éditions dépend de règles fixées à l'avance (étapes b/ et 1/ définies ci-dessous), par exemple le changement du contenu d'une feuille terminale peut se mesurer comme la distance entre le contenu d'origine et le contenu d'arrivée pondéré par un coefficient (1 par exemple). La distance entre les contenus est la distance s'appliquant à la caractérisation du média, par exemple la distance de similarité visuelle (Zernike + Mahalanobis) pour des images. Enfin, plusieurs opérations de transformations peuvent permettre de passer d'un document A vers un document B, par exemple si A et B se distinguent par une branche contenant un média u dans A et un média v dans B, on peut appliquer : i/ soit la transformation "changement de u en v",
ii/ soit la transformation "suppression de u" suivie de la transformation "addition de v"
Le coût de ces deux opérations n'est, a priori, pas identique. On conservera la transformation dont le coût est le plus faible. Pour ce faire on pourra explorer toutes les possibilités non-dégénératives de manière extensive (long, mais précis), ou au contraire on pourra exploiter une méthode classique d'optimisation sub-optimale qui fournira une solution approchée, et donc un coût de transformation approché, donc une valeur approchée de la distance, mais suffisante (rapide, mais moins précis). Le processus détaillé de comparaison est le suivant : a/ récursion sur les médias élémentaires (arbres secondaires), b/ définition de la fonction de coût intra-média en fonction des similarités recherchées, c/ mécanisme de maximalisation de l'identification pour chaque média élémentaire : 2 options : d/ première option : méthode optimale e/ on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du média M en l'hypergraphe du média L, f/ on détermine le coût de chaque transformation suivant les règles définies en b/, g/ on sélectionne la transformation dont le coût est minimal, h/ deuxième option : méthode sub-optimale i/ on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc.) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. l la distance entre les médias élémentaires est le coût de l'opération d'édition optimale ou sub-optimale trouvée, les opérations de
transformations retenues sont celles correspondant à cette opération d'édition, k/ récursion sur l'arbre de production des relations entre les média (arbre principal), 1/ définition de la fonction de coût inter-média en fonction des similarités recherchées, m/ mécanisme de maximalisation de l'identification entre les médias élémentaires : 2 options : n/ première option : méthode optimale o/ on explore l'ensemble des transformations possibles qui permettent de transformer l'hypergraphe du document composite A en l'hypergraphe du document composite B, p/ on détermine le coût de chaque transformation suivant les règles définies en I/, q/ on sélectionne la transformation dont le coût est minimal, r/ deuxième option : méthode sub-optimale s/ on exploite un algorithme d'optimisation sub-optimale (algorithme générique, réseau de neurones, recuit simulé, etc.) pour produire une transformation dont le coût est le plus faible possible par rapport à la méthode retenue. t/ la distance entre les documents composites est le coût de l'opération d'édition optimale ou sub-optimale trouvée.
La Figure 7 montre un exemple de détermination de la distance entre deux documents composites. Le graphe du document 1 comprend des éléments A et B liés à un élément C.
Le graphe du document 2 comprend des éléments A', B et D liés à un élément C.
Lors de la transformation du document 1 en document 2, on constate que les éléments C et B sont identiques dans les deux documents
1 et 2 et qu'il y a un changement de l'élément A en élément A' quand on passe du document 1 au document 2. De plus, dans le document 2 il y a l'ajout d'un élément D lié à l'élément C.
Le coût des transformations, c'est-à-dire la distance entre les deux documents composites 1 et 2 peut s'exprimer de la façon suivante : Coût du changement de A en A' : || A-A' || *2.0 Coût de l'ajout de D : val(D)*5.0 Coût de B-> B : 0
Coût de C-> C : 0
Coût total transformation = 2.0*||A-A'|| + val(D)*5.0 La comparaison de documents multimédia par la comparaison des méta-segments ou méta-identifiants qui les identifient comprend essen- tiellement les trois phases suivantes :
a/ production de la segmentation en méta-segment (signature) de chacun des documents à comparer selon la méthode décrite précédemment, b/ comparaison point-à-point des méta-segments de nature vectorielle au moyen d'une distance vectorielle : i/ Distance vectorielle : on emploie une distance de type : a. Euclidienne V(∑Xi2) b. Riemann avec paramètre L : (∑XjL) c. Mahalanobis. j/ Normalisation de cette distance par rapport à une distribution moyenne estimée par rapport à une base de documents multimédia de référence, plusieurs options sont possibles : a. Pas de normalisation,
b. Normalisation en moyenne de valeur : chaque valeur de distance calculée dans l'étape précédente est divisée par la moyenne des distances vectorielles calculées entre toutes les images de la base de références prises couple d'images par couple d'images. k/ Le résultat sera dénommé score d'appariement entre les deux méta-segments comparés.
c/ comparaison des méta-segments des hypergraphes et production d'un score synthétique de distance entre les documents en pondérant les résultats des comparaisons point-à-point des méta-segments par la probabilité d'appariement entre chaque branche correspondante des arbres des deux documents. Pour ce faire on procède comme suit : i/ on choisit les paramètres de la distance d'hypergraphes que l'on souhaite appliquer :
1. la distance d'hypergraphes se caractérise par la définition de règles de coût pour les opérations d'édition de graphes : ajout d'un nœud, suppression d'un nœud, ajout d'un lien, suppression d'un lien. 2. pour chacune de ces opérations on peut donner un coût. Plusieurs variantes sont possibles : a. uniforme : coût égal pour toutes les opérations d'éditions, b. hyper-uniforme : coût égal pour toutes les opérations d'éditions à un même niveau d'hypergraphes à ce niveau d'hypergraphes, c. variable : coûts paramétrisés manuellement en fonction d'expérimentation sur la nature des documents modélisés.
ii/ On calcule la somme des coûts qui s'applique pour transformer l'arbre du premier document dans l'arbre du second document. Si plusieurs transformations peuvent s'appliquer, on choisira la somme de valeur minimale. Pour simplifier ce calcul, on peut choisir d'appliquer une règle de calcul de ces coûts basée sur un processus sub-optimal et se satisfaire de ce résultat. iii/ La somme minimale ou sub-minimale des coûts constitue le score d'appariement des deux documents.
On décrira maintenant en référence aux Figures 11 à 14 la comparaison de méta-segments ou méta-identifiants avec une requête dans un processus de recherche de document dans une base de données.
Une requête exprimée dans le langage de requête référencé () est traduite en une signature de méta-segments vectoriels dont la valeur correspond à l'index de la requête atomique. L'organisation en hypergraphes de ces méta-segments s'effectue en décrivant la requête sous forme d'hypergraphes de relations entre les requêtes atomiques et en traduisant les opérateurs de relations de la requête de la manière suivante :
Opérateur a ET b : production d'un nœud d'hypergraphe parent auquel sont rattachés les nœuds méta-segments vectoriels a et b.
Opérateur a OU b : production de deux hypergraphes distincts avec a dans l'un et b dans l'autre en lieu et place du nœud (a OU b). Opérateur NON a : remplacement par le nœud a avec ajout d'un drapeau représentant le signe de la présence de a (localement).
La comparaison de la signature s'effectue de la même manière qu'à l'étape précédente excepté pour la comparaison du drapeau encodant le signe : le score produit par la comparaison de chaque branche est
pondéré par le signe du nœud suivant la relation : (1- score/norme(score)). D'autres formules peuvent cependant être employées (telles qu'une formule de binarisation comme (score/norme(score)>seuil)?(-l) ;(0)), etc.). Ce processus est illustré sur les Figures 11 à 14 par un cas type : soit trois médias atomiques a,b,c : a et b sont des textes, c est une image. On recherche tous les documents présentant des images ressemblant à c, dont la légende contient le texte a ou le texte b. On recherche donc la formule "(a ou b) et c", mais avec en plus la condition que la nature du lien qui doit relier a ou b avec c doit être de type "est la légende de". Ceci est décrit en termes d'hypergraphes sur la Figure li a titre d'exemple.
La Figure 12 montre une traduction sous la forme d'un hypergraphe requête.
On compare alors ces hypergraphes avec les hypergraphes présents dans la base de documents, avec un exemple illustré sur les Figures 13 et 14 : on compare récursivement les sous-hypergraphes simples du graphe de recherche avec les sous-hypergraphes simples classés de la base, en commençant par les éléments atomiques : image et textes : Exemple de calcul de deux documents qui ne contiendraient chacun que l'une des deux options : A et C pour le premier et C et B pour le second. Le lien produit par sa comparaison un score 1.00 car il est strictement celui demandé par la requête.
On décrira maintenant un exemple d'analyse intra-média appliqué à des médias imagés dans le cadre de la production d'un méta-identifiant local du média imagé.
Un média imagé présente plusieurs catégories d'éléments qui peuvent permettre de le caractériser. Il est utile pour identifier un tel document de pouvoir mettre en relation les éléments extraits de ces différentes catégories.
Au sein des médias imagés (photographies, schémas, plans, dessins,...) différentes caractéristiques sont employées de manière hiérarchique pour constituer le méta-identifiant local du média-imagé. Ce méta-identifiant pourra lui-même être inclus dans le méta-identifiant du document multimédia dans lequel le média imagé est enfoui. On parlera d'image dans la suite pour signifier de manière générique le média imagé.
Le processus de construction d'un méta-identifiant de l'image se décompose en quatre parties. Il est appliqué de manière récursive sur chaque partie de l'image considérée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment. Plusieurs segmentations sont employées simultanément :
» segmentation par texture (méthodes classiques), • segmentation par objet,
* segmentation par échelle (méthode des ondelettes).
2. La seconde partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties.
4. La quatrième partie, enfin, consiste à réappliquer récursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d' "inclusions d'objets" entre les nœuds du méta-identifiant de la partie à inclure et celui ou ceux de l'hypergraphe du niveau précédent qui correspond(ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties.
Les parties d'images peuvent être caractérisées au moyen de points d'appui
Le but de cette technique est de fournir un outil permettant d'archiver de façon efficace des médias pour lesquels les techniques de gestion de bases de données classiques ne sont pas applicables. Par exemple, l'indexation d'images dans des bases de données actuelles nécessite la description de chaque image en langage naturel, en utilisant un corpus textuel d'expressions définies. La photographie d'un tableau peut être indexée en utilisant des mots-clés tels que "le tableau contient : un crâne, deux personnages en costumes de la Renaissance, avec un arrière-plan composé d'une table, d'un compas et de cartes, et de tapisseries". Habituellement, un tableau, pour continuer avec le même exemple, sera décrit en utilisant ses caractéristiques physiques, telles que la taille de la toile, le type de support (toile, bois,...) et la matière de la peinture (huile,...). Il est très utile d'avoir de telles informations dans la base de données mais ce n'est pas suffisant pour aider par exemple à identifier rapidement un tableau volé. Au contraire, il est plus intéressant de pouvoir identifier une image à partir d'une autre image en utilisant les caractéristiques locales et globales des textures et des contours. La comparaison d'images peut être effectuée en utilisant des caractéristiques locales (moments de Zernike ou IFS) pour exploiter de façon précise le contenu d'une image. On peut utiliser une grille adaptatrice, basée sur les points d'intérêt ou points d'appui (extraits d'un détecteur de Stephen- Harris) pour produire des caractéristiques locales qui sont stockées dans la base de données en tant que clés permettant de retrouver l'image.
Les Figures 9 et 10 font apparaître le concept et les avantages des grilles adaptatives permettant l'extraction d'une information locale. On voit que dans le cas de la Figure 9, pour les quatre dessins différents, le contenu de chaque partie de la partition est différent de sorte que les
signatures seront différentes. Au contraire, dans le cas de la Figure 10, pour les quatre dessins différents, la partition et le contenu de la partition restent les mêmes, de sorte que les signatures seront très proches.
Une telle technique peut être utilisée pour des documents comprenant à la fois des images et des textes à condition de préserver l'organisation structurelle des documents composites. Les sons peuvent également être analysés et indexés en suivant le même principe. Les signaux vidéo (grâce à la représentation et les technologies de mosaïque) ou d'autres objets multimédia peuvent également être traités de la même manière dès lors qu'ils présentent une structure composite formée de médias de base.
Le processus de construction d'un méta-identifiant d'une image, qui se décompose en quatre parties, sera exposé ci-dessous de façon plus détaillée.
1. Le premier niveau d'analyse consiste à segmenter le média en composantes analysables indépendamment qui peuvent être dénommées "composantes caractéristiques". Plusieurs segmentations sont employées : là encore le principe de la liste ordonnée est appliqué. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées.
segmentation par texture : au moyen de filtrages, gradients et seuillages on détermine une segmentation en région : » matrices de co-occurrences et indices de texture,
• moments à plusieurs ordres,
• méthode de corrélations d'histogrammes locaux, » etc. segmentation par objets : « segmentation par blocs,
• méthode Markovienne non-supervisée, par formation de germes, ou par croissance de régions de bas niveau, ou par croissance de régions de haut niveau, méthode Markovienne semi-supervisée, etc. segmentation par échelle : méthode par Transformée en Ondelettes, méthode par Paquets d'Ondelettes, méthodes pyramidales géométriques basées sur le voisinage, segmentation par contours : filtrage Sobel, filtrage par Prewitt, filtrage directionnel de Kirsch opérateur de Hueartas-Médioni, opérateur de Marr, filtrage optimal de Canny, filtre de Deriche, filtre de Shen, gradient morphologique, méthode dite de la "ligne de partage des eaux", opérateur de Haralick,
« opérateur de Hueckel. Autres stratégies : une fois déterminées les caractéristiques qui vont localement caractériser le signal présenté à la phase suivante de ce processus, on peut appliquer une méthode de groupement statistique de données (groupement k-mean, réduction en composantes principales, analyse en valeurs singulières, analyse à N-sigma) pour effectuer ou corriger ces segmentations.
2. La deuxième partie consiste à créer un identifiant local capable de caractériser chacune des parties séparément. Elle emploie pour ce faire une ou plusieurs méthodes d'une liste pré-établie en employant toujours le principe de la liste ordonnée. Ces méthodes doivent être employées de la manière suivante au sein du processus : en fonction de la nature des documents multimédia analysés et des caractéristiques externes du traitement, telles que les contraintes de vitesse, de place mémoire, etc., une liste ordonnée des méthodes à employer prioritairement est établie à partir d'une liste de méthodes telles que les méthodes présentées ci-dessous. Les méthodes les mieux classées de cette liste sont appliquées jusqu'à un seuil dépendant des contraintes précédemment indiquées :
- Histogramme global à n points : un vecteur représentant un échantillonnage sur n valeurs (équidistantes ou non) de l'histogramme de l'image. - Histogramme local à n points : idem sur un voisinage d'un point (de forme quelconque : disque, polygone, béziers, etc. dépendant ou non du contenu ou des autres composants caractéristiques).
Fonctions statistiques locales descriptives du contenu ou de son orientation : coefficients de Zernike, Hough, moments, etc. calculés sur des voisinages (cf. cas précédent).
Fonctions multi-échelle : ondelettes, Haar calculées sur l'ensemble de l'image ou sur un voisinage.
Fonctions caractérisant la forme ou les invariants de formes caractéristique extraites de l'image : par exemple, extraction par squelettisation et binarisation de courbes dont les invariants sont mesurés par Fourrier-Meulin. Les parties produites à la phase précédente sont indifféremment : des points, des lignes ou des contours, des régions. Les caractéristiques vont donc être associées à ces trois catégories : caractérisation des points :
- par leurs coordonnées,
- par les propriétés locales du voisinage de ces points (voisinages de plusieurs natures : triangulation, carrés, rectangles ; également de plusieurs tailles : dépendant de la résolution de l'image, de la complexité des calculs, de la portée des filtres ou des polynômes) moments de polynômes (Zernike, Tchebichev, etc.) histogrammes basés sur un modèle de couleur (modèle HSV, modèle RGB, etc.
caractérisation des lignes ou des contours :
- par leurs points et les coordonnées de ceux-ci,
- par leur géométrie : on calcule l'interpolation par une courbe analytique courante (exemple : b-spline, polynômes,...) et on représente les facteurs propres de cette courbe,
- par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche, le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus.
caractérisation des régions :
- par leurs points et les coordonnées de ceux-ci,
- par leur géométrie : on calcule l'interpolation par une surface analytique courante (exemple : 2D-b-spline, polynômes 2D,...) et on représente les facteurs propres de cette surface,
- par les propriétés locales calculées au voisinage de ces points : les méthodes sont les mêmes que dans la liste ci-dessus ; en revanche le voisinage est plus complexe : il apparaît comme la composition des voisinages ci-dessus ou plus simplement comme la surface englobée par la région de l'image-média.
3. La troisième partie consiste à extraire les relations structurelles reliant ces parties selon un processus analogue à celui décrit plus loin en relation avec une analyse extra-média.
4. La quatrième partie, enfin, consiste à réappliquer recursivement le processus d'analyse ainsi défini sur chacune des parties. Le méta- identifiant construit pour chacune des parties est inclus par addition d'arcs codant des relations d' "inclusions d'objets" entre les nœuds du méta-identifiant de la partie à inclure et celui ou ceux du graphe du niveau précédent qui correspond(ent) à cette partie. Le processus s'arrête soit en fonction d'un niveau maximum fixé à l'avance, soit lorsque les méthodes de segmentation ne produisent plus de nouvelles parties.
On donnera ci-dessous un exemple de caractérisation des parties d'image-médias au moyen de points d'appui employés au sein du précédent système. Diverses méthodes de caractérisation locale ou globale peuvent être employées pour produire les pondérations des méta-identifiants. Les caractéristiques extraites dans le contexte de l'indexation d'image-médias peuvent être séparées en caractéristiques globales et en caractéristiques locales. Les caractéristiques globales correspondent à l'aspect global de l'organisation de l'image-média. Par exemple dans une description colorimétrique d'une base de photographies, les couchers de soleil peuvent se représenter par la répartition dans l'image-média d'une couleur rouge dans la partie supérieure de l'image-média sur laquelle se détache un arc de cercle plus ou moins orange. Bien entendu une telle description est approximative, ne permet pas de retrouver toutes les images-médias de coucher de soleil (erreur par omission) et sélectionne des images- médias qui ne seront pas des couchers de soleil (erreur de type bruit). Les méthodes locales nécessitent d'extraire des propriétés invariantes de chaque image-média de façon à pouvoir les comparer. Sur l'exemple des Figures 9 et 10, on présente deux méthodes. L'une, non robuste à des changements de prise de vue, est basée sur un maillage absolu (Figure 9), l'autre, sur la Figure 10, utilise une détection de points d'intérêts, suivie d'une triangulation pour extraire des mailles sur lesquelles seront calculées des caractéristiques locales robustes aux transformations courantes des prises de vue (Moments de Zernike ou Iterated Function System, histogrammes couleur).
On explicitera maintenant le processus d'analyse inter-média (ou extra-média) au sein d'un document multimédia.
La description d'un document multimédia nécessite en effet de caractériser l'ensemble de ses composantes.
Un objet multimédia est composé d'éléments monomédia analysables indépendamment et concurremment. Le processus de production d'un méta-identifiant consiste à effectuer cette décomposition en médias plus élémentaires tout en conservant la trace des relations structurelles qui lient ces différents médias, puis à réappliquer cette stratégie sur chacun des médias indépendamment, en conservant la trace des relations structurelles les reliant. La première phase du processus consiste à effectuer une segmentation en composantes plus élémentaires du document multimédia original. Pour ce faire on applique successivement trois outils :
1. Outil de segmentation par support : on sépare au moyen des informations contenues dans le format du document celui-ci en plusieurs supports : supports audio, supports vidéo et support comportemental (programme, description HTML ou XML, etc.).
2. Outil de segmentation temporelle : si le média présente une extension temporelle, on le tronçonne en sections présentant une homogénéité temporelle. Pour ce faire on calcule sur le support une ou plusieurs fonctions spatiales d'homogénéité. On calcule :
- l'histogramme des valeurs du signal (de sa luminance pour un signal imagé),
- la projection moyennée de sa luminance suivant l'axe des X pour un signal imagé,
- la projection moyennée de sa luminance suivant l'axe des Y pour un signal imagé,
- différentes approximations de ce signal à différentes échelles par application d'un filtre médian ou d'un filtre moyenne,
- différentes approximations de ce signal au moyen de filtres en ondelettes,
- etc.
On détermine ensuite la corrélation entre ces fonctions d'homo- généité au cours du temps. Le dépassement d'un seuil de variation pour une ou plusieurs de ces corrélations indique la présence d'une discontinuité du signal correspondant à un changement de segment temporel. On enregistre dans la structure du méta-identifiant ces différents segments comme autant de nœuds reliés par des arcs notant la continuité temporelle.
3. Outil de segmentation spatiale : au moyen d'un filtre de segmentation spatiale on détermine les différents objets qui composent une scène imagée. Pour ce faire on emploie concuremment, concomitamment ou séparément plusieurs méthodes : segmentation par la texture : filtre segmentation par la couleur : on calcule la répartition des couleurs segmentation par les contours : contours actifs.
Ces méthodes permettent d'extraire différents objets au sein de chaque séquence et au sein d'une série de séquences. On emploie ensuite une détermination de similitudes (corrélation simple, corrélation sur un des critères d'homogénéité précédemment présentées ou calcul de similitude) pour reconnaître si plusieurs objets successifs dans plusieurs images d'une même séquence ou de plusieurs séquences constituent réellement un même objet conceptuel. Dans ce cas on crée une représentation unique par séquence sous la forme d'un nœud du méta- identifiant que l'on relie au nœud représentant la scène par un arc dans lequel on code une relation d'inclusion. On relie également les
représentations des objets identiques de deux scènes successives par un arc codant une relation d'identité (voir Figure 8).
4. Segmentation abstraite : on identifie des objets spécifiques par des moyens spécifiques : • par l'application d'un OCR sur les données imagées, on extrait les textes incrustés dans les images, • par l'application d'un outil de traitement de la parole, on produit un texte transcrivant le contenu des paroles prononcées par les éventuels locuteurs de la bande son, * par l'application de détecteurs spécifiques (détecteurs de visages, de mouvements, etc.). Chaque résultat d'un de ces outils spécifiques produit un objet spécifique qui est enregistré dans le méta-identifiant avec sa nature et son contenu stockés dans la pondération du nœud correspondant. Les relations d'inclusions de cet objet dans la scène ou avec les autres objets de la scène sont enregistrées au moyen d'arcs reliant ce nœud avec les nœuds correspondants des autres objets.
La phase qui suit la segmentation est l'identification des objets : pour chacun des objets identifiés dans le méta-identifiant on détermine, au moyen des méthodes adéquates les informations d'identification propres à chaque objet. On emploie pour ce faire les méthodes images déjà décrites plus haut ou les méthodes sons qui seront décrites plus loin. Les autres informations sont stockées de manière textuelle ou codée par des mots-clefs en fonction de la nature de l'information concernée : "mouvement de rotation de 90 degrés dans le sens des aiguilles d'une montre" par exemple.
Il est à noter que les résultats des calculs intermédiaires qui sont effectués au cours de ces étapes sont conservés tout au long du calcul pour permettre leur réutilisation par les algorithmes suivants.
On donnera ci-dessous des exemples de méthodes employées dans la caractérisation de documents audiovisuels.
L'indexation des supports audiovisuels dans le cadre d'une base de données peut nécessiter de s'appuyer sur plusieurs informations de natures différentes. On peut tout d'abord distinguer les informations "atomiques" qui sont immédiatement extractibles d'un aspect unique du document audiovisuel indépendamment de leur contexte :
1. Le texte incrusté sur l'image-média : il est reconnu au moyen d'un logiciel d'OCR sur les images-médias qui forment la séquence audiovisuelle. Des informations complémentaires concernant les images- médias (textes inscrits sur des objets de la séquence, marques de produits, enseignes lumineuses) peuvent être éventuellement associées mais doivent pouvoir être distinguées de manière fiable des incrustations volontaires de texte. 2. Le texte parlé : il est reconnu à partir de la bande son. Un logiciel d'analyse de la voix permet d'extraire, sous forme de textes et d'annotations, les paroles énoncées sur la bande son du document. Des informations complémentaires peuvent s'y adjoindre, telles que la différenciation des locuteurs, leurs conditions d'élocution, éventuellement l'identification des locuteurs. Des outils plus complexes peuvent s'ajouter à cette extraction brute dans le but d'associer plus finement sémantique textuelle et sémantique image-média. Par exemple, la méthode TF-IDF (Term Frequency - Inverse Document Frequency) mesure l'importance relative des mots dans un document vidéo à partir d'un corpus de référence. Les mots particulièrement fréquents dans un plan, mais peu courants dans un corpus, correspondront probablement à une information- clé de cette séquence.
3. Les bruits et la musique : les pistes sons contiennent, en supplément de la parole, de la musique et des bruitages qui peuvent être
exploités sous certaines réserves, par exemple pour identifier un bruit caractéristique d'une action (claquement de portière, sonnerie de téléphone, etc.) ce qui peut constituer une information cruciale pour la description de la séquence à indexer. L'identification musicale pourrait également être envisagée.
4. Le découpage en plans : les changements de scène peuvent être identifiables sous certaines réserves et renseignent sur la structure d'ensemble de la séquence vidéo. Une fois identifiés, les plans permettent l'analyse d'autres caractéristiques telles que les "images-médias résumés". La segmentation des documents audiovisuels en plans occupe une position centrale parmi les méthodes d'indexation audiovisuelle. Il n'y a pas encore de méthode de détection des différents types d'effets de transitions avec une fiabilité 100%. Cependant, de plus en plus, des méthodes sont proposées pour traiter efficacement un certain type de transition tel que le "eut".
5. Les "images-médias résumés" : un résumé est une image-média qui représentera les caractéristiques majeures statiques d'un plan dans une séquence vidéo. Il peut s'agir d'une technique très simple, telle que choisir la première ou la dernière image-média du plan, ou d'une technique plus sophistiquée, comme construire une image-média mosaïque de la scène concernée par le plan. Une technique d'indexation d'image-média fixe classique pourra alors être appliquée pour indexer les informations visuelles caractéristiques de la séquence analysée.
6. Les mouvements de caméra / mouvements des objets : suivant les conditions de la prise de vue, il est possible d'analyser à partir du flux optique des déplacements de caméra ou d'objets filmés, des zooms, des panoramiques, des déplacements de foules ou d'objets uniques. Ces informations peuvent permettre de qualifier certaines scènes et d'apporter ainsi un contenu dynamique sur la sémantique du plan à indexer.
7. Les transitions : dans de bonnes conditions, il est possible d'analyser les catégories de transitions choisies lors du montage de la séquence vidéo. Les informations correspondant à ces transitions peuvent permettre d'identifier les relations structurelles entre des plans, comme par exemple en identifiant les différents jingles de changement de sujets dans un journal télévisé. Cette analyse nécessite de s'appuyer également sur des aspects audio.
8. Les objets vidéo : l'existence d'objets peut être décelée et suivie au cours d'une séquence vidéo. II peut s'agir
- soit de méthodes spécialisées, souvent statiques et appliquées à une image-média :
* reconnaissance de visages
• reconnaissance de formes géométriques • identification de textures,
- soit de méthodes généralistes, souvent dynamiques et appliquées sur une séquence :
» suivi d'un objet en mouvement qui est distingué de son environnement (balles de tennis, joueurs de foot), - identification d'un arrière-plan, segmentation en plans perspectifs.
On peut alors concrétiser cette information sous la forme de séries de morceaux d'image-médias ou d'images-médias composites
(éventuellement elles-mêmes images-média mosaïques) qui, comme pour les "images-média résumés", pourront être indexées directement. L'intérêt de la séparation en objets élémentaires est crucial pour une interprétation sémantique de la séquence et pour les recherches sur le thème d'un objet.
On décrira maintenant un mécanisme de caractérisation par un méta-identifiant appliqué à des médias acoustiques, c'est-à-dire des
médias reposant sur une représentation numérique monodimensionnelle d'un mécanisme acoustique quelconque, qu'il s'agisse d'un son, de la voix humaine, de musique, de cris ou de bruits : la détermination de points d'appui sur une ou plusieurs enveloppes du signal acoustique calculées à des résolutions différentes permet de calculer des signatures capables de caractériser localement le signal. Le processus se déroule en quatre phases :
- La première hase consiste à calculer des enveloppes du signal à différentes résolutions en appliquant successivement des filtres encodant des ondelettes sur le signal. Diverses ondelettes telles que Mallat, Daubechies, Coifman, Coiflets, paquets d'ondelettes, etc. peuvent être employées. Les filtres sont appliqués sur le signal d'origine pour produire un signal détail et un signal approximation. Les filtres sont réappliqués sur les signaux ainsi produits et cette opération est reproduite plusieurs fois en fonction de l'échantillonnage du signal original. L'ensemble des signaux intermédiaires et finals ainsi produits est alors simplifié pour produire des enveloppes. Cette simplification s'effectue par application d'un filtre (filtre médian, filtre moyenne,...).
- La deuxième phase consiste en la détermination des points d'appui. Pour ce faire, on calcule la variation relative du signal au premier et au second ordre pour réduire les points pour lesquels ces variations sont maximales (concurremment ou exclusivement) sur les signaux simplifiés produits par la première phase.
- La troisième phase consiste à vectoriser le signal. Il s'agit donc de représenter les points d'appui trouvés à la phase précédente par leur position dans l'espace temps-énergie ou dans l'espace fréquence-énergie.
- La quatrième phase consiste : à calculer des informations de caractérisation de la variation du signal. Ainsi on calcule cette information autour d'un point d'appui et entre deux points d'appui successifs au sein
du signal de résolution maximal ; puis à stocker cette première information dans la pondération du nœud de méta-identifiant correspondant ; à stocker cette deuxième information dans la pondération de l'arc reliant les deux nœuds adéquats. Les informations de caractérisation sont la moyenne des dérivées locales du signal aux deux premiers ordres (tout autre information de nature géométrico- mathématique peut être utile également). On reprend le processus au niveau de résolution inférieur en stockant la relation d'inclusion dans un niveau hiérarchique du méta-identifiant et on itère le processus sur chaque résolution calculée par les ondelettes.
On décrira ci-dessous, à titre d'exemple, une méthode d'indexation textuelle appliquée aux médias textuels et permettant de construire un méta-identifiant au moyen d'une reformulation et d'une représentation vectorielle des phrases. D'autres systèmes d'indexation de texte en langage naturel ou non peuvent toutefois être employés.
De manière typique, un système d'indexation de texte en langage naturel (LN) est le suivant : le système d'indexation de texte est constitué de deux parties : la première partie transforme les énoncés des phrases écrites en langage naturel introduites dans le système (que cela soit pour être enregistrées et indexées ou que ce soit pour servir de requêtes pour retrouver des documents préalablement enregistrés). Cette transformation vise à identifier les groupes de mots possédant une signification propre grâce à des dictionnaires (que nous appellerons dictionnaires LN) et à les séparer des mots "outils" (tels que les mots de liaisons, articles, etc.). Ces groupes de mots sont remplacés par les synonymes les plus purs, puis des synonymes de polysémie, ensuite des concepts proches, puis des concepts sémantiquement voisins, etc.). Une pondération décroissante est associée à chacun de ces synonymes en fonction de cette distance au mot d'origine selon des critères empiriques ; on l'appellera "poids synonymique". Les
autres mots sont négligés. Grâce à une analyse grammaticale, les mots possédant des flexions sont réduits à une forme de flexion simple (déclinaisons des verbes remplacées par l'infinitif, pluriel des noms remplacé par le singulier). Une fois cette phase de réécriture terminée, commence la deuxième phase qui diffère suivant qu'il s'agit d'une requête ou d'un texte à ajouter à la base. Dans le second cas, une table de noms inversée est produite afin de pouvoir retrouver aisément pour chaque mot ou chaque groupe de mots du dictionnaire LN les différents textes où ces mots sont cités, ainsi que leur(s) position(s) dans ces textes. Cette table constitue la table d'accès aux documents. Cette table inversée est concaténée avec celle déjà présente dans la base et triée par ordre lexicographique ou par ordre lexicographique inverse (selon le type de langue traitée). Les documents eux-mêmes sont stockés indépendamment, par exemple sous forme de fichiers. Dans le cas d'une requête, la réécriture de la requête produite par la première phase est comparée mot par mot ou groupes de mots par groupe de mots à la tables inversée pour retrouver les textes où ces mots sont présents. A chaque apparition d'un mot est associé le poids synonymique tel qu'il lui a été associé au cours de la première phase. Un score est produit en accumulant ces poids. Les documents contenant les textes obtenant les plus grands scores sont les plus pertinents. Une liste des documents classés par ordre de pertinence décroissante est produite.
On décrira brièvement à nouveau les différentes relations structurelles qui peuvent être mises en jeu au sein du méta-identifiant et le mécanisme reliant les informations provenant des différents moteurs d'indexation monomédia.
Les signatures obtenues au niveau de chaque moteur d'indexation monomédia (travaillant sur un média) se présentent sous forme d'hypergraphes pondérés par des vecteurs de valeurs numériques ou
textuelles représentant les caractéristiques locales associées aux points d'appui (points d'intérêts dans les images, limites des enveloppes sonores pour les sons, etc.) de chacun des médias. Ces vecteurs peuvent être eux- mêmes remplacés hiérarchiquement par des hypergraphes dans le cas de moteurs monomédia employant la conjonction de plusieurs méthodes. Cette approche hiérarchique peut être itérée de manière à produire un hypergraphe unique représentant de la signature des caractéristiques reliant les différents sous-hypergraphes de vecteurs de valeurs numériques associées à chaque niveau de traitement (multimédia, monomédia, méthodes au sein d'un même média, etc.). Les arcs de ces hypergraphes servent à porter des relations spécifiques correspondant aux différentes informations structurelles que l'on peut trouver au sein d'un document multimédia (comme la liaison entre une figure et sa légende textuelle, ou comme la transformation géométrique permettant de passer d'un point d'intérêt à un autre).
La recherche au sein d'une telle structure représentée par un hypergraphe aux nœuds et aux branches pondérés par des informations peut s'effectuer au moyen d'une méthode de comparaison de sous- hypergraphes (suppression d'un sommet ou d'un arc, addition d'un sommet ou d'un arc, remplacement d'un sommet ou d'un arc) auxquelles on associe des scores au moyen d'une méthode figée (telle opération coûte tel nombre de points) ou au moyen d'une méthode d'apprentissage (avec retour d'information de la part d'un utilisateur). Ces scores devront dans tous les cas prendre en compte (simple multiplication par exemple) les coûts relatifs des distances entre les poids des branches ou des nœuds déterminés au sens des méthodes propres à chaque moteur d'indexation monomédia.