WO2010066774A1 - Systeme de recherche d'information visuelle - Google Patents

Systeme de recherche d'information visuelle Download PDF

Info

Publication number
WO2010066774A1
WO2010066774A1 PCT/EP2009/066702 EP2009066702W WO2010066774A1 WO 2010066774 A1 WO2010066774 A1 WO 2010066774A1 EP 2009066702 W EP2009066702 W EP 2009066702W WO 2010066774 A1 WO2010066774 A1 WO 2010066774A1
Authority
WO
WIPO (PCT)
Prior art keywords
module
somi
descriptor
algorithm
database
Prior art date
Application number
PCT/EP2009/066702
Other languages
English (en)
Inventor
Younes Bennani
Mustapha Lebbah
Nistor Grozavu
Hamid Benhadda
Original Assignee
Thales
Universite Paris 13
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales, Universite Paris 13 filed Critical Thales
Priority to EP09771343A priority Critical patent/EP2374073A1/fr
Priority to CN200980155055.7A priority patent/CN102369525B/zh
Priority to US13/139,005 priority patent/US8666898B2/en
Publication of WO2010066774A1 publication Critical patent/WO2010066774A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures

Definitions

  • the object of the present invention relates to a system and a method for performing a visual information search of objects within a large multi-modal database (images, videos, signals, documents, etc. .).
  • the invention generally relates to the visualization of images, of texts when the base consists of AFP dispatches for example, or of audio signals when the base relates to communications records, for example, etc. More generally, the system according to the invention is used in the field of searching for visual information of multi-modal data, and allows browsing and searching, in databases, faster, thanks to a better structuring of the base in the form of homogeneous classes of objects of this base.
  • image is used to designate an image in a database, the image being described by several descriptors or attributes, such as its texture, its color, the text associated with this image, and so on.
  • best map is used to define a map with a high quality index. This index is calculated between the consensus score obtained in step E5 described below and the initial cards obtained in step E2. It is possible to use different indices according to the descriptors extracted in step E1, correlation, purity index, rank index, etc.
  • a SOM card is a card known to those skilled in the art corresponding to an auto-adaptive or self-organizing card which is a class of network of artificial neurons based on unsupervised learning methods. It is often referred to as the English self organizing map (SOM), we still map Kohonen.
  • SOM English self organizing map
  • the prior art discloses various systems and techniques for searching images or information.
  • Conventional image search methods are generally based on principles related to linguistic indexing techniques (keywords) (ie to a textual pre-annotation associated with the images) without taking into account the content information. or structural description such as texture, color, density, shape, latent contours, etc., for searching images in a database.
  • keywords ie to a textual pre-annotation associated with the images
  • structural description such as texture, color, density, shape, latent contours, etc.
  • Most methods use only keywords associated with images to make the classification.
  • classification techniques such as the averaging algorithms known by the acronym "k-means" where the number of classes to be found and the (mobile) centers of these classes must be arbitrarily defined. Such techniques imply instability of the results according to the original settings (sensitivity of the algorithms at the starting points).
  • Other methods use the other parameters such as color or texture separately without combining them and they do not go back to refine the results obtained.
  • the idea of the present invention consists in particular in providing a method and a system to meet the expectations of users and to solve such issues as:
  • the invention relates to an information retrieval system within a large database, comprising a processor and inputs / outputs, said system being characterized in that said processor comprises at least the following elements:
  • a first module Ei adapted to extract the descriptors associated with each object of the database, and to construct an array containing the objects and the value of a descriptor associated with an object, for the descriptors chosen for the representation of the object.
  • a second module E 2 adapted to apply several classification algorithms SOMi, for each of the tables T Tk resulting from the module E 1 , in order to assign for each object Oi, a class number xij, for an algorithm SOMi applied, for each category of descriptors,
  • a third module E3 adapted to merge the results from the module E 2 to determine for each type of descriptor Tk, a class number associated with an object Oi,
  • a fourth module E4 adapted to find what is the column SOMi of a table T S ⁇ closest to the column obtained during the first merge of step E 3 , and to select the nearest SOMi card contained in the table T S ⁇ , or better map SOMi
  • a fifth module E 5 adapted to merge the "best maps" are SOMi, and apply a search algorithm of the best map to be transmitted to a display means.
  • the fusion algorithm used is, for example, a relational analysis algorithm.
  • the object is an image and the extracted attributes are chosen from the following list: texture, color.
  • the method After the melting step performed in the module E 3 , the method returns to search for the best type card 1, then the best type card N, etc. According to another embodiment, after the melting step performed in the module E 3 , the method takes K results from the merger and merges them using a merge technique, to obtain a single partition compromised to fetch the best card for a type of descriptor.
  • FIGS. 1A and 1B an example of a system structure allowing the implementation of the method according to the invention, and a synoptic of the different phases implemented by the method
  • FIG. 2 a representation of the sequence of the various steps implemented by the method according to the invention
  • Figure 6 the final merge, the search for the final consensus and the selection of the best map for navigating and retrieving information in a large database.
  • FIG. 1A schematizes an example of a system according to the invention which comprises the database 1 containing a large number of images, from which the information must be sought.
  • the image database 1 is connected to a processor 2 which will comprise different modules adapted to implement the steps E 1 to E 5 , including a relational analysis module and one or more modules self-organizing card more known under the abbreviation Anglo-Saxon Self Organizing Map or abbreviated SOM.
  • the database 1 and the processor 2 are for example implemented in a recognition system comprising inputs / outputs 3, 4.
  • the output 4 can be in connection with an interface Man Machine, which allows for example the display of the results 5 and / or the possibility of entering different types of requests by an operator 6.
  • FIG. 1 B is a summary of the different steps of the method, detailed in the following figures.
  • the method takes as input large databases 1, images, signals, documents, or others.
  • the first step E 1 consists of extracting characteristics or descriptors associated with the objects or data stored.
  • the second step E 2 will consist in reducing the dimension of the description space of the objects, by recoding each data, for each type of descriptor k, by as many numbers as SOM algorithms used for recoding. Each number nor corresponding to the class of membership of this data by the algorithm SOMi. We thus obtain a recoding of the data in spaces of the selected classifications.
  • the method will merge the classifications by implementing a consensus search algorithm that can be achieved by a relational analysis, a method known to those skilled in the art that will not be detailed.
  • the method will then recode the data from the first merge, then the fifth step E 5 is to select the best auto adaptive card or SOM for viewing and navigation simplified and fast within the database.
  • FIG. 2 represents the sequence of steps E 1 to E 5 executed in the modules E 1 to E 5 which will be detailed in FIGS. 3 to 6.
  • Figure 3 details the steps performed by the processor 2 for the first phase.
  • the data in the large database is transformed by suitable pretreatments to extract features or attributes relating to each descriptor (color, texture, etc.) for each data item.
  • the objects contained in the database are referenced Oi. These objects Oi are thus described by a set of descriptors, by example of K types.
  • the processor has at its disposal K tables T T ⁇ of data or elements zij, each composed of N lines which correspond to the number of data Oi contained in the base BD, 1, and a variable number of columns. The number of columns varies depending on the type of indicators. Attributes for describing an indicator (or descriptor) are not necessarily the same.
  • a zij element of the array corresponds to a value obtained by the extraction step.
  • the attributes will each correspond to a color and the element zij will be the value associated with a given color for the data Oi.
  • the results of the first step Ei are thus in the form of K tables T T ⁇ of data zij which will be segmented subsequently by using several unsupervised automatic classification algorithms (FIG. 4), better known under the name Anglo-Saxon. SOM. These algorithms can be variants of the SOM algorithm.
  • Each table T ⁇ of data zij coming from a type of descriptor k will be segmented by several algorithms SOMi.
  • the number of algorithms SOMi applied to each table Tk is chosen by the user. It may vary for each descriptor.
  • the algorithms applied to each descriptor may vary, or be the same, from one descriptor to another.
  • FIG 4 details the application of several algorithms SOMi on the K tables Tk of Figure 3.
  • a map is a simplified view of all the images in the database. Indeed, if the map is in the form of a two-dimensional view (13x13), we will have 169 images representative of the whole original base (which represents 169 classes). But you should know that each image among the 169 of the map hide (or represent) several other images of the base. All the images hidden (or represented) by the image number n, will have as number (or will belong to the class) n.
  • SOM is a 2-dimensional topological map where each object referent is considered as a neuron represented by a prototype vector of the same dimension as the data.
  • each algorithm SOMi gives as a result a two-dimensional topological map T S ⁇ and each neuron (or element) of the map will have a number that will identify all the data xij represented by this neuron, where s is an index to designate the application of an algorithm SOM and I the number of algorithms used.
  • the method goes after having reduced the dimension of the description space, by using several algorithms SOMi, recode each element of the arrays. This is illustrated in FIG. 4.
  • the example given in this figure shows the application of several algorithms SOMi, for each data item Oi, corresponding to different topographic classifications.
  • the process goes recode the elements xij of the table, for each type of descriptor of type 1 to K.
  • This recoding consists of representing each data item Oi by a vector having as many components as SOM algorithms used.
  • a component xij obtained by recoding corresponds to the number of the class to which the data Oi belongs in the map SOMj, it is also equal to the number of the prototype neuron closest to this datum in the original description space.
  • the processor has, for each type of descriptor k, a table of data T S ⁇ having a number of lines (always the same equal to the number N of objects Oi of the base), a number of columns corresponding to the number of algorithms SOMi applied for each type of descriptor.
  • this is illustrated by the sizing NxC for the table T S c, NxD for the table T S p and NxE for the table T SD , with C, D and E representing the number of algorithms SOM used for each type of descriptor.
  • FIG. 5 details the steps implemented during the step corresponding to the 1 ⁇ r ⁇ merge of the SOMi classifications.
  • This step implements a relational analysis algorithm known to those skilled in the art or, more generally, it can implement any type of fusion algorithm having functions similar to those offered by the relational analysis.
  • the T'k data table is subjected to a relational analysis in order to determine a consensus between the different classification results by the SOMi.
  • This is the first step of merging the objects in the process.
  • This step can also be seen as a meta-classification whose final result is a compromise classification.
  • the principle of relational analysis is to find a result consistent with the majority of opinions expressed (in general).
  • this is classification, and therefore the result of the relational analysis will be to put in the same class all the images or objects of the database that were put together in the same class by the majority SOMi algorithms used.
  • a two-column table is thus obtained, the first column designating the objects Oi and the second column the cluster number, the class to which the object belongs.
  • the letters AR correspond to the relational analysis operation applied to a table.
  • the first variant consists for each descriptor, to return to the starting SOMi (we measure the distances between the compromised partition obtained by the RA and each of the scores obtained by the applied SOMs) using the results of the consensus obtained during relational analysis. This will allow you to select the best SOMi map by type of descriptor, and use these maps for browsing and searching information, this will respond to requests from users, when they specify the type of descriptor they are interested in.
  • the second variant is to merge the results obtained by the AR for all the descriptors and return for the best maps
  • Finding the best map comes back to find the partition closest to the partition "compromise” found by the relational analysis (or most correlated with this partition).
  • Several mathematical indicators known to those skilled in the art, exist in the scientific literature for calculating this correlation.
  • FIG. 6 is an illustration of step E 5 .
  • K maps SOMi one for each descriptor
  • the processor has an NxK data table with N the number of objects in the base and K the number of descriptors chosen in the first step E 1 .
  • the data of this new table T NK are in a form similar to that of the tables obtained in Figure 5. Indeed the number of columns will be equal to K is each column will simply be one of the columns obtained in Figure 5 (the best of the C SOMs for the descriptor 1, the best of the D SOMs of the descriptor 2, etc.).
  • the data is subjected to a relational analysis algorithm to obtain the fusion of the data and the search for a global consensus.
  • the consensus found by this algorithm represents a final classification and makes it possible to select the best SOMi card or SOMf card that will be used as an interface with the end user for browsing and searching information.
  • the advantage of this last merge is to have the best classification of the database, regardless of the type of descriptor. At this point, a user can have a real-time response to a request without having to specify a specific descriptor type.
  • Another feature that can be added to the system will be the interactivity between the system and the end user to improve or refine the classes obtained by the method. Indeed, when a user makes a request, he will have one or more classes corresponding to his request. It may, eventually, remove one or more data (or images) that it deems to be misclassified and offer them to the system that will fetch the best possible class for each data. The user has the possibility to indicate that information is relevant or not in relation to his request. This interaction with the user results in an update and a refinement of the classification. Based on the topological properties of the SOM card, the system reclassifies the information according to the user's reaction. This allows an active evolution of the system. The user seeing a given image class may decide that one or more of the images in this class do not correspond to the observed class. This (or these images) will then be proposed to the system so that it classifies them in the most relevant class.
  • the system according to the invention makes it possible to classify and visualize data with very large multi-modal dimensionality in a space of small dimensionalities, or partitioning space, without having information a priori on the number of groups.
  • the first contribution consists in defining the problem of fusion as a problem of meta-classification in a space of categorical variables by an automatic classification technique (the relational analysis).
  • the second contribution is to deal with the problem of fusion in a modular, cooperative and evolving way. Indeed, this process is evolutionary compared to data and compared to users or experts. A process of "backward" backtracking and refinement of the results of the global classification is introduced in the modular merge process.
  • connectionist methods as a means of data recoding (quantization) and relational analysis as a merge method allows hierarchical visualization of classification results with several levels of detail. The effectiveness of this method is illustrated on a problem of research and quick access to visual information in a database of images described by a set of numerical descriptors (color descriptors and texture descriptors) and textual (several thousand words extracted from the web pages).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

Système de recherche d'informations au sein d'une base de données (1) de taille importante, comprenant un processeur (2) et des entrées/sorties, ledit système étant caractérisé en ce que ledit processeur (2) comporte au moins les éléments suivants : • Un premier module E1 adapté à extraire les descripteurs associés à chaque objet de la base de données, et à construire un tableau contenant les objets et la valeur d'un descripteur associé à un objet, ceci pour les descripteurs choisis pour la représentation de l'objet, • Un deuxième module E2 adapté à appliquer plusieurs algorithmes de classification SOMi, pour chacun des tableaux TTk issus du module E-1, afin d'attribuer pour chaque objet Oi, un numéro de classe xij, pour un algorithme SOMi appliqué, pour chaque catégorie de descripteurs, • Un troisième module E3 adapté à fusionner les résultats issus du module E2 afin de déterminer pour chaque type de descripteur Tk, un numéro de classe associé à un objet Oi, • Un quatrième module E4, adapté à rechercher quelle est la colonne SOMi d'un tableau T la plus proche de la colonne obtenue pour lors de la première fusion de l'étape E3, et à sélectionner la carte SOMi la plus proche contenue dans le tableau T, ou meilleure carte SOMi, • Un cinquième module E5 adapté à fusionner les « meilleures cartes » sommes SOMi, et appliquer un algorithme de recherche de la meilleure carte SOMf à transmettre à un moyen d'affichage (5).

Description

SYSTEME DE RECHERCHE D'INFORMATION VISUELLE
L'objet de la présente invention concerne un système et un procédé permettant d'effectuer une recherche d'information visuelle d'objets au sein d'une base de données multi-modales de taille importante (images, vidéos, signaux, documents, etc .).
L'invention concerne de manière générale la visualisation d'images, de textes lorsque la base est constituée de dépêches AFP par exemple, ou de signaux audio lorsque la base concerne des enregistrements de communications, par exemple, etc. De manière plus générale, le système selon l'invention est utilisé dans le domaine de la recherche d'informations visuelles de données multi-modales, et permet une navigation et une recherche, dans les bases de données, plus rapide, grâce à une meilleure structuration de la base sous forme de classes homogènes d'objets de cette base.
Dans la suite de la description, l'invention illustrée, à titre d'exemple sur des données images issues de la base wikipédia. Le terme image est utilisé pour désigner une image dans une base de données, l'image étant décrite par plusieurs descripteurs ou attributs, tels que sa texture, sa couleur, le texte associé à cette image, etc.
Le terme « meilleure carte » correspond à définir une carte avec un indice de qualité élevée. Cet indice est calculé entre la partition consensus obtenue à l'étape E5 décrit ci-après et les cartes initiales obtenues à l'étape E2. Il est possible d'utiliser différents indices selon les descripteurs extraits à l'étape E1 , corrélation, indice de pureté, indice de rang, etc.
L'expression « taille importante » fait référence aux deux dimensions d'une base de données (lignes = observations et colonnes=vahables), le nombre de lignes étant de l'ordre de plusieurs millions d'images et le nombre de colonnes de l'ordre de plusieurs milliers. Une carte SOM est une carte connue de l'Homme du métier correspondant à une Carte auto adaptative ou auto organisatrice qui est une classe de réseau de neurones artificiels fondée sur des méthodes d'apprentissage non supervisée. On la désigne souvent par le terme anglais self organizing map (SOM), on encore carte de Kohonen. La fonction de l'algorithme mis en œuvre par une carte est notamment de classifier des objets.
La masse de données collectées chaque jour devient de plus en plus importante. A l'heure actuelle, des études estiment que la quantité d'informations dans le monde double tous les vingt mois. Le Web et les bibliothèques numériques donnent naissance à de nouveaux enjeux dans les domaines des bases de données (BD) et de la recherche d'informations (Rl) au sein de ces bases de données. Dans de nombreuses applications, il devient important, voire nécessaire, de faciliter l'accès aux informations au moyen de système d'aide à la navigation pour le Web, de système d'aide à la formulation de requêtes pour les recherches dans les bases de données, de filtrer, d'adapter et de personnaliser ces informations.
L'art antérieur divulgue différents systèmes et des techniques de recherche d'images ou d'informations. Les méthodes classiques de recherche d'images se basent généralement sur des principes liés à des techniques d'indexation linguistique (mots clés) (c'est à dire à une pré-annotation textuelle associée aux images) sans prendre en compte les informations de contenus ou de description structurelle comme la texture, la couleur, la densité, la forme, les contours latents, etc., pour des recherches d'images dans une base de données. La majorité des méthodes n'utilisent que les mots clés associés aux images pour faire de la classification. Elles utilisent, en outre, des techniques de classification telles que les algorithmes de moyennage connus sous l'acronyme anglo-saxon « k-means » où il faut définir arbitrairement le nombre de classes à trouver et les centres (mobiles) de ces classes. De telles techniques impliquent une instabilité des résultats selon les paramétrages d'origine (sensibilité des algorithmes aux points de départ). D'autres méthodes utilisent les autres paramètres tels que la couleur ou la texture séparément sans les combiner et ils ne font pas de retour en arrière pour affiner les résultats obtenus.
L'idée de la présente invention consiste notamment à offrir un procédé et un système permettant de répondre aux attentes des utilisateurs et de résoudre notamment les questions telles que :
• Comment accéder le plus rapidement possible à une donnée multidimensionnelle ou un ensemble de données, dans une base volumineuse de données multimodales (signaux, parole, image, vidéo, documents, etc.) ?
• Comment organiser l'archivage d'une base de données multimodales de taille importante et permettre ainsi un accès rapide lors de la recherche d'un objet dans cette base et offrant plusieurs réponses avec des degrés de pertinence à la requête croissants ?
• Comment synthétiser la base de données multimodale sous une forme de cartographie résumant son contenu ?
• Comment améliorer le processus et améliorer les réponses aux requêtes en prenant en compte des interactions éventuelles avec un utilisateur.
L'invention concerne un système de recherche d'informations au sein d'une base de données de taille importante, comprenant un processeur et des entrées/sorties, ledit système étant caractérisé en ce que ledit processeur comporte au moins les éléments suivants :
• Un premier module Ei adapté à extraire les descripteurs associés à chaque objet de la base de données, et à construire un tableau contenant les objets et la valeur d'un descripteur associé à un objet, ceci pour les descripteurs choisis pour la représentation de l'objet, • Un deuxième module E2 adapté à appliquer plusieurs algorithmes de classification SOMi, pour chacun des tableaux TTk issus du module E1, afin d'attribuer pour chaque objet Oi, un numéro de classe xij, pour un algorithme SOMi appliqué, pour chaque catégorie de descripteurs,
• Un troisième module E3 adapté à fusionner les résultats issus du module E2 afin de déterminer pour chaque type de descripteur Tk, un numéro de classe associé à un objet Oi,
• Un quatrième module E4, adapté à rechercher quelle est la colonne SOMi d'un tableau TSι la plus proche de la colonne obtenue lors de la première fusion de l'étape E3, et à sélectionner la carte SOMi la plus proche contenue dans le tableau TSι, ou meilleure carte SOMi, • Un cinquième module E5 adapté à fusionner les « meilleures cartes » sommes SOMi, et appliquer un algorithme de recherche de la meilleure carte à transmettre à un moyen d'affichage.
L'algorithme de fusion utilisé est, par exemple, un algorithme d'analyse relationnelle. L'objet est une image et les attributs extraits sont choisis parmi la liste suivante : texture, couleur.
Après l'étape de fusion exécutée dans le module E3, le procédé retourne pour chercher la meilleure carte de typé 1 , puis la meilleure carte de type N, etc.. Selon une autre variante de réalisation, après l'étape de fusion exécutée au sein du module E3, le procédé prend les K résultats issus de la fusion et les fusionne entre eux en utilisant une technique de fusion, afin d'obtenir une seule partition compromis pour aller chercher la meilleure carte pour un type de descripteur.
D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture d'un exemple non limitatif de réalisation en se référant aux figures qui représentent :
• Les figures 1 A et 1 B, un exemple de structure de système permettant la mise en œuvre du procédé selon l'invention, et un synoptique des différentes phases mises en œuvre par le procédé, • La figure 2, une représentation de l'enchaînement des différentes étapes mises en œuvre par le procédé selon l'invention,
• La figue 3, les étapes de prétraitements et d'extraction de caractéristiques, « La figure 4, les étapes pour la classification (par plusieurs algorithmes) et le recodage des données par catégorie,
• La figure 5 la fusion des différents résultats de classification et de recherche de consensus, et
• La figure 6 la fusion finale, la recherche du consensus final et la sélection de la meilleure carte permettant la navigation et la recherche d'information dans une base de données de taille volumineuse.
De manière à mieux faire comprendre l'objet de la présente invention, l'exemple qui suit va être donné pour un problème de recherche et d'accès rapide à de l'information visuelle dans une base de données d'images décrites par un ensemble de descripteurs numériques (descripteurs couleur, descripteurs texture, etc.) et textuels (plusieurs milliers de mots extraits des pages web). Le terme objet est donc utilisé, dans cet exemple, pour désigner une image dans la base de données. Les termes objets et données sont utilisés indifféremment pour désigner un élément d'une base de données. Ainsi, la figure 1 A schématise un exemple de système selon l'invention qui comprend la base de données 1 contenant un nombre important d'images, à partir de laquelle les informations doivent être recherchées. La base de données image 1 est reliée à un processeur 2 qui va comprendre différents modules adaptés à mettre en œuvre les étapes E1, à E5, dont notamment un module d'analyse relationnelle et un ou plusieurs modules de carte auto organisatrice plus connue sous l'abréviation anglo-saxonne Self Organizing Map ou en abrégé SOM. La base de données 1 et le processeur 2 sont par exemple implémentés dans un système de reconnaissance comprenant des entrées/sorties 3, 4. La sortie 4 peut être en liaison avec une Interface Homme Machine, qui permet par exemple l'affichage des résultats 5 et/ou la possibilité d'entrer différents types de requêtes par un opérateur 6.
La figure 1 B est un résumé des différentes étapes du procédé, détaillées aux figures suivantes. Le procédé prend en entrée de grandes bases de données 1 , images, signaux, documents, ou autres. La première étape E1 consiste à extraire des caractéristiques ou descripteurs associés aux objets ou données stockées. La deuxième étape E2 va consister à réduire la dimension de l'espace de description des objets, en recodant chaque donnée, pour chaque type de descripteur k, par autant de numéros que d'algorithmes SOM utilisés pour le recodage. Chaque numéro ni correspondant à la classe d'appartenance de cette donnée par l'algorithme SOMi. On obtient donc un recodage des données dans des espaces des classifications retenues. Lors de la troisième étape E3, le procédé va fusionner les classifications par mise en œuvre d'un algorithme de recherche de consensus qui peut être réalisé par une analyse relationnelle, méthode connue de l'Homme du métier qui ne sera pas détaillée. Lors d'une quatrième étape E4, le procédé va ensuite recoder les données issues de la première fusion, puis la cinquième étape E5 consiste à sélectionner la meilleure carte auto adaptative ou SOM permettant une visualisation et une navigation simplifiée et rapide au sein de la base de données.
La figure 2 représente l'enchaînement des étapes E1 à E5 exécutés dans les modules E1 à E5 qui vont être détaillées aux figures 3 à 6.
La figure 3 détaille les étapes exécutées par le processeur 2 pour la première phase. Les données de la base de données volumineuse sont transformées par des prétraitements adaptés afin d'en extraire 20 des caractéristiques ou attributs relatif à chaque descripteur (couleur, texture, etc) pour chaque donnée. Les objets contenus dans la base de données sont référencés Oi. Ces objets Oi sont ainsi décrits par un ensemble de descripteurs, par exemple de K types. A l'issue de cette étape, le processeur possède à sa disposition K tableaux TTκ de données ou éléments zij, composés chacun de N lignes qui correspondent au nombre de données Oi contenues dans la base BD, 1 , et un nombre variable de colonnes. Le nombre de colonnes varie en fonction du type d'indicateurs. Les attributs permettant de décrire un indicateur (ou descripteur) ne sont pas, forcément, les mêmes. En effet, le nombre d'attributs pour décrire le descripteur couleur n'est pas, forcément le même que celui qui permet de décrire le descripteur texture, par exemple. Un élément zij du tableau correspond à une valeur obtenue par l'étape d'extraction. Par exemple, si l'on considère l'ensemble des couleurs comme type de descripteur, les attributs correspondront chacun à une couleur et l'élément zij sera la valeur associée à une couleur donnée pour la donnée Oi. Les résultats de la première étape Ei se présentent donc sous une forme de K tableaux TTκ de données zij qui seront segmentées par la suite en utilisant plusieurs algorithmes de classification automatique non supervisée (figure 4), plus connue sous la dénomination anglo-saxonne SOM. Ces algorithmes peuvent être des variantes de l'algorithme SOM. Chaque tableau Tκ de données zij issues d'un type de descripteur k sera segmenté par plusieurs algorithmes SOMi. Le nombre d'algorithmes SOMi appliqués sur chaque tableau Tk est choisi par l'utilisateur. Il peut varier pour chaque descripteur. Les algorithmes appliqués à chaque descripteur peuvent varier, ou être les mêmes, d'un descripteur à l'autre.
La figure 4 détaille l'application de plusieurs algorithmes SOMi sur les K tableaux Tk de la figure 3.
L'application de plusieurs algorithmes SOMi, génèrent des classifications qui permettent une réduction de la dimension de l'espace des données (dimension de l'espace dans lequel la recherche et la navigation vont se faire) et offrent un codage catégoriel de dimensions plus réduites. Ainsi, au départ, il est possible d'avoir des centaines d'attributs (ou colonnes) qui décrivent chacun des K indicateurs (ou descripteurs). Après application des différents algorithmes SOMi, il y aura autant de colonnes (nombre beaucoup plus petit que les attributs de départ, d'où la réduction) que d'algorithmes SOMi appliqués. Les données seront décrites par les numéros de catégories (ou classes) pour chaque algorithme. Les objets Oi d'un tableau seront décrits par les numéros de catégorie pour chaque algorithme. Un élément xij du tableau correspond au numéro de classe à laquelle l'objet Oi appartient après application de l'algorithme j. En effet, Une carte est une vue simplifiée de l'ensemble des images présentes dans la base de données. En effet, si la carte se présente sous la forme d'une vue à deux dimensions (13x13), on aura 169 images représentatives de toute la base d'origine (ce qui représente 169 classes). Mais il faut savoir que chaque image parmi les 169 de la carte cachent (ou représentent) plusieurs autres images de la base. Toutes les images cachées (ou représentées) par l'image numéro n, auront comme numéro (ou appartiendront à la classe) n. Le résultat de l'étape de classification dans le cas de l'application de l'algorithme SOM est une carte topologique à 2 dimensions où chaque objet réfèrent est considéré comme un neurone représenté par un vecteur prototype de la même dimension que les données. En fait chaque algorithme SOMi donne comme résultat une carte topologique TSι à deux dimensions et chaque neurone (ou élément) de la carte aura un numéro qui identifiera toutes les données xij représentées par ce neurone, où s est un indice pour désigner l'application d'un algorithme SOM et I le nombre d'algorithmes utilisés. Lors de l'étape E2, le procédé va après avoir réduit la dimension de l'espace de description, en utilisant plusieurs algorithmes SOMi, recoder chaque élément des tableaux. Ceci est illustré à la figure 4. L'exemple donné sur cette figure montre l'application de plusieurs algorithmes SOMi, pour chaque donnée Oi, correspondant à des classifications topographiques différentes. Pour chaque élément d'un tableau TSι, et chaque classification de 1 à C, 1 à P, 1 à D, sur la figure, SOM1 ,...SOMi, avec i= C ou P ou D, le procédé va recoder les éléments xij du tableau, pour chaque type de descripteur de type 1 à K. Ce recodage consiste à représenter chaque donnée Oi par un vecteur ayant autant de composantes que d'algorithmes SOM utilisés. Une composante xij obtenue par recodage correspond au numéro de la classe à laquelle appartient la donnée Oi dans la carte SOMj, elle est aussi égale au numéro du neurone prototype le plus proche de cette donnée dans l'espace de description d'origine. A la fin de ce recodage le processeur dispose, pour chaque type de descripteur k, d'un tableau de données TSι ayant un nombre de lignes (toujours le même égal au nombre N d'objets Oi de la base), un nombre de colonnes correspondant au nombre d'algorithmes SOMi appliqués pour chaque type de descripteur. Sur la figure ceci est illustré par les dimensionnements NxC pour le tableau TSc, NxD pour le tableau TSp et NxE pour le tableau TSD, avec C, D et E représentant le nombre d'algorithmes SOM utilisés pour chaque type de descripteur.
La figure 5 détaille les étapes mises en œuvre lors de l'étape correspondant à la 1 θrθ fusion des classifications SOMi. Cette étape met en œuvre un algorithme d'analyse relationnelle connu de l'Homme du métier ou de manière plus générale, il peut mettre en œuvre tout type d'algorithme de fusion présentant des fonctions similaires à celles offertes par l'analyse relationnelle. Pour chaque descripteur k, le tableau des données T'k est soumis à une analyse relationnelle afin de déterminer un consensus entre les différents résultats de classification par les SOMi. Il s'agit de la première étape de fusion des objets dans le procédé. Cette étape peut aussi être vue comme une méta-classification dont le résultat final est une classification de compromis. Le principe de l'analyse relationnelle est de trouver un résultat conforme à la majorité des opinions exprimées (en général). Dans le présent exemple, il s'agit de classification, et donc le résultat de l'analyse relationnelle sera de mettre dans la même classe toutes les images ou objets de la base de données qui ont été mis ensembles dans la même classe par la majorité des algorithmes SOMi utilisés. Ainsi sur la figure 5, les données recodées contenues dans le premier tableau T'Sc pour chaque SOMi, pour i variant de 1 à C, par exemple, vont être soumises à un algorithme d'analyse relationnelle qui va donner comme résultat la classification la plus proche possible de toutes les classifications obtenues par les algorithmes SOMi i=1 , ..., C appliqués à chaque type de descripteur. On obtient ainsi un tableau à deux colonnes, la première colonne désignant les objets Oi et la deuxième colonne le N° de cluster, classe à laquelle appartient l'objet. Les lettres AR correspondent à l'opération d'analyse relationnelle appliquée sur un tableau. A ce stade on se retrouve en présence de deux variantes possibles :
1 ) la première variante consiste pour chaque descripteur, à retourner vers les SOMi de départ (on mesure les distances entre la partition compromis obtenue par l'AR et chacune des partitions obtenues par les SOM appliquées) en utilisant les résultats du consensus obtenu lors de l'analyse relationnelle. Ceci permettra de sélectionner la meilleure carte SOMi par type de descripteur, et utiliser ces cartes pour la navigation et la recherche d'informations, ceci permettra de répondre aux requêtes des utilisateurs, lorsque ces derniers spécifient le type de descripteur qui les intéresse.
2) la deuxième variante consiste à fusionner les résultats obtenus par l'AR pour tous les descripteurs et retourner chercher les meilleures cartes
(comme précédemment). L'avantage de cette approche sera de chercher, pour chaque type de descripteur, la meilleure carte qui prend en compte les autres descripteurs.
Rechercher la meilleure carte, revient donc, à trouver la partition la plus proche de la partition « compromis » trouvée par l'analyse relationnelle (ou la plus corrélée avec cette partition). Plusieurs indicateurs mathématiques, connus de l'homme du métier, existent dans la littérature scientifique pour le calcul de cette corrélation.
A partir des résultats de la première fusion, un deuxième recodage des données est effectué. La figure 6 est une illustration de l'étape E5. Après avoir trouvé la meilleure carte SOMi de chaque descripteur, on se trouvera en présence de K cartes SOMi (une pour chaque descripteur), considérées comme les K meilleures cartes. Ces K cartes seront soumises à l'analyse relationnelle qui cherchera la partition compromis entre toutes les partitions relatives au K SOM.
Après ce deuxième recodage, le processeur dispose d'un tableau de données NxK avec N le nombre d'objets dans la base et K le nombre de descripteurs choisis lors de la première étape E1. Les données de ce nouveau tableau TNK se présentent sous une forme semblable à celle des tableaux obtenus à la figure 5. En effet le nombre de colonnes sera égal à K est chaque colonne sera tout simplement l'une des colonnes obtenues à la figure 5 (la meilleure parmi les C SOM pour le descripteur 1 , la meilleure parmi les D SOM du descripteur 2, etc .). Les données sont soumises à un algorithme d'analyse relationnelle pour obtenir la fusion des données et la recherche d'un consensus global. Le consensus trouvé par cet algorithme représente une classification finale et permet de sélectionner la meilleure carte SOMi ou carte SOMf qui sera utilisée comme interface avec l'utilisateur final pour la navigation et la recherche d'informations. L'avantage de cette dernière fusion est d'avoir la meilleure classification de la base de données, indépendamment du type de descripteur. A ce stade, un utilisateur pourra avoir une réponse en temps réel à une requête sans devoir spécifier un type de descripteur spécifique.
Une autre fonctionnalité que l'on pourra ajouter au système, sera l'interactivité entre le système et l'utilisateur final pour améliorer ou affiner les classes obtenues par le procédé. En effet, quand un utilisateur fait une requête, il aura une ou plusieurs classes qui correspondant à sa demande. Il pourra, éventuellement, enlever une ou plusieurs données (ou images) qu'il juge être mal classées et les proposer au système qui ira chercher la meilleure classe possible pour chaque donnée. L'utilisateur a la possibilité d'indiquer qu'une information est pertinente ou non par rapport à sa requête. Cette interaction avec l'utilisateur se traduit par une mise à jour et un raffinement de la classification. En se basant sur les propriétés topologiques de la carte SOM, le système reclasse les informations en fonction de la réaction de l'utilisateur. Ceci permet une évolution active du système. L'utilisateur en voyant une classe d'images donnée, peut décider qu'une ou plusieurs des images de cette classe ne correspondent pas à la classe observée. Cette (ou ces images) seront alors proposées au système pour qu'il les classe dans la classe la plus pertinente.
En résumé, le système selon l'invention permet de pouvoir classifier et visualiser des données à très fortes dimensionnalités multi-modales dans un espace de faibles dimensionnalités, ou espace de partitionnement, sans disposer d'information a priori sur le nombre de groupes. La première contribution consiste à définir le problème de fusion comme un problème de méta-classification dans un espace de variables catégorielles par une technique de classification automatique (l'analyse relationnelle). La deuxième contribution consiste à traiter le problème de fusion d'une manière modulaire, coopérative et évolutive. En effet, ce procédé est évolutif par rapport aux données et par rapport aux utilisateurs ou experts. Un processus de retour en arrière "Backward" et de raffinement des résultats de la classification globale est introduit dans le processus de fusion modulaire. L'utilisation des méthodes connexionnistes non supervisées comme moyen de recodage des données (quantification) et de l'analyse relationnelle comme méthode de fusion permettent une visualisation hiérarchique des résultats de la classification avec plusieurs niveaux de détails. L'efficacité de ce procédé est illustrée sur un problème de recherche et d'accès rapide à l'information visuelle dans une base de données d'images décrites par un ensemble de descripteurs numériques (descripteurs couleur et descripteurs texture) et textuels (plusieurs milliers de mots extraits des pages web).

Claims

REVENDICATIONS
1 - Système de recherche d'informations au sein d'une base de données (1 ) de taille importante, comprenant un processeur (2) et des entrées/sorties (3, 4), ledit système étant caractérisé en ce que ledit processeur (2) comporte au moins les éléments suivants :
• Un premier module Ei adapté à extraire les descripteurs associés à chaque objet de la base de données, et à construire un tableau contenant les objets et la valeur d'un descripteur associé à un objet, ceci pour les descripteurs choisis pour la représentation de l'objet,
• Un deuxième module E2 adapté à appliquer plusieurs algorithmes de classification SOMi, pour chacun des tableaux TTk issus du module E1, afin d'attribuer pour chaque objet Oi, un numéro de classe xij, pour un algorithme SOMi appliqué, pour chaque catégorie de descripteurs, • Un troisième module E3 adapté à fusionner les résultats issus du module E2 afin de déterminer pour chaque type de descripteur Tk, un numéro de classe associé à un objet Oi,
• Un quatrième module E4, adapté à rechercher quelle est la colonne SOMi d'un tableau TSι la plus proche de la colonne obtenue lors de la première fusion de l'étape E3, et à sélectionner la carte SOMi la plus proche contenue dans le tableau TSι, ou meilleure carte SOMi,
• Un cinquième module E5 adapté à fusionner les « meilleures cartes » sommes SOMi, et appliquer un algorithme de recherche de la meilleure carte SOMf à transmettre à un moyen d'affichage (5).
2 - Système selon la revendication 1 , caractérisé en ce que l'algorithme de fusion est un algorithme d'analyse relationnelle.
3 - Système selon l'une des revendications 1 à 2, caractérisé en ce que l'objet est une image et en ce que les attributs extraits sont choisis parmi la liste suivante : texture, couleur. 4 - Système selon la revendication 1 , caractérisé en ce qu'après l'étape de fusion exécutée dans le module E3, le procédé retourne pour chercher la meilleure carte de typé 1 , puis la meilleure carte de type N, etc.
5 - Système selon la revendication 1 , caractérisé en ce qu'après l'étape de fusion exécutée au sein du module E3, le procédé prend les K résultats issus de la fusion et les fusionne entre eux en utilisant une technique de fusion, afin d'obtenir une seule partition compromis pour aller chercher la meilleure carte pour un type de descripteur.
PCT/EP2009/066702 2008-12-10 2009-12-09 Systeme de recherche d'information visuelle WO2010066774A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP09771343A EP2374073A1 (fr) 2008-12-10 2009-12-09 Systeme de recherche d'information visuelle
CN200980155055.7A CN102369525B (zh) 2008-12-10 2009-12-09 搜索可视信息的系统
US13/139,005 US8666898B2 (en) 2008-12-10 2009-12-09 Visual information retrieval system for applying self organizing maps/SOM using five distinct modules that merge the best maps

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR08/06947 2008-12-10
FR0806947A FR2939537B1 (fr) 2008-12-10 2008-12-10 Systeme de recherche d'information visuelle

Publications (1)

Publication Number Publication Date
WO2010066774A1 true WO2010066774A1 (fr) 2010-06-17

Family

ID=40937576

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2009/066702 WO2010066774A1 (fr) 2008-12-10 2009-12-09 Systeme de recherche d'information visuelle

Country Status (5)

Country Link
US (1) US8666898B2 (fr)
EP (1) EP2374073A1 (fr)
CN (1) CN102369525B (fr)
FR (1) FR2939537B1 (fr)
WO (1) WO2010066774A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116623B (zh) * 2013-01-29 2017-11-03 江苏大学 一种信息检索自适应数据融合方法
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
CN103838874B (zh) * 2014-03-25 2017-01-18 江苏大学 一种针对检索结果多元化的信息检索数据融合方法
CN112889090A (zh) * 2018-08-17 2021-06-01 道特里斯艾欧公司 使用人工智能对物理动态系统执行建模和控制的系统和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911069A (en) * 1996-09-30 1999-06-08 Apple Computer, Inc. Exception handling techniques for native methods bound to SOM classes
JPH1139325A (ja) * 1997-07-22 1999-02-12 Matsushita Electric Ind Co Ltd 類似検索方法及び類似検索システム
JP2002521752A (ja) * 1998-07-24 2002-07-16 ジャーグ コーポレーション オブジェクト検索を実行するための分散コンピュータ・データベースシステム及びその方法
WO2006041171A1 (fr) * 2004-10-13 2006-04-20 Sony Corporation Dispositif de reproduction, dispositif d’imagerie, méthode d’affichage sur écran et interface utilisateur
JP2007286864A (ja) * 2006-04-17 2007-11-01 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANG K-C ET AL: "Grey relational analysis based approach for data clustering", IEE PROCEEDINGS: VISION, IMAGE AND SIGNAL PROCESSING, INSTITUTION OF ELECTRICAL ENGINEERS, GB, vol. 152, no. 2, 8 April 2005 (2005-04-08), pages 165 - 172, XP006023766, ISSN: 1350-245X *
KUI CAO ET AL: "Appling grey relational analysis to the relevance feedback in content-based image retrieval", GREY SYSTEMS AND INTELLIGENT SERVICES, 2007. GSIS 2007. IEEE INTERNATI ONAL CONFERENCE ON, IEEE, PI, 1 November 2007 (2007-11-01), pages 475 - 479, XP031210428, ISBN: 978-1-4244-1293-8 *
See also references of EP2374073A1 *
YO-PING HUANG ET AL: "Content-based image retrieval using grid-based indexing and grey relational analysis", SYSTEMS, MAN AND CYBERNETICS, 2008. SMC 2008. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 12 October 2008 (2008-10-12), pages 2694 - 2699, XP031447495, ISBN: 978-1-4244-2383-5 *

Also Published As

Publication number Publication date
CN102369525B (zh) 2014-07-30
EP2374073A1 (fr) 2011-10-12
CN102369525A (zh) 2012-03-07
FR2939537A1 (fr) 2010-06-11
FR2939537B1 (fr) 2011-01-07
US8666898B2 (en) 2014-03-04
US20120131026A1 (en) 2012-05-24

Similar Documents

Publication Publication Date Title
US20230185844A1 (en) Visually Guided Machine-learning Language Model
US7502780B2 (en) Information storage and retrieval
EP2321787B1 (fr) Annotation d'images
JP5309155B2 (ja) イメージ検索における対話型概念学習
US20200250538A1 (en) Training image and text embedding models
US20060095852A1 (en) Information storage and retrieval
US20220277038A1 (en) Image search based on combined local and global information
US20150170333A1 (en) Grouping And Presenting Images
EP1426882A2 (fr) Stockage et récuperation des informations
FR2966265A1 (fr) Echantillonneur de gibbs reduit pour factorisation de modeles de sujets clairsemes et de matrices discretes
MX2013005056A (es) Enfoque multimodal para entrada de busqueda de consulta.
SG194442A1 (en) In-video product annotation with web information mining
FR3043816B1 (fr) Procede de suggestion de contenus extraits d’un ensemble de sources d’information
EP1426881A2 (fr) Stockage et récuperation des informations
WO2010066774A1 (fr) Systeme de recherche d'information visuelle
Ballan et al. Social media annotation
Banouar et al. Enriching SPARQL queries by user preferences for results adaptation
WO2021191392A1 (fr) Méthode mise en oeuvre par ordinateur pour la recherche analogique de documents
EP4143701A1 (fr) Évaluation de similarité entre éléments à l'aide de plongements produits à l'aide d'une infrastructure d'entraînement distribuée
CN111708745A (zh) 一种跨媒体数据共享表示方法及用户行为分析方法、系统
Sebastine et al. Semantic web for content based video retrieval
Kumar et al. Domain and Intelligence Based Multimedia Question Answering System.
Little et al. Navigating and discovering educational materials through visual similarity search
Chenna Comparative study of dimension reduction approaches with respect to visualization in 3-dimensional space
Ahmad et al. VisualLabel: An integrated multimedia content management and access framework

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980155055.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09771343

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009771343

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13139005

Country of ref document: US