WO2008139093A2 - Determination d'un modele de categorie d'images - Google Patents

Determination d'un modele de categorie d'images Download PDF

Info

Publication number
WO2008139093A2
WO2008139093A2 PCT/FR2008/050598 FR2008050598W WO2008139093A2 WO 2008139093 A2 WO2008139093 A2 WO 2008139093A2 FR 2008050598 W FR2008050598 W FR 2008050598W WO 2008139093 A2 WO2008139093 A2 WO 2008139093A2
Authority
WO
WIPO (PCT)
Prior art keywords
category
image
image category
homogeneous
images
Prior art date
Application number
PCT/FR2008/050598
Other languages
English (en)
Other versions
WO2008139093A3 (fr
Inventor
Grégoire LEFEBVRE
Christophe Garcia
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2008139093A2 publication Critical patent/WO2008139093A2/fr
Publication of WO2008139093A3 publication Critical patent/WO2008139093A3/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Definitions

  • the present invention is in the field of image processing, more particularly in the field of automatic image classification. Indeed, the invention relates to a method for determining an image category model for the automatic classification of images.
  • the technique of the invention meets individual or professional needs.
  • Image classification consists of dividing images into categories or classes of images.
  • category or class of images is meant a set of images representing objects of the same nature such as, for example, city, sea or mountain landscapes, images of the same type of animal, dog, cat or other, faces ...
  • An image is characterized by a signature (or descriptor) and a category of images is characterized by a pattern.
  • the signature of an image describes the visual content of the image. It is represented as a vector and is obtained from visual characteristics of the image. There are different types of visual characteristics of an image including color, shape or texture.
  • To define the model of a category of images we use a set of images illustrating this category which constitutes a set of learning images.
  • An image category model corresponds, for example, to a reference image or to an average image obtained from the training images or to a neural network constructed from the learning images of the category of images considered.
  • a model of image category is represented by a vector corresponding to a signature when the model is a reference image or corresponding to the activation values of the neurons when the model is a neural network.
  • the classification of any image in a category of images is performed by an image classifier.
  • the classifier observes the activation (that is to say the adequacy) of the models of the different categories by the signature of this image.
  • the activation of an image category model is obtained by a measurement of correspondence between the signature of the arbitrary image and the model: calculation of a distance if the model is a reference image or activation of the neurons for a given image. model consisting of a network of neurons.
  • the current methods for determining an image category model are based on a local analysis of the description of images of the category in question.
  • an image is seen as a set of individually identifiable areas of interest. For this, we first detect highlights in the image and then delineates an area around each of these points.
  • Csurka et al. present a method that defines for each zone of interest a signature relating to the only shape visual characteristic called SIFT (Scale Invariant Feature Transform in English).
  • SIFT Scale Invariant Feature Transform in English
  • an image category model is determined by applying the k-means (k-means) algorithm.
  • the k-means algorithm groups together similar SIFT signatures of the training images to form subsets. These subsets form the model.
  • Each subset is represented by one of its elements called "centroid".
  • centroid To define which image category an image belongs to any one, we compare each local signature of this image with the different centroids obtained.
  • This method has the disadvantage of taking into account only one type of visual image characteristic to define the image category model, the shape characteristic. Another disadvantage of this method is that it relies on a priori definition of the number of subsets used and therefore independently of the training images.
  • TSN 2002 Tree Structured Self-Organizing Map
  • similar signatures are also grouped into subsets. As in the previous method, these subsets form the model. Unlike the previous method, these subsets are hierarchized according to a tree structure and the number of subsets is no longer defined a priori but determined automatically during the initialization of the neural network from the images of learning.
  • This method also uses only one type of visual feature of color or texture or shape to determine a pattern.
  • the three models respectively of color or texture or shape are then compared and the method retains the best of them according to the category of images to be analyzed to determine the model of the category of images considered.
  • This method has the disadvantage of requiring the determination of three models of image category and the measurement of the performance of each of them.
  • the methods for determining an image category model are based on an overall analysis of the description of images of the category in question.
  • the model of an image category is determined using a convolutional neural network.
  • a convolutional neural network As in the previous methods, only one type of visual characteristic (shape or color or texture) is considered.
  • This method produces a large number of data to be processed and is interested in very specific objects: faces, profile bikes ... Therefore, this method is not suitable for natural images with a very high variability of shots. views, shapes, illumination, etc.
  • PN Suganthan describes a method for classifying character images that is based on three different characteristics of the images in distinct sets of signatures.
  • the three characteristics considered are: the pixels of the character, the contours of the character and the oriented contours of the character.
  • the signatures of each of the three sets are then submitted to three separate classifiers, each giving a classification decision.
  • the different classification decisions are then combined to give the final classification decision.
  • Classifiers use HOSOM self-organizing neural maps (for Hierarchical Overlapped Self-Organizing Map). This solution which uses different characteristics of an image has the disadvantage of requiring three complete chains of treatment and a final combination.
  • the object of the present invention is to overcome the drawbacks of the prior art by proposing a method for determining an image category model based on heterogeneous visual characteristics of these images.
  • the subject of the invention is a method for determining an image category model, said method comprising
  • the method of determining an image category model of the invention automatically defines an image category model from heterogeneous image characteristics.
  • the method does not require prior knowledge of the discriminant characteristics of the images. It uses all the data available on the images. It also allows you to define a template for any unknown image category.
  • the fusion of the intermediate homogeneous image category models is carried out before the classification, that is to say before processing by a classifier.
  • the method according to the invention makes it possible to obtain an image class model that can be used by a single image classifier, which can be of any type.
  • the self-organized neural map for determining intermediate homogeneous image category models is a map selected from the following types:
  • the determination of the intermediate homogeneous models of image category is carried out from a neuronal activation matrix.
  • the determination of the intermediate homogeneous image category models is performed by incrementing the neuronal activity of each neuron.
  • the determination by the method of the invention of the intermediate homogeneous image category models by activation of a neural network makes it possible to automatically structure the information.
  • the fusion of the intermediate homogeneous image category models is performed from a self-organized neural map.
  • the fusion of the intermediate homogeneous models of image category being carried out from a self-organized neural map has the advantage of taking into account all the data of the training images. It also makes it possible to process heterogeneous data.
  • the fusion of the intermediate homogeneous image category models is performed by learning a self-organized neural map from the neuronal activation matrices of each of the intermediate homogeneous image category models.
  • the method comprises obtaining a plurality of heterogeneous image category models each corresponding to a category of images and the concatenation of the heterogeneous models obtained.
  • the subject of the invention is also a device for determining an image category model comprising a module for obtaining subsets of homogeneous signatures respectively associated with a visual characteristic of a set of training images. relating to the category of images,
  • a module for determining homogeneous models of category of images from the homogeneous signatures of each subset by implementing a self-organized neuron map characterized in that it comprises:
  • a fusion module of the intermediate homogeneous category of images models to obtain a heterogeneous image category model.
  • the invention further relates to a program comprising instructions for implementing the method set forth above.
  • the invention also relates to a heterogeneous image category model obtained by the method of determining an image category model described above.
  • FIG. 1 represents the various steps of the method for determining an image category model according to the invention
  • FIG. 2 represents the device able to implement the method of FIG. 1.
  • the method of the invention is described below in a particular application to the determination of an image category model for images representing sea landscapes.
  • the method of FIG. The invention is useful for determining an image category template for any type of images.
  • the first step 10 is a step of extracting visual image features which aims to collect the necessary training data for the next steps of the method.
  • the SCD color signature for Scalable Color Descriptor
  • the HTD Horizontogram Texture Descriptor
  • the RFD Regularity Foveal Descriptor
  • the first two signatures are referenced in the MPEG-7 standard ("Color and Texture Descriptors", Manjunath B. S. et al., IEEE TCSVT, 11 (6): 703-715, 2001).
  • the third signature results from the work of J. Ros et al. ("Description of local singularities for image registration", 4: 61-64 ICPR 2006).
  • the second step 1 1 is the obtaining of an intermediate uniform model of image category for each of the three visual characteristics (color, shape, texture).
  • This step relies on the implementation of an unsupervised learning method such as a self-organized neural card or SOM card (for Self-Organizing Map in English).
  • a SOM map is used to represent each of the three visual characteristics of color, shape and texture.
  • Each of these three SOM cards is a two-dimensional neural matrix and has row S0M rows and column SOM columns.
  • the values of Hgne S0M and SOM are defined arbitrarily, for example equal to 5.
  • a neuron is a 256-component vector for color, 384 components for shape, and 62 components for texture.
  • a first phase we are interested in the visual characteristic of color.
  • a second phase we will focus on the visual characteristic of shape and in a third phase on the visual texture characteristic.
  • Step 1 1 is broken down into two sub-steps: a first substep of learning of the SOM card,
  • the learning process of the SOM card is implemented to obtain a set of referent neurons as described by T. Kohonen in “Self-Organizing Maps", Springer, 2001.
  • a reference neuron is determined.
  • a neuron referent is a neuron for which the Euclidean distance between the vector of the local signature and the vector initially randomly assigned to the neuron is the smallest.
  • This neuron refer to n k ⁇ in the map SOM (with k corresponding to the number of the line and being between 1 and line S0M and / corresponding to the number of the column and being between 1 and column SOM ) is called BMU (for Best Matching Unit in English) and is determined as follows: or
  • - corresponds to one of the local signatures relating to the visual color characteristic obtained in step 10 with t varying from 1 to N
  • - n 1 ⁇ corresponds to a neuron of the two-dimensional SOM map with i varying from 1 at line S0M and y varying from 1 to column SOM ,
  • n kl (r + 1) n kl (r) + a ( ⁇ ) h ki ( ⁇ ) [s f - n ((r)]
  • denotes the time index
  • a ( ⁇ ) denotes the learning rate.
  • a ( ⁇ ) is a decreasing monotonic sequence with O ⁇ a ( ⁇ ) ⁇ 1,
  • - h k i designates the neighborhood function between the neuron refer naked and its neighbors whose value must be updated. Generally, a Gaussian neighborhood function is retained,
  • - k is between 1 and Hgne S0M and / is between 1 and SOM column.
  • step 1 when the learning of the SOM card is completed, the activation of this SOM card is performed by each of the N local signatures relating to the visual color characteristic.
  • each neuron is subjected to the stimulus of the N local signatures obtained in step 10 and relating to the color and the neuronal activity of each neuron is measured. In other words, the reaction of each neuron to this stimulus is measured.
  • Each color signature activates a neuron refer naked (with k between 1 and Hgne S0M and / between 1 and SOM column).
  • This neuronal activity is equivalent to one energy and is given by the following equation: or s corresponds to one of the local signatures relating to the visual color characteristic obtained in step 10 with t varying from 1 to N,
  • - n k ⁇ corresponds to a neuron referent of the two-dimensional SOM card with k between 1 and Hgne S0M and / between 1 and S0M column,
  • the neuronal activation matrix M is determined for the N signatures relating to the visual color characteristic of the image such that: or
  • the neuronal activation matrix thus obtained constitutes an intermediate uniform model of image category relating to the visual color characteristic.
  • an intermediate homogeneous image category model relating to the visual shape characteristic is obtained.
  • This model corresponds to the neuronal activation matrix
  • an intermediate homogeneous model of image category relating to the visual texture characteristic is determined.
  • This model corresponds to the neuronal activation matrix M ⁇ for the N signatures relating to the visual texture characteristic of the image.
  • step 11 three homogeneous intermediate models are thus obtained for the category of images studied respectively for the visual color characteristic, the visual characteristic of shape and the visual texture characteristic each corresponding to a matrix of color. neuronal activation.
  • These three neuronal activation matrices are comparable because they represent the neuronal activity of self-organized neuron maps of the same size.
  • step 12 shown in FIG. 1 the intermediate homogeneous models obtained in the previous step are merged.
  • the fusion is achieved by the implementation of a new SOM card including Hgne S0M _ final rows and column S0M _ flnal columns.
  • the learning of this SOM map is carried out by applying the learning process of T. Kohonen according to an approach identical to that described in step 11.
  • the input data are then the neuronal activation matrices Af, M F and M ⁇ previously obtained.
  • a neuron referencing ⁇ ab in the SOM map is determined.
  • - M p corresponds to one of the neuronal activation matrices obtained in the previous step
  • - ⁇ l ⁇ corresponds to a neuron of the two-dimensional SOM map with i varying from 1 to Hgne S0M _ final e ⁇ j varying from 1 column S0M _ final .
  • ⁇ a b ( ⁇ + 1) ⁇ a b ( ⁇ ) + a ( ⁇ ) h a b ( ⁇ ) [MP - ⁇ ab ( ⁇
  • ⁇ (r) is a decreasing monotonic sequence with O ⁇ a ( ⁇ ) ⁇ 1.
  • - h ab denotes the neighborhood function between the neuron refer to ⁇ ab and its neighbors whose values must be updated. Generally, a Gaussian neighborhood function is retained.
  • the SOM map thus obtained represents the model for the category of sea images considered.
  • This model is made from heterogeneous visual characteristics of color, shape and texture. It is referred to as a heterogeneous image category model.
  • the fusion of the intermediate homogeneous image category models is carried out before the classification, that is to say before processing by a classifier.
  • the method according to the invention makes it possible to obtain an image class model that can be used by a single image classifier, which can be of any type.
  • the activation of the final heterogeneous model by any image is given by the neuronal activation matrix, such that:
  • £ - ⁇ is the activation energy of the neuron refer to ⁇ ab by the matrix
  • - ⁇ ab corresponds to a neuron referencing the final two-dimensional SOM map with i varying from 1 to S0M line _ final and j varying from 1 to column S0M _ fmal .
  • Figure 2 schematically illustrates a device 20 adapted to implement the method of the invention.
  • the device comprises a module 21 for obtaining subsets of homogeneous signatures respectively associated with a visual characteristic (of color, shape or texture) of a set of training images relating to the category of images.
  • This processing module receives M learning images. It identifies, for each of these images, P highlights and areas of interest around these highlights. Then, as described in step 10 of the above method, it calculates for each area of interest a local signature relating to the visual characteristic of color or shape or texture of the image.
  • the device also comprises a module 22 for determining intermediate homogeneous categories of image categories from the homogeneous signatures of each subset obtained at the output of the module 21 by implementing a self-organized neuron map.
  • the module 22 realizes, on the basis of the learning data obtained at the output of the module 21, firstly the initialization of a neuron map and, secondly, the updating of the values of the different neurons as described in FIG. the first substep of step 1 1.
  • the module 22 activates the self-organized neuron card by the training data obtained at the output of the module 21.
  • the device comprises also a module 23 for fusing the intermediate homogeneous models of image category to obtain a heterogeneous image category model.
  • the module 23 realizes, starting from the homogeneous models of category of images obtained at the output of the module 22, on the one hand the initialization of a map of neurons and on the other hand the updating of the values of the different neurons as described in step 12.
  • the device 20 further comprises a central control unit, not shown, connected to each of the modules 21 to 23 and adapted to control their operation.
  • the modules 21 to 23 may be software modules forming a computer program.
  • the invention therefore also relates to a computer program for a device for determining an image category model comprising software instructions for executing the method previously described by the device.
  • the software module can be stored in or transmitted by a data carrier. This may be a hardware storage medium, for example a CD-ROM, a magnetic diskette or a hard disk, or a transmissible medium such as an electrical signal, optical or radio.
  • each of the N signatures obtained in the learning step is defined from a local analysis of the N images of the learning base.
  • these signatures are obtained by an overall analysis of the images. The process is the same as before, but the description of color, shape and texture of the image is no longer local but global.
  • three intermediate homogeneous image category models are determined from three subsets of homogeneous signatures of training images, these signatures being respectively associated with a visual characteristic of color, shape and texture of the learning images.
  • the number of uniform homogeneous models of image category and of subsets of uniform image signatures is different from three, it is for example equal to two or four.
  • the homogeneous signatures are obtained from different visual characteristics of the learning images, the same visual characteristic being able to be used to obtain several subsets of homogeneous signatures. For example, four subsets of homogeneous signatures can be obtained, a subset corresponding to a visual color feature and three subsets corresponding to a visual shape feature.
  • the homogeneous signatures are for example extracted from images from three different learning bases or obtained by three different methods of determining a signature.
  • the unsupervised learning method for the determination of intermediate homogeneous models uses a self-organized neuron card of the SOM type.
  • the self-organized neural card used is of the ASSOM type (for Adaptive-Subspace SeIf-Organizing Map in English).
  • the self-organized neural card used is of the GHSOM type (for Growing Hierarchical SeIf-Organizing Map in English).
  • the self-organized neural card used is of the TS-SOM (Tree Structured Self-Organizing Map) type.
  • the sea-picture category model is represented by a single heterogeneous image category model.
  • the image category model is obtained by concatenating a plurality of heterogeneous image category models.
  • Each heterogeneous model corresponds to a category of images and is obtained as defined in the method described above.
  • a beach sports image category model is obtained by concatenating a heterogeneous sea landscape image category model, a heterogeneous beach image category model and a model. heterogeneous sports image category.
  • the neuronal activity of each neuron referent is defined by incrementation.
  • the value of the neuronal activity of each neuron refer to is zero.
  • the value of the neuronal activity of a neuron is incremented by "one" as soon as the neuron reacts to the stimulus of a signature.
  • the method of the invention has been tested on a 1466 image learning basis representing two different categories of images for a content filtering application.
  • a homogeneous image category model for the visual color feature we obtained from these images, a homogeneous image category model for the visual shape feature and a uniform category model. 'images for the visual texture feature.
  • a second phase 844 test images were submitted for classification to an image classifier successively using one of the four previous models.
  • the classification rates obtained were 92.77% for the homogeneous image category model for the visual color characteristic, 82.1 1% for the homogeneous image category model for the visual texture characteristic, 95.02% for the model homogeneous image category for visual shape and 98.46% feature for the heterogeneous image category model obtained from the previous three homogeneous image category models.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

L'invention concerne un procédé de détermination d'un modèle de catégorie d'images, ledit procédé comportant - une étape préalable (10) d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle d'un ensemble d'images d'apprentissage relatives à la catégorie d'images, - une étape de détermination (1 1 ) de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous-ensemble par mise en œuvre d'une carte de neurones auto- organisée, caractérisé en ce qu'il comporte une étape de : - fusion (12) des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images.

Description

Détermination d'un modèle de catégorie d'images
La présente invention se situe dans le domaine du traitement des images, plus particulièrement dans le domaine de la classification automatique d'images. En effet, l'invention concerne un procédé de détermination d'un modèle de catégorie d'images pour la classification automatique d'images.
La technique de l'invention répond à des besoins individuels ou professionnels. Parmi les applications possibles, on trouve notamment, mais pas seulement, des applications de gestion automatique de bases d'images, de filtrage de contenus ou encore des applications dans le domaine de la biométrie comme la reconnaissance de locuteurs s'appuyant par exemple sur la reconnaissance de visages.
La classification d'images consiste à répartir des images dans des catégories ou classes d'images. On entend par catégorie ou classe d'images, un ensemble d'images représentant des objets de même nature tels que par exemple des paysages de ville, de mer ou de montagne, des images d'un même type d'animal, chien, chat ou autre, des visages...
Une image est caractérisée par une signature (ou descripteur) et une catégorie d'images est caractérisée par un modèle. La signature d'une image décrit le contenu visuel de l'image. Elle est représentée sous la forme d'un vecteur et est obtenue à partir de caractéristiques visuelles de l'image. Il existe différents types de caractéristiques visuelles d'une image dont la couleur, la forme ou encore la texture. Pour définir le modèle d'une catégorie d'images, on utilise un ensemble d'images illustrant cette catégorie qui constitue un ensemble d'images d'apprentissage.
Un modèle de catégorie d'images correspond par exemple à une image de référence ou à une image moyenne obtenue à partir des images d'apprentissage ou encore à un réseau de neurones construit à partir des images d'apprentissage de la catégorie d'images considérée. Un modèle de catégorie d'images est représenté par un vecteur correspondant à une signature lorsque le modèle est une image de référence ou correspondant aux valeurs d'activation des neurones lorsque le modèle est un réseau de neurones. Le classement d'une image quelconque dans une catégorie d'images est réalisé par un classifieur d'images.
Pour déterminer la catégorie d'une image quelconque, le classifieur observe l'activation (c'est-à-dire l'adéquation) des modèles des différentes catégories par la signature de cette image. L'activation d'un modèle de catégorie d'images est obtenue par une mesure de correspondance entre la signature de l'image quelconque et le modèle : calcul d'une distance si le modèle est une image de référence ou activation des neurones pour un modèle constitué d'un réseau de neurones.
Selon une première approche, les méthodes actuelles de détermination d'un modèle de catégorie d'images reposent sur une analyse locale de la description d'images de la catégorie considérée.
Dans une analyse locale, une image est vue comme un ensemble de zones d'intérêt individuellement identifiables. Pour cela, on détecte tout d'abord des points saillants dans l'image puis on délimite une zone autour de chacun de ces points.
Dans l'article intitulé "Visual Categorization with Bags of Keypoints" (ECCV 2004), Csurka et al. présentent une méthode qui définit pour chaque zone d'intérêt une signature relative à la seule caractéristique visuelle de forme appelée SIFT (pour Scale Invariant Feature Transform en anglais). Dans cette méthode, un modèle de catégorie d'images est déterminé par application de l'algorithme des k-moyennes (k-means en anglais). L'algorithme des k- moyennes regroupe les signatures SIFT similaires des images d'apprentissage pour former des sous-ensembles. Ces sous-ensembles forment le modèle. Chaque sous-ensemble est représenté par un de ses éléments appelé "centroïde". Pour définir à quelle catégorie d'images appartient une image quelconque, on compare chaque signature locale de cette image avec les différents centroïdes obtenus.
Cette méthode présente l'inconvénient de ne prendre en compte qu'un seul type de caractéristique visuelle d'image pour définir le modèle de catégorie d'images, la caractéristique de forme. Un autre inconvénient de cette méthode est qu'elle repose sur une définition a priori du nombre de sous- ensembles utilisés et donc indépendamment des images d'apprentissage.
D'autres méthodes reposant sur une analyse locale de la description d'une image et appliquant des regroupements sont employées pour déterminer un modèle de catégorie d'images. Il s'agit de méthodes qui utilisent des réseaux de neurones tels que des réseaux TS-SOM (pour Tree Structured Self-Organizing Map en anglais). Une telle méthode est décrite par Laaksonen et al. dans l'article intitulé "PicSOM - self organizing image retrieval with mpeg- 7 content descriptions" (TNN 2002). Dans cette méthode, les signatures similaires sont également regroupées dans des sous-ensembles. Comme dans la méthode précédente, ces sous-ensembles forment le modèle. A la différence de la méthode précédente, ces sous-ensembles sont hiérarchisés selon une structure arborescente et le nombre de sous-ensembles n'est plus défini a priori mais déterminé automatiquement lors de l'initialisation du réseau de neurones à partir des images d'apprentissage.
Cette méthode aussi n'utilise qu'un seul type de caractéristique visuelle de couleur ou de texture ou de forme pour déterminer un modèle. Les trois modèles respectivement de couleur ou de texture ou de forme sont ensuite comparés et la méthode retient le meilleur d'entre eux en fonction de la catégorie d'images à analyser pour déterminer le modèle de la catégorie d'images considérée.
Cette méthode présente l'inconvénient de nécessiter la détermination de trois modèles de catégorie d'images et la mesure de la performance de chacun d'entre eux. Selon une seconde approche, les méthodes de détermination d'un modèle de catégorie d'images reposent sur une analyse globale de la description d'images de la catégorie considérée.
Dans une analyse globale, l'image est vue comme un tout. Une telle méthode a été décrite par C. Garcia et al. dans un article intitulé "Convolutional face finder: A neural architecture for fast and robust face détection" (PAMI 2004).
L'image entière est décrite et l'information concernant tous les pixels des images étudiées est prise en compte. Dans cette méthode, le modèle d'une catégorie d'images est déterminé par utilisation d'un réseau de neurones convolutionnels. Comme dans les méthodes précédentes, un seul type de caractéristique visuelle (forme ou couleur ou texture) est considéré.
Cette méthode produit un grand nombre de données à traiter et s'intéresse à des objets très précis : visages, motos de profil... Par conséquent, cette méthode n'est pas adaptée pour les images naturelles présentant une très grande variabilité de prises de vues, de formes, d'illumination, etc.
Dans l'article intitulé "Pattern classification using multiple hierarchical overlapped self-organising maps", Pattern Récognition Society, 2001 , P. N. Suganthan décrit une méthode de classification d'images de caractères qui repose sur trois caractéristiques différentes des images considérées permettant de définir respectivement trois ensembles distincts de signatures. Les trois caractéristiques considérées sont : les pixels du caractère, les contours du caractère et les contours orientés du caractère. Les signatures de chacun des trois ensembles sont ensuite soumises respectivement à trois classifieurs distincts qui donnent chacun une décision de classification. Les différentes décisions de classification sont ensuite combinées pour donner la décision de classification finale. Les classifieurs utilisent des cartes de neurones auto-organisées de type HOSOM (pour Hierarchical Overlapped Self-Organising Map). Cette solution qui utilise différentes caractéristiques d'une image présente l'inconvénient de nécessiter trois chaines complètes de traitement et une combinaison finale.
La présente invention a pour but de résoudre les inconvénients de la technique antérieure en proposant un procédé de détermination d'un modèle de catégorie d'images à partir de caractéristiques visuelles hétérogènes de ces images.
A cet effet, l'invention a pour objet un procédé de détermination d'un modèle de catégorie d'images, ledit procédé comportant
- une étape préalable d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle d'un ensemble d'images d'apprentissage relatives à la catégorie d'images,
- une étape de détermination de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous- ensemble, par mise en œuvre d'une carte de neurones auto-organisée, caractérisé en ce qu'il comporte :
- une étape de fusion des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images. Le procédé de détermination d'un modèle de catégorie d'images de l'invention définit automatiquement un modèle de catégorie d'images à partir de caractéristiques hétérogènes d'images. Ainsi, le procédé ne nécessite pas de connaissance a priori des caractéristiques discriminantes des images. Il utilise toutes les données disponibles sur les images. Il permet également de définir un modèle pour n'importe quelle catégorie d'images non connue.
La fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée avant la classification c'est-à-dire avant traitement par un classifieur.
Le procédé selon l'invention permet d'obtenir un modèle de catégorie d'image utilisable par un seul classifieur d'images, celui-ci pouvant être de n'importe quel type. Selon une caractéristique préférée, la carte de neurones auto-organisée pour la détermination de modèles homogènes intermédiaires de catégorie d'images est une carte choisie parmi les types suivants :
- SOM (pour Self-Organizing Map en anglais), - ASSOM (pour Adaptative-Subspace Self-Organizing Map en anglais),
- GHSOM (pour Growing Hierarchical Self-Organizing Map en anglais),
- TS-SOM (pour Tree Structured Self-Organizing Map en anglais). L'utilisation par l'invention de réseaux de neurones garantit la construction automatique du modèle de catégorie d'images et peut s'appliquer à un large ensemble de données d'apprentissage.
Selon une caractéristique préférée, la détermination des modèles homogènes intermédiaires de catégorie d'images est réalisée à partir d'une matrice d'activation neuronale.
Selon une caractéristique préférée, la détermination des modèles homogènes intermédiaires de catégorie d'images est réalisée par incrémentation de l'activité neuronale de chaque neurone.
La détermination par le procédé de l'invention des modèles homogènes intermédiaires de catégorie d'images par activation d'un réseau de neurones permet de structurer automatiquement l'information. Selon une caractéristique préférée, la fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée à partir d'une carte de neurones auto-organisée.
La fusion des modèles homogènes intermédiaires de catégorie d'images étant réalisée à partir d'une carte de neurones auto-organisée présente l'avantage de tenir compte de toutes les données des images d'apprentissage. Elle permet également de traiter des données hétérogènes.
Selon une caractéristique préférée, la fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée par apprentissage d'une carte de neurones auto-organisée à partir des matrices d'activation neuronale de chacun des modèles homogènes intermédiaires de catégorie d'images. Selon une caractéristique préférée, le procédé comporte l'obtention de plusieurs modèles hétérogènes de catégorie d'images correspondant chacun à une catégorie d'images et la concaténation des modèles hétérogènes obtenus.
Ainsi, l'obtention d'un modèle hétérogène de catégorie d'images par concaténation de modèles hétérogènes de catégories d'images différents rend ce modèle de catégorie d'images utilisable par n'importe quel type de classifieur.
L'invention a également pour objet un dispositif de détermination d'un modèle de catégorie d'images comportant - un module d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle d'un ensemble d'images d'apprentissage relatives à la catégorie d'images,
- un module de détermination de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous- ensemble par mise en œuvre d'une carte de neurones auto-organisée, caractérisé en ce qu'il comporte :
- un module de fusion des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images.
L'invention concerne encore un programme comportant des instructions pour mettre en œuvre le procédé exposé ci-dessus.
L'invention concerne également un modèle hétérogène de catégorie d'images obtenu par le procédé de détermination d'un modèle de catégorie d'images décrit ci-dessus.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture d'un mode de réalisation préféré décrit en référence aux figures dans lesquelles :
- la figure 1 représente les différentes étapes du procédé de détermination d'un modèle de catégorie d'images selon l'invention, - la figure 2 représente le dispositif apte à mettre en œuvre le procédé de la figure 1.
En référence à la figure 1 , on décrit ci-après le procédé de l'invention dans une application particulière à la détermination d'un modèle de catégorie d'images pour des images représentant des paysages de mer. Cependant, le procédé de l'invention est utilisable pour déterminer un modèle de catégorie d'images pour tout type d'images.
La première étape 10 est une étape d'extraction de caractéristiques visuelles d'images qui a pour objectif de collecter les données d'apprentissage nécessaires pour les étapes suivantes du procédé.
On considère un ensemble d'apprentissage comportant M images d'apprentissage de paysages de mer sur lesquelles on réalise les traitements suivants. Tout d'abord, chacune des M images de paysages de mer est décrite selon une analyse locale. On détecte les P points saillants dans chacune des images puis on délimite une zone d'intérêt autour de ces points.
Ensuite, on calcule pour chaque zone d'intérêt des signatures locales relatives respectivement à la caractéristique visuelle de couleur, à la caractéristique visuelle de forme et à la caractéristique visuelle de texture.
Pour cela, dans un mode particulier de réalisation, on utilise la signature de couleur SCD (pour Scalable Color Descriptor en anglais), la signature de texture HTD (pour Histogram Texture Descriptor en anglais) et la signature de forme RFD (pour Regularity Foveal Descriptor en anglais). Les deux premières signatures sont référencées dans la norme MPEG-7 ("Color and texture descriptors", Manjunath B. S. et al., IEEE TCSVT, 1 1 (6):703-715, 2001 ). La troisième signature résulte des travaux de J. Ros et al. ("Description of local singularities for image registration", 4:61-64 ICPR 2006).
Ces signatures sont des vecteurs de tailles respectives 256, 62 et 384. A l'issue de cette étape on dispose donc de trois sous-ensembles de données pour des images d'apprentissage de paysages de mer : - un premier sous-ensemble de N (avec N = M x P) signatures locales relatives à la caractéristique visuelle de couleur,
- un deuxième sous-ensemble de N signatures locales relatives à la caractéristique visuelle de forme, - un troisième sous-ensemble de N signatures locales relatives à la caractéristique visuelle de texture.
En référence à la figure 1 , la deuxième étape 1 1 est l'obtention d'un modèle homogène intermédiaire de catégorie d'images pour chacune des trois caractéristiques visuelles (couleur, forme, texture). Cette étape repose sur la mise en œuvre d'une méthode d'apprentissage non supervisée telle qu'une carte de neurones auto-organisée ou carte SOM (pour Self-Organizing Map en anglais).
On utilise une carte SOM pour représenter chacune des trois caractéristiques visuelles de couleur, de forme et de texture. Chacune de ces trois cartes SOM est une matrice de neurones à deux dimensions et comportant ligne S0M lignes et colonneSOM colonnes. Les valeurs de HgneS0M et œlonneSOM sont définies arbitrairement, par exemple égales à 5.
Un neurone est un vecteur à 256 composantes pour la couleur, 384 composantes pour la forme et 62 composantes pour la texture. Au cours d'une première phase, on s'intéresse à la caractéristique visuelle de couleur. Dans une deuxième phase, on s'intéressera à la caractéristique visuelle de forme et dans une troisième phase à la caractéristique visuelle de texture.
L'étape 1 1 se décompose en deux sous-étapes : - une première sous-étape d'apprentissage de la carte SOM,
- une seconde sous-étape d'activation de la carte SOM "apprise" à la sous-étape précédente.
Pendant la première sous-étape de l'étape 11 , on met en œuvre le processus d'apprentissage de la carte SOM pour obtenir un ensemble de neurones référents tel que décrit par T. Kohonen dans "Self-Organizing Maps", Springer, 2001.
L'apprentissage d'un réseau de neurones de type SOM repose sur la mise en place d'une topologie de réseau particulière (rectangulaire, hexagonale, hiérarchique, etc.). Dans un mode particulier de réalisation, on retient une topologie de réseau rectangulaire. On suppose donc pour la suite que le réseau est constitué de NΘ neurones (avec NΘ = ligne S0M x colonneSOM ) arrangés suivant une topologie rectangulaire.
Tout d'abord, on initialise les NΘ neurones de la carte SOM avec des valeurs aléatoires.
Puis, pour chaque signature locale s\ avec t variant de 1 à N, on détermine un neurone réfèrent.
Un neurone réfèrent est un neurone pour lequel la distance euclidienne entre le vecteur de la signature locale et le vecteur affecté initialement de façon aléatoire au neurone est la plus petite.
Ce neurone réfèrent nkι dans la carte SOM (avec k correspondant au numéro de la ligne et étant compris entre 1 et ligne S0M et / correspondant au numéro de la colonne et étant compris entre 1 et colonneSOM ) est appelé BMU (pour Best Matching Unit en anglais) et est déterminé de la façon suivante :
Figure imgf000012_0001
- s' correspond à une des signatures locales relatives à la caractéristique visuelle de couleur obtenues à l'étape 10 avec t variant de 1 à N, - nl} correspond à un neurone de la carte SOM à deux dimensions avec i variant de 1 à ligne S0M et y variant de 1 à colonneSOM ,
II correspond à la distance euclidienne. Ensuite, en appliquant la règle d'apprentissage compétitif de T. Kohonen, on met à jour les valeurs initiales des vecteurs des neurones référents et les neurones voisins de la carte SOM de la façon suivante : nkl (r + 1) = nkl (r) + a(τ)hki (τ)[sf - n^ (r)] où τ désigne l'index temporel, a(τ) désigne le taux d'apprentissage. Dans la pratique, a(τ) est une séquence monotone décroissante avec O ≤ a(τ) ≤ 1 ,
- hki désigne la fonction de voisinage entre le neurone réfèrent nu et ses voisins dont la valeur doit être mise à jour. Généralement, une fonction de voisinage gaussienne est retenue,
- k est compris entre 1 et HgneS0M et / est compris entre 1 et colonneSOM .
Au cours de la deuxième sous-étape de l'étape 1 1 , lorsque l'apprentissage de la carte SOM est terminé, on effectue l'activation de cette carte SOM par chacune des N signatures locales relatives à la caractéristique visuelle de couleur.
Pour cela, on soumet chaque neurone au stimulus des N signatures locales obtenues à l'étape 10 et relatives à la couleur et on mesure l'activité neuronale de chaque neurone réfèrent autrement dit, on mesure la réaction de chaque neurone à ce stimulus.
Chaque signature de couleur active un neurone réfèrent nu (avec k compris entre 1 et HgneS0M et / compris entre 1 et colonneSOM ).
Cette activité neuronale équivaut à une énergie et est donnée par l'équation suivante :
Figure imgf000013_0001
ou - s correspond à une des signatures locales relatives à la caractéristique visuelle de couleur obtenues à l'étape 10 avec t variant de 1 à N,
- nkι correspond à un neurone réfèrent de la carte SOM à deux dimensions avec k compris entre 1 et HgneS0M et / compris entre 1 et colonne S0M ,
- Il correspond à la distance euclidienne.
Ensuite, pour tous les neurones, on détermine la matrice d'activation neuronale M pour les N signatures relatives à la caractéristique visuelle de couleur de l'image telle que :
Figure imgf000014_0001
- i varie de 1 à ligne S0M et y varie de 1 à colonneSOM ,
- A varie de 1 à N. La matrice d'activation neuronale ainsi obtenue constitue un modèle homogène intermédiaire de catégorie d'images relatif à la caractéristique visuelle de couleur.
Au cours d'une deuxième phase et en procédant de la même façon qu'au cours de la première phase décrite précédemment, on obtient un modèle homogène intermédiaire de catégorie d'images relatif à la caractéristique visuelle de forme. Ce modèle correspond à la matrice d'activation neuronale
M F pour les N signatures relatives à la caractéristique visuelle de forme de l'image.
Au cours d'une troisième phase et en procédant de la même façon qu'au cours des deux phases précédentes, on détermine un modèle homogène intermédiaire de catégorie d'images relatif à la caractéristique visuelle de texture. Ce modèle correspond à la matrice d'activation neuronale Mτ pour les N signatures relatives à la caractéristique visuelle de texture de l'image.
A l'issue de l'étape 1 1 , on obtient ainsi trois modèles homogènes intermédiaires pour la catégorie d'images étudiée respectivement pour la caractéristique visuelle de couleur, la caractéristique visuelle de forme et la caractéristique visuelle de texture correspondant chacun à une matrice d'activation neuronale.
Ces trois matrices d'activation neuronale sont comparables car représentant l'activité neuronale de cartes de neurones auto-organisées de même dimension.
Au cours de l'étape 12 représentée sur la figure 1 , on réalise une fusion des modèles homogènes intermédiaires obtenus à l'étape précédente.
La fusion est réalisée par la mise en œuvre d'une nouvelle carte SOM comportant HgneS0M_final lignes et colonne S0M_flnal colonnes. Les valeurs de
ligne S0M_fmal et colonne S0M_fmal sont définies arbitrairement, par exemple égales
à 10.
L'apprentissage de cette carte SOM est réalisé en appliquant le processus d'apprentissage de T. Kohonen selon une démarche identique à celle décrite à l'étape 11. Les données d'entrée sont alors les matrices d'activation neuronaleAf , M F et Mτ précédemment obtenues.
Pour chaque modèle homogène intermédiaire de catégorie d'images obtenu à l'étape précédente et représenté par la matrice d'activation neuronale M p , on détermine un neurone réfèrent σab dans la carte SOM
(avec a correspondant au numéro de la ligne et étant compris entre 1 et ligneS0M_final et b correspondant au numéro de la colonne et étant compris entre 1 et colonne S0M_fmal ) par :
Figure imgf000016_0001
- Mp correspond à une des matrices d'activation neuronale obtenues à l'étape précédente, - σl} correspond à un neurone de la carte SOM à deux dimensions avec i variant de 1 à HgneS0M_final e\j variant de 1 à colonne S0M_final .
Ensuite, en appliquant la règle d'apprentissage compétitif de T. Kohonen, on met à jour les valeurs initiales des neurones référents et les neurones voisins de la carte SOM de la façon suivante :
σab(τ + 1) = σ ab(τ) + a(τ)h ab(τ)[M P -σab(τΛ
- τ désigne l'index temporel,
- a(τ) désigne le taux d'apprentissage. Dans la pratique, α(r) est une séquence monotone décroissante avec O ≤ a(τ) ≤ 1.
- hab désigne la fonction de voisinage entre le neurone réfèrent σab et ses voisins dont les valeurs doivent être mises à jour. Généralement, une fonction de voisinage gaussienne est retenue.
La carte SOM ainsi obtenue représente le modèle pour la catégorie d'images de mer considérée.
Ce modèle est constitué à partir de caractéristiques visuelles hétérogènes de couleur, de forme et de texture. On le désigne sous le terme de modèle hétérogène de catégorie d'images.
La fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée avant la classification c'est-à-dire avant traitement par un classifieur. Le procédé selon l'invention permet d'obtenir un modèle de catégorie d'image utilisable par un seul classifieur d'images, celui-ci pouvant être de n'importe quel type.
L'activation de ce modèle hétérogène d'images par une image quelconque permet de déterminer si cette image appartient à la catégorie d'images de mer.
L'activation du modèle hétérogène final par une image quelconque est donnée par la matrice d'activation neuronale// telle que :
Figure imgf000017_0001
£-^est l'énergie d'activation du neurone réfèrent σab par la matrice
d'activation du modèle homogène intermédiaire Mp , avec p le type de signature utilisé (couleur, texture et forme), - σab correspond à un neurone réfèrent de la carte SOM finale à deux dimensions avec i variant de 1 à ligne S0M_final et j variant de 1 à colonne S0M_fmal .
La figure 2, illustre schématiquement un dispositif 20 apte à mettre en œuvre le procédé de l'invention.
Le dispositif comprend un module 21 d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle (de couleur, de forme ou de texture) d'un ensemble d'images d'apprentissage relatives à la catégorie d'images. Ce module de traitement reçoit M images d'apprentissage. Il identifie, pour chacune de ces images, P points saillants et les zones d'intérêt autour de ces points saillants. Puis, tel que décrit à l'étape 10 du procédé ci-dessus, il calcule pour chaque zone d'intérêt une signature locale relative à la caractéristique visuelle de couleur ou de forme ou de texture de l'image.
Le dispositif comprend également un module 22 de détermination de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous-ensemble obtenu en sortie du module 21 par mise en œuvre d'une carte de neurones auto-organisée.
Le module 22 réalise, à partir des données d'apprentissage obtenues en sortie du module 21 , d'une part l'initialisation d'une carte de neurones et d'autre part la mise à jour des valeurs des différents neurones tel que décrit à la première sous-étape de l'étape 1 1.
Puis, en référence à la seconde sous-étape de l'étape 1 1 du procédé, le module 22 réalise l'activation de la carte de neurones auto-organisée par les données d'apprentissage obtenues en sortie du module 21. Le dispositif comprend aussi un module 23 de fusion des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images.
Le module 23 réalise, à partir des modèles homogènes intermédiaires de catégorie d'images obtenus en sortie du module 22, d'une part l'initialisation d'une carte de neurones et d'autre part la mise à jour des valeurs des différents neurones tel que décrit à l'étape 12.
Le dispositif 20 comprend en outre une unité centrale de commande, non représentée, connectée à chacun des modules 21 à 23 et adaptée pour commander leur fonctionnement. Les modules 21 à 23 peuvent être des modules logiciels formant un programme d'ordinateur. L'invention concerne donc également un programme d'ordinateur pour un dispositif de détermination d'un modèle de catégorie d'images comprenant des instructions logicielles pour faire exécuter le procédé précédemment décrit par le dispositif. Le module logiciel peut être stocké dans ou transmis par un support de données. Celui-ci peut être un support matériel de stockage, par exemple un CD-ROM, une disquette magnétique ou un disque dur, ou bien un support transmissible tel qu'un signal électrique, optique ou radio.
Dans la description qui précède, chacune des N signatures obtenues à l'étape d'apprentissage est définie à partir d'une analyse locale des N images de la base d'apprentissage. Dans un autre mode de réalisation, ces signatures sont obtenues par une analyse globale des images. Le processus est le même que précédemment, mais la description de couleur, de forme et de texture de l'image n'est plus locale mais globale.
Dans l'exposé ci-dessus d'un mode de réalisation de l'invention, on détermine trois modèles homogènes intermédiaires de catégorie d'images à partir de trois sous-ensembles de signatures homogènes d'images d'apprentissage, ces signatures étant respectivement associées à une caractéristique visuelle de couleur, de forme et de texture des images d'apprentissage. En variante, le nombre de modèles homogènes intermédiaires de catégorie d'images et de sous-ensembles de signatures homogènes d'images est différent de trois, il est par exemple égal à deux ou quatre. Les signatures homogènes sont obtenues à partir de différentes caractéristiques visuelles des images d'apprentissage, une même caractéristique visuelle pouvant servir à l'obtention de plusieurs sous- ensembles de signatures homogènes. Par exemple, on peut obtenir quatre sous-ensembles de signatures homogènes, un sous-ensemble correspondant à une caractéristique visuelle de couleur et trois sous-ensembles correspondant à une caractéristique visuelle de forme. Pour les trois sous- ensembles correspondant à une caractéristique visuelle de forme, les signatures homogènes sont par exemple extraites d'images issues de trois bases d'apprentissage différentes ou obtenues par trois méthodes différentes de détermination d'une signature. Selon le mode de réalisation de l'invention décrit précédemment, la méthode d'apprentissage non supervisée pour la détermination de modèles homogènes intermédiaires utilise une carte de neurones auto-organisée de type SOM. Selon un autre mode de réalisation, la carte de neurones autoorganisée utilisée est de type ASSOM (pour Adaptative-Subspace SeIf- Organizing Map en anglais).
Selon un autre mode de réalisation, la carte de neurones autoorganisée utilisée est de type GHSOM (pour Growing Hierarchical SeIf- Organizing Map en anglais).
Selon un autre mode de réalisation, la carte de neurones autoorganisée utilisée est de type TS-SOM (pour Tree Structured Self-Organizing Map en anglais).
Dans l'exposé ci-dessus d'un mode de réalisation préféré de l'invention, le modèle de catégorie d'images de mer est représenté par un seul modèle hétérogène de catégorie d'images. Dans un autre mode de réalisation, le modèle de catégorie d'images est obtenu par concaténation de plusieurs modèles hétérogènes de catégorie d'images. Chaque modèle hétérogène correspond à une catégorie d'images et est obtenu tel que défini dans le procédé décrit précédemment. Par exemple, un modèle de catégorie d'images de sports de plage est obtenu par concaténation d'un modèle hétérogène de catégorie d'images de paysages de mer, d'un modèle hétérogène de catégorie d'images de plages et d'un modèle hétérogène de catégorie d'images de sport.
Selon un autre mode de réalisation de l'invention, l'activité neuronale de chaque neurone réfèrent est définie par incrémentation. A l'initialisation, la valeur de l'activité neuronale de chaque neurone réfèrent est égale à zéro. La valeur de l'activité neuronale d'un neurone est incrémentée de "un" dès que ce neurone réagit au stimulus d'une signature. Le procédé de l'invention a été testé sur une base d'apprentissage de1466 images représentant deux catégories d'images différentes en vue d'une application de filtrage de contenu.
Dans une première phase, on a obtenu à partir de ces images, un modèle homogène de catégorie d'images pour la caractéristique visuelle de couleur, un modèle homogène de catégorie d'images pour la caractéristique visuelle de forme et un modèle homogène de catégorie d'images pour la caractéristique visuelle de texture.
Ensuite, par application du procédé de l'invention et à partir des trois modèles homogènes de catégorie d'images précédemment obtenus, on a défini un modèle hétérogène de catégorie d'images.
Dans une deuxième phase on a soumis pour classification à un classifieur d'images utilisant successivement un des quatre modèles précédents , 844 images de test. Les taux de classification obtenus ont été de 92.77% pour le modèle homogène de catégorie d'images pour la caractéristique visuelle de couleur, 82.1 1 % pour le modèle homogène de catégorie d'images pour la caractéristique visuelle de texture, 95.02% pour le modèle homogène de catégorie d'images pour la caractéristique visuelle de forme et de 98.46% pour le modèle hétérogène de catégorie d'images obtenu à partir des trois modèles homogènes de catégorie d'images précédents.

Claims

REVENDICATIONS
1. Procédé de détermination d'un modèle de catégorie d'images, ledit procédé comportant
- une étape préalable (10) d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle d'un ensemble d'images d'apprentissage relatives à la catégorie d'images,
- une étape de détermination (11 ) de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous-ensemble, par mise en œuvre d'une carte de neurones autoorganisée, caractérisé en ce qu'il comporte une étape de :
- fusion (12) des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images.
2. Procédé selon la revendication 1 , caractérisé en ce que la détermination des modèles homogènes intermédiaires de catégorie d'images est réalisée à partir d'une matrice d'activation neuronale.
3. Procédé selon la revendication 1 , caractérisé en ce que la détermination des modèles homogènes intermédiaires de catégorie d'images est réalisée par incrémentation de l'activité neuronale de chaque neurone.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que la fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée à partir d'une carte de neurones auto-organisée.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que la fusion des modèles homogènes intermédiaires de catégorie d'images est réalisée par apprentissage d'une carte de neurones auto- organisée à partir des matrices d'activation neuronale de chacun des modèles homogènes intermédiaires de catégorie d'images.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comporte l'obtention de plusieurs modèles hétérogènes de catégorie d'images correspondant chacun à une catégorie d'images et la concaténation des modèles hétérogènes obtenus.
7. Dispositif (20) de détermination d'un modèle de catégorie d'images comportant
- un module (21 ) d'obtention de sous-ensembles de signatures homogènes associées respectivement à une caractéristique visuelle d'un ensemble d'images d'apprentissage relatives à la catégorie d'images,
- un module (22) de détermination de modèles homogènes intermédiaires de catégorie d'images à partir des signatures homogènes de chaque sous-ensemble par mise en œuvre d'une carte de neurones autoorganisée, caractérisé en ce qu'il comporte :
- un module (23) de fusion des modèles homogènes intermédiaires de catégorie d'images pour obtenir un modèle hétérogène de catégorie d'images.
8. Programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 6 lorsque le procédé est exécuté par un ordinateur.
9. Modèle hétérogène de catégorie d'images obtenu par le procédé de détermination d'un modèle de catégorie d'images selon l'une quelconque des revendications 1 à 6.
PCT/FR2008/050598 2007-04-06 2008-04-03 Determination d'un modele de categorie d'images WO2008139093A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0754388 2007-04-06
FR0754388 2007-04-06

Publications (2)

Publication Number Publication Date
WO2008139093A2 true WO2008139093A2 (fr) 2008-11-20
WO2008139093A3 WO2008139093A3 (fr) 2009-01-08

Family

ID=38442175

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2008/050598 WO2008139093A2 (fr) 2007-04-06 2008-04-03 Determination d'un modele de categorie d'images

Country Status (1)

Country Link
WO (1) WO2008139093A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034069A (zh) * 2018-07-27 2018-12-18 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KOHONEN T ET AL: "Visual Feature Analysis by the Self-Organising Maps" NEURAL COMPUTING AND APPLICATIONS, XX, XX, vol. 7, 1998, pages 273-286, XP002398473 *
SUGANTHAN P N: "Pattern classification using multiple hierarchical overlapped self-organising maps" PATTERN RECOGNITION, ELSEVIER, KIDLINGTON, GB, vol. 34, no. 11, novembre 2001 (2001-11), pages 2173-2179, XP004508346 ISSN: 0031-3203 cité dans la demande *
TOMMY W S CHOW ET AL: "Content-based image retrieval by using tree-structured features and multi-layer self-organizing map" PATTERN ANALYSIS AND APPLICATIONS, SPRINGER-VERLAG, LO, vol. 9, no. 1, 10 janvier 2006 (2006-01-10), pages 1-20, XP019385825 ISSN: 1433-755X *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034069A (zh) * 2018-07-27 2018-12-18 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109034069B (zh) * 2018-07-27 2021-04-09 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
WO2008139093A3 (fr) 2009-01-08

Similar Documents

Publication Publication Date Title
EP3640843B1 (fr) Procédé d'extraction de caractéristiques d'une empreinte digitale représentée par une image d'entrée
EP2696344B1 (fr) Procede et systeme pour detecter des evenements sonores dans un environnement donne
EP0521548B1 (fr) Procédé et dispositif avec un réseau neuronal pour classer des données
Li et al. Deepreid: Deep filter pairing neural network for person re-identification
EP3582141B1 (fr) Procédé d'apprentissage de paramètres d'un réseau de neurones à convolution
FR3088467A1 (fr) Procede de classification d'une image d'entree representative d'un trait biometrique au moyen d'un reseau de neurones a convolution
EP3832535A1 (fr) Procédé de détection d'au moins un élément d'intérêt visible dans une image d'entrée au moyen d'un réseau de neurones à convolution
EP3620970A1 (fr) Procédé d'extraction de caractéristiques d'une empreinte digitale représentée par une image d'entrée
WO2009153445A1 (fr) Dispositif d'aide a la reconnaissance d'images ameliore
EP1990757A1 (fr) Procédé et dispositif d'authentification automatisée d'un ensemble de points
FR3087032A1 (fr) Procedes d'apprentissage de parametres d'un reseau de neurones a convolution, de detection d'elements d'interet visibles dans une image et d'association d'elements d'interet visibles dans une image
Guo et al. Varied channels region proposal and classification network for wildlife image classification under complex environment
CA2709180C (fr) Procedes de mise a jour et d'apprentissage d'une carte auto-organisatrice
WO2008139093A2 (fr) Determination d'un modele de categorie d'images
WO2008104453A1 (fr) Procède de reconnaissance et de localisation automatique d'entités dans des images numériques
EP0447306B1 (fr) Dispositif de reconnaissance de séquences dans un signal multidimensionnel
WO2019129985A1 (fr) Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
David et al. Authentication of Vincent van Gogh’s work
Gopalan Learning cross-domain information transfer for location recognition and clustering
Slimani et al. A Hybrid Metaheuristic and Deep Learning Approach for Change Detection in Remote Sensing Data
CN109543776B (zh) 一种大规模双盲相机源检测方法
You et al. Spatial reasoning and context-aware attention network for skeleton-based action recognition
FR3104291A1 (fr) Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés
EP4078435A1 (fr) Procédé de segmentation d'une image d'entrée représentant un document comportant des informations structurées

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08788121

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08788121

Country of ref document: EP

Kind code of ref document: A2