WO2007077175A1 - Procede de classification d'images par reseaux neuroniques et classifieur d'images prealablement appris, dispositif et programme d'ordinateur correspondants - Google Patents

Procede de classification d'images par reseaux neuroniques et classifieur d'images prealablement appris, dispositif et programme d'ordinateur correspondants Download PDF

Info

Publication number
WO2007077175A1
WO2007077175A1 PCT/EP2006/070195 EP2006070195W WO2007077175A1 WO 2007077175 A1 WO2007077175 A1 WO 2007077175A1 EP 2006070195 W EP2006070195 W EP 2006070195W WO 2007077175 A1 WO2007077175 A1 WO 2007077175A1
Authority
WO
WIPO (PCT)
Prior art keywords
images
image
learning
networks
categories
Prior art date
Application number
PCT/EP2006/070195
Other languages
English (en)
Inventor
Huicheng Zheng
Christophe Laurent
Grégoire LEFEBVRE
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2007077175A1 publication Critical patent/WO2007077175A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the field of the invention is that of the automated classification of data, and in particular of the image type, according to given categories of information.
  • the invention finds particular applications in the field of the filtering of illegal content, by simplifying and optimizing the distinction between the contents of lawful images and illegal content.
  • the image classification consists in distributing a set of images according to specific categories or classes of images, by means of partitioning the characteristic space of an image database into a set of separate regions. by decision surfaces.
  • an image is represented by a signature (or descriptor), which can be expressed in the form of a vector, usually of large size, but which should ideally take the most compact form possible to be representative of the visual content of the image.
  • a signature or descriptor
  • One of the main difficulties encountered by the techniques of the prior art when manually determining the signature of an image relates to the geometric or photometric transformations that the image can undergo.
  • two images similar in the visual sense can then be represented by two very different signatures in the mathematical sense, with the consequence that a classification of image data is sought to automate. bias and performance problems such as those encountered with existing solutions.
  • the selected descriptors or signatures are, for example, wavelets, as described in the article by Daubechies I. entitled “The Wavelet Transform, Time-Frequency Localization and Signal Analysis", IEEE Transactions on Information Theory, Vol. . 36, 1990, pp. 961-1005.
  • These signatures may also take the form of Gabor filters, as described in the article by Gabor D., entitled “Theory of Communication", Journal of IEE, Vol. 93, 1946, pp.
  • a first disadvantage of these image classification solutions is related to the fact that they require a priori and essentially manual creation of the descriptors or signatures, which necessarily induces a priori important on the the content of an image to be classified, which may have a negative influence on the assignment of a category of images to the latter, all the more so when the very design of the descriptors is based on rarely, justified and verified human hypotheses .
  • the shape of the filter is generally chosen a priori in such a way that it is the most representative of the images to be processed.
  • the characteristics of the images can change, resulting in other choice of descriptors.
  • Kohonen proposed more recently a method called ASSOM (for "Adaptive-Subspace SeIf- Organizing Map” in English, or “Self-organizing map of adaptive subspaces” - see article by Kohonen T., Kaski S., Lappalainen H. entitled “Self -Organized Formation of Variables Invariant-Feature Filters in the Adaptive-Subspace SOM ", in Neural Computation, Vol.9, No. 6, August 1997, pp. 1321-1344.) which makes it possible to automatically construct invariant descriptors from data to be classified, themselves.
  • ASSOM for "Adaptive-Subspace SeIf- Organizing Map” in English, or “Self-organizing map of adaptive subspaces” - see article by Kohonen T., Kaski S., Lappalainen H. entitled “Self -Organized Formation of Variables Invariant-Feature Filters in the Adaptive-Subspace SOM ", in Neural Computation, Vol.9
  • an ASSOM network is defined for each category of images by means of a database of training images and with regard to a set of "patches" (i.e., small areas of the images) previously extracted from a subset of learning images representative of the same category of images.
  • a histogram is then created for each input image. Then, the averages and variances of the histograms are calculated for each category. They are considered respectively representative of a corresponding category of images.
  • a histogram of the image is first calculated, then compared with all the representatives of the same image category, with regard to a distance of Mahalanobis.
  • the category of the image will be the one whose representative is closest to the histogram of the image in the direction of Mahalanobis distance.
  • a major drawback of Zhang's technique applied to the field of handwriting recognition and by extension to that of image recognition, is mainly due to the fact that it only works on images of small sizes and when the latter contain standardized data whose signature is in the form of a small characteristic vector.
  • an object of the invention is to provide a technique for classifying the following images of the predefined categories, which is applicable whatever the size of the images to be processed and whatever the variations between their contents.
  • Another object of the invention is to provide such a technique that makes it possible to avoid subjective choices of the mathematical forms of the image descriptors, without any a priori hypothesis that can potentially introduce bias or errors in terms of classification, such as is the case in the known solutions of the prior art.
  • Another object of the invention is to propose such a technique which allows the discriminant characteristics of the images to be learned and their classification to be taken into account, taking into account only their respective contents. It is another object of the invention to provide such a technique which allows for rapid and efficient implementation and execution, so that it can be applied to areas in which the categorization of one or more images must be carried out in a relatively short time, for example in a context of filtering or controlling access to illegal content on the Internet by categories of unauthorized persons (children for example), while ensuring an optimal result of the classification of input images.
  • the invention also aims to provide such a technique, which is simple and inexpensive to implement. 4. Summary of the invention These objectives, as well as others that will appear later, are achieved by means of a method of classifying at least one input digital image according to at least two predetermined categories of images.
  • assignment of at least one signature associated with an element belonging to the group comprising:
  • a point of interest of said input image an area of interest of said input image; association with each of said signatures of a characteristic vector of dimension 'c' obtained by the application of a matrix of 'c' neural networks of at least one dimension, each of said neural networks being previously configured during a learning phase and associated with one of said categories of images, said characteristic vector being representative of a histogram of the responses delivered by said neural networks, classification of said image in one of said categories using a classifier previously configured during a learning phase, according to said characteristic vector of dimension 'c' .
  • the invention is based on a completely new and inventive approach to the classification of one or more input images, consisting of a quick action to establish the class of an image / and assign a category C 1 to it.
  • the classification step is performed by an image classifier taking into account the information of the characteristic vector f.
  • Each element of the characteristic vector f obtained at the output of the matrix of neural networks is thus composed of the number of times that a neural network representative of a category of images to be learned, is considered to be a winner among the different neural networks set up. It is therefore according to the data of the characteristic vector obtained at the output of the matrix of the neural networks thanks to the competition of the latter, that the category of image to be assigned to an input image is determined. .
  • the classification method according to the invention comprises for each of said categories of images a preliminary unsupervised learning step of each of said neural networks, according to a predetermined set of training images.
  • Unsupervised learning by this type of invariant neural network according to said at least one predetermined transformation allows the construction of linear subspaces associated with the regions of interest of an image to be classified and makes it possible to overcome the difficulties related to geometric transformations such as translation, rotation and scaling. It is then the implementation of the array of neural networks each corresponding to a specific category that optimizes the capture of the discriminant characteristics of the different categories of images considered for classification.
  • said at least one predetermined transformation belongs to the group comprising: an affine transformation; a nonlinear transformation.
  • each specific neural network of one of said image categories is a network of ASSOM-type neurons, said ASSOM network, capable of automatically generating a set of invariant descriptors. representative of said categories of images, when said at least one predetermined transformation is of the affine transformation type.
  • ASSOM is particularly interesting in the context of the invention since they ensure a limitation of the number of descriptors that will be generated.
  • the use of the ASSOM networks in the context of the invention makes it possible to simply emerge from the points and / or areas of interest of an input image, the most representative descriptors of a piece of information. crucial to the content of the image, which advantageously makes it possible to substantially reduce in size the content of the image to be analyzed as input.
  • an additional advantage of the use of such networks of the ASSOM type is related to the preservation of the topology of the image to be classified within the same ASSOM neuron network of corresponding category. Indeed, two areas of interest close to each other in the input image project into two neighboring neurons in the ASSOM neural network whose image category is that of the input image. .
  • the invention also relates to a method of unsupervised learning of at least two neural networks invariant to at least one transformation belonging to the group comprising an affine transformation or a nonlinear transformation of the input vectors of these networks, each of said networks neurons being respectively representative of at least two categories of predetermined images for the classification of images according to the aforementioned classification method.
  • such a learning method advantageously takes into account a set of training images and comprises the following steps performed for each set of images of the same image category: initializing a neural network corresponding to the same category of images, according to a predetermined initialization mode; for each training image of the set of images of the same image category assignment of at least one signature associated with an element belonging to the group comprising:
  • the local signatures are injected in parallel into a matrix of several neural networks, for example of the ASSOM type.
  • the input signatures are in competition to determine the winning module.
  • a winning module is determined by comparing the distances between the input signature and the subspaces represented by the modules. The minimum distance shows that a subspace is the most representative of the input data. This distance is used for the second competition at the level of the invariant neural networks in affine transformation. During this second phase of competition, all the neural networks compare their distances with respect to the input signature. The winning network is defined as the one that has the minimum distance from the signature.
  • the steps of the learning method according to the invention thus allow a new way of constructing the characteristic vector of an input image, the latter being composed of the outputs obtained from each network of neurons, respectively defined as the number of times that each network was activated by the local input signatures.
  • the characteristic vector of an image can be considered in the form of a histogram of which each component represents the number of times that the neural network was considered to be a winner.
  • a characteristic vector can then be constructed to allow supervised learning of a downstream classifier.
  • the invention also relates to a method of supervised learning of such an image classifier intended for the classification of images following at least two categories of predetermined images, according to the aforementioned classification method.
  • such a supervised learning method of an image classifier advantageously takes into account a set of training images and comprises for each of said images of said set of training images the following steps: assigning at least one signature associated with an element belonging to the group comprising:
  • a point of interest of said input image an area of interest of said input image; association with each of said signatures of a characteristic vector defined by means of a matrix of neural networks with at least one dimension, each of said neural networks being invariant to at least one predetermined transformation belonging to the group comprising at least one affine transformation and a nonlinear transformation, previously learned and representative each of one of said categories of images; selecting the most representative characteristic vector of said learning image considered from among all the characteristic vectors obtained for the signatures of the same learning image; normalizing said elated feature vector and the associated picture category to supply said classifier with normalized training data images.
  • Such a learning method consists in feeding the classifier, in a supervised mode, the characteristic vectors obtained at the output of the matrix of neural networks.
  • the implemented classifier is a NRBF network (for "Normalized Radial Basis Function” or “Normalized Radial Basis Function” in English), which has an excellent generalization capability.
  • the classifier NRBF As well as the network matrix ASSOM, are ready for the classification task, which can therefore be carried out very quickly, almost in real time according to the intended application, for one or more input images, which is perfectly suited to certain application contexts referred to by the invention, given for illustrative and non-limiting purposes, such as: the classification of digital images; searching for multimedia content by means of search engines able to process characteristics relating to images; automated database processing of very large images; the filtering of illegal or doubtful content on communication networks and / or on Internet sites; object and / or face recognition in the areas of surveillance and / or identification of persons; assistance with the classification of natural images for online management services and / or digital photo processing; - etc.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for executing the steps of the method classifying at least one input digital image according to at least two predetermined image categories, as previously described, when executed on a computer.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for executing the steps of the method aforementioned unsupervised learning of at least two networks of neurons of the type invariant by affine transformation of the input vectors of these networks, representative respectively of at least two categories of predetermined images of classification of at least one digital image input, when run on a computer.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer readable medium and / or executable by a microprocessor, comprising program code instructions for executing the steps of the method supra of supervised learning of a classifier of images following at least two categories of predetermined images for the classification of images, when it is executed on a computer.
  • the invention also relates to a device for classifying at least one digital input image according to at least two predetermined categories of images. According to the invention, such a device advantageously comprises: means for assigning at least one signature associated with an element belonging to the group comprising:
  • a point of interest of said input image a region of interest of said input image; means of association with each of said signatures of a characteristic vector of dimension 'c', obtained by applying a matrix of 'c' neural networks to at least one dimension, each of said neural networks being previously configured by learning means and associated with one of said categories of images, said characteristic vector being representative of a histogram of the responses delivered by said neural networks; means for classifying said image in one of said categories using a classifier previously configured by learning means, as a function of said characteristic vector of dimension 'c'.
  • the classification means of such a classification device according to the invention are based on an image classifier taking into account the information of said characteristic vector.
  • such a classification device comprises unsupervised training means of said categories of images by each of said neural networks respectively, said learning means taking into account a predetermined set of training images.
  • Such a classification device can notably implement the method of classifying at least one digital image and / or the unsupervised learning method of at least two neural networks and / or the supervised learning process of an image classifier, as described previously.
  • Such a classification device may also execute at least one of the computer program products respectively comprising program code instructions for the execution of the steps of the classification method and / or the steps of the unsupervised training method of the neural networks, and / or the steps of supervised learning of an image classifier, as previously described. 5.
  • the computer program products respectively comprising program code instructions for the execution of the steps of the classification method and / or the steps of the unsupervised training method of the neural networks, and / or the steps of supervised learning of an image classifier, as previously described. 5.
  • FIG. 1 presents a diagram of the general architecture of the invention
  • FIGS. 2 and 3 respectively illustrate a flowchart of the major steps implemented by the image classification method according to the invention and an example of classification of an input image
  • FIG. 4 illustrates the principle of generating the characteristic vectors of a category of images
  • Figures 5 and 6 respectively show a flowchart of the steps of generation and unsupervised training of ASSOM networks representative of the categories of images
  • FIGS. 1 presents a diagram of the general architecture of the invention
  • FIGS. 2 and 3 respectively illustrate a flowchart of the major steps implemented by the image classification method according to the invention and an example of classification of an input image
  • FIG. 4 illustrates the principle of generating the characteristic vectors of a category of images
  • Figures 5 and 6 respectively show a flowchart of the steps of generation and unsupervised training of ASSOM networks representative of the categories of images
  • FIG. 7 and 8 respectively show a flowchart of the supervised learning steps of the image classifier according to the invention and an example of implementation of such a training in the case of a classifier of the NRBF type;
  • FIG. 9 presents the material structure of a classification device according to the invention;
  • FIG. 10 gives an example of the performance curves of the image classification method according to the invention. 6. Description of a preferred embodiment of the invention
  • the general principle of the invention is therefore based on a system for automatically classifying images according to predefined categories previously learned with regard to a database of training images.
  • ASSOM neural networks for "Adaptive -Subspace Self-Organizing Map "in the context of the present invention ensures the automatic emergence, through a competitive and adaptive process, of a set of invariant descriptors directly exploitable on the images to be classified.
  • Unsupervised learning by this type of neural network thus makes it possible to construct linear subspaces associated with the regions of interest of an image, while making it possible to overcome the difficulties encountered by the solutions of the prior art. in the processing and / or taking into account of geometric transformations, such as translation, rotation and scaling, which can occur between two images to be classified.
  • each ASSOM network corresponding to a specific category of images to be classified.
  • a classifier is then introduced downstream of this matrix of ASSOM networks, in order to supervise the classification.
  • This new and inventive approach proves to be particularly interesting and effective in the context of the classification of natural images, for example for applications for filtering illegal content.
  • the reference vectors usually associated with the neurons of a neural network are here replaced in ASSOM networks by modules each composed of the basic vectors of a linear subspace of an image to be classified (one or more zones). of interest defined in the vicinity of one or more points of interest detected, for example).
  • each module in an ASSOM network no longer represents a single point of an input image, but a particular subspace and representative of an area of interest of the image to be classified.
  • Such an approach allows descriptors to be designed such that they are invariant to certain transformations.
  • the modules of the ASSOM networks representing predetermined subspaces, the subspaces are arranged in a rectangular or hexagonal lattice.
  • the input for an ASSOM network is a vector sequence called
  • each ASSOM network adjusts according to the learning data and automatically captures the characteristics representative of the input image or images to be classified. More specifically, the classification method according to the invention can be summarized in the following steps described in relation with FIGS. 1 to 8.
  • patches of the input image 10 are first extracted 11 and the local signatures 12 (color, texture, contour, etc.) associated with these patches 11
  • the signatures thus calculated are presented to the array 13 of ASSOM networks (14 15 ... 14 C ), each network (14 15 ... 14 C ) being representative of a category of images.
  • a first step of image learning or classification is to extract a set of patches (or area of interest) from the images and describe them in the form of local signatures, as shown in FIG. figure 4.
  • ASSOM networks are able to treat episodes composed of several patches.
  • each of the episodes is composed of a single patch, which thus makes it possible to avoid the subjective factors of the manual variations, as in the systems of the prior art.
  • each patch 40 extracted from an image 41 (of a database 44 of training images data) are located on areas with marked outlines, and each local signature 42 is then calculated 43 to represent information 45 contained in patch 40.
  • each patch may be represented by the colorimetric components of the pixels that compose it.
  • each patch p is considered to be a circle of r pixels.
  • p will be represented by a local signature coded in the form of a vector with 3xr components (3 colorimetric components per pixel of the patch).
  • the learning of the ASSOM networks corresponding to the categories of images to be learned for classification purposes must be carried out, according to the steps in accordance with those described in FIGS. 5 and 6.
  • each ASSOM network is set according to the local signatures of the images of the training set of the same category, acquired according to the principle of FIG.
  • the ASSOM networks are initialized before learning according to a predetermined initialization mode 50 and a random initialization mode of the basic vectors components modules is sufficient.
  • Local signatures are then calculated from the patches.
  • the modules are then adjusted according to the local signatures according to a competitive learning process. For each local signature, a module of the ASSOM network is chosen as the winner, by comparing its characteristic subspace and those of the other modules.
  • the base vectors of the winning module as well as those of its neighbors are then modified to the input signature to faithfully represent the original patch.
  • the neighborhood width is reduced as a function of time.
  • the modules of the network associated with each category will arrive at a topologically ordered state, each representing a type of subspace in the input space.
  • the flowchart of FIG. 5 describes more precisely the learning method of the ASSOM networks corresponding to the different categories of images to be learned.
  • each category is associated with an ASSOM network.
  • each of the ASSOM networks consists of N modules arranged according to a rectangular topology and that each module consists of H neurons, c ' that is, each of the modules represents a linear subspace of dimension H.
  • Each ASSOM network of index c will therefore be learned by patches of category c. Before inserting the patches, we must first initialize the network.
  • a category c of images is opened 51, then a patch p of category c is extracted 52, represented by a vector x to Ir local description components 53 of the patch p, is presented in FIG. network.
  • x L denotes the square of the projection standard of x on the linear subspace ⁇ , taken out of the index module i (see Appendix A); designates the Euclidean norm.
  • the basic vectors of the index module w, as well as those of its neighbors, are then updated by the following cooperative learning rule, which can be translated as the learning 54 of p by the ASSOM network of the category vs :
  • b ( ft !) designates the basic vector after learning the current step, b ft (!) the one before learning; "I is the identity matrix of size 3rx 3r;
  • a (0) denotes a learning rate as a function of t It is a decreasing monotonic function in the measure of t in order to have a fast adaptation of the basic vectors at the beginning of learning and a finer adjustment to the
  • a (O 0.1- 77 (7 + 990 is chosen, with T denoting the total number of learning steps;
  • a neighborhood is defined in a circular form by means of the following function:
  • u t represents the two-dimensional localization of the module i in the ASSOM network of the category c treated and u w that of w;
  • a ⁇ defines the neighborhood radius at the beginning of learning and ⁇ f the one at the end of learning;
  • ' ⁇ d is chosen large to quickly have a global topological scheduling of modules at the beginning of learning;
  • '(i f will be smaller for fine tuning at the end of the learning process, so the neighborhood of the winning module is defined by a decreasing monotonic function depending on the learning stage.
  • each module i in the neighborhood of w adapts its basic vectors according to equation 2, then dissipates them and finally orthonormalizes them.
  • ASSOM ends (502).
  • the learning steps continue until the maximum learning step T is reached.
  • the same procedure as above is then repeated for each ASSOM network corresponding to a category of images.
  • an ASSOM network matrix will be established and ready for the final classifier learning.
  • a feature vector f [f l5 ..., f c] consisting of all outputs (f l5 ..., f c) Assom networks will eventually be offered to a classifier 15 type supervised.
  • This classifier 15 may be a conventional neural network allowing supervised learning, a Bayesian network, an NRBF network, or a k nearest neighbors. The purpose of this step is to assign a category 16 to the input image 10. At the end of the learning of the ASSOM networks, it is therefore necessary before any possibility of classification, to adjust / learn the classifier in a supervised manner.
  • the local signatures 81 corresponding respectively to the categories (85, 86) previously learned are introduced 87 into the network matrix ASSOM learned previously.
  • a counter is associated with each of these networks ASSOM and initialized at 0.
  • the modules compare this input vector with its subspaces in a step of analysis 71 of the patches of the image 70 by the matrix 82 of the networks (83, 84) ASSOM.
  • a vector f of dimension C (the number of categories 85, 86) composed of the counters of the networks 83, 84 ASSOM is formed 72 and translated in the form of a histogram Fl , F2 representative of each category 85, 86 respectively.
  • This vector along with the category of the input image, is then presented to the classifier 800 for supervised learning, which outputs to output image 70 one of categories 85 or 86.
  • the patches x (k), where k ⁇ ⁇ l, 2, ..., K ⁇ and K denotes the number of patches in the input image I, are extracted. Patches of the same image are then sent to the ASSOM network matrix. For each patch x (k) input, only one winner c (k) networks will be determined. Two levels of competition exist in the process: the competition between the modules of the same network and the competition between the different networks in the matrix. During the first competition, in each ASSOM network of index c, all the modules i of the same network compare x (k) with their subspaces and a winner w is determined according to equation 1.
  • the agreement between x (k) and the winning module w can be considered as the similarity between the input patch and the ASSOM network c which has w.
  • the measure of agreement of the input patch x with the network ASSOM c is therefore """ r _ c II II L " H.
  • This measurement is calculated for each network ASSOM
  • a counter fc is associated with each network c and initialized to O.
  • the networks compare their measurements. 'agreement with x ⁇ and winner k) would be selected according to:
  • the counters f c will capture the number of patches in each ASSOM network, that is,
  • the characteristic vectors f as well as their associated category are then standardized and then sent as the classifier for supervised learning.
  • the classifier implemented in this particular embodiment is a NRBF network. This type of network has a good capacity for generalization. At the end of the apprenticeship, the classifier NRBF, as well as the matrix of networks
  • ASSOM are ready for the classification task.
  • the classification becomes a simple and fast action, with a high relevance rate.
  • the patches are extracted, and are introduced to the network array ASSOM to generate the characteristic vector f.
  • the vector f is used at the input of the classifier NRBF. This sets the class of the image / and assigns the category C 1 according to f.
  • the classification method according to the invention can be summarized as follows: for an image 10 to be classified, the patches (or zones of interest) of the image of FIG.
  • the inputs are first extracted and the local signatures (color, texture, contour, etc.) associated with these patches are calculated and analyzed by the matrix of the ASSOM networks.
  • each ASSOM network produces an output activated by the signatures of the input image.
  • a characteristic vector composed of all outputs of ASSOM networks is then proposed to a supervised type classifier, which can be of the conventional neural network type allowing supervised learning, a Bayesian network, an NRBF network, or a k nearest neighbors .
  • the purpose of this step is to assign a category to the input image.
  • such an approach to image classification can be applied to images of reduced size or having content relatively simple to recognize, as large images and / or having complex contents to recognize (eg natural images), the size of images no longer a barrier to the use of ASSOM networks, as in the solutions of the prior art.
  • Each of these different characteristic vectors is proposed 33 at the input of each ASSOM network (35, 36) of the matrix 34 of the previously learned ASSOM networks.
  • each ASSOM network activates a set (37, 38) of modules so as to output at the output of each ASSOM network a histogram (F1, F2) of the activated modules, each histogram serving input 300, 301 for the classifier 39 also previously learned. It is the role of the classifier 39 that then determine at its output the category of image to be assigned to the input image.
  • a classifier is learned in a supervised manner from the extracted characteristic vectors for each image of a database of training images used to learn the ASSOM networks.
  • the classifier Once the classifier has been learned, it is directly exploitable and / or usable for the classification of input images.
  • NRBF network classifier Normalized Radial Basis Function as described in the Bugmann G. article entitled “Normalized Gaussian Radial Basis Function Networks”, published in “Neurocomputing Special Issue on Radial Basis Function Networks, Vol 20, pp. 97-110) will be used.
  • classifiers that can be previously learned, for example a neural network, the algorithm of the k nearest neighbors, etc.
  • a particular advantage of such classifier NRBF is that the technique according to the invention is perfectly suited to the task of classification, while allowing to overcome the size constraints of images to classify, as in the technique of Zhang in which the autonomous networks ASSOM directly give a result without any interaction between them.
  • the activity of the constituent modules of each ASSOM network is accumulated to form an input vector directly exploitable by the classifier and having a single dimension corresponding to the number of categories.
  • Such an approach according to the invention is all the more effective in that it also makes it possible to avoid over-learning of the ASSOM networks (as found in the article by De Ridder D., Lemmers O., Duin RPW, Kittler J., "The Adaptive Subspace Map for Image Description and Image Database Retrieval," Proceedings of the SSPR & SPR 2000 Conference, LNCS Vol 1876, 2000, pp. 94-103).
  • over-learning most often results in a severe limitation of the generalization capabilities of neural networks and a focus of these on possible exceptions that can be detected at the level of the images to be classified.
  • Such a device comprises in particular a memory M 91, a processing unit 90, equipped for example with a microprocessor ⁇ P, and driven by the computer program Pg 92.
  • such a classification device can also execute at least one of the computer program products comprising respectively program code instructions for performing the steps of the classification method and / or the steps of the unsupervised learning process of the neural networks, and / or the steps of supervised learning of an image classifier, as previously described.
  • the code instructions of the computer program 92 are for example loaded into a RAM before being executed by the processor of the processing unit 90.
  • the processing unit 90 receives as input at least one image to be classified 93.
  • the microprocessor ⁇ P of the processing unit 90 implements the steps of the classification method and / or the steps of the unsupervised learning process of at least two networks of invariant neurons in affine transformation and / or the steps of the method supervised training of an image classifier according to the invention, described above, according to the instructions of the program Pg 92.
  • the processing unit 90 outputs to the input image 93 one of the image categories specific neural networks, for example ASSOM, previously learned.
  • this new classification method differs from known solutions of the prior art on various points.
  • extracted patches or areas of interest are input images to produce local signatures that are then injected into a matrix of several ASSOM neural networks.
  • an original characteristic vector due to its content corresponding to the number of times an ASSOM network, corresponding to the class to be learned, is considered to be a winner among the various ASSOM networks involved, is presented to the final classifier.
  • a further advantage of the technique according to the invention is that there are two levels of competitions in the network matrix ASSOM.
  • input signatures compete to determine the winning module.
  • a winning module is determined by comparing the distances between the input signature and the subspaces represented by the modules.
  • the minimum distance shows that a subspace is the most representative of the input data. This calculated distance is used for the second competition at the ASSOM network level, during which all the ASSOM networks compare their distances to the input signature.
  • the winning network is defined as the one that has the minimum distance from the signature. These two levels of competition are repeated for each local signature extracted from the input image.
  • This characteristic vector is composed of the outputs of the ASSOM networks. For each ASSOM network, its output is defined as the number of times this network has been enabled by the local input signatures.
  • the characteristic vector of an image is a histogram of which each component represents the number of times that the ASSOM network has been considered to be a winner. By normalizing this histogram, a characteristic vector is constructed for the supervised learning of the downstream classifier.
  • New needs are therefore felt, such as the need to be able to search for multimedia content directly from the "image” characteristics provided by the latter, the automatic processing of large image databases, the filtering of illegal content. or doubtful on the networks, the recognition of objects or faces for surveillance or identification.
  • ISPs Internet access and service providers
  • the classification method according to the invention has been tested to evaluate and measure its performance, in a context of filtering pornographic images that can find application in the field of access control on the Internet.
  • a database consisting of a set of training images and a set of test images was constructed.
  • the set of learning images consists of 733 pornographic images and 733 non-pornographic images.
  • the set of images The test consists of 377 pornographic images and 467 non-pornographic images.
  • This invention is of course not restricted to the field of pornographic image filtering, since it is capable of learning the discriminant characteristics from the data itself.
  • This invention can be applied for any image classification tasks. There is no limit on the categories of images or the number of categories.
  • Appendix A Adaptive Subspace Self-Organizing Map
  • the ASSOM topological maps provide many improvements in comparison with the traditional Kohonen algorithm SOM (Kohonen T., "Self-Organizing Maps", Springer-Verlag, Berlin Heidelberg New York, 2001.).
  • SOM Kohonen T., "Self-Organizing Maps", Springer-Verlag, Berlin Heidelberg New York, 2001.
  • Each node of the map is a vector refer to observations of the learning base. Indeed, the procedure seeks to project the large learning vectors on a lattice of much smaller dimension, for example, 2D.
  • Each neuron of the map characterizes the information of the input vectors and preserves the topology, that is to say two close vectors according to a measure of distance in the space of the observations, will be projected towards 2 nodes of a neighborhood on the map of Kohonen.
  • ASSOM constructs, through competitive and cooperative learning, a set of subspaces of reduced size, preserving the topology of the observation space.
  • ASSOM adapts automatically and adaptively to the data as faithfully as possible.
  • the entry for an ASSOM network is a sequence of vectors called "episode”. Each sequence of observations is projected within the map composed of the modules, whose reference vectors constitute a linear subspace in the input space ⁇ . Two steps are needed in the learning process of the network
  • the iterative procedure adjusts the subspace of the module thus gaining those of the neighboring modules in order to best describe the subspace of the entry episode.
  • each vector in L can be constructed by a linear combination of vectors basic.
  • the basic vector sets are not unique, but represent the same L subspace.
  • the orthogonal projection of a vector x onto L is a linear combination of its orthogonal projections on the individual base vectors given by the following equation characteristic of the orthogonal projection of the vector x over the space L:
  • the neurons in the first layer marked by the basic vectors b h , h ( ⁇ ⁇ l, 2, ... H ⁇ , take the orthogonal projections of x and give the outputs x ⁇ b ft .
  • a quadratic neuron forms the second layer, denoted Q.
  • the output obtained is the sum of the squares of the outputs of the neurons of the first layer, that is to say
  • the second phase adjusts the latter as well as the modules in its neighborhood to better represent the matched input vectors.
  • the neighborhood of the modules allows learning in a cooperative manner and forming a topological order. Often we choose a two-dimensional lattice of modules like those in the traditional SOM.
  • the neighborhood is usually either rectangular or hexagonal because the two topologies are symmetrical and allow a balanced topology of the subspaces to be formed.
  • a neighborhood function U ⁇ is defined on this lattice of which w denotes the winning module and i an arbitrary module in the lattice.
  • This neighborhood function will control the degree of adaptation of the neighboring modules of w. Indeed, in an ASSOM network, the neighborhood of a module evolves in a monotonous decreasing way. The width of the neighborhood at the beginning of the learning makes it possible to quickly establish an overall scheduling of the modules. Subsequently, the width decreases to promote the fine adjustment of the modules in the network. At the end of cooperative learning, the topological map converges to a stable state. Neighboring modules then represent similar subspaces.
  • the adaptation of a module consists in adjusting all the basic vectors located in the neurons of the first layer of the module. This operation can be broken down into a series of rotations of the base vectors to each vector in the input episode.
  • the basic vectors of the module i turn to x (s) according to the equation following which gives the formula of rotation of the basic vectors for the reinforcement of these:
  • the elements b ⁇ ', j ( ⁇ ⁇ 1, 2, ..., J ⁇ , of which J is the number of components, are dissipated for all the basic vectors b ⁇ ° [1] : é; w - sgn (Ei)) max (0,
  • an orthonormalization phase of the basic vectors in this module i is performed.
  • the steps of determining the winning module and adapting the modules continue and repeat until the desired number of learning steps are reached.
  • the modules in the network represent the representative characteristics in the input space preserving a topological order where two close modules in the lattice represent two close characteristics in the input space.

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

L'invention concerne un procédé de classification d'au moins une image (10) numérique d'entrée selon au moins deux catégories d'images prédéterminées. Selon l'invention, un tel procédé comprend les étapes suivantes: affectation d'au moins une signature associée à un élément appartenant au groupe comprenant: un point d'intérêt de ladite image d'entrée; une zone (11) d'intérêt de ladite image d'entrée; association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14<SUB>l</SUB>, ..., 14<SUB>c</SUB>) à au moins une dimension, chacun desdits réseaux (14<SUB>l</SUB>, ..., 14<SUB>c</SUB>) de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14<SUB>l</SUB>, ..., 14<SUB>c</SUB>); classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.

Description

Procédé de classification d'images par réseaux neuroniques et classifieur d'images préalablement appris, dispositif et programme d'ordinateur correspondants.
1. Domaine de l'invention Le domaine de l'invention est celui de la classification automatisée de données, et en particulier du type image, selon des catégories d'informations données.
L'invention trouve notamment des applications dans le domaine du filtrage de contenus illicites, en simplifiant et en optimisant la distinction entre les contenus d'images licites et les contenus illicites.
2. État de la technique
On connaît à ce jour plusieurs techniques de classification de données, plus particulièrement des données du type images, appliquées notamment à des domaines aussi variés que la classification d'images naturelles, pour des besoins individuels ou industriels, le filtrage de contenus basé sur les caractéristiques des images, ou bien la recherche d'images suivant des catégories prédéterminées.
Plus précisément, la classification d'images consiste à répartir un ensemble d'images suivant des catégories ou classes spécifiques d'images, au moyen d'un partitionnement de l'espace caractéristique d'une base d'images en un ensemble de régions séparées par des surfaces de décision.
Dans la pratique, une image est représentée par une signature (ou descripteur), laquelle peut être exprimée sous la forme d'un vecteur, le plus souvent de grande dimension, mais qui doit idéalement prendre une forme la plus compacte possible pour être représentative du contenu visuel de l'image. Une des principales difficultés rencontrées par les techniques de l'art antérieur lors de la détermination manuelle de la signature d'une image concerne les transformations géométriques ou photométriques que l'image peut subir. En effet, deux images similaires au sens visuel peuvent alors être représentées par deux signatures très différentes au sens mathématique, avec pour conséquence au niveau d'une classification de données images que l'on cherche à automatiser, des biais et des défauts de performances tels que ceux rencontrés avec les solutions actuellement existantes.
Dans les techniques traditionnelles relatives à la classification d'images, on recherche parfois des signatures d'images qui soient invariantes à un certain nombre de transformations, de façon à s'affranchir du problème mentionné ci- dessus. Pour tenter d'y parvenir, une classification reposant sur des réseaux bayésiens et donc sur l'usage des statistiques a été proposé. Dans une telle approche connue, les descripteurs ou signatures sélectionnés sont par exemple des ondelettes, tel que décrit dans l'article de Daubechies I. intitulé « The Wavelet Transform, Time-Frequency Localization and Signal Analysis », IEEE Transactions on Information Theory, Vol. 36, 1990, pp. 961-1005. Ces signatures peuvent également prendre la forme de filtres de Gabor, tel que décrit dans l'article de Gabor D., intitulé « Theory of Communication », Journal of IEE, Vol. 93, 1946, pp. 429-457. Un premier inconvénient de ces solutions de classification d'images, dites suivant l'approche globale, est lié au fait qu'elles nécessitent une création a priori et essentiellement manuelle des descripteurs ou des signatures, ce qui induit nécessairement un a priori important sur le contenu d'une image à classer, ce qui peut influencer de manière négative l'affectation d'une catégorie d'images à cette dernière, d'autant plus lorsque la conception même des descripteurs est basée sur des hypothèses humaines rarement, justifiées et vérifiées.
De plus la forme du filtre est généralement choisie a priori de telle façon qu'elle soit la plus représentative des images à traiter. Or, suivant la variation du contenu des images à classer, les caractéristiques des images peuvent changer, entraînant d'autres choix de descripteurs.
En conséquence, un inconvénient de ces techniques de classification d'images selon l'approche globale concerne leur manque de flexibilité et d'adaptabilité aux contenus des images à classer.
Pour tenter de pallier ce dernier inconvénient des solutions de classification d'images suivant l'approche globale, Kohonen a proposé plus récemment une méthode appelée ASSOM (pour « Adaptive-Subspace SeIf- Organizing Map » en anglais, ou « Carte auto-organisatrice de sous espaces adaptatifs » - voir l'article de Kohonen T., Kaski S., Lappalainen H. intitulé « Self-Organized Formation of Varions Invariant-Feature Filters in the Adaptive- Subspace SOM », dans Neural Computation, Vol. 9, N°6, Août 1997, pp. 1321- 1344.) qui permet de construire automatiquement des descripteurs invariants à partir des données à classer, elles-mêmes.
Contrairement aux techniques selon l'approche globale, aucune hypothèse sur la formulation mathématique des signatures n'est ici formée. Cependant, cette technique reste difficilement exploitable dans le domaine de la classification automatique d'images.
On pourra se référer à l'article de Zhang B., Fu M., Yan H., Jabri M.A., intitulé « Handwritten Digit Récognition by Adaptive-Subspace Self-Organizing Map (ASSOM) » et publié dans la revue IEEE Transactions on Neural Networks, Vol. 10, N°4, Juillet 1999, pp.939-945, pour illustrer l'utilisation des réseaux de neurones ASSOM pour la classification de chiffres écrits avec une écriture manuscrite. Dans ce contexte, les chiffres sont normalisés dans un petit treillis de dimension 25 x20 pixels, ce qui autorise un traitement direct des images par les réseaux ASSOM, chacun d'entre eux étant représentatif d'une catégorie de chiffre. Selon la technique proposée, une comparaison entre le chiffre d'une image d'entrée et les différents réseaux ASSOM est réalisée, de façon à reconnaître le chiffre d'entrée et ainsi déterminer sa catégorie.
Une variante d'utilisation de la méthode ASSOM selon Kohonen a été proposée par De Ridder D., Lemmers O., Duin R.P.W., Kittler J., dans leur article « The Adaptive Subspace Map for Image Description and Image Database Retrieval » publié dans les actes de la conférence SSPR&SPR 2000, LNCS Vol. 1876, 2000, pp. 94-103.
Selon cette variante qui vise plus précisément la classification d'images, un réseau ASSOM est défini pour chaque catégorie d'images au moyen d'une base de données d'images d'apprentissage et au regard d'un ensemble de « patchs » (c'est-à-dire de petites zones des images) préalablement extraits d'un sous- ensemble d'images d'apprentissage représentatives d'une même catégorie d'images.
Un histogramme est alors créé pour chaque image d'entrée. Puis, les moyennes et les variances des histogrammes sont calculées pour chaque catégorie. Ils sont considérés comme étant respectivement représentatifs d'une catégorie d'images correspondante. Ainsi, pour classer une image d'entrée, un histogramme de l'image est d'abord calculé, puis comparé avec tous les représentants d'une même catégorie d'image, au regard d'une distance de Mahalanobis. La catégorie de l'image sera celle dont le représentant est le plus proche de l'histogramme de l'image dans le sens de la distance de Mahalanobis.
Un inconvénient majeur de la technique de Zhang, appliquée au domaine le domaine de la reconnaissance d'écriture et par extension à celui de la reconnaissance d'images, est principalement dû au fait qu'elle fonctionne uniquement sur des images de petites tailles et lorsque ces dernières contiennent des données normalisées et dont la signature se présente sous la forme d'un vecteur caractéristique de faible dimension.
Or, les images acquises dans le monde réel sont très souvent complexes et de grandes tailles, impliquant des vecteurs de très hautes dimensions pour les réseaux ASSOM, ce qui rend la technique de Zhang inexploitable dans un domaine plus général de la classification des images naturelles, tel que visé par la présente invention.
De plus, tout comme pour la technique de Kohonen, un autre inconvénient des techniques connues utilisant les réseaux ASSOM vient du fait que l'apprentissage des réseaux ASSOM est réalisé de façon non supervisée, ce qui supprime toute possibilité d'interaction entre les réseaux ASSOM et les catégories individuelles d'images qu'ils représentent respectivement, ainsi que l'absence de garantie mathématique d'une classification optimale des images d'entrée en termes de résultat de la classification. Or, un tel défaut de classification optimale peut s'avérer problématique en termes de garantie de services rendus par une application de filtrage et/ou de contrôle de contenus illicites accessibles sur Internet, par exemple. 3. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir une technique de classification d'images suivants des catégories prédéfinies, qui soit applicable quelle que soit la taille des images à traiter et quelle que soit les variations entre leurs contenus.
L'invention a également pour objectif de fournir une telle technique permettant d'éviter des choix subjectifs des formes mathématiques des descripteurs d'images, sans aucune hypothèse a priori pouvant potentiellement introduire des biais ou des erreurs en termes de classification, tel que c'est le cas dans les solutions connues de l'art antérieur.
Un autre objectif de l'invention est de proposer une telle technique qui autorise l'apprentissage des caractéristiques discriminantes des images et le classement de ces dernières en tenant compte uniquement de leurs contenus respectifs. L'invention a encore pour objectif de fournir une telle technique qui permette soit rapide et efficace en termes de mise en œuvre et d'exécution, de façon à pouvoir être appliquée à des domaines dans lesquels la catégorisation d'une ou de plusieurs images doit être effectué dans un temps relativement court, par exemple dans un contexte de filtrage ou de contrôle d'accès à des contenus illicites sur Internet par des catégories de personnes non autorisées (enfants par exemple), tout en assurant un résultat optimale de la classification des images d'entrée.
L'invention a également pour objectif de fournir une telle technique, qui soit simple et peu coûteuse à mettre en œuvre. 4. Résumé de l'invention Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées.
Selon un tel procédé, les étapes suivantes sont avantageusement mises en œuvre : affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
" un point d'intérêt de ladite image d'entrée ; ' une zone d'intérêt de ladite image d'entrée ; - association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice de 'c' réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones ; classification de ladite image dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la classification d'une ou plusieurs images d'entrée, consistant en une action rapide à établir la classe d'une image / et lui assigner une catégorie C1 en fonction d'un vecteur caractéristique f déterminé par la mise en compétition d'un ensemble de réseaux de neurones d'une matrice de réseaux de neurones, en vue de faciliter la classification et/ou le contrôle des images d'entrée, directement à partir d'une analyse du contenu de ces dernières, et ainsi s'affranchir de toute règles ou hypothèses de classification définies a priori.
Préférentiellement, l'étape de classification est exécutée par un classifieur d'images tenant compte des informations du vecteur caractéristique f. Chaque élément du vecteur caractéristique f obtenu en sortie de la matrice de réseaux de neurones est ainsi composé du nombre de fois où un réseau de neurones représentatif d'une catégorie d'images à apprendre, est considéré comme gagnant parmi les différents réseaux de neurones mis en jeu. C'est donc en fonction des données du vecteur caractéristique obtenu en sortie de la matrice des réseaux de neurones grâce à la mise en compétition de ces derniers, qu'est déterminée la catégorie d'image à affecter à une image d'entrée.
De façon avantageuse, le procédé de classification selon l'invention comprend pour chacune desdites catégories d'images une étape préalable d'apprentissage non supervisé de chacun desdits réseaux de neurones, en fonction d'un ensemble prédéterminé d'images d'apprentissage.
L'apprentissage non supervisé par ce type de réseau de neurones invariant selon ladite au moins une transformation prédéterminée permet la construction de sous-espaces linéaires associés aux régions d'intérêt d'une image à classifier et permet de s'affranchir des difficultés liées aux transformations géométriques telles que la translation, la rotation et le changement d'échelle. C'est ensuite la mise en œuvre de la matrice de réseaux de neurones correspondant chacun à une catégorie spécifique qui permet d'optimiser la capture des caractéristiques discriminantes des différentes catégories d'images envisagées pour la classification.
Dans un mode de réalisation préféré de l'invention, ladite au moins une transformation prédéterminée appartient au groupe comprenant : une transformation affine ; une transformation non linéaire. Dans ce mode de réalisation préféré du procédé de classification selon l'invention, chaque réseau de neurones spécifique d'une desdites catégories d'images est un réseau de neurones du type ASSOM, dit réseau ASSOM, apte à générer automatiquement un ensemble de descripteurs invariants représentatifs desdites catégories d'images, lorsque ladite au moins une transformation prédéterminée est du type transformation affine. L'utilisation de tels réseaux ASSOM est particulièrement intéressante dans le contexte de l'invention puisqu'ils assurent une limitation du nombre des descripteurs qui seront générés. Plus explicitement, si deux images identiques proposant un même contenu sous deux angles différents (de face, ou bien suivant une ligne de perspective, par exemple), ou bien avec un changement d'échelle (zoom positif ou négatif, par exemple), un seule ensemble de descripteurs identiques pour ces deux images sera alors généré.
De plus, l'utilisation des réseaux ASSOM dans le contexte de l'invention permet de faire émerger simplement à partir des points et/ou des zones d'intérêt d'une image d'entrée, les descripteurs les plus représentatifs d'une information cruciale du contenu de l'image, ce qui permet avantageusement de réduire sensiblement en dimension du contenu de l'image à analyser en entrée.
Enfin, un avantage supplémentaire de l'utilisation de tels réseaux du type ASSOM est lié à la préservation de la topologie de l'image à classer à l'intérieur même du réseau de neurones ASSOM de catégorie correspondante. En effet, deux zones d'intérêt proches l'une de l'autre dans l'image d'entrée se projettent en deux neurones voisins dans le réseau de neurones ASSOM dont la catégorie d'image est celle de l'image d'entrée.
L'invention concerne également un procédé d'apprentissage non supervisée d'au moins deux réseaux de neurones invariants à au moins une transformation appartenant au groupe comprenant une transformation affine ou un transformation non linéaire des vecteurs d'entrée de ces réseaux, chacun desdits réseaux de neurones étant représentatifs respectivement d'au moins deux catégories d'images prédéterminées destinées à la classification d'images selon le procédé de classification précité.
Selon l'invention, un tel procédé d'apprentissage tient compte avantageusement d'un ensemble d'images d'apprentissage et comprend les étapes suivantes exécutées pour chaque ensemble d'images d'une même catégorie d'image: initialisation d'un réseau de neurones correspondant à ladite même catégorie d'images, suivant un mode d'initialisation prédéterminé ; pour chaque image d'apprentissage de l'ensemble des images de ladite même catégorie d'images affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
• un point d'intérêt de ladite image d'entrée ;
• une zone d'intérêt de ladite image d'entrée ; telle que pour chaque signature : • identification d'un module dit gagnant, correspondant au module le plus activé dudit réseau de neurones correspondant à ladite même catégorie d'images ;
• renforcement dudit module gagnant et des modules adjacents formant son voisinage au moyen des paramètres de ces modules, suivant un calcul prédéterminé.
Une telle approche permet avantageusement d'apprendre aux réseaux de neurones associés à chaque catégorie d'images, les caractéristiques les plus représentatives de la catégorie d'images qu'il représente.
Dans cette phase d'apprentissage des zones d'intérêt extraites des images d'apprentissage, les signatures locales sont injectées en parallèle dans une matrice de plusieurs réseaux neuronaux, par exemple du type ASSOM.
De plus, ce qui est particulier ici, c'est qu'il existe deux niveaux de compétitions dans la matrice de réseaux de neurones à au moins une dimension, par exemple du type ASSOM. En effet, dans chaque réseau de neurones spécifique à une catégorie d'images, les signatures d'entrée sont en compétition pour déterminer le module gagnant. Un module gagnant est déterminé en comparant les distances entre la signature d'entrée et les sous-espaces représentés par les modules. La distance minimale montre qu'un sous espace est le plus représentatif des données d'entrée. Cette distance est utilisée pour la deuxième compétition au niveau des réseaux de neurones invariants en transformation affine. Pendant cette deuxième phase de compétition, tous les réseaux de neurones comparent leurs distances par rapport à la signature d'entrée. Le réseau gagnant est défini comme celui qui a la distance minimale de la signature.
Ces deux niveaux de compétition se répètent pour chaque signature locale extraite de chacune des images contenues dans la base d'images d'apprentissage. Les étapes du procédé d'apprentissage selon l'invention autorisent ainsi une nouvelle façon de construire le vecteur caractéristique d'une image d'entrée, ce dernier étant composé des sorties obtenues de chaque réseau de neurones, respectivement définies comme le nombre de fois que chaque réseau a été activé par les signatures locales d'entrée.
En effet, le vecteur caractéristique d'une image peut être considéré sous la forme d'un histogramme dont chaque composante représente le nombre de fois que le réseau de neurones a été considéré comme gagnant.
En normalisant cet histogramme, un vecteur caractéristique peut alors être construit pour permettre un apprentissage supervisé d'un classifieur en aval.
L'invention concerne aussi un procédé d'apprentissage supervisé d'un tel classifieur d'images destinées à la classification d'images suivants au moins deux catégories d'images prédéterminées, selon le procédé de classification précité.
Selon l'invention, un tel procédé d'apprentissage supervisé d'un classifieur d'images tient compte avantageusement d'un ensemble d'images d'apprentissage et comprend pour chacune desdites images dudit ensemble d'images d'apprentissage les étapes suivantes : - affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
' un point d'intérêt de ladite image d'entrée ; ' une zone d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique définie au moyen d'une matrice de réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant invariant à au moins une transformation prédéterminée appartenant au groupe comprenant au moins une transformation affine et une transformation non linéaire, préalablement appris et représentatifs chacun d'une desdites catégories d'images ; élection du vecteur caractéristique le plus représentatif de ladite image d'apprentissage considérée, parmi l'ensemble des vecteurs caractéristiques obtenus pour les signatures d'une même image d'apprentissage ; normalisation dudit vecteur caractéristique élu et de la catégorie d'image associée, de façon à alimenter ledit classifieur d'images de données d'apprentissage normalisées.
Un tel procédé d'apprentissage consiste à alimenter le classifieur, sur un mode supervisé, les vecteurs caractéristiques obtenus en sortie de la matrice de réseaux de neurones. Dans un mode de réalisation préféré de l'invention, le classifieur implémenté est un réseau NRBF (pour « Normalized Radial Basis Function » en anglais, ou « Fonction de Base Radiale Normalisée » en français), lequel possède une excellente capacité de généralisation. A l'issue de l'apprentissage, le classifieur NRBF, ainsi que la matrice de réseaux ASSOM, sont prêts pour la tâche de classification, laquelle peut dès lors s'effectuer très rapidement, quasiment en temps réel suivant l'application visée, pour une ou plusieurs images d'entrée, ce qui est parfaitement adaptée à certains contextes applicatifs visés par l'invention, donnés à titre illustratif et non limitatif, tels que : la classification d'images numériques ; - la recherche de contenus multimédia au moyen de moteurs de recherche apte à traiter des caractéristiques relatives à des images ; le traitement automatisé de base de données d'images de très grande taille ; le filtrage de contenus illicites ou douteux sur des réseaux de communication et/ou sur des sites Internet ; la reconnaissance d'objets et/ou de visage dans les domaines de la surveillance et/ou de l'identification de personnes ; l'aide à la classification d'images naturelles pour des services en lignes de gestion et/ou de traitement de photos numériques ; - etc.
L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, tel que précédemment décrit, lorsqu'il est exécuté sur un ordinateur.
L'invention concerne aussi un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité d'apprentissage non supervisée d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, représentatifs respectivement d'au moins deux catégories d'images prédéterminées de classification d'au moins une image numérique d'entrée, lorsqu'il est exécuté sur un ordinateur.
L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité d'apprentissage supervisé d'un classifieur d'images suivants au moins deux catégories d'images prédéterminées destinées à la classification d'images, lorsqu'il est exécuté sur un ordinateur. L'invention concerne encore un dispositif de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées. Selon l'invention, un tel dispositif comprend avantageusement : des moyens d'affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
" un point d'intérêt de ladite image d'entrée ; " une zone d'intérêt de ladite image d'entrée ; des moyens d'association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice de 'c' réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant préalablement configuré par des moyens d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones ; - des moyens de classification de ladite image dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré par des moyens d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.
Préférentiellement, les moyens de classification d'un tel dispositif de classification selon l'invention s'appuient sur un classifieur d'images tenant compte des informations dudit vecteur caractéristique.
De façon également préférentielle, un tel dispositif de classification comprend des moyens d'apprentissage non supervisée desdites catégories d'images par chacun desdits réseaux de neurones respectivement, lesdits moyens d'apprentissage tenant compte d'un ensemble prédéterminé d'images d'apprentissage.
Un tel dispositif de classification peut notamment mettre en œuvre le procédé de classification d'au moins une image numérique et/ou le procédé d'apprentissage non supervisé d'au moins deux réseaux de neurones et/ou le procédé d'apprentissage supervisé d'un classifieur d'images, tels que décrits précédemment.
Un tel dispositif de classification peut aussi exécuter au moins l'un des produits programme d'ordinateur comprenant respectivement des instructions de code de programme pour l'exécution des étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé des réseaux de neurones, et/ou encore les étapes d'apprentissage supervisé d'un classifieur d'images, tels que précédemment décrits. 5. Liste des figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un schéma de l'architecture générale de l'invention ; - les figures 2 et 3 illustrent respectivement un organigramme des grandes étapes mises en œuvre par le procédé de classification d'images selon l'invention et un exemple de classification d'une image d'entrée; la figure 4 illustre le principe de génération des vecteurs caractéristiques d'une catégorie d'images ; les figures 5 et 6 présentent respectivement un organigramme des étapes de génération et d'apprentissage non supervisé des réseaux ASSOM représentatifs des catégories d'images ; les figures 7 et 8 illustrent respectivement un organigramme des étapes d'apprentissage supervisé du classifieur d'images selon l'invention et un exemple de mise en œuvre d'un tel apprentissage dans le cas d'un classifieur du type NRBF ; la figure 9 présente la structure matérielle d'un dispositif de classification selon l'invention ; la figure 10 donne un exemple de courbes de performance du procédé de classification d'images selon l'invention. 6. Description d'un mode de réalisation préféré de l'invention
Le principe général de l'invention repose donc sur un système permettant de classer automatiquement les images selon des catégories prédéfinies et préalablement apprises au regard d'une base de données d'images d'apprentissage.
Alors que classiquement, la classification des images est réalisée à partir de caractéristiques globales (telles que la couleur, la forme, etc.) et sur une connaissance a priori des informations discriminantes à conserver, l'utilisation de réseaux neuroniques ASSOM (pour « Adaptive-Subspace Self-Organizing Map » en anglais) permet d'assurer dans le cadre de la présente invention, l'émergence automatique, par un processus compétitif et adaptatif, d'un ensemble de descripteurs invariants directement exploitables sur les images à classer. L'apprentissage non supervisé par ce type de réseau de neurones permet ainsi de construire des sous-espaces linéaires associés aux régions d'intérêt d'une image, tout en permettant de s'affranchir des difficultés rencontrées par les solutions de l'art antérieur dans le traitement et/ou la prise en compte des transformations géométriques, telles que la translation, la rotation et le changement d'échelle, qui peuvent survenir entre deux images à classer.
Pour mieux capturer les caractéristiques discriminantes des différentes catégories, une matrice de réseaux ASSOM est donc introduite et gérée, chaque réseau ASSOM correspondant à une catégorie spécifique des images à classer.
Un classifieur est ensuite introduit en aval de cette matrice de réseaux ASSOM, afin de superviser la classification.
Cette approche nouvelle et inventive se révèle être particulièrement intéressante et efficace dans le cadre de la classification d'images naturelles par exemple pour des applications de filtrage de contenus illicites.
On présente, en relation avec les différentes figures, un exemple de mode de réalisation de l'invention. L'invention vise donc à répondre efficacement aux inconvénients des techniques courantes citées précédemment, notamment ceux induits par les choix subjectifs des formes mathématiques des descripteurs.
Il s'agit au contraire, pour la solution proposée selon l'invention, d'apprendre automatiquement les catégories d'images à partir des données images elles-mêmes directement et sans considération d'aucune hypothèse a priori.
Ainsi, les vecteurs de référence habituellement associés aux neurones d'un réseau de neurones sont ici remplacés dans des réseaux ASSOM par des modules composés chacun des vecteurs de base d'un sous-espace linéaire d'une image à classer (une ou plusieurs zones d'intérêt définie(s) au voisinage d'un ou de plusieurs point d'intérêt détecté(s), par exemple).
Ainsi, chaque module dans un réseau ASSOM ne représente plus un seul point d'une image d'entrée, mais un sous-espace particulier et représentatif d'une zone d'intérêt de l'image à classer. Une telle approche autorise une conception des descripteurs telle que ces derniers soient invariants à certaines transformations.
Dans un exemple illustratif relatif à une image bidimensionnelle, les modules des réseaux ASSOM représentant des sous-espaces prédéterminés, les sous-espaces sont arrangés dans un treillis rectangulaire ou hexagonal. L'entrée pour un réseau ASSOM est une séquence de vecteurs appelée
« épisode », décrivant un sous-espace linéaire dans l'espace d'entrée. Une mesure d'accord entre le sous-espace d'entrée et les sous-espaces représentés par les modules est alors définie pour déterminer lequel des différents modules du réseau ASSOM considéré est le plus proche du sous-espace d'entrée. Ce module, dit «gagnant », ainsi que ses voisins seront ensuite renforcés pour mieux représenter le sous-espace d'entrée, suivant une formule prédéterminée décrite ci-après dans l'annexe A.
En outre, par un processus adaptif, chaque réseau ASSOM s'ajuste en fonction des données d'apprentissage et capture automatiquement les caractéristiques représentatives de la ou des images d'entrée à classer. Plus précisément, le procédé de classification selon l'invention peut se résumer en les étapes suivantes décrites en relation avec les figures 1 à 8.
Tout d'abord, des patchs de l'image d'entrée 10 (ou régions/ zones d'intérêt) sont d'abord extraits 11 et les signatures 12 locales (couleur, texture, contour, etc.) associées à ces patchs 11 sont calculées 12. Les signatures ainsi calculées sont présentées à la matrice 13 de réseaux ASSOM (14l5 ..., 14C), chaque réseau (14l5 ..., 14C) étant représentatifs d'une catégorie d'images.
Plus précisément, une première étape de l'apprentissage ou de la classification d'image consiste à extraire un ensemble de patchs (ou zone d'intérêt) des images et à décrire ces derniers sous la forme de signatures locales, tel que représenté sur la figure 4.
Les réseaux ASSOM sont capables de traiter des épisodes composés de plusieurs patchs.
Dans un mode particulier de réalisation, chacun des épisodes est composé d'un seul patch, ce qui permet ainsi d'éviter les facteurs subjectifs des variations manuelles, comme dans les systèmes de l'art antérieur.
Plusieurs possibilités concernant le choix de ces patchs sont envisageables : tirage aléatoire, utilisation d'un détecteur de points d'intérêt localisant les patchs dans des zones considérées comme perceptuellement fortes, etc. Dans ce mode particulier de réalisation, la détermination et la localisation des patchs dans un image s'effectuent au moyen du procédé breveté par la Déposante France Telecom concernant un « procédé et dispositif de détection de points d'intérêt dans une image numérique source, programme d'ordinateur et support de données correspondants », numéro FR 02/16929 et déposé le 31 décembre 2002, lequel met en œuvre un détecteur de points saillants basé « ondelettes ».
Ainsi, les patchs 40 extraits d'une image 41 (d'une base 44 de données d'images d'apprentissage) sont localisés sur des zones présentant des contours marqués, et chaque signature 42 locale est ensuite calculée 43 de façon à représenter l'information 45 contenue dans le patch 40. Dans un mode particulier de réalisation, chaque patch pourra être représenté par les composantes colorimétriques des pixels qui le composent.
Dans le mode de réalisation préféré de l'invention, tel que décrit ci-après, chaque patch p est considéré comme étant un cercle de r pixels. Ainsi, p sera représenté par une signature locale codée sous la forme d'un vecteur à 3xr composantes (3 composantes colorimétriques par pixel du patch).
Une fois les signatures locales des images d'apprentissage déterminées, l'apprentissage des réseaux ASSOM correspondants aux catégories d'images à apprendre en vue de la classification doit être réalisé, suivant les étapes conformes à celles décrites sur les figures 5 et 6.
Dans un premier temps, chaque réseau ASSOM se règle en fonction des signatures locales des images de l'ensemble d'apprentissage de la même catégorie, acquises selon le principe de la figure 4.
Pour ce faire, les réseaux ASSOM sont initialisés avant l'apprentissage suivant un mode d'initialisation 50 prédéterminé et un mode d'initialisation aléatoire des vecteurs de base composants les modules suffit.
Les signatures locales sont ensuite calculées à partir des patchs. Les modules se règlent alors en fonction des signatures locales suivant un procédé d'apprentissage compétitif. Pour chaque signature locale, un module du réseau ASSOM est choisi comme gagnant, en comparant son sous-espace caractéristique et ceux des autres modules. Les vecteurs de base du module gagnant ainsi que ceux de ses voisins sont ensuite modifiés vers la signature d'entrée pour représenter fidèlement le patch d'origine.
La largeur de voisinage est réduite en fonction du temps. A la fin de l'apprentissage, les modules du réseau associé à chaque catégorie arriveront à un état topologiquement ordonné, chacun représentant un type de sous-espaces dans l'espace d'entrée.
L'organigramme de la figure 5 décrit plus précisément le procédé d'apprentissage des réseaux ASSOM correspondants aux différentes catégories d'images à apprendre. Ainsi et comme nous l'avons mentionné précédemment, chaque catégorie est associée à un réseau ASSOM.
On note C le nombre des catégories d'images considérées (C est connu a priori), le nombre des réseaux ASSOM dans la matrice sera donc C. Pour des raisons de simplicité, nous supposons que la topologie des réseaux ASSOM considérés est rectangulaire. Il est a noter cependant que l'extension à tout autre type de topologie est triviale.
Il est donc supposé ci-dessous dans l'exemple de description d'un mode de réalisation de l'invention que chacun des réseaux ASSOM est constitué de N modules arrangés suivant une topologie rectangulaire et que chaque module est constitué de H neurones, c'est-à-dire chacun des modules représente un sous- espace linéaire de dimension H.
Chaque réseau ASSOM d'indice c sera donc appris par les patchs de la catégorie c. Avant l'insertion des patchs, nous devons d'abord initialiser 50 le réseau.
Pour tous les modules i, /E {1,2,..., TV} dans le réseau, leurs vecteurs de base b( ft !) , AE {1,2,..., H}, associés à chaque neurone de la première couche sont initialisés à des valeurs aléatoires.
Puis, durant chaque étape d'apprentissage, une catégorie c d'images est ouverte 51, puis un patch p de la catégorie c est extrait 52, représenté par un vecteur x à Ir composantes formant description locale 53 du patch p, est présenté au réseau.
Pour raison de simplicité, nous ne distinguerons pas un vecteur x et son patch représenté/? par la suite. Le module gagnant w du réseau ASSOM représentatif de la catégorie d'images c est alors sélectionné par application de l'équation suivante : w = . (équation 1)
Figure imgf000021_0001
dans laquelle :
" xL désigne le carré de la norme de projection de x sur le sous- espace linéaire Λ, sorti du module d'indice i (cf. l'Annexe A) ; désigne la norme euclidienne. Les vecteurs de base du module d'indice w, ainsi que ceux de ses voisins, sont alors mis à jour par la règle d'apprentissage coopératif suivante, laquelle peut se traduire comme l'apprentissage 54 de p par le réseau ASSOM de la catégorie c :
K • (équation 2),
Figure imgf000022_0001
Où :
" t désigne l'étape courante d'apprentissage ;
' b( ft !) désigne le vecteur de base après l'apprentissage de l'étape courante, bft (!) celui avant l'apprentissage ; " I est la matrice d'identité de taille 3rx 3r ;
' A(O désigne un taux d'apprentissage en fonction de t. C'est une fonction monotone décroissante en mesure de t afin d'avoir une adaptation rapide des vecteurs de base au début de l'apprentissage et un réglage plus fin vers la fin de l'apprentissage. En plus, deux conditions seront nécessaires : V^0MO = °° et ^\_QA2(0 = ∞ . Dans le présent exemple de réalisation, A(O = 0.1- 77(7 + 990 est choisi, avec T désignant le nombre total d'étapes d'apprentissage ;
" h^if) désigne la fonction de voisinage du module gagnant w en fonction de l'étape d'apprentissage t et le module i dont les vecteurs de base doivent être mis à jour. Plusieurs fonctions sont envisageables.
Dans un mode particulier de réalisation, un voisinage est défini sous une forme circulaire au moyen de la fonction suivante :
Figure imgf000022_0002
Dans cette dernière équation : " ut représente la localisation à deux dimensions du module i dans le réseau ASSOM de la catégorie c traitée et uw celle du w ; " a^ définit le rayon de voisinage au début d'apprentissage et αf celui à la fin d'apprentissage ; ' αd est choisi grand pour avoir rapidement un ordonnancement topologique global des modules au début de l'apprentissage ; ' (if sera plus petit pour avoir un réglage fin à l'issue de l'apprentissage. Le voisinage du module gagnant est donc défini par une fonction monotone décroissante dépendante de l'étape d'apprentissage.
Afin d'améliorer la stabilité de la solution, les vecteurs de base dans le module i sont ensuite dissipés selon l'équation : b^* = sgnφ^maxφΛb^1 - ε) , avec b^1' les éléments du vecteur de base b^' après la dissipation. ε est une petite valeur proportionnelle à la correction du vecteur de base. Ensuite, les vecteurs de base du module i sont orthonormalisés par l'intermédiaire d'un procédé Gram-Schmidt.
Ainsi, chaque module i dans le voisinage de w adapte ses vecteurs de base suivant l'équation 2, les dissipe ensuite et les orthonormalise enfin.
Quand tous les modules voisins de w, incluant éventuellement w, sont adaptés pour le patch p courant, un nouveau patch sera ensuite prêt à se présenter 55 dans le réseau ASSOM de la catégorie c si p n'est pas le dernier patch de cette catégorie à traiter, puis on réitère les étapes précédentes pour un nouveau patch p ' de la catégorie c. Dans le cas contraire 57, on regarde 58 si c est la dernière catégorie d'images à apprendre. En cas de réponse positive (501) l'apprentissage des différents réseaux
ASSOM se termine (502). En cas de réponse négative 59, les étapes d'apprentissage se poursuivent jusqu'à ce que l'étape d'apprentissage maximum T soit atteinte. La même procédure que celle précitée se répète alors pour chaque réseau ASSOM correspondant à une catégorie d'images. A l'issue des processus, une matrice de réseaux ASSOM sera établie et prête pour l'apprentissage du classifieur final.
Une fois chaque réseau (14l5 ..., 14C) ASSOM appris, chacun d'eux est apte à produire une sortie (fl5 ..., fc) activée par les signatures 12 de l'image 10 d'entrée. Un vecteur caractéristique f=[ fl5 ..., fc] composé de toutes les sorties (fl5 ..., fc) des réseaux ASSOM sera finalement proposé à un classifieur 15 de type supervisé. Ce classifieur 15 peut être un réseau de neurones classique permettant un apprentissage supervisé, un réseau bayésien, un réseau NRBF, ou bien un k plus proches voisins. Le but de cette étape est d'affecter une catégorie 16 à l'image d'entrée 10. A l'issue de l'apprentissage des réseaux ASSOM, il est donc nécessaire préalablement à toute possibilité de classification, d'ajuster/ apprendre le classifieur d'une façon supervisée.
Cette phase est présentée au travers les figures 7 et 8.
Pour chaque image ouverte 70 dans l'ensemble d'apprentissage 80, les signatures 81 locales correspondants respectivement aux catégories (85, 86) préalablement apprises, sont introduites 87 dans la matrice des réseaux ASSOM apprise précédemment.
Un compteur est associé à chacun de ces réseaux ASSOM et initialisé à 0. Pour chaque signature locale, les modules comparent ce vecteur d'entrée avec ses sous-espaces dans une étape d'analyse 71 des patchs de l'image 70 par la matrice 82 des réseaux (83, 84) ASSOM. Le module avec la distance minimale gagne la compétition et le compteur du réseau ASSOM correspondant est incrémenté de un.
Une fois toutes les signatures locales dans l'image / analysées, un vecteur f de dimension C (le nombre de catégories 85, 86) composé des compteurs des réseaux 83, 84 ASSOM est formé 72 et traduit sous la forme d'un histogramme Fl, F2 représentatif de chaque catégorie 85, 86 respectivement.
Ce vecteur, avec la catégorie de l'image d'entrée, est ensuite présenté 800 au classifieur pour un apprentissage 73 supervisé, lequel affecte en sortie à l'image d'entrée 70 une des catégories 85 ou 86.
L'apprentissage du classifieur est itéré 74 tant qu'il reste des images de la base de données d'images d'apprentissage à traiter tel que précité, il se termine 75 après la présentation au classifieur de la dernière image de la base de donnée d'apprentissage. Ainsi, cette phase d'apprentissage du classifieur s'effectue sur un mode supervisé, à partir des vecteurs caractéristiques obtenus précédemment.
Pour y parvenir, les patchs x(k), où k^{l,2,...,K} et K désigne le nombre de patchs dans l'image d'entrée I, sont extraits. Les patchs de la même image sont ensuite envoyés à la matrice de réseaux ASSOM. Pour chaque patch x(k) d'entrée, un seul gagnant c(k) des réseaux sera déterminé. Deux niveaux de compétition existent dans le processus: la compétition entre les modules du même réseau et la compétition entre les différents réseaux dans la matrice. Durant la première compétition, dans chaque réseau ASSOM d'indice c, tous les modules i du même réseau comparent x(k) avec leurs sous-espaces et un gagnant w est déterminé selon l'équation 1.
La mesure d'accord entre x(k) et le module gagnant w peut être considéré comme la similitude entre le patch d'entrée et le réseau ASSOM c qui comporte w. La mesure d'accord du patch d'entrée x avec le réseau ASSOM c est donc „„„ r_ c II II L"H . Cette mesure est calculée pour chaque réseau ASSOM. Durant la compétition entre les réseaux ASSOM, un compteur fc est associé à chaque réseau c et initialisé à O. Un vecteur caractéristique composé des compteurs f = [/i/2,- . -/c]T est défini comme la sortie de la matrice de réseaux ASSOM. Les réseaux comparent leurs mesures d'accord avec x^ et le gagnant ék) serait sélectionné selon :
Figure imgf000025_0001
Une fois le gagnant des réseaux déterminé, le compteur du gagnant /(t) est incrémenté de un. Ces procédures sont répétées pour tous les patchs d'entrée.
A l'issue de la présentation de tous les patchs de l'image / à la matrice de réseaux
ASSOM, les compteurs fc captureront les nombres de patchs dans chaque réseau ASSOM, c'est-à-dire,
Figure imgf000025_0002
Où ô (a, b) est une fonction de pouls renvoyant la valeur 1 si a = b et la valeur O sinon.
Les vecteurs caractéristiques f ainsi que leur catégorie associée sont ensuite normalisés puis envoyés au fur à mesure au classifieur pour un apprentissage supervisé.
Le classifieur implémenté dans ce mode particulier de réalisation est un réseau NRBF. Ce type de réseau possède une bonne capacité de généralisation. A l'issue de l'apprentissage, le classifieur NRBF, ainsi que la matrice de réseaux
ASSOM, sont prêts pour la tâche de classification.
Une fois les catégories d'images et le classifieur appris, la classification devient une action simple et rapide, avec un taux de pertinence élevée. Pour chaque image d'entrée /, les patchs sont extraits, et sont introduits vers la matrice de réseaux ASSOM pour générer le vecteur caractéristique f. Le vecteur f est utilisé en entrée du classifieur NRBF. Ce dernier établit la classe de l'image / et assigne la catégorie C1 en fonction de f.
Ainsi, comme illustré sur l'organigramme de la figure 2, le procédé de classification selon l'invention peut se résumer de la façon suivante : pour une image 10 à classifier, les patchs (ou zones d'intérêt) de l'image d'entrée sont d'abord extraits et les signatures locales (couleur, texture, contour, etc.) associées à ces patchs sont calculées puis analysés 20 par la matrice des réseaux ASSOM.
Les signatures locales suivent un processus identique celui décrit ci-dessus de façon qu'un vecteur caractéristique f soit formé 21 avant d'être présenté par ensuite au classifieur 15 ayant la charge de l'affectation 22 d'une catégorie d'image à l'image 10, en fonction du vecteur f, c'est-à-dire qu'en sortie de la matrice ASSOM, chaque réseau ASSOM produit une sortie activée par les signatures de l'image d'entrée.
Un vecteur caractéristique composé de toutes les sorties des réseaux ASSOM est alors proposé à un classifieur de type supervisé, lequel peut être du type réseau de neurones classique permettant un apprentissage supervisé, un réseau bayésien, un réseau NRBF, ou bien un k plus proches voisins. Le but de cette étape est d'affecter une catégorie à l'image d'entrée.
Avantageusement, une telle approche de la classification d'images peut s'appliquer aussi bien à des images de taille réduite ou possédant un contenu relativement simple à reconnaître, qu'à des images de grande taille et/ou possédant des contenus complexes à reconnaître (par exemple des images naturelles), la taille des images n'étant plus un frein à l'utilisation des réseaux ASSOM, comme dans les solutions de l'art antérieur. Comme illustré sur la figure 3, à partir d'une image 30 d'entrée à classer, on détermine tout d'abord un ensemble de régions (3I1, 3I2, ...) d'intérêt à partir desquelles sont produits les signatures locales caractéristiques de ces dernières et se présentant sous la forme d'un ensemble 32 de vecteurs caractéristiques (E1 7, E2 T, ...) à plusieurs dimensions. Chacun de ces différents vecteurs caractéristiques est proposé 33 en entrée de chaque réseau ASSOM (35, 36) de la matrice 34 des réseaux ASSOM préalablement appris.
En fonction des données du vecteur caractéristique correspondant à une signature locale, chaque réseau ASSOM active un ensemble (37, 38) de modules de façon à produire en sortie de chaque réseau ASSOM un histogramme (Fl, F2) des modules activés, chaque histogramme servant d'entrée 300, 301 pour le classifieur 39 également préalablement appris. C'est le rôle du classifieur 39 que déterminer ensuite en sa sortie la catégorie d'image à affecter à l'image d'entrée.
Enfin, un classifieur est appris de façon supervisée à partir des vecteurs caractéristiques extraits pour chaque image d'une base de données d'images d'apprentissage ayant servi à l'apprentissage des réseaux ASSOM.
Une fois le classifieur appris, il est directement exploitable et/ou utilisable pour la classification d'images d'entrée.
Dans un mode de réalisation préféré de l'invention, un classifieur de type réseau de NRBF (« Normalized Radial Basis Function » tel que décrit dans l'article de Bugmann G. intitulé « Normalized Gaussian Radial Basis Function Networks », publié dans « Neurocomputing, Spécial Issue on Radial Basis Function Networks », Vol. 20, pp. 97-110) sera utilisé.
Il est bien entendu possible d'utiliser ou de mettre en œuvre d'autre type de classifieurs pouvant être préalablement appris, par exemple un réseau de neurones, l'algorithme des k plus proches voisins, etc. Un avantage particulier d'un tel classifieur NRBF est que la technique selon l'invention s'avère parfaitement adaptée à la tâche de classification, tout en permettant de s'affranchir des contraintes de taille des images à classifier, comme dans la technique de Zhang dans laquelle les réseaux autonomes ASSOM donnent directement un résultat sans aucune interaction entre eux.
Au contraire, selon l'invention, l'activité des modules constitutifs de chaque réseau ASSOM est accumulée pour constituer un vecteur d'entrée directement exploitable par le classifieur et possédant une seule dimension correspondante au nombre de catégories. Une telle approche selon l'invention est d'autant plus efficace qu'elle permet en outre d'éviter tout sur-apprentissage des réseaux ASSOM (tel que constaté dans l'article de De Ridder D., Lemmers O., Duin R.P.W., Kittler J., « The Adaptive Subspace Map for Image Description and Image Database Retrieval », Actes de la conférence SSPR&SPR 2000, LNCS Vol. 1876, 2000, pp. 94-103). Or, un tel sur- apprentissage a le plus souvent pour conséquence néfaste une forte limitation des capacités de généralisation des réseaux de neurones et une focalisation de ces derniers sur les éventuelles exceptions pouvant être détectées au niveau des images à classer.
Encore un autre avantage de l'apprentissage et de l'utilisation d'un tel classifieur NRBF est la capacité de ce dernier à pouvoir de capturer sur les images à classer des variétés multimodales permettant une plus grande finesse et pertinence dans la classification, impossibles à gérer avec les techniques connues de l'art antérieur.
On présente désormais, en relation avec la figure 9, la structure matérielle d'un dispositif de classification mettant en œuvre la méthode décrite ci-dessus.
Un tel dispositif comprend notamment une mémoire M 91, une unité de traitement 90, équipée par exemple d'un microprocesseur μP, et pilotée par le programme d'ordinateur Pg 92.
Tel que précité, un tel dispositif de classification peut aussi exécuter au moins l'un des produits programme d'ordinateur comprenant respectivement des instructions de code de programme pour l'exécution des étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé des réseaux de neurones, et/ou encore les étapes d'apprentissage supervisé d'un classifieur d'images, tels que précédemment décrits. A l'initialisation, les instructions de code du programme d'ordinateur 92 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 90.
L'unité de traitement 90 reçoit en entrée au moins une image à classer 93.
Le microprocesseur μP de l'unité de traitement 90 met en œuvre les étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé d'au moins deux réseaux de neurones invariants en transformation affine et/ou les étapes du procédé d'apprentissage supervisé d'un classifieur d'image selon l'invention, décrits précédemment, selon les instructions du programme Pg 92. L'unité de traitement 90 affecte en sortie à l'image 93 d'entrée une des catégories d'images spécifiques des réseaux de neurones, par exemple ASSOM, préalablement appris.
En résumé, ce nouveau procédé de classification selon l'invention se distingue des solutions connues de l'art antérieur sur différents points. Tout d'abord, durant la phase d'apprentissage, des patchs ou zones d'intérêt extraits sont des images d'entrée pour produire des signatures locales qui sont ensuite injectées dans une matrice de plusieurs réseaux neuronaux ASSOM. Ensuite, un vecteur caractéristique original du fait de son contenu correspondant au nombre de fois où un réseau ASSOM, correspondant à la classe à apprendre, est considéré comme gagnant parmi les différents réseaux ASSOM mis en jeu, est présenté au classifieur final.
Un intérêt supplémentaire de la technique selon l'invention est qu'il existe deux niveaux de compétitions dans la matrice de réseaux ASSOM. Dans chaque réseau ASSOM spécifique à une catégorie, les signatures d'entrée sont en compétition pour déterminer le module gagnant. Un module gagnant est déterminé en comparant les distances entre la signature d'entrée et les sous-espaces représentés par les modules.
La distance minimale montre qu'un sous-espace est le plus représentatif des données d'entrée. Cette distance ainsi calculée est utilisée pour la deuxième compétition au niveau des réseaux ASSOM, durant laquelle tous les réseaux ASSOM comparent leurs distances par rapport à la signature d'entrée.
Le réseau gagnant est défini comme celui qui a la distance minimale de la signature. Ces deux niveaux de compétition se répètent pour chaque signature locale extraite de l'image d'entrée.
Les étapes précédentes font partie de la nouvelle façon de construire le vecteur caractéristique de l'image d'entrée. Ce vecteur caractéristique est composé des sorties des réseaux ASSOM. Pour chaque réseau ASSOM, sa sortie est définie comme le nombre de fois que ce réseau a été activé par les signatures locales d'entrée. En effet, le vecteur caractéristique d'une image est un histogramme dont chaque composante représente le nombre de fois que le réseau ASSOM a été considéré comme gagnant. En normalisant cet histogramme, un vecteur caractéristique est construit pour l'apprentissage supervisé du classifieur en aval.
Du point de vue applicatif, la présente invention ouvre des perspectives particulièrement intéressantes. Les applications de cette invention sont en effet nombreuses puisqu'elle concerne domaine de la classification d'images numériques.
Or, l'essor des nouvelles technologies de l'information et des communications offre aujourd'hui de nombreux médias de diffusion de contenus notamment sur Internet.
De nouveaux besoins se font donc sentir, comme le besoin de pouvoir effectuer des recherches de contenus multimédias directement à partir des caractéristiques « images » mis à disposition par ces derniers, le traitement automatique de grandes bases de données images, le filtrage de contenus illicites ou douteux sur les réseaux, la reconnaissance d'objets ou de visages pour de la surveillance ou de l'identification.
Il est d'ailleurs intéressant de souligner dans ce contexte qu'un projet de loi prévoit un renforcement des acteurs de la sécurité pour Internet. Ce réseau Internet devra être connecté à la société civile afin de pouvoir intégrer en temps réel toutes les avancées techniques et industrielles.
Dans ce sens, les fournisseurs d'accès et de services Internet (FAI) sont concernés par la volonté réellement affichée des instances gouvernementales des différents pays de protéger les plus jeunes individus des contenus illicites, par exemple au moyens de techniques efficacement éprouvées de filtrage du contenu des sites Web, et dans un objectif de lutte contre la cybercriminalité sous ses différentes formes : incitation à la violence, à la haine raciale et à la consommation de produits illicites, etc.
Il est bien entendu possible d'appliquer la technique selon l'invention à tous autres types d'application, comme par exemple et de façon non limitative : la mise en œuvre de moteurs de recherche basés sur des images de requête, l'aide à la classification d'images naturelles, notamment pour des service de traitement et/ou de développement et/ou de gestion en ligne de photos numériques. 7. Résultats de test et mesure de performance du procédé selon l'invention
Le procédé de classification selon l'invention a été testé pour évaluer et mesurer sa performance, dans un contexte de filtrage d'images pornographiques pouvant trouver application dans le domaine du contrôle d'accès sur Internet.
Les images sont classées en deux catégories, « pornographique » ou « non pornographique ».
Pour cette tâche, une base de données constituée d'un ensemble d'images d'apprentissage et d'un ensemble d'images de test a été construite.
L'ensemble des images d'apprentissage est composé de 733 images pornographiques et de 733 images non pornographiques. L'ensemble des images de test est formé de 377 images pornographiques et de 467 images non pornographiques .
Les résultats sont résumés dans une courbe ROC (« Receiver Operating Characteristics » en anglais) illustrée dans la figure 9.
En particulier, 89,4% des images pornographiques sont alors filtrées (axe vertical 90 des « vrais positifs ») si l'on accepte un taux de 14,1% constitué de faux positifs (axe horizontal 91).
Si on compare les résultats de la classification obtenus avec le procédé de classification selon l'invention avec ceux de les résultats de Wei Zeng, Wen Gao, Tao Zhang et Yang Liu, donnés dans l'article « Image guarder : an intelligent detector for adult images », Asian Conférence on Computer Vision. ACCV2004, on constate que les performances du procédé selon l'invention sont très intéressants avec un taux de précision de 83.6% et un taux de rappel de 89.4%.
Figure imgf000032_0001
L'usage de cette invention n'est bien sûr pas restreint au domaine du filtrage d'images pornographiques, puisqu'elle est capable d'apprendre les caractéristiques discriminantes à partir des données mêmes. Cette invention peut être appliquée pour toutes tâches de classification d'images. Il n'y a pas de limite ni sur les catégories d'images ni sur le nombre de catégories.
Annexe A : ASSOM (Adaptive-Subspace Self-Organizing Map)
Généralités :
Les cartes topologiques ASSOM apportent de nombreuses améliorations en comparaison avec l'algorithme de Kohonen traditionnel SOM (Kohonen T., « Self-Organizing Maps », Springer-Verlag, Berlin Heidelberg New York, 2001.). Ce dernier proposait que chaque noeud de la carte soit un vecteur réfèrent des observations de la base d'apprentissage. En effet, la procédure cherche à projeter les vecteurs d'apprentissage de grande dimension sur un treillis de dimension beaucoup plus basse, par exemple, 2D. Chaque neurone de la carte caractérise l'information des vecteurs d'entrées et préserve la topologie, c'est-à-dire deux vecteurs proches selon une mesure de distance dans l'espace des observations, seront projetés vers 2 nœuds d'un voisinage proche sur la carte de Kohonen.
Ici, ASSOM construit, par apprentissage compétitif et coopératif, un ensemble de sous-espaces de dimension réduite, préservant la topologie de l'espace des observations. ASSOM s'adapte de façon automatique et adaptative aux données le plus fidèlement possible. L'entrée pour un réseau ASSOM est une séquence de vecteurs appelée "épisode". Chaque séquence d'observations est projetée au sein de la carte composée des modules, dont les vecteurs référents constituent un sous-espace linéaire dans l'espace d'entrée Ω . Deux étapes sont nécessaires dans le processus d'apprentissage du réseau
ASSOM:
1. A partir d'un épisode en entrée, il faut déterminer le module (le sous- espace) "gagnant". Parmi tous les modules présents dans la carte ASSOM, le module, dont la distance vers l'épisode d'entrée est minimale, représente le module "gagnant".
2. La procédure itérative ajuste le sous-espace du module gagnant ainsi ceux des modules voisins afin de décrire au mieux le sous-espace de l'épisode d'entrée.
Détermination du module gagnant Pour déterminer un module gagnant, il faut comparer le sous-espace de l'épisode d'entrée avec tous les sous-espaces représentés par les modules dans le réseau. Il s'agit donc une notion de distance entre les sous-espaces.
Pour un sous-espace L de dimension H, on peut toujours trouver un ensemble de vecteurs de base (I)1 , b2,..., bH} tel que chaque vecteur dans L peut être construit par une combinaison linéaire des vecteurs de base. Les ensembles de vecteurs de base ne sont pas unique, mais représentent le même sous-espace L .
La projection orthogonale d'un vecteur x sur L , désigné par xL , est une combinaison linéaire de ses projections orthogonales sur les vecteurs de base individuels donnée par l'équation suivante caractéristique de la projection orthogonale du vecteur x sur l'espace L :
H
= Y (xτbft)bft (équation 5)
La notion de distance entre le vecteur x et le sous-espace L est définie par la norme euclidienne |xL | = llx - xL II . Dans ASSOM, la projection orthogonale du vecteur x sur L établie selon les vecteurs de base {bλ , b2,..., bH} est représentée par un réseau de neurones pleinement connecté.
Les neurones à la première couche, marqués par les vecteurs de base bh, h(Ξ {l,2,...H\, prennent les projections orthogonales de x et donnent les sorties xτbft . Un neurone quadratique forme la deuxième couche, noté Q. La sortie obtenue est la somme des carrés des sorties des neurones de la première couche, c'est-à-dire |xL | , le carré de la norme de la projection orthogonale de x sur L .
Dans le cas d'un épisode x(s), s E. S , où. S désigne l'ensemble des indices de vecteurs dans l'épisode, les sorties du réseau sont accumulées pour donner une mesure d'accord entre l'épisode et le sous-espace L du module. Cette mesure est appelée « énergie » (Kohonen T., Kaski S., Lappalainen Η., « Self-Organized Formation of Varions Invariant-Feature Filters in the Adaptive-Subspace SOM », Neural Computation, Vol. 9, N°6, Août 1997, pp. 1321-1344). En comparant les énergies de tous les modules dans le réseau ASSOM pour le même épisode, on peut déterminer pour cet épisode le module gagnant. Le module qui produit la plus grande énergie pour l'épisode d'entrée sera le plus proche de l'épisode parmi tous les modules existants. Adaptation du module gagnant et de ses voisins
Une fois le module gagnant déterminé, la seconde phase ajuste ce dernier ainsi que les modules dans son voisinage pour mieux représenter les vecteurs d'entrée appariés. Le voisinage des modules permet un apprentissage d'une façon coopérative et de former un ordre topologique. Souvent on choisit un treillis bidimensionnel des modules comme ceux dans le SOM traditionnel. Le voisinage est habituellement soit rectangulaire soit hexagonal, car les deux topologies sont symétriques et permettent de former une topologie équilibrée des sous-espaces.
Une fonction de voisinage U^ est définie sur ce treillis dont w désigne le module gagnant et i un module arbitraire dans le treillis. Cette fonction de voisinage contrôlera le degré d'adaptation des modules voisins de w. En effet, dans un réseau ASSOM, le voisinage d'un module évolue d'une façon monotone décroissante. La largeur du voisinage au début de l'apprentissage permet d'établir rapidement un ordonnancement global des modules. Par la suite, la largeur diminue afin de favoriser le réglage fin des modules dans le réseau. A l'issue de l'apprentissage coopératif, la carte topologique converge vers un état stable. Les modules voisins représentent alors des sous-espaces similaires.
L'adaptation d'un module consiste à ajuster tous les vecteurs de base situés dans les neurones de la première couche du module. Cette opération peut être décomposée en une série de rotations des vecteurs de base vers chaque vecteur dans l'épisode d'entrée. Pendant chaque étape d'apprentissage t, pour tous les modules i dans le voisinage courant du module gagnant w, incluant w même, et pour chacun des vecteurs d'entrée x(s) dans l'épisode, les vecteurs de base du module i tournent vers x(s) selon l'équation suivante qui donne la formule de rotation des vecteur de base pour le renforcement de ces derniers :
b(,° (équation 6)
Figure imgf000036_0001
Où b( ft° est le nouveau vecteur de base après la rotation et bft (!) l'ancien. I est la matrice d'identité, λ(t) un facteur de taux d'apprentissage monotone décroissant selon t.
Pour améliorer la stabilité de la solution, on dissipe les éléments bζ' , j(Ξ{l,2,...,J}, dont J est le nombre de composants, pour tous les vecteurs de base b<° [1] : é;w - sgn(éî))max(0,|6Î)|- e) où ε est la quantité de dissipation, proportionnelle à l'étendue de la correction des vecteurs de base. A la fin de l'ajustement du module i dans l'étape d'apprentissage t, une phase d'orthonormalisation des vecteurs de base dans ce module i est effectuée. Les étapes de la détermination du module gagnant et l'adaptation des modules se poursuivent et se répètent jusqu'à ce que le nombre d'étape d'apprentissage désiré soit atteint. A l'issue de l'apprentissage, les modules dans le réseau représentent les caractéristiques représentatives dans l'espace d'entrée en préservant un ordre topologique où deux modules proches dans le treillis représentent deux caractéristiques proches dans l'espace d'entrée.

Claims

REVENDICATIONS
1. Procédé de classification d'au moins une image (10) numérique d'entrée selon au moins deux catégories d'images prédéterminées, caractérisé en ce qu'il comprend les étapes suivantes : - affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
" un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14l5 ..., 14C) à au moins une dimension, chacun desdits réseaux (14l5 ..., 14C) de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14l5 ..., 14C) ; classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.
2. Procédé de classification selon la revendication 1, caractérisé en ce que ladite au moins une transformation prédéterminée appartient au groupe comprenant : une transformation affine ; - une transformation non linéaire.
3. Procédé de classification selon l'une quelconque des revendications 1 et 2, caractérisé en ce que chaque réseau (14l5 ..., 14C) de neurones spécifique d'une desdites catégories d'images est un réseau de neurones du type ASSOM, dit réseau ASSOM, apte à générer automatiquement un ensemble de descripteurs invariants représentatifs desdites catégories d'images, lorsque ladite transformation prédéterminée est du type transformation affine.
4. Procédé d'apprentissage non supervisé pour la configuration préalable d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, chacun desdites réseaux (14l5 ..., 14C) de neurones étant représentatifs respectivement d'au moins deux catégories d'images prédéterminées destinées à la classification d'images selon l'une quelconque des revendications 1 à 3, ledit procédé tenant compte d'un ensemble (44) d'images (46) d'apprentissage et comprenant les étapes suivantes exécutées pour chaque ensemble d'images d'une même catégorie d'image: initialisation (50) d'un réseau de neurones correspondant à ladite même catégorie d'images, suivant un mode d'initialisation prédéterminé ; pour chaque image d'apprentissage de l'ensemble des images de ladite même catégorie d'images, affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
" un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; telle que pour chaque signature affectée :
' identification d'un module (61) dit gagnant, correspondant au module le plus activé dudit réseau (62) de neurones correspondant à ladite même catégorie d'images ; ' renforcement dudit module (61) gagnant et des modules adjacents formant son voisinage (60) au moyen des paramètres de ces modules, suivant un calcul prédéterminé ; de façon à apprendre aux réseaux de neurones associés à chaque catégorie d'images des caractéristiques associées à la catégorie d'images qu'il représente.
5. Procédé d'apprentissage supervisé pour la configuration préalable d'un classifieur d'images destinées à la classification d'images suivants au moins deux catégories d'images prédéterminées, selon l'une quelconque des revendications 1 à 3, ledit procédé tenant compte d'un ensemble d'images d'apprentissage et comprenant pour chacune desdites images dudit d'ensemble de d'images d'apprentissage les étapes suivantes : affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :
' un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique définie au moyen d'une matrice de réseaux de neurones à au moins une dimension, lesdits réseaux de neurones étant invariants à au moins une transformation prédéterminée, préalablement appris et représentatifs chacun d'une desdites catégories d'images ; élection du vecteur caractéristique le plus représentatif de ladite image d'apprentissage considérée, parmi l'ensemble des vecteurs caractéristiques obtenus pour les signatures d'une même image d'apprentissage ; normalisation dudit vecteur caractéristique élu et de la catégorie d'image associée, de façon à alimenter ledit classifieur d'images de données d'apprentissage normalisées.
6. Procédé d'apprentissage supervisé d'un classifieur d'images selon la revendication 5, caractérisé en ce que ladite au moins une transformation prédéterminée appartient au groupe comprenant : - une transformation affine ; une transformation non linéaire.
7. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, selon l'une quelconque des revendications 1 à 3, lorsqu'il est exécuté sur un ordinateur.
8. Application du procédé de classification, selon l'une quelconque des revendications 1 à 3, à la classification d'au moins une image numérique d'entrée selon au moins une première catégorie et une deuxième catégorie d'images prédéterminées, aux domaines appartenant au groupe comprenant : la classification d'images numériques ; la recherche de contenus multimédia au moyen de moteurs de recherche apte à traiter des caractéristiques relatives à des images ; le traitement automatisé de base de données d'images de très grande taille ; le filtrage de contenus illicites ou douteux sur des réseaux de communication et/ou sur des sites Internet ; - la reconnaissance d'objets et/ou de visage dans les domaines de la surveillance et/ou de l'identification de personnes ; l'aide à la classification d'images naturelles pour des services en lignes de gestion et/ou de traitement de photos numériques.
9. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé d'apprentissage non supervisée d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, représentatifs respectivement d'au moins deux catégories d'images prédéterminées de classification d'au moins une image numérique d'entrée, selon la revendication 4, lorsqu'il est exécuté sur un ordinateur.
10. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé d'apprentissage supervisé d'un classifieur d'images suivants au moins deux catégories d'images prédéterminées destinées à la classification d'images, selon l'une des revendications 5 et 6, lorsqu'il est exécuté sur un ordinateur.
11. Dispositif de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, caractérisé en ce qu'il comprend : des moyens d'affectation d'au moins une signature associée à un élément appartenant au groupe comprenant : " un point d'intérêt de ladite image d'entrée ;
' une zone (11) d'intérêt de ladite image d'entrée ; des moyens d'association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14l5 ..., 14C) à au moins une dimension, chacun desdits réseaux (14l5 ..., 14C) de neurones étant préalablement configuré par des moyens d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14l5 ..., 14C) ; - des moyens de classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré par des moyens d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.
PCT/EP2006/070195 2006-01-02 2006-12-22 Procede de classification d'images par reseaux neuroniques et classifieur d'images prealablement appris, dispositif et programme d'ordinateur correspondants WO2007077175A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0600019 2006-01-02
FR06/00019 2006-01-02

Publications (1)

Publication Number Publication Date
WO2007077175A1 true WO2007077175A1 (fr) 2007-07-12

Family

ID=36691893

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/070195 WO2007077175A1 (fr) 2006-01-02 2006-12-22 Procede de classification d'images par reseaux neuroniques et classifieur d'images prealablement appris, dispositif et programme d'ordinateur correspondants

Country Status (1)

Country Link
WO (1) WO2007077175A1 (fr)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2945340A1 (fr) * 2009-05-11 2010-11-12 Commissariat Energie Atomique Procede de caracterisation tactile de texture de surface.
CN111523638A (zh) * 2020-03-10 2020-08-11 中移(杭州)信息技术有限公司 深度神经网络的泛化能力的度量方法、装置、终端、存储介质
CN111553888A (zh) * 2020-04-15 2020-08-18 成都飞机工业(集团)有限责任公司 一种基于机器学习的钛合金锻件显微组织图像识别方法
CN112384425A (zh) * 2018-07-23 2021-02-19 赫尔实验室有限公司 利用用于自主驾驶的神经形态计算网络进行实时车辆识别的方法
CN114358643A (zh) * 2022-01-13 2022-04-15 南京讯思雅信息科技有限公司 一种多媒体内容风控管理装置及管理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020186875A1 (en) * 2001-04-09 2002-12-12 Burmer Glenna C. Computer methods for image pattern recognition in organic material

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020186875A1 (en) * 2001-04-09 2002-12-12 Burmer Glenna C. Computer methods for image pattern recognition in organic material

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BAILING ZHANG ET AL: "Handwritten Digit Recognition by Adaptive-Subspace Self-Organizing Map (ASSOM)", July 1999, IEEE TRANSACTIONS ON NEURAL NETWORKS, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, ISSN: 1045-9227, XP011039355 *
D. DE RIDDER ET AL.: "The Adaptive Subspace Map for Image Description and Image Database Retrieval", LECTURE NOTES IN COMPUTER SCIENCE, vol. 1876, 2000, pages 94 - 103, XP002398472 *
M. AKSELA: "Handwritten character recognition: a palm-top implementation and adaptive committee experiments", May 2000, HELSINKI UNIVERSITY OF TECHNOLOGY, XP002433402 *
RUIZ-DEL-SOLAR J ET AL: "Neural-based architectures for the segmentation of textures", PATTERN RECOGNITION, 2000. PROCEEDINGS. 15TH INTERNATIONAL CONFERENCE ON SEPTEMBER 3-7, 2000, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, vol. 3, 3 September 2000 (2000-09-03), pages 1080 - 1083, XP010533475, ISBN: 0-7695-0750-6 *
SUGANTHAN P N: "Pattern classification using multiple hierarchical overlapped self-organising maps", PATTERN RECOGNITION, ELSEVIER, KIDLINGTON, GB, vol. 34, no. 11, November 2001 (2001-11-01), pages 2173 - 2179, XP004508346, ISSN: 0031-3203 *
T. KOHONEN ET AL.: "Visual Feature Analysis by the Self-Organising Maps", NEURAL COMPUTING AND APPLICATIONS, vol. 7, 1998, pages 273 - 286, XP002398473 *
XU L ET AL: "METHODS OF COMBINING MULTIPLE CLASSIFIERS AND THEIR APPLICATIONS TOHANDWRITING RECOGNITION", May 1992, IEEE TRANSACTIONS ON SYSTEMS, MAN AND CYBERNETICS, IEEE INC. NEW YORK, US, PAGE(S) 418-435, ISSN: 0018-9472, XP000828478 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2945340A1 (fr) * 2009-05-11 2010-11-12 Commissariat Energie Atomique Procede de caracterisation tactile de texture de surface.
WO2010130631A1 (fr) * 2009-05-11 2010-11-18 Commissariat à l'énergie atomique et aux énergies alternatives Procede de caracterisation tactile de texture de surface
US9080854B2 (en) 2009-05-11 2015-07-14 Commissariat A L'energie Atomique Et Aux Energies Alternatives Tactile surface texture characterisation method
CN112384425A (zh) * 2018-07-23 2021-02-19 赫尔实验室有限公司 利用用于自主驾驶的神经形态计算网络进行实时车辆识别的方法
CN111523638A (zh) * 2020-03-10 2020-08-11 中移(杭州)信息技术有限公司 深度神经网络的泛化能力的度量方法、装置、终端、存储介质
CN111553888A (zh) * 2020-04-15 2020-08-18 成都飞机工业(集团)有限责任公司 一种基于机器学习的钛合金锻件显微组织图像识别方法
CN114358643A (zh) * 2022-01-13 2022-04-15 南京讯思雅信息科技有限公司 一种多媒体内容风控管理装置及管理方法
CN114358643B (zh) * 2022-01-13 2023-09-12 南京讯思雅信息科技有限公司 一种多媒体内容风控管理装置及管理方法

Similar Documents

Publication Publication Date Title
Nishiyama et al. Facial deblur inference using subspace analysis for recognition of blurred faces
EP3640843B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
WO2006103240A1 (fr) Procédé d&#39;identification de visages à partir d&#39;images de visage, dispositif et programme d&#39;ordinateur correspondants
EP3707676A1 (fr) Procédé d&#39;estimation de pose d&#39;une caméra dans le référentiel d&#39;une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d&#39;ordinateur associé
EP3620970B1 (fr) Procédé d&#39;extraction de caractéristiques d&#39;une empreinte digitale représentée par une image d&#39;entrée
FR3088467A1 (fr) Procede de classification d&#39;une image d&#39;entree representative d&#39;un trait biometrique au moyen d&#39;un reseau de neurones a convolution
WO2007077175A1 (fr) Procede de classification d&#39;images par reseaux neuroniques et classifieur d&#39;images prealablement appris, dispositif et programme d&#39;ordinateur correspondants
EP2754088B1 (fr) Identification par reconnaissance d&#39;iris
EP3608835B1 (fr) Procede de traitement d&#39;images d&#39;empreintes
FR3082645A1 (fr) Procede d&#39;apprentissage de parametres d&#39;un reseau de neurones a convolution
Zhou et al. Sparse representation with enhanced nonlocal self-similarity for image denoising
Pal et al. Adversarial examples might be avoidable: The role of data concentration in adversarial robustness
Fernandez et al. Active image indexing
EP4016381A1 (fr) Procédé d&#39;extraction d&#39;une signature d&#39;une empreinte digitale et dispositif mettant en oeuvre ledit procédé
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
EP3929809A1 (fr) Procédé de détection d&#39;au moins un trait biométrique visible sur une image d entrée au moyen d&#39;un réseau de neurones à convolution
Lukin et al. Classification of pre-filtered multichannel remote sensing images
FR3103045A1 (fr) Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif
Nicolas On Domain-Incremental Learning methods and its applications to forgery detection
EP4163866A1 (fr) Procédé, programme d&#39;ordinateur et dispositif de traitement d&#39;images par extraction de composante(s) principale(s) d&#39;une représentation d&#39;images
Bondi Data-driven and handcrafted features for forensics analysis and source attribution
FR3122275A1 (fr) Procede de reconstruction d’une image d’une empreinte digitale a partir d’une image deformee
Monga et al. Sparsity Constrained Estimation in Image Processing and Computer Vision
Berthet et al. On the Impact of AI-Based Compression on Deep Learning-Based Source Social Network Identification
FR2684469A1 (fr) Procede automatique de reconnaissance de signatures manuscrites par analyse d&#39;image et dispositif destine a sa mise en óoeuvre.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06841610

Country of ref document: EP

Kind code of ref document: A1