WO2007077175A1

WO2007077175A1 - Procede de classification d'images par reseaux neuroniques et classifieur d'images prealablement appris, dispositif et programme d'ordinateur correspondants

Info

Publication number: WO2007077175A1
Application number: PCT/EP2006/070195
Authority: WO
Inventors: Huicheng Zheng; Christophe Laurent; Grégoire LEFEBVRE
Original assignee: France Telecom
Priority date: 2006-01-02
Filing date: 2006-12-22
Publication date: 2007-07-12

Abstract

L'invention concerne un procédé de classification d'au moins une image (10) numérique d'entrée selon au moins deux catégories d'images prédéterminées. Selon l'invention, un tel procédé comprend les étapes suivantes: affectation d'au moins une signature associée à un élément appartenant au groupe comprenant: un point d'intérêt de ladite image d'entrée; une zone (11) d'intérêt de ladite image d'entrée; association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14l, ..., 14c) à au moins une dimension, chacun desdits réseaux (14l, ..., 14c) de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14l, ..., 14c); classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.

Description

Procédé de classification d'images par réseaux neuroniques et classifieur d'images préalablement appris, dispositif et programme d'ordinateur correspondants.

1. Domaine de l'invention Le domaine de l'invention est celui de la classification automatisée de données, et en particulier du type image, selon des catégories d'informations données.

L'invention trouve notamment des applications dans le domaine du filtrage de contenus illicites, en simplifiant et en optimisant la distinction entre les contenus d'images licites et les contenus illicites.

2. État de la technique

On connaît à ce jour plusieurs techniques de classification de données, plus particulièrement des données du type images, appliquées notamment à des domaines aussi variés que la classification d'images naturelles, pour des besoins individuels ou industriels, le filtrage de contenus basé sur les caractéristiques des images, ou bien la recherche d'images suivant des catégories prédéterminées.

Plus précisément, la classification d'images consiste à répartir un ensemble d'images suivant des catégories ou classes spécifiques d'images, au moyen d'un partitionnement de l'espace caractéristique d'une base d'images en un ensemble de régions séparées par des surfaces de décision.

Dans la pratique, une image est représentée par une signature (ou descripteur), laquelle peut être exprimée sous la forme d'un vecteur, le plus souvent de grande dimension, mais qui doit idéalement prendre une forme la plus compacte possible pour être représentative du contenu visuel de l'image. Une des principales difficultés rencontrées par les techniques de l'art antérieur lors de la détermination manuelle de la signature d'une image concerne les transformations géométriques ou photométriques que l'image peut subir. En effet, deux images similaires au sens visuel peuvent alors être représentées par deux signatures très différentes au sens mathématique, avec pour conséquence au niveau d'une classification de données images que l'on cherche à automatiser, des biais et des défauts de performances tels que ceux rencontrés avec les solutions actuellement existantes.

Dans les techniques traditionnelles relatives à la classification d'images, on recherche parfois des signatures d'images qui soient invariantes à un certain nombre de transformations, de façon à s'affranchir du problème mentionné ci- dessus. Pour tenter d'y parvenir, une classification reposant sur des réseaux bayésiens et donc sur l'usage des statistiques a été proposé. Dans une telle approche connue, les descripteurs ou signatures sélectionnés sont par exemple des ondelettes, tel que décrit dans l'article de Daubechies I. intitulé « The Wavelet Transform, Time-Frequency Localization and Signal Analysis », IEEE Transactions on Information Theory, Vol. 36, 1990, pp. 961-1005. Ces signatures peuvent également prendre la forme de filtres de Gabor, tel que décrit dans l'article de Gabor D., intitulé « Theory of Communication », Journal of IEE, Vol. 93, 1946, pp. 429-457. Un premier inconvénient de ces solutions de classification d'images, dites suivant l'approche globale, est lié au fait qu'elles nécessitent une création a priori et essentiellement manuelle des descripteurs ou des signatures, ce qui induit nécessairement un a priori important sur le contenu d'une image à classer, ce qui peut influencer de manière négative l'affectation d'une catégorie d'images à cette dernière, d'autant plus lorsque la conception même des descripteurs est basée sur des hypothèses humaines rarement, justifiées et vérifiées.

De plus la forme du filtre est généralement choisie a priori de telle façon qu'elle soit la plus représentative des images à traiter. Or, suivant la variation du contenu des images à classer, les caractéristiques des images peuvent changer, entraînant d'autres choix de descripteurs.

En conséquence, un inconvénient de ces techniques de classification d'images selon l'approche globale concerne leur manque de flexibilité et d'adaptabilité aux contenus des images à classer.

Pour tenter de pallier ce dernier inconvénient des solutions de classification d'images suivant l'approche globale, Kohonen a proposé plus récemment une méthode appelée ASSOM (pour « Adaptive-Subspace SeIf- Organizing Map » en anglais, ou « Carte auto-organisatrice de sous espaces adaptatifs » - voir l'article de Kohonen T., Kaski S., Lappalainen H. intitulé « Self-Organized Formation of Varions Invariant-Feature Filters in the Adaptive- Subspace SOM », dans Neural Computation, Vol. 9, N°6, Août 1997, pp. 1321- 1344.) qui permet de construire automatiquement des descripteurs invariants à partir des données à classer, elles-mêmes.

Contrairement aux techniques selon l'approche globale, aucune hypothèse sur la formulation mathématique des signatures n'est ici formée. Cependant, cette technique reste difficilement exploitable dans le domaine de la classification automatique d'images.

On pourra se référer à l'article de Zhang B., Fu M., Yan H., Jabri M.A., intitulé « Handwritten Digit Récognition by Adaptive-Subspace Self-Organizing Map (ASSOM) » et publié dans la revue IEEE Transactions on Neural Networks, Vol. 10, N°4, Juillet 1999, pp.939-945, pour illustrer l'utilisation des réseaux de neurones ASSOM pour la classification de chiffres écrits avec une écriture manuscrite. Dans ce contexte, les chiffres sont normalisés dans un petit treillis de dimension 25 x20 pixels, ce qui autorise un traitement direct des images par les réseaux ASSOM, chacun d'entre eux étant représentatif d'une catégorie de chiffre. Selon la technique proposée, une comparaison entre le chiffre d'une image d'entrée et les différents réseaux ASSOM est réalisée, de façon à reconnaître le chiffre d'entrée et ainsi déterminer sa catégorie.

Une variante d'utilisation de la méthode ASSOM selon Kohonen a été proposée par De Ridder D., Lemmers O., Duin R.P.W., Kittler J., dans leur article « The Adaptive Subspace Map for Image Description and Image Database Retrieval » publié dans les actes de la conférence SSPR&SPR 2000, LNCS Vol. 1876, 2000, pp. 94-103.

Selon cette variante qui vise plus précisément la classification d'images, un réseau ASSOM est défini pour chaque catégorie d'images au moyen d'une base de données d'images d'apprentissage et au regard d'un ensemble de « patchs » (c'est-à-dire de petites zones des images) préalablement extraits d'un sous- ensemble d'images d'apprentissage représentatives d'une même catégorie d'images.

Un histogramme est alors créé pour chaque image d'entrée. Puis, les moyennes et les variances des histogrammes sont calculées pour chaque catégorie. Ils sont considérés comme étant respectivement représentatifs d'une catégorie d'images correspondante. Ainsi, pour classer une image d'entrée, un histogramme de l'image est d'abord calculé, puis comparé avec tous les représentants d'une même catégorie d'image, au regard d'une distance de Mahalanobis. La catégorie de l'image sera celle dont le représentant est le plus proche de l'histogramme de l'image dans le sens de la distance de Mahalanobis.

Un inconvénient majeur de la technique de Zhang, appliquée au domaine le domaine de la reconnaissance d'écriture et par extension à celui de la reconnaissance d'images, est principalement dû au fait qu'elle fonctionne uniquement sur des images de petites tailles et lorsque ces dernières contiennent des données normalisées et dont la signature se présente sous la forme d'un vecteur caractéristique de faible dimension.

Or, les images acquises dans le monde réel sont très souvent complexes et de grandes tailles, impliquant des vecteurs de très hautes dimensions pour les réseaux ASSOM, ce qui rend la technique de Zhang inexploitable dans un domaine plus général de la classification des images naturelles, tel que visé par la présente invention.

De plus, tout comme pour la technique de Kohonen, un autre inconvénient des techniques connues utilisant les réseaux ASSOM vient du fait que l'apprentissage des réseaux ASSOM est réalisé de façon non supervisée, ce qui supprime toute possibilité d'interaction entre les réseaux ASSOM et les catégories individuelles d'images qu'ils représentent respectivement, ainsi que l'absence de garantie mathématique d'une classification optimale des images d'entrée en termes de résultat de la classification. Or, un tel défaut de classification optimale peut s'avérer problématique en termes de garantie de services rendus par une application de filtrage et/ou de contrôle de contenus illicites accessibles sur Internet, par exemple. 3. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.

Plus précisément, un objectif de l'invention est de fournir une technique de classification d'images suivants des catégories prédéfinies, qui soit applicable quelle que soit la taille des images à traiter et quelle que soit les variations entre leurs contenus.

L'invention a également pour objectif de fournir une telle technique permettant d'éviter des choix subjectifs des formes mathématiques des descripteurs d'images, sans aucune hypothèse a priori pouvant potentiellement introduire des biais ou des erreurs en termes de classification, tel que c'est le cas dans les solutions connues de l'art antérieur.

Un autre objectif de l'invention est de proposer une telle technique qui autorise l'apprentissage des caractéristiques discriminantes des images et le classement de ces dernières en tenant compte uniquement de leurs contenus respectifs. L'invention a encore pour objectif de fournir une telle technique qui permette soit rapide et efficace en termes de mise en œuvre et d'exécution, de façon à pouvoir être appliquée à des domaines dans lesquels la catégorisation d'une ou de plusieurs images doit être effectué dans un temps relativement court, par exemple dans un contexte de filtrage ou de contrôle d'accès à des contenus illicites sur Internet par des catégories de personnes non autorisées (enfants par exemple), tout en assurant un résultat optimale de la classification des images d'entrée.

L'invention a également pour objectif de fournir une telle technique, qui soit simple et peu coûteuse à mettre en œuvre. 4. Résumé de l'invention Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées.

Selon un tel procédé, les étapes suivantes sont avantageusement mises en œuvre : affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

" un point d'intérêt de ladite image d'entrée ; ' une zone d'intérêt de ladite image d'entrée ; - association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice de 'c' réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones ; classification de ladite image dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.

Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la classification d'une ou plusieurs images d'entrée, consistant en une action rapide à établir la classe d'une image / et lui assigner une catégorie C₁ en fonction d'un vecteur caractéristique f déterminé par la mise en compétition d'un ensemble de réseaux de neurones d'une matrice de réseaux de neurones, en vue de faciliter la classification et/ou le contrôle des images d'entrée, directement à partir d'une analyse du contenu de ces dernières, et ainsi s'affranchir de toute règles ou hypothèses de classification définies a priori.

Préférentiellement, l'étape de classification est exécutée par un classifieur d'images tenant compte des informations du vecteur caractéristique f. Chaque élément du vecteur caractéristique f obtenu en sortie de la matrice de réseaux de neurones est ainsi composé du nombre de fois où un réseau de neurones représentatif d'une catégorie d'images à apprendre, est considéré comme gagnant parmi les différents réseaux de neurones mis en jeu. C'est donc en fonction des données du vecteur caractéristique obtenu en sortie de la matrice des réseaux de neurones grâce à la mise en compétition de ces derniers, qu'est déterminée la catégorie d'image à affecter à une image d'entrée.

De façon avantageuse, le procédé de classification selon l'invention comprend pour chacune desdites catégories d'images une étape préalable d'apprentissage non supervisé de chacun desdits réseaux de neurones, en fonction d'un ensemble prédéterminé d'images d'apprentissage.

L'apprentissage non supervisé par ce type de réseau de neurones invariant selon ladite au moins une transformation prédéterminée permet la construction de sous-espaces linéaires associés aux régions d'intérêt d'une image à classifier et permet de s'affranchir des difficultés liées aux transformations géométriques telles que la translation, la rotation et le changement d'échelle. C'est ensuite la mise en œuvre de la matrice de réseaux de neurones correspondant chacun à une catégorie spécifique qui permet d'optimiser la capture des caractéristiques discriminantes des différentes catégories d'images envisagées pour la classification.

Dans un mode de réalisation préféré de l'invention, ladite au moins une transformation prédéterminée appartient au groupe comprenant : une transformation affine ; une transformation non linéaire. Dans ce mode de réalisation préféré du procédé de classification selon l'invention, chaque réseau de neurones spécifique d'une desdites catégories d'images est un réseau de neurones du type ASSOM, dit réseau ASSOM, apte à générer automatiquement un ensemble de descripteurs invariants représentatifs desdites catégories d'images, lorsque ladite au moins une transformation prédéterminée est du type transformation affine. L'utilisation de tels réseaux ASSOM est particulièrement intéressante dans le contexte de l'invention puisqu'ils assurent une limitation du nombre des descripteurs qui seront générés. Plus explicitement, si deux images identiques proposant un même contenu sous deux angles différents (de face, ou bien suivant une ligne de perspective, par exemple), ou bien avec un changement d'échelle (zoom positif ou négatif, par exemple), un seule ensemble de descripteurs identiques pour ces deux images sera alors généré.

De plus, l'utilisation des réseaux ASSOM dans le contexte de l'invention permet de faire émerger simplement à partir des points et/ou des zones d'intérêt d'une image d'entrée, les descripteurs les plus représentatifs d'une information cruciale du contenu de l'image, ce qui permet avantageusement de réduire sensiblement en dimension du contenu de l'image à analyser en entrée.

Enfin, un avantage supplémentaire de l'utilisation de tels réseaux du type ASSOM est lié à la préservation de la topologie de l'image à classer à l'intérieur même du réseau de neurones ASSOM de catégorie correspondante. En effet, deux zones d'intérêt proches l'une de l'autre dans l'image d'entrée se projettent en deux neurones voisins dans le réseau de neurones ASSOM dont la catégorie d'image est celle de l'image d'entrée.

L'invention concerne également un procédé d'apprentissage non supervisée d'au moins deux réseaux de neurones invariants à au moins une transformation appartenant au groupe comprenant une transformation affine ou un transformation non linéaire des vecteurs d'entrée de ces réseaux, chacun desdits réseaux de neurones étant représentatifs respectivement d'au moins deux catégories d'images prédéterminées destinées à la classification d'images selon le procédé de classification précité.

Selon l'invention, un tel procédé d'apprentissage tient compte avantageusement d'un ensemble d'images d'apprentissage et comprend les étapes suivantes exécutées pour chaque ensemble d'images d'une même catégorie d'image: initialisation d'un réseau de neurones correspondant à ladite même catégorie d'images, suivant un mode d'initialisation prédéterminé ; pour chaque image d'apprentissage de l'ensemble des images de ladite même catégorie d'images affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

• un point d'intérêt de ladite image d'entrée ;

• une zone d'intérêt de ladite image d'entrée ; telle que pour chaque signature : • identification d'un module dit gagnant, correspondant au module le plus activé dudit réseau de neurones correspondant à ladite même catégorie d'images ;

• renforcement dudit module gagnant et des modules adjacents formant son voisinage au moyen des paramètres de ces modules, suivant un calcul prédéterminé.

Une telle approche permet avantageusement d'apprendre aux réseaux de neurones associés à chaque catégorie d'images, les caractéristiques les plus représentatives de la catégorie d'images qu'il représente.

Dans cette phase d'apprentissage des zones d'intérêt extraites des images d'apprentissage, les signatures locales sont injectées en parallèle dans une matrice de plusieurs réseaux neuronaux, par exemple du type ASSOM.

De plus, ce qui est particulier ici, c'est qu'il existe deux niveaux de compétitions dans la matrice de réseaux de neurones à au moins une dimension, par exemple du type ASSOM. En effet, dans chaque réseau de neurones spécifique à une catégorie d'images, les signatures d'entrée sont en compétition pour déterminer le module gagnant. Un module gagnant est déterminé en comparant les distances entre la signature d'entrée et les sous-espaces représentés par les modules. La distance minimale montre qu'un sous espace est le plus représentatif des données d'entrée. Cette distance est utilisée pour la deuxième compétition au niveau des réseaux de neurones invariants en transformation affine. Pendant cette deuxième phase de compétition, tous les réseaux de neurones comparent leurs distances par rapport à la signature d'entrée. Le réseau gagnant est défini comme celui qui a la distance minimale de la signature.

Ces deux niveaux de compétition se répètent pour chaque signature locale extraite de chacune des images contenues dans la base d'images d'apprentissage. Les étapes du procédé d'apprentissage selon l'invention autorisent ainsi une nouvelle façon de construire le vecteur caractéristique d'une image d'entrée, ce dernier étant composé des sorties obtenues de chaque réseau de neurones, respectivement définies comme le nombre de fois que chaque réseau a été activé par les signatures locales d'entrée.

En effet, le vecteur caractéristique d'une image peut être considéré sous la forme d'un histogramme dont chaque composante représente le nombre de fois que le réseau de neurones a été considéré comme gagnant.

En normalisant cet histogramme, un vecteur caractéristique peut alors être construit pour permettre un apprentissage supervisé d'un classifieur en aval.

L'invention concerne aussi un procédé d'apprentissage supervisé d'un tel classifieur d'images destinées à la classification d'images suivants au moins deux catégories d'images prédéterminées, selon le procédé de classification précité.

Selon l'invention, un tel procédé d'apprentissage supervisé d'un classifieur d'images tient compte avantageusement d'un ensemble d'images d'apprentissage et comprend pour chacune desdites images dudit ensemble d'images d'apprentissage les étapes suivantes : - affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

' un point d'intérêt de ladite image d'entrée ; ' une zone d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique définie au moyen d'une matrice de réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant invariant à au moins une transformation prédéterminée appartenant au groupe comprenant au moins une transformation affine et une transformation non linéaire, préalablement appris et représentatifs chacun d'une desdites catégories d'images ; élection du vecteur caractéristique le plus représentatif de ladite image d'apprentissage considérée, parmi l'ensemble des vecteurs caractéristiques obtenus pour les signatures d'une même image d'apprentissage ; normalisation dudit vecteur caractéristique élu et de la catégorie d'image associée, de façon à alimenter ledit classifieur d'images de données d'apprentissage normalisées.

Un tel procédé d'apprentissage consiste à alimenter le classifieur, sur un mode supervisé, les vecteurs caractéristiques obtenus en sortie de la matrice de réseaux de neurones. Dans un mode de réalisation préféré de l'invention, le classifieur implémenté est un réseau NRBF (pour « Normalized Radial Basis Function » en anglais, ou « Fonction de Base Radiale Normalisée » en français), lequel possède une excellente capacité de généralisation. A l'issue de l'apprentissage, le classifieur NRBF, ainsi que la matrice de réseaux ASSOM, sont prêts pour la tâche de classification, laquelle peut dès lors s'effectuer très rapidement, quasiment en temps réel suivant l'application visée, pour une ou plusieurs images d'entrée, ce qui est parfaitement adaptée à certains contextes applicatifs visés par l'invention, donnés à titre illustratif et non limitatif, tels que : la classification d'images numériques ; - la recherche de contenus multimédia au moyen de moteurs de recherche apte à traiter des caractéristiques relatives à des images ; le traitement automatisé de base de données d'images de très grande taille ; le filtrage de contenus illicites ou douteux sur des réseaux de communication et/ou sur des sites Internet ; la reconnaissance d'objets et/ou de visage dans les domaines de la surveillance et/ou de l'identification de personnes ; l'aide à la classification d'images naturelles pour des services en lignes de gestion et/ou de traitement de photos numériques ; - etc.

L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, tel que précédemment décrit, lorsqu'il est exécuté sur un ordinateur.

L'invention concerne aussi un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité d'apprentissage non supervisée d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, représentatifs respectivement d'au moins deux catégories d'images prédéterminées de classification d'au moins une image numérique d'entrée, lorsqu'il est exécuté sur un ordinateur.

L'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité d'apprentissage supervisé d'un classifieur d'images suivants au moins deux catégories d'images prédéterminées destinées à la classification d'images, lorsqu'il est exécuté sur un ordinateur. L'invention concerne encore un dispositif de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées. Selon l'invention, un tel dispositif comprend avantageusement : des moyens d'affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

" un point d'intérêt de ladite image d'entrée ; " une zone d'intérêt de ladite image d'entrée ; des moyens d'association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice de 'c' réseaux de neurones à au moins une dimension, chacun desdits réseaux de neurones étant préalablement configuré par des moyens d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones ; - des moyens de classification de ladite image dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré par des moyens d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.

Préférentiellement, les moyens de classification d'un tel dispositif de classification selon l'invention s'appuient sur un classifieur d'images tenant compte des informations dudit vecteur caractéristique.

De façon également préférentielle, un tel dispositif de classification comprend des moyens d'apprentissage non supervisée desdites catégories d'images par chacun desdits réseaux de neurones respectivement, lesdits moyens d'apprentissage tenant compte d'un ensemble prédéterminé d'images d'apprentissage.

Un tel dispositif de classification peut notamment mettre en œuvre le procédé de classification d'au moins une image numérique et/ou le procédé d'apprentissage non supervisé d'au moins deux réseaux de neurones et/ou le procédé d'apprentissage supervisé d'un classifieur d'images, tels que décrits précédemment.

Un tel dispositif de classification peut aussi exécuter au moins l'un des produits programme d'ordinateur comprenant respectivement des instructions de code de programme pour l'exécution des étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé des réseaux de neurones, et/ou encore les étapes d'apprentissage supervisé d'un classifieur d'images, tels que précédemment décrits. 5. Liste des figures

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente un schéma de l'architecture générale de l'invention ; - les figures 2 et 3 illustrent respectivement un organigramme des grandes étapes mises en œuvre par le procédé de classification d'images selon l'invention et un exemple de classification d'une image d'entrée; la figure 4 illustre le principe de génération des vecteurs caractéristiques d'une catégorie d'images ; les figures 5 et 6 présentent respectivement un organigramme des étapes de génération et d'apprentissage non supervisé des réseaux ASSOM représentatifs des catégories d'images ; les figures 7 et 8 illustrent respectivement un organigramme des étapes d'apprentissage supervisé du classifieur d'images selon l'invention et un exemple de mise en œuvre d'un tel apprentissage dans le cas d'un classifieur du type NRBF ; la figure 9 présente la structure matérielle d'un dispositif de classification selon l'invention ; la figure 10 donne un exemple de courbes de performance du procédé de classification d'images selon l'invention. 6. Description d'un mode de réalisation préféré de l'invention

Le principe général de l'invention repose donc sur un système permettant de classer automatiquement les images selon des catégories prédéfinies et préalablement apprises au regard d'une base de données d'images d'apprentissage.

Alors que classiquement, la classification des images est réalisée à partir de caractéristiques globales (telles que la couleur, la forme, etc.) et sur une connaissance a priori des informations discriminantes à conserver, l'utilisation de réseaux neuroniques ASSOM (pour « Adaptive-Subspace Self-Organizing Map » en anglais) permet d'assurer dans le cadre de la présente invention, l'émergence automatique, par un processus compétitif et adaptatif, d'un ensemble de descripteurs invariants directement exploitables sur les images à classer. L'apprentissage non supervisé par ce type de réseau de neurones permet ainsi de construire des sous-espaces linéaires associés aux régions d'intérêt d'une image, tout en permettant de s'affranchir des difficultés rencontrées par les solutions de l'art antérieur dans le traitement et/ou la prise en compte des transformations géométriques, telles que la translation, la rotation et le changement d'échelle, qui peuvent survenir entre deux images à classer.

Pour mieux capturer les caractéristiques discriminantes des différentes catégories, une matrice de réseaux ASSOM est donc introduite et gérée, chaque réseau ASSOM correspondant à une catégorie spécifique des images à classer.

Un classifieur est ensuite introduit en aval de cette matrice de réseaux ASSOM, afin de superviser la classification.

Cette approche nouvelle et inventive se révèle être particulièrement intéressante et efficace dans le cadre de la classification d'images naturelles par exemple pour des applications de filtrage de contenus illicites.

On présente, en relation avec les différentes figures, un exemple de mode de réalisation de l'invention. L'invention vise donc à répondre efficacement aux inconvénients des techniques courantes citées précédemment, notamment ceux induits par les choix subjectifs des formes mathématiques des descripteurs.

Il s'agit au contraire, pour la solution proposée selon l'invention, d'apprendre automatiquement les catégories d'images à partir des données images elles-mêmes directement et sans considération d'aucune hypothèse a priori.

Ainsi, les vecteurs de référence habituellement associés aux neurones d'un réseau de neurones sont ici remplacés dans des réseaux ASSOM par des modules composés chacun des vecteurs de base d'un sous-espace linéaire d'une image à classer (une ou plusieurs zones d'intérêt définie(s) au voisinage d'un ou de plusieurs point d'intérêt détecté(s), par exemple).

Ainsi, chaque module dans un réseau ASSOM ne représente plus un seul point d'une image d'entrée, mais un sous-espace particulier et représentatif d'une zone d'intérêt de l'image à classer. Une telle approche autorise une conception des descripteurs telle que ces derniers soient invariants à certaines transformations.

Dans un exemple illustratif relatif à une image bidimensionnelle, les modules des réseaux ASSOM représentant des sous-espaces prédéterminés, les sous-espaces sont arrangés dans un treillis rectangulaire ou hexagonal. L'entrée pour un réseau ASSOM est une séquence de vecteurs appelée

« épisode », décrivant un sous-espace linéaire dans l'espace d'entrée. Une mesure d'accord entre le sous-espace d'entrée et les sous-espaces représentés par les modules est alors définie pour déterminer lequel des différents modules du réseau ASSOM considéré est le plus proche du sous-espace d'entrée. Ce module, dit «gagnant », ainsi que ses voisins seront ensuite renforcés pour mieux représenter le sous-espace d'entrée, suivant une formule prédéterminée décrite ci-après dans l'annexe A.

En outre, par un processus adaptif, chaque réseau ASSOM s'ajuste en fonction des données d'apprentissage et capture automatiquement les caractéristiques représentatives de la ou des images d'entrée à classer. Plus précisément, le procédé de classification selon l'invention peut se résumer en les étapes suivantes décrites en relation avec les figures 1 à 8.

Tout d'abord, des patchs de l'image d'entrée 10 (ou régions/ zones d'intérêt) sont d'abord extraits 11 et les signatures 12 locales (couleur, texture, contour, etc.) associées à ces patchs 11 sont calculées 12. Les signatures ainsi calculées sont présentées à la matrice 13 de réseaux ASSOM (14_l5 ..., 14_C), chaque réseau (14_l5 ..., 14_C) étant représentatifs d'une catégorie d'images.

Plus précisément, une première étape de l'apprentissage ou de la classification d'image consiste à extraire un ensemble de patchs (ou zone d'intérêt) des images et à décrire ces derniers sous la forme de signatures locales, tel que représenté sur la figure 4.

Les réseaux ASSOM sont capables de traiter des épisodes composés de plusieurs patchs.

Dans un mode particulier de réalisation, chacun des épisodes est composé d'un seul patch, ce qui permet ainsi d'éviter les facteurs subjectifs des variations manuelles, comme dans les systèmes de l'art antérieur.

Plusieurs possibilités concernant le choix de ces patchs sont envisageables : tirage aléatoire, utilisation d'un détecteur de points d'intérêt localisant les patchs dans des zones considérées comme perceptuellement fortes, etc. Dans ce mode particulier de réalisation, la détermination et la localisation des patchs dans un image s'effectuent au moyen du procédé breveté par la Déposante France Telecom concernant un « procédé et dispositif de détection de points d'intérêt dans une image numérique source, programme d'ordinateur et support de données correspondants », numéro FR 02/16929 et déposé le 31 décembre 2002, lequel met en œuvre un détecteur de points saillants basé « ondelettes ».

Ainsi, les patchs 40 extraits d'une image 41 (d'une base 44 de données d'images d'apprentissage) sont localisés sur des zones présentant des contours marqués, et chaque signature 42 locale est ensuite calculée 43 de façon à représenter l'information 45 contenue dans le patch 40. Dans un mode particulier de réalisation, chaque patch pourra être représenté par les composantes colorimétriques des pixels qui le composent.

Dans le mode de réalisation préféré de l'invention, tel que décrit ci-après, chaque patch p est considéré comme étant un cercle de r pixels. Ainsi, p sera représenté par une signature locale codée sous la forme d'un vecteur à 3xr composantes (3 composantes colorimétriques par pixel du patch).

Une fois les signatures locales des images d'apprentissage déterminées, l'apprentissage des réseaux ASSOM correspondants aux catégories d'images à apprendre en vue de la classification doit être réalisé, suivant les étapes conformes à celles décrites sur les figures 5 et 6.

Dans un premier temps, chaque réseau ASSOM se règle en fonction des signatures locales des images de l'ensemble d'apprentissage de la même catégorie, acquises selon le principe de la figure 4.

Pour ce faire, les réseaux ASSOM sont initialisés avant l'apprentissage suivant un mode d'initialisation 50 prédéterminé et un mode d'initialisation aléatoire des vecteurs de base composants les modules suffit.

Les signatures locales sont ensuite calculées à partir des patchs. Les modules se règlent alors en fonction des signatures locales suivant un procédé d'apprentissage compétitif. Pour chaque signature locale, un module du réseau ASSOM est choisi comme gagnant, en comparant son sous-espace caractéristique et ceux des autres modules. Les vecteurs de base du module gagnant ainsi que ceux de ses voisins sont ensuite modifiés vers la signature d'entrée pour représenter fidèlement le patch d'origine.

La largeur de voisinage est réduite en fonction du temps. A la fin de l'apprentissage, les modules du réseau associé à chaque catégorie arriveront à un état topologiquement ordonné, chacun représentant un type de sous-espaces dans l'espace d'entrée.

L'organigramme de la figure 5 décrit plus précisément le procédé d'apprentissage des réseaux ASSOM correspondants aux différentes catégories d'images à apprendre. Ainsi et comme nous l'avons mentionné précédemment, chaque catégorie est associée à un réseau ASSOM.

On note C le nombre des catégories d'images considérées (C est connu a priori), le nombre des réseaux ASSOM dans la matrice sera donc C. Pour des raisons de simplicité, nous supposons que la topologie des réseaux ASSOM considérés est rectangulaire. Il est a noter cependant que l'extension à tout autre type de topologie est triviale.

Il est donc supposé ci-dessous dans l'exemple de description d'un mode de réalisation de l'invention que chacun des réseaux ASSOM est constitué de N modules arrangés suivant une topologie rectangulaire et que chaque module est constitué de H neurones, c'est-à-dire chacun des modules représente un sous- espace linéaire de dimension H.

Chaque réseau ASSOM d'indice c sera donc appris par les patchs de la catégorie c. Avant l'insertion des patchs, nous devons d'abord initialiser 50 le réseau.

Pour tous les modules i, /E {1,2,..., TV} dans le réseau, leurs vecteurs de base b⁽ _ft ^!) , AE {1,2,..., H}, associés à chaque neurone de la première couche sont initialisés à des valeurs aléatoires.

Puis, durant chaque étape d'apprentissage, une catégorie c d'images est ouverte 51, puis un patch p de la catégorie c est extrait 52, représenté par un vecteur x à Ir composantes formant description locale 53 du patch p, est présenté au réseau.

Pour raison de simplicité, nous ne distinguerons pas un vecteur x et son patch représenté/? par la suite. Le module gagnant w du réseau ASSOM représentatif de la catégorie d'images c est alors sélectionné par application de l'équation suivante : w = . (équation 1)

dans laquelle :

" x_L désigne le carré de la norme de projection de x sur le sous- espace linéaire Λ, sorti du module d'indice i (cf. l'Annexe A) ; désigne la norme euclidienne. Les vecteurs de base du module d'indice w, ainsi que ceux de ses voisins, sont alors mis à jour par la règle d'apprentissage coopératif suivante, laquelle peut se traduire comme l'apprentissage 54 de p par le réseau ASSOM de la catégorie c :

K • (équation 2),

Où :

" t désigne l'étape courante d'apprentissage ;

' b⁽ _ft ^!) désigne le vecteur de base après l'apprentissage de l'étape courante, b_ft ^(!) celui avant l'apprentissage ; " I est la matrice d'identité de taille 3rx 3r ;

' A(O désigne un taux d'apprentissage en fonction de t. C'est une fonction monotone décroissante en mesure de t afin d'avoir une adaptation rapide des vecteurs de base au début de l'apprentissage et un réglage plus fin vers la fin de l'apprentissage. En plus, deux conditions seront nécessaires : V^₀MO ⁼ °° et ^\__QA²(0 = ∞ . Dans le présent exemple de réalisation, A(O = 0.1- 77(7 + 990 est choisi, avec T désignant le nombre total d'étapes d'apprentissage ;

" h^if) désigne la fonction de voisinage du module gagnant w en fonction de l'étape d'apprentissage t et le module i dont les vecteurs de base doivent être mis à jour. Plusieurs fonctions sont envisageables.

Dans un mode particulier de réalisation, un voisinage est défini sous une forme circulaire au moyen de la fonction suivante :

Dans cette dernière équation : " u_t représente la localisation à deux dimensions du module i dans le réseau ASSOM de la catégorie c traitée et u_w celle du w ; " a^ définit le rayon de voisinage au début d'apprentissage et α_f celui à la fin d'apprentissage ; ' α_d est choisi grand pour avoir rapidement un ordonnancement topologique global des modules au début de l'apprentissage ; ' (i_f sera plus petit pour avoir un réglage fin à l'issue de l'apprentissage. Le voisinage du module gagnant est donc défini par une fonction monotone décroissante dépendante de l'étape d'apprentissage.

Afin d'améliorer la stabilité de la solution, les vecteurs de base dans le module i sont ensuite dissipés selon l'équation : b^^* = sgnφ^maxφΛb^¹ - ε) , avec b^¹' les éléments du vecteur de base b^' après la dissipation. ε est une petite valeur proportionnelle à la correction du vecteur de base. Ensuite, les vecteurs de base du module i sont orthonormalisés par l'intermédiaire d'un procédé Gram-Schmidt.

Ainsi, chaque module i dans le voisinage de w adapte ses vecteurs de base suivant l'équation 2, les dissipe ensuite et les orthonormalise enfin.

Quand tous les modules voisins de w, incluant éventuellement w, sont adaptés pour le patch p courant, un nouveau patch sera ensuite prêt à se présenter 55 dans le réseau ASSOM de la catégorie c si p n'est pas le dernier patch de cette catégorie à traiter, puis on réitère les étapes précédentes pour un nouveau patch p ' de la catégorie c. Dans le cas contraire 57, on regarde 58 si c est la dernière catégorie d'images à apprendre. En cas de réponse positive (501) l'apprentissage des différents réseaux

ASSOM se termine (502). En cas de réponse négative 59, les étapes d'apprentissage se poursuivent jusqu'à ce que l'étape d'apprentissage maximum T soit atteinte. La même procédure que celle précitée se répète alors pour chaque réseau ASSOM correspondant à une catégorie d'images. A l'issue des processus, une matrice de réseaux ASSOM sera établie et prête pour l'apprentissage du classifieur final.

Une fois chaque réseau (14_l5 ..., 14_C) ASSOM appris, chacun d'eux est apte à produire une sortie (f_l5 ..., f_c) activée par les signatures 12 de l'image 10 d'entrée. Un vecteur caractéristique f=[ f_l5 ..., f_c] composé de toutes les sorties (f_l5 ..., f_c) des réseaux ASSOM sera finalement proposé à un classifieur 15 de type supervisé. Ce classifieur 15 peut être un réseau de neurones classique permettant un apprentissage supervisé, un réseau bayésien, un réseau NRBF, ou bien un k plus proches voisins. Le but de cette étape est d'affecter une catégorie 16 à l'image d'entrée 10. A l'issue de l'apprentissage des réseaux ASSOM, il est donc nécessaire préalablement à toute possibilité de classification, d'ajuster/ apprendre le classifieur d'une façon supervisée.

Cette phase est présentée au travers les figures 7 et 8.

Pour chaque image ouverte 70 dans l'ensemble d'apprentissage 80, les signatures 81 locales correspondants respectivement aux catégories (85, 86) préalablement apprises, sont introduites 87 dans la matrice des réseaux ASSOM apprise précédemment.

Un compteur est associé à chacun de ces réseaux ASSOM et initialisé à 0. Pour chaque signature locale, les modules comparent ce vecteur d'entrée avec ses sous-espaces dans une étape d'analyse 71 des patchs de l'image 70 par la matrice 82 des réseaux (83, 84) ASSOM. Le module avec la distance minimale gagne la compétition et le compteur du réseau ASSOM correspondant est incrémenté de un.

Une fois toutes les signatures locales dans l'image / analysées, un vecteur f de dimension C (le nombre de catégories 85, 86) composé des compteurs des réseaux 83, 84 ASSOM est formé 72 et traduit sous la forme d'un histogramme Fl, F2 représentatif de chaque catégorie 85, 86 respectivement.

Ce vecteur, avec la catégorie de l'image d'entrée, est ensuite présenté 800 au classifieur pour un apprentissage 73 supervisé, lequel affecte en sortie à l'image d'entrée 70 une des catégories 85 ou 86.

L'apprentissage du classifieur est itéré 74 tant qu'il reste des images de la base de données d'images d'apprentissage à traiter tel que précité, il se termine 75 après la présentation au classifieur de la dernière image de la base de donnée d'apprentissage. Ainsi, cette phase d'apprentissage du classifieur s'effectue sur un mode supervisé, à partir des vecteurs caractéristiques obtenus précédemment.

Pour y parvenir, les patchs x(k), où k^{l,2,...,K} et K désigne le nombre de patchs dans l'image d'entrée I, sont extraits. Les patchs de la même image sont ensuite envoyés à la matrice de réseaux ASSOM. Pour chaque patch x(k) d'entrée, un seul gagnant c(k) des réseaux sera déterminé. Deux niveaux de compétition existent dans le processus: la compétition entre les modules du même réseau et la compétition entre les différents réseaux dans la matrice. Durant la première compétition, dans chaque réseau ASSOM d'indice c, tous les modules i du même réseau comparent x(k) avec leurs sous-espaces et un gagnant w est déterminé selon l'équation 1.

La mesure d'accord entre x(k) et le module gagnant w peut être considéré comme la similitude entre le patch d'entrée et le réseau ASSOM c qui comporte w. La mesure d'accord du patch d'entrée ^x avec le réseau ASSOM c est donc „„„ _r_ ^c II II ^L"H . Cette mesure est calculée pour chaque réseau ASSOM. Durant la compétition entre les réseaux ASSOM, un compteur fc est associé à chaque réseau c et initialisé à O. Un vecteur caractéristique composé des compteurs f = [/i/₂,- . -/c]^T est défini comme la sortie de la matrice de réseaux ASSOM. Les réseaux comparent leurs mesures d'accord avec x^ et le gagnant é^k) serait sélectionné selon :

Une fois le gagnant des réseaux déterminé, le compteur du gagnant /_(t) est incrémenté de un. Ces procédures sont répétées pour tous les patchs d'entrée.

A l'issue de la présentation de tous les patchs de l'image / à la matrice de réseaux

ASSOM, les compteurs f_c captureront les nombres de patchs dans chaque réseau ASSOM, c'est-à-dire,

Où ô (a, b) est une fonction de pouls renvoyant la valeur 1 si a = b et la valeur O sinon.

Les vecteurs caractéristiques f ainsi que leur catégorie associée sont ensuite normalisés puis envoyés au fur à mesure au classifieur pour un apprentissage supervisé.

Le classifieur implémenté dans ce mode particulier de réalisation est un réseau NRBF. Ce type de réseau possède une bonne capacité de généralisation. A l'issue de l'apprentissage, le classifieur NRBF, ainsi que la matrice de réseaux

ASSOM, sont prêts pour la tâche de classification.

Une fois les catégories d'images et le classifieur appris, la classification devient une action simple et rapide, avec un taux de pertinence élevée. Pour chaque image d'entrée /, les patchs sont extraits, et sont introduits vers la matrice de réseaux ASSOM pour générer le vecteur caractéristique f. Le vecteur f est utilisé en entrée du classifieur NRBF. Ce dernier établit la classe de l'image / et assigne la catégorie C₁ en fonction de f.

Ainsi, comme illustré sur l'organigramme de la figure 2, le procédé de classification selon l'invention peut se résumer de la façon suivante : pour une image 10 à classifier, les patchs (ou zones d'intérêt) de l'image d'entrée sont d'abord extraits et les signatures locales (couleur, texture, contour, etc.) associées à ces patchs sont calculées puis analysés 20 par la matrice des réseaux ASSOM.

Les signatures locales suivent un processus identique celui décrit ci-dessus de façon qu'un vecteur caractéristique f soit formé 21 avant d'être présenté par ensuite au classifieur 15 ayant la charge de l'affectation 22 d'une catégorie d'image à l'image 10, en fonction du vecteur f, c'est-à-dire qu'en sortie de la matrice ASSOM, chaque réseau ASSOM produit une sortie activée par les signatures de l'image d'entrée.

Un vecteur caractéristique composé de toutes les sorties des réseaux ASSOM est alors proposé à un classifieur de type supervisé, lequel peut être du type réseau de neurones classique permettant un apprentissage supervisé, un réseau bayésien, un réseau NRBF, ou bien un k plus proches voisins. Le but de cette étape est d'affecter une catégorie à l'image d'entrée.

Avantageusement, une telle approche de la classification d'images peut s'appliquer aussi bien à des images de taille réduite ou possédant un contenu relativement simple à reconnaître, qu'à des images de grande taille et/ou possédant des contenus complexes à reconnaître (par exemple des images naturelles), la taille des images n'étant plus un frein à l'utilisation des réseaux ASSOM, comme dans les solutions de l'art antérieur. Comme illustré sur la figure 3, à partir d'une image 30 d'entrée à classer, on détermine tout d'abord un ensemble de régions (3I₁, 3I₂, ...) d'intérêt à partir desquelles sont produits les signatures locales caractéristiques de ces dernières et se présentant sous la forme d'un ensemble 32 de vecteurs caractéristiques (E₁ ⁷, E₂ ^T, ...) à plusieurs dimensions. Chacun de ces différents vecteurs caractéristiques est proposé 33 en entrée de chaque réseau ASSOM (35, 36) de la matrice 34 des réseaux ASSOM préalablement appris.

En fonction des données du vecteur caractéristique correspondant à une signature locale, chaque réseau ASSOM active un ensemble (37, 38) de modules de façon à produire en sortie de chaque réseau ASSOM un histogramme (Fl, F2) des modules activés, chaque histogramme servant d'entrée 300, 301 pour le classifieur 39 également préalablement appris. C'est le rôle du classifieur 39 que déterminer ensuite en sa sortie la catégorie d'image à affecter à l'image d'entrée.

Enfin, un classifieur est appris de façon supervisée à partir des vecteurs caractéristiques extraits pour chaque image d'une base de données d'images d'apprentissage ayant servi à l'apprentissage des réseaux ASSOM.

Une fois le classifieur appris, il est directement exploitable et/ou utilisable pour la classification d'images d'entrée.

Dans un mode de réalisation préféré de l'invention, un classifieur de type réseau de NRBF (« Normalized Radial Basis Function » tel que décrit dans l'article de Bugmann G. intitulé « Normalized Gaussian Radial Basis Function Networks », publié dans « Neurocomputing, Spécial Issue on Radial Basis Function Networks », Vol. 20, pp. 97-110) sera utilisé.

Il est bien entendu possible d'utiliser ou de mettre en œuvre d'autre type de classifieurs pouvant être préalablement appris, par exemple un réseau de neurones, l'algorithme des k plus proches voisins, etc. Un avantage particulier d'un tel classifieur NRBF est que la technique selon l'invention s'avère parfaitement adaptée à la tâche de classification, tout en permettant de s'affranchir des contraintes de taille des images à classifier, comme dans la technique de Zhang dans laquelle les réseaux autonomes ASSOM donnent directement un résultat sans aucune interaction entre eux.

Au contraire, selon l'invention, l'activité des modules constitutifs de chaque réseau ASSOM est accumulée pour constituer un vecteur d'entrée directement exploitable par le classifieur et possédant une seule dimension correspondante au nombre de catégories. Une telle approche selon l'invention est d'autant plus efficace qu'elle permet en outre d'éviter tout sur-apprentissage des réseaux ASSOM (tel que constaté dans l'article de De Ridder D., Lemmers O., Duin R.P.W., Kittler J., « The Adaptive Subspace Map for Image Description and Image Database Retrieval », Actes de la conférence SSPR&SPR 2000, LNCS Vol. 1876, 2000, pp. 94-103). Or, un tel sur- apprentissage a le plus souvent pour conséquence néfaste une forte limitation des capacités de généralisation des réseaux de neurones et une focalisation de ces derniers sur les éventuelles exceptions pouvant être détectées au niveau des images à classer.

Encore un autre avantage de l'apprentissage et de l'utilisation d'un tel classifieur NRBF est la capacité de ce dernier à pouvoir de capturer sur les images à classer des variétés multimodales permettant une plus grande finesse et pertinence dans la classification, impossibles à gérer avec les techniques connues de l'art antérieur.

On présente désormais, en relation avec la figure 9, la structure matérielle d'un dispositif de classification mettant en œuvre la méthode décrite ci-dessus.

Un tel dispositif comprend notamment une mémoire M 91, une unité de traitement 90, équipée par exemple d'un microprocesseur μP, et pilotée par le programme d'ordinateur Pg 92.

Tel que précité, un tel dispositif de classification peut aussi exécuter au moins l'un des produits programme d'ordinateur comprenant respectivement des instructions de code de programme pour l'exécution des étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé des réseaux de neurones, et/ou encore les étapes d'apprentissage supervisé d'un classifieur d'images, tels que précédemment décrits. A l'initialisation, les instructions de code du programme d'ordinateur 92 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 90.

L'unité de traitement 90 reçoit en entrée au moins une image à classer 93.

Le microprocesseur μP de l'unité de traitement 90 met en œuvre les étapes du procédé de classification et/ou les étapes du procédé d'apprentissage non supervisé d'au moins deux réseaux de neurones invariants en transformation affine et/ou les étapes du procédé d'apprentissage supervisé d'un classifieur d'image selon l'invention, décrits précédemment, selon les instructions du programme Pg 92. L'unité de traitement 90 affecte en sortie à l'image 93 d'entrée une des catégories d'images spécifiques des réseaux de neurones, par exemple ASSOM, préalablement appris.

En résumé, ce nouveau procédé de classification selon l'invention se distingue des solutions connues de l'art antérieur sur différents points. Tout d'abord, durant la phase d'apprentissage, des patchs ou zones d'intérêt extraits sont des images d'entrée pour produire des signatures locales qui sont ensuite injectées dans une matrice de plusieurs réseaux neuronaux ASSOM. Ensuite, un vecteur caractéristique original du fait de son contenu correspondant au nombre de fois où un réseau ASSOM, correspondant à la classe à apprendre, est considéré comme gagnant parmi les différents réseaux ASSOM mis en jeu, est présenté au classifieur final.

Un intérêt supplémentaire de la technique selon l'invention est qu'il existe deux niveaux de compétitions dans la matrice de réseaux ASSOM. Dans chaque réseau ASSOM spécifique à une catégorie, les signatures d'entrée sont en compétition pour déterminer le module gagnant. Un module gagnant est déterminé en comparant les distances entre la signature d'entrée et les sous-espaces représentés par les modules.

La distance minimale montre qu'un sous-espace est le plus représentatif des données d'entrée. Cette distance ainsi calculée est utilisée pour la deuxième compétition au niveau des réseaux ASSOM, durant laquelle tous les réseaux ASSOM comparent leurs distances par rapport à la signature d'entrée.

Le réseau gagnant est défini comme celui qui a la distance minimale de la signature. Ces deux niveaux de compétition se répètent pour chaque signature locale extraite de l'image d'entrée.

Les étapes précédentes font partie de la nouvelle façon de construire le vecteur caractéristique de l'image d'entrée. Ce vecteur caractéristique est composé des sorties des réseaux ASSOM. Pour chaque réseau ASSOM, sa sortie est définie comme le nombre de fois que ce réseau a été activé par les signatures locales d'entrée. En effet, le vecteur caractéristique d'une image est un histogramme dont chaque composante représente le nombre de fois que le réseau ASSOM a été considéré comme gagnant. En normalisant cet histogramme, un vecteur caractéristique est construit pour l'apprentissage supervisé du classifieur en aval.

Du point de vue applicatif, la présente invention ouvre des perspectives particulièrement intéressantes. Les applications de cette invention sont en effet nombreuses puisqu'elle concerne domaine de la classification d'images numériques.

Or, l'essor des nouvelles technologies de l'information et des communications offre aujourd'hui de nombreux médias de diffusion de contenus notamment sur Internet.

De nouveaux besoins se font donc sentir, comme le besoin de pouvoir effectuer des recherches de contenus multimédias directement à partir des caractéristiques « images » mis à disposition par ces derniers, le traitement automatique de grandes bases de données images, le filtrage de contenus illicites ou douteux sur les réseaux, la reconnaissance d'objets ou de visages pour de la surveillance ou de l'identification.

Il est d'ailleurs intéressant de souligner dans ce contexte qu'un projet de loi prévoit un renforcement des acteurs de la sécurité pour Internet. Ce réseau Internet devra être connecté à la société civile afin de pouvoir intégrer en temps réel toutes les avancées techniques et industrielles.

Dans ce sens, les fournisseurs d'accès et de services Internet (FAI) sont concernés par la volonté réellement affichée des instances gouvernementales des différents pays de protéger les plus jeunes individus des contenus illicites, par exemple au moyens de techniques efficacement éprouvées de filtrage du contenu des sites Web, et dans un objectif de lutte contre la cybercriminalité sous ses différentes formes : incitation à la violence, à la haine raciale et à la consommation de produits illicites, etc.

Il est bien entendu possible d'appliquer la technique selon l'invention à tous autres types d'application, comme par exemple et de façon non limitative : la mise en œuvre de moteurs de recherche basés sur des images de requête, l'aide à la classification d'images naturelles, notamment pour des service de traitement et/ou de développement et/ou de gestion en ligne de photos numériques. 7. Résultats de test et mesure de performance du procédé selon l'invention

Le procédé de classification selon l'invention a été testé pour évaluer et mesurer sa performance, dans un contexte de filtrage d'images pornographiques pouvant trouver application dans le domaine du contrôle d'accès sur Internet.

Les images sont classées en deux catégories, « pornographique » ou « non pornographique ».

Pour cette tâche, une base de données constituée d'un ensemble d'images d'apprentissage et d'un ensemble d'images de test a été construite.

L'ensemble des images d'apprentissage est composé de 733 images pornographiques et de 733 images non pornographiques. L'ensemble des images de test est formé de 377 images pornographiques et de 467 images non pornographiques .

Les résultats sont résumés dans une courbe ROC (« Receiver Operating Characteristics » en anglais) illustrée dans la figure 9.

En particulier, 89,4% des images pornographiques sont alors filtrées (axe vertical 90 des « vrais positifs ») si l'on accepte un taux de 14,1% constitué de faux positifs (axe horizontal 91).

Si on compare les résultats de la classification obtenus avec le procédé de classification selon l'invention avec ceux de les résultats de Wei Zeng, Wen Gao, Tao Zhang et Yang Liu, donnés dans l'article « Image guarder : an intelligent detector for adult images », Asian Conférence on Computer Vision. ACCV2004, on constate que les performances du procédé selon l'invention sont très intéressants avec un taux de précision de 83.6% et un taux de rappel de 89.4%.

L'usage de cette invention n'est bien sûr pas restreint au domaine du filtrage d'images pornographiques, puisqu'elle est capable d'apprendre les caractéristiques discriminantes à partir des données mêmes. Cette invention peut être appliquée pour toutes tâches de classification d'images. Il n'y a pas de limite ni sur les catégories d'images ni sur le nombre de catégories.

Annexe A : ASSOM (Adaptive-Subspace Self-Organizing Map)

Généralités :

Les cartes topologiques ASSOM apportent de nombreuses améliorations en comparaison avec l'algorithme de Kohonen traditionnel SOM (Kohonen T., « Self-Organizing Maps », Springer-Verlag, Berlin Heidelberg New York, 2001.). Ce dernier proposait que chaque noeud de la carte soit un vecteur réfèrent des observations de la base d'apprentissage. En effet, la procédure cherche à projeter les vecteurs d'apprentissage de grande dimension sur un treillis de dimension beaucoup plus basse, par exemple, 2D. Chaque neurone de la carte caractérise l'information des vecteurs d'entrées et préserve la topologie, c'est-à-dire deux vecteurs proches selon une mesure de distance dans l'espace des observations, seront projetés vers 2 nœuds d'un voisinage proche sur la carte de Kohonen.

Ici, ASSOM construit, par apprentissage compétitif et coopératif, un ensemble de sous-espaces de dimension réduite, préservant la topologie de l'espace des observations. ASSOM s'adapte de façon automatique et adaptative aux données le plus fidèlement possible. L'entrée pour un réseau ASSOM est une séquence de vecteurs appelée "épisode". Chaque séquence d'observations est projetée au sein de la carte composée des modules, dont les vecteurs référents constituent un sous-espace linéaire dans l'espace d'entrée Ω . Deux étapes sont nécessaires dans le processus d'apprentissage du réseau

ASSOM:

1. A partir d'un épisode en entrée, il faut déterminer le module (le sous- espace) "gagnant". Parmi tous les modules présents dans la carte ASSOM, le module, dont la distance vers l'épisode d'entrée est minimale, représente le module "gagnant".

2. La procédure itérative ajuste le sous-espace du module gagnant ainsi ceux des modules voisins afin de décrire au mieux le sous-espace de l'épisode d'entrée.

Détermination du module gagnant Pour déterminer un module gagnant, il faut comparer le sous-espace de l'épisode d'entrée avec tous les sous-espaces représentés par les modules dans le réseau. Il s'agit donc une notion de distance entre les sous-espaces.

Pour un sous-espace L de dimension H, on peut toujours trouver un ensemble de vecteurs de base (I)₁ , b₂,..., b_H} tel que chaque vecteur dans L peut être construit par une combinaison linéaire des vecteurs de base. Les ensembles de vecteurs de base ne sont pas unique, mais représentent le même sous-espace L .

La projection orthogonale d'un vecteur x sur L , désigné par x_L , est une combinaison linéaire de ses projections orthogonales sur les vecteurs de base individuels donnée par l'équation suivante caractéristique de la projection orthogonale du vecteur x sur l'espace L :

H

= Y (x^τb_ft)b_ft (équation 5)

La notion de distance entre le vecteur x et le sous-espace L est définie par la norme euclidienne |x_L | = llx - x_L II . Dans ASSOM, la projection orthogonale du vecteur x sur L établie selon les vecteurs de base {b_λ , b₂,..., b_H} est représentée par un réseau de neurones pleinement connecté.

Les neurones à la première couche, marqués par les vecteurs de base b_h, h(Ξ {l,2,...H\, prennent les projections orthogonales de x et donnent les sorties x^τb_ft . Un neurone quadratique forme la deuxième couche, noté Q. La sortie obtenue est la somme des carrés des sorties des neurones de la première couche, c'est-à-dire |x_L | , le carré de la norme de la projection orthogonale de x sur L .

Dans le cas d'un épisode x(s), s E. S , où. S désigne l'ensemble des indices de vecteurs dans l'épisode, les sorties du réseau sont accumulées pour donner une mesure d'accord entre l'épisode et le sous-espace L du module. Cette mesure est appelée « énergie » (Kohonen T., Kaski S., Lappalainen Η., « Self-Organized Formation of Varions Invariant-Feature Filters in the Adaptive-Subspace SOM », Neural Computation, Vol. 9, N°6, Août 1997, pp. 1321-1344). En comparant les énergies de tous les modules dans le réseau ASSOM pour le même épisode, on peut déterminer pour cet épisode le module gagnant. Le module qui produit la plus grande énergie pour l'épisode d'entrée sera le plus proche de l'épisode parmi tous les modules existants. Adaptation du module gagnant et de ses voisins

Une fois le module gagnant déterminé, la seconde phase ajuste ce dernier ainsi que les modules dans son voisinage pour mieux représenter les vecteurs d'entrée appariés. Le voisinage des modules permet un apprentissage d'une façon coopérative et de former un ordre topologique. Souvent on choisit un treillis bidimensionnel des modules comme ceux dans le SOM traditionnel. Le voisinage est habituellement soit rectangulaire soit hexagonal, car les deux topologies sont symétriques et permettent de former une topologie équilibrée des sous-espaces.

Une fonction de voisinage U^ est définie sur ce treillis dont w désigne le module gagnant et i un module arbitraire dans le treillis. Cette fonction de voisinage contrôlera le degré d'adaptation des modules voisins de w. En effet, dans un réseau ASSOM, le voisinage d'un module évolue d'une façon monotone décroissante. La largeur du voisinage au début de l'apprentissage permet d'établir rapidement un ordonnancement global des modules. Par la suite, la largeur diminue afin de favoriser le réglage fin des modules dans le réseau. A l'issue de l'apprentissage coopératif, la carte topologique converge vers un état stable. Les modules voisins représentent alors des sous-espaces similaires.

L'adaptation d'un module consiste à ajuster tous les vecteurs de base situés dans les neurones de la première couche du module. Cette opération peut être décomposée en une série de rotations des vecteurs de base vers chaque vecteur dans l'épisode d'entrée. Pendant chaque étape d'apprentissage t, pour tous les modules i dans le voisinage courant du module gagnant w, incluant w même, et pour chacun des vecteurs d'entrée x(s) dans l'épisode, les vecteurs de base du module i tournent vers x(s) selon l'équation suivante qui donne la formule de rotation des vecteur de base pour le renforcement de ces derniers :

b⁽,° (équation 6)

Où b⁽ _ft° est le nouveau vecteur de base après la rotation et b_ft ^(!) l'ancien. I est la matrice d'identité, λ(t) un facteur de taux d'apprentissage monotone décroissant selon t.

Pour améliorer la stabilité de la solution, on dissipe les éléments bζ' , j(Ξ{l,2,...,J}, dont J est le nombre de composants, pour tous les vecteurs de base b<° [1] : é;^w - sgn(éî⁾)max(0,|6Î⁾|- _e) où ε est la quantité de dissipation, proportionnelle à l'étendue de la correction des vecteurs de base. A la fin de l'ajustement du module i dans l'étape d'apprentissage t, une phase d'orthonormalisation des vecteurs de base dans ce module i est effectuée. Les étapes de la détermination du module gagnant et l'adaptation des modules se poursuivent et se répètent jusqu'à ce que le nombre d'étape d'apprentissage désiré soit atteint. A l'issue de l'apprentissage, les modules dans le réseau représentent les caractéristiques représentatives dans l'espace d'entrée en préservant un ordre topologique où deux modules proches dans le treillis représentent deux caractéristiques proches dans l'espace d'entrée.

Claims

REVENDICATIONS

1. Procédé de classification d'au moins une image (10) numérique d'entrée selon au moins deux catégories d'images prédéterminées, caractérisé en ce qu'il comprend les étapes suivantes : - affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

" un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14_l5 ..., 14_C) à au moins une dimension, chacun desdits réseaux (14_l5 ..., 14_C) de neurones étant préalablement configuré lors d'une phase d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14_l5 ..., 14_C) ; classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré lors d'une phase d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.

2. Procédé de classification selon la revendication 1, caractérisé en ce que ladite au moins une transformation prédéterminée appartient au groupe comprenant : une transformation affine ; - une transformation non linéaire.

3. Procédé de classification selon l'une quelconque des revendications 1 et 2, caractérisé en ce que chaque réseau (14_l5 ..., 14_C) de neurones spécifique d'une desdites catégories d'images est un réseau de neurones du type ASSOM, dit réseau ASSOM, apte à générer automatiquement un ensemble de descripteurs invariants représentatifs desdites catégories d'images, lorsque ladite transformation prédéterminée est du type transformation affine.

4. Procédé d'apprentissage non supervisé pour la configuration préalable d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, chacun desdites réseaux (14_l5 ..., 14_C) de neurones étant représentatifs respectivement d'au moins deux catégories d'images prédéterminées destinées à la classification d'images selon l'une quelconque des revendications 1 à 3, ledit procédé tenant compte d'un ensemble (44) d'images (46) d'apprentissage et comprenant les étapes suivantes exécutées pour chaque ensemble d'images d'une même catégorie d'image: initialisation (50) d'un réseau de neurones correspondant à ladite même catégorie d'images, suivant un mode d'initialisation prédéterminé ; pour chaque image d'apprentissage de l'ensemble des images de ladite même catégorie d'images, affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

" un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; telle que pour chaque signature affectée :

' identification d'un module (61) dit gagnant, correspondant au module le plus activé dudit réseau (62) de neurones correspondant à ladite même catégorie d'images ; ' renforcement dudit module (61) gagnant et des modules adjacents formant son voisinage (60) au moyen des paramètres de ces modules, suivant un calcul prédéterminé ; de façon à apprendre aux réseaux de neurones associés à chaque catégorie d'images des caractéristiques associées à la catégorie d'images qu'il représente.

5. Procédé d'apprentissage supervisé pour la configuration préalable d'un classifieur d'images destinées à la classification d'images suivants au moins deux catégories d'images prédéterminées, selon l'une quelconque des revendications 1 à 3, ledit procédé tenant compte d'un ensemble d'images d'apprentissage et comprenant pour chacune desdites images dudit d'ensemble de d'images d'apprentissage les étapes suivantes : affectation d'au moins une signature associée à un élément appartenant au groupe comprenant :

' un point d'intérêt de ladite image d'entrée ; " une zone (11) d'intérêt de ladite image d'entrée ; association à chacune desdites signatures d'un vecteur caractéristique définie au moyen d'une matrice de réseaux de neurones à au moins une dimension, lesdits réseaux de neurones étant invariants à au moins une transformation prédéterminée, préalablement appris et représentatifs chacun d'une desdites catégories d'images ; élection du vecteur caractéristique le plus représentatif de ladite image d'apprentissage considérée, parmi l'ensemble des vecteurs caractéristiques obtenus pour les signatures d'une même image d'apprentissage ; normalisation dudit vecteur caractéristique élu et de la catégorie d'image associée, de façon à alimenter ledit classifieur d'images de données d'apprentissage normalisées.

6. Procédé d'apprentissage supervisé d'un classifieur d'images selon la revendication 5, caractérisé en ce que ladite au moins une transformation prédéterminée appartient au groupe comprenant : - une transformation affine ; une transformation non linéaire.

7. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, selon l'une quelconque des revendications 1 à 3, lorsqu'il est exécuté sur un ordinateur.

8. Application du procédé de classification, selon l'une quelconque des revendications 1 à 3, à la classification d'au moins une image numérique d'entrée selon au moins une première catégorie et une deuxième catégorie d'images prédéterminées, aux domaines appartenant au groupe comprenant : la classification d'images numériques ; la recherche de contenus multimédia au moyen de moteurs de recherche apte à traiter des caractéristiques relatives à des images ; le traitement automatisé de base de données d'images de très grande taille ; le filtrage de contenus illicites ou douteux sur des réseaux de communication et/ou sur des sites Internet ; - la reconnaissance d'objets et/ou de visage dans les domaines de la surveillance et/ou de l'identification de personnes ; l'aide à la classification d'images naturelles pour des services en lignes de gestion et/ou de traitement de photos numériques.

9. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé d'apprentissage non supervisée d'au moins deux réseaux de neurones du type invariant par transformation affine des vecteurs d'entrée de ces réseaux, représentatifs respectivement d'au moins deux catégories d'images prédéterminées de classification d'au moins une image numérique d'entrée, selon la revendication 4, lorsqu'il est exécuté sur un ordinateur.

10. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé d'apprentissage supervisé d'un classifieur d'images suivants au moins deux catégories d'images prédéterminées destinées à la classification d'images, selon l'une des revendications 5 et 6, lorsqu'il est exécuté sur un ordinateur.

11. Dispositif de classification d'au moins une image numérique d'entrée selon au moins deux catégories d'images prédéterminées, caractérisé en ce qu'il comprend : des moyens d'affectation d'au moins une signature associée à un élément appartenant au groupe comprenant : " un point d'intérêt de ladite image d'entrée ;

' une zone (11) d'intérêt de ladite image d'entrée ; des moyens d'association à chacune desdites signatures d'un vecteur caractéristique de dimension 'c', obtenu par l'application d'une matrice (13) de 'c' réseaux de neurones (14_l5 ..., 14_C) à au moins une dimension, chacun desdits réseaux (14_l5 ..., 14_C) de neurones étant préalablement configuré par des moyens d'apprentissage et associé à l'une desdites catégories d'images, ledit vecteur caractéristique étant représentatif d'un histogramme des réponses délivrées par lesdits réseaux de neurones (14_l5 ..., 14_C) ; - des moyens de classification de ladite image (10) dans l'une desdites catégories à l'aide d'un classifieur préalablement configuré par des moyens d'apprentissage, en fonction dudit vecteur caractéristique de dimension 'c'.