WO2008087316A2

WO2008087316A2 - Procede et systeme de binarisation d'une image comprenant un texte

Info

Publication number: WO2008087316A2
Application number: PCT/FR2007/052527
Authority: WO
Inventors: Christophe Garcia; Zohra Saidane
Original assignee: France Telecom
Priority date: 2006-12-22
Filing date: 2007-12-14
Publication date: 2008-07-24
Also published as: FR2910670A1; WO2008087316A3

Abstract

La présente invention concerne un procédé et un système de binarisation d'une image comprenant un texte. Le procédé de binarisation d'une image comprenant un texte comporte : une phase préliminaire d'apprentissage (1) d'un procédé de construction d'une image de texte binaire par une architecture neuronale (40). L'architecture neuronale (40) comporte des couches hétérogènes (E, C1, S2, U3, F) de neurones artificiels. Ladite image de texte binaire est composée de pixels du texte valant une première valeur et de pixels de fond de l'image comprenant le texte valant au moins une autre valeur; une phase de binarisation (2) de l'image comprenant le texte (43) par le procédé de construction d'une image de texte binaire appris au cours de la phase préliminaire d'apprentissage (1). L'invention s'applique notamment à des images naturelles comportant un texte incrusté.

Description

Procédé et système de binarisation d'une image comprenant un texte

La présente invention concerne un procédé et un système de binarisation d'une image comprenant un texte. L'invention s'applique notamment à des images naturelles comportant un texte incrusté.

La reconnaissance de textes incrustés dans des images permet d'obtenir des indices de haut niveau sémantique qui caractérisent le contenu des images et en facilitent par exemple une indexation automatique.

Des systèmes de reconnaissance optique de caractères, nommés OCR, ont atteint un haut niveau de maturité et sont largement commercialisés. Les systèmes OCR permettent de faire de la reconnaissance de caractères dans des documents textuels par exemple scannés. Cependant les systèmes OCR existants sont peu performants dans le domaine de la reconnaissance de caractères dans des images dites naturelles, qui peuvent être des photos ou des vidéos contenant des textes de scène ou des textes incrustés en postproduction comme des sous-titres.

Les systèmes de reconnaissance de caractères de documents textuels actuels nécessitent donc une phase de pré-traitement indispensable. La phase de pré-traitement consiste à séparer les pixels, appartenant au texte à reconnaître, des pixels du fond de l'image. La phase de prétraitement est nommée phase de binarisation. Au cours de la phase de binarisation, l'image couleur à traiter est transformée en une image en noir et blanc, les pixels blancs correspondant par exemple à la valeur zéro et les pixels noirs correspondant par exemple à la valeur un. L'image une fois traitée comporte donc uniquement des informations de type binaires. Les pixels noirs de l'image en noir et blanc correspondent à des pixels de texte et les pixels blancs correspondent à des pixels du fond de l'image. Les différents caractères du texte sont ensuite isolés et reconnus par un système de reconnaissance de caractère OCR. La plupart des méthodes de binarisation automatique d'une image contenant du texte reposent sur le choix d'un seuil de séparation global ou de plusieurs seuils de séparation locaux, déterminés par une simple analyse statistique de la distribution de la luminance et de la chrominance de l'image. La luminance est le quotient de l'intensité lumineuse d'une surface d'une image par l'aire apparente de la surface de l'image pour un observateur lointain. La chrominance regroupe les informations de couleur d'une image. Les pixels dont la valeur de luminance et de chrominance dépassent un des seuils fixés sont classifiés comme blancs, les autres pixels étant classifiés comme noirs. L'analyse statistique s'effectue en général à partir d'histogrammes et ne prend pas en compte la forme des caractères. Ce type de méthode s'avère peu robuste dans le cas de texte incrusté dans des images naturelles. Les principales raisons à ce manque de robustesse sont notamment :

• le bruit de codage des images qui rend difficile la séparation des caractères de texte du fond de l'image ; « la variation possible de luminance et de la chrominance des caractères de texte dans l'image ;

• les effets de transparence des caractères du texte ;

• la complexité du fond de l'image.

La majorité des techniques existantes de binarisation élaborent un certain nombre d'hypothèses notamment concernant la luminance du texte par rapport à la luminance du fond de l'image. Des différences sur ces hypothèses permettent notamment de regrouper des techniques existantes en deux catégories principales : les méthodes globales et les méthodes locales.

Les méthodes globales sont utilisées lorsque l'on peut émettre l'hypothèse que le texte et le fond de l'image possèdent chacun une luminance différente mais homogène. Il s'agit alors de rechercher une valeur seuil unique de luminance pour différentier la luminance des pixels du texte et la luminance des pixels du fond de l'image. Plusieurs de ces méthodes sont notamment décrites dans les documents suivants :

• "Localizing and Segmenting Text in Images and Videos", dans NEEE Transactions on circuits and Systems for video technology, volume 12, numéro 4, avril 2002, écrit par R. Lienhart et A. Wernicke ; • "A Fast Algorithm for Multilevel Thresholding" du Journal of information science and engineering, volume 17, pages 713 à 727, publié en 2001 , rédigé par P-S. Liao, T-S. Chen et P-C. Chung.

Les approches utilisées pour mettre au point les méthodes globales découlent des techniques employées pour des documents textuels scannés dans lesquels le texte apparaît de manière sombre sur un fond d'image clair et uniforme. Pour trouver un seuil de luminance optimal, la plupart des méthodes se basent sur un calcul d'histogramme, l'histogramme caractérisant la distribution de la luminance des différents pixels de l'image.

La méthode décrite dans le document "A Fast Algorithm for Multilevel Thresholding" détermine un seuil séparant les luminances des pixels de l'image en deux classes de telle sorte que la variance entre les deux classes soit maximale. On suppose donc qu'il existe une majorité de pixels appartenant au fond de l'image afin de décider laquelle des deux classes regroupe les pixels du fond de l'image et laquelle des deux classes regroupe les pixels du texte. Cette hypothèse n'est cependant pas toujours vérifiée.

Dans le document "Localizing and Segmenting Text in Images and Videos", on considère un premier histogramme de la luminance des quatre lignes centrales de la zone de texte, qui sont supposées contenir une majorité de pixels de texte, et un deuxième histogramme de la luminance de quatre lignes des bords de la zone de texte, par exemple deux lignes en haut et deux lignes en bas de la zone de texte, qui sont supposées contenir une majorité de pixels du fond de l'image. Une valeur maximale d'un troisième histogramme, résultant de la différence entre le premier et le deuxième histogramme, donne directement une luminance moyenne du texte. Une valeur minimale du troisième histogramme donne une luminance moyenne du fond de l'image. Un seuil de luminance est alors la valeur moyenne entre la luminance moyenne du texte et la luminance moyenne du fond de l'image.

Le choix empirique d'un seuil unique suppose que le texte et le fond possèdent des luminances homogènes et séparables par une valeur seuil. Ceci n'est généralement pas le cas notamment lorsque le texte mais surtout le fond de l'image possèdent une luminance variable, par exemple dans des parties d'image présentant des scènes naturelles ou dans des vidéos. Plus particulièrement, les méthodes globales ne peuvent pas traiter les textes dont les lettres présentent des différences de couleur ou d'intensité entre elles. Ce type de texte peut apparaître lorsqu'il a été créé avec des différences de couleur ou d'intensité ou bien lorsqu'il s'agit de textes de scène, qui sont des textes faisant partie de la scène observée : un panneau indicateur ou un texte incrusté par transparence, une date par exemple. Des différences de couleur ou d'intensité peuvent également apparaître suite à un codage de l'image.

Dans les méthodes locales, on suppose que le texte et le fond de l'image peuvent avoir des luminances variables dans une zone de texte. On peut citer par exemple les documents suivants :

• "Goal-directed évaluation of binarization methods", IEEE Transactions on Pattern Analysis and Machine Intelligence, dans le volume 17, Issue 12, décembre 1995, pages 1191 à1201 , de O.D Trier et A.K.

Jain ;

• "Adaptive Document Binarization" In International Conférence on Document Analysis and Récognition, volume 1 , pages 147-152, publié en 1997, rédigé par J. Sauvola, T. Seppânen, S. Haapakoski, et M. Pietikàinen.

Certaines méthodes locales, connues sous le nom de méthodes de seuillage adaptatif, cherchent, comme les méthodes globales précédemment citées, à réaliser une estimation des seuils de luminance pour chacune des différentes parties de l'image. L'image est donc découpée en un ensemble de fenêtres rectangulaires dans lesquelles des binarisations indépendantes sont réalisées. La plupart des méthodes locales sont basées sur un calcul de moyenne de la luminance ainsi que sur une minimisation de l'écart type entre les différentes classes de luminance des pixels de l'image.

Les méthodes locales ont donc pour objectif de s'adapter à des variations de luminance locales dans une image. La taille des fenêtres rectangulaire de traitement est fixée a priori, ce qui suppose une connaissance a priori de la taille des caractères de texte et de leur apparence : comme le type de police, le style gras ou italique par exemple. Si la taille de la fenêtre est trop grande, les détails de la structure des caractères sont dégradés. Si la taille de la fenêtre est trop petite par rapport à l'épaisseur des caractères alors la fenêtre peut ne contenir que des pixels de texte et ainsi ne pas permettre de déterminer un seuil de binarisation. En effet, la détermination du seuil de binarisation repose sur une analyse des histogrammes de la luminance des pixels du fond de l'image et du texte. De plus la taille des fenêtres n'est pas, pour les méthodes locales, le seul paramètre à déterminer. Comme pour les méthodes globales, de nombreux paramètres doivent être ajustés empiriquement, ce qui nuit à la robustesse de ces méthodes.

La plupart des méthodes précédemment citées ne prennent pas directement en compte la couleur de l'image. En effet, la plupart de ces méthodes reposent sur une analyse de la seule luminance : l'image couleur est classiquement transformée en une image en niveaux de gris. Ceci suppose que la luminance permet une séparation entre le texte et le fond, ce qui n'est pas toujours le cas, notamment avec un texte incrusté dans une image. Il est connu que deux couleurs différentes mais de luminance identique ne peuvent être distinguées après transformation de l'image couleur en image de niveaux de gris.

D'autres méthodes utilisent des informations sur la chrominance des images à binariser. Parmi ces méthodes, la plupart appliquent les techniques globales et locales sur un ou plusieurs canaux de couleur indépendamment comme les canaux rouge, vert, bleu. Ensuite ces méthodes utilisent une fusion des résultats afin de réaliser la binarisation.

C'est le cas de la méthode décrite dans le document écrit par Du,

E. Y., Chein-I Chang, Thouin, P. D. : "An unsupervised approach to color video thresholding", International Conférence on Multimedia and Expo,

Volume 3, 6-9 juillet 2003, pages: 337-340. Cette méthode calcule un seuil pour chaque canal de couleur de l'espace de couleur rouge, vert et bleu autrement nommé RVB. Ce seuil est calculé en utilisant une méthode de seuillage globale de la luminance de chaque canal, par exemple la méthode Otsu bien connue par l'homme du métier. Chaque canal de couleur est ensuite binarisé. Ainsi chaque pixel de l'image couleur est représenté par un code comportant trois composantes (c-i, C₂,

C₃), où c_α est la valeur du pixel dans le canal α binarisé, α pouvant prendre dans l'exemple les valeurs un, deux ou trois. Les pixels peuvent alors être regroupés en huit ensembles. Chaque ensemble correspond à une valeur donnée parmi les huit valeurs possibles du triplet (c-i, C₂, C₃) par exemple (0, 1 , 0). Ces ensembles sont ensuite fusionnés et marqués comme appartenant au fond de l'image ou au texte en fonction des variances intra et interclasse des valeurs de la luminance des pixels assignés à la classe de texte ou à la classe de fond de l'image, chaque classe correspondant à un niveau de luminance dans chacun des canaux. Ces types de méthodes appliquent pour la plupart les méthodes globales ou locales, développées pour la luminance, aux différents canaux de couleur. Ces méthodes se heurtent donc aux même inconvénients que ceux cités pour les méthodes globales et les méthodes locales.

D'autres techniques, utilisant un principe similaire, quantifient les couleurs d'une image en un nombre réduit de couleurs dominantes afin d'obtenir une image codée sur un petit nombre de niveaux de couleur. Cette technique de quantification est décrite, dans le document "Text détection and segmentation in complex color images", IEEE International Conférence on Acoustics, Speech, and Signal Processing, Volume 6 , 5-9 juin 2000, pages : 2326 - 2329, rédigé par C. Garcia et X. Apostolidis. La technique de quantification consiste donc à quantifier les couleurs d'une image en un nombre fixé par exemple à quatre couleurs dominantes obtenues par l'algorithme des K-moyennes couramment utilisé en analyse numérique. Les deux couleurs les plus représentées sur les bords de l'image sont assignées au fond de l'image. Les couleurs restantes peuvent être assignées soit au fond, soit au texte. Toutes les combinaisons possibles d'assignation d'une couleur, soit au fond, soit au texte, sont alors considérées. Pour chaque combinaison possible, une analyse de la périodicité horizontale des pixels assignés à la classe texte est réalisée grâce à un ensemble de mesures qui permettent de sélectionner la combinaison la plus plausible.

Ces méthodes dépendent de très nombreux paramètres fixés de manière empirique : un nombre de niveaux de quantification, une taille de la zone du bord de l'image, des valeurs seuils pour les mesures de périodicité par exemple. Ces paramètres empiriques sont difficiles à déterminer. De plus, les méthodes de quantification supposent que l'image possède un nombre de couleurs réduit, ainsi que des couleurs homogènes ou peu variables. Ces méthodes ne permettent donc pas de prendre en compte des images naturelles dans lesquelles la couleur de fond peut notamment être très variable.

Le principal inconvénient des techniques existantes réside donc dans leur faible robustesse aux variations de luminance et surtout de chrominance dans une image contenant du texte. Les techniques existantes sont également peu robustes aux bruits de codage de l'image lorsque ce codage résulte par exemple d'une compression de l'image. En effet, une compression de l'image conduit à un manque d'homogénéité des pixels. La présence de fonds d'image complexes et les techniques d'incrustation de texte par transparence dans une image sont autant de difficultés qui rendent les méthodes de binarisation existantes peu efficaces.

Une limitation majeure des techniques de binarisation selon l'art antérieur, qu'elles utilisent la couleur ou la luminance, réside dans le fait qu'elles ne prennent pas en compte la distribution spatiale des pixels de l'image correspondants au texte, c'est à dire les formes possibles des caractères. Le résultat de la binarisation est donc parfois inexploitable par des logiciels de reconnaissance de texte.

Un but de l'invention est notamment de pallier les inconvénients précités. A cet effet, l'invention a pour objet un procédé et un système de binarisation d'une image comprenant un texte. Le procédé de binarisation comporte : • une phase préliminaire d'apprentissage d'un procédé de construction d'une image de texte binaire par une architecture neuronale. L'architecture neuronale comporte notamment des couches hétérogènes de neurones artificiels. Une couche d'entrée comporte plusieurs cartes de neurones, lesdites cartes correspondant respectivement à un canal de codage de l'image comprenant le texte selon un espace de codage d'image préalablement choisi. L'image de texte binaire est composée de pixels du texte valant une première valeur et de pixels de fond de l'image comprenant le texte valant au moins une autre valeur ;

• une phase de binarisation de l'image comprenant le texte par le procédé de construction d'une image de texte binaire appris au cours de la phase préliminaire d'apprentissage.

La phase préliminaire d'apprentissage est un processus itératif comportant au moins les étapes suivantes :

• construction d'un ensemble d'apprentissage composé d'images comportant du texte et des images de texte binaires correspondantes ;

• initialisation de poids de connexions synaptiques entre les couches hétérogènes de neurones artificiels de l'architecture neuronale ;

• choix d'un couple, comprenant une image comportant du texte d'entrée et l'image de texte binaire correspondante, dans l'ensemble d'apprentissage ;

• décomposition de l'image comportant du texte d'entrée en plusieurs canaux de codage d'image, fournis en entrée de l'architecture neuronale ;

• construction d'une image de sortie, à partir de l'image comportant du texte d'entrée, par l'architecture neuronale en évaluant une différence entre l'image de sortie et l'image de texte binaire correspondante ;

• comparaison de l'image de sortie avec l'image de texte binaire correspondante en évaluant une différence entre l'image de sortie et l'image de texte binaire correspondante ; si la différence entre l'image de texte binaire correspondante et l'image de sortie dépasse un seuil ε,

• mise à jour des poids de connexions synaptiques de l'architecture neuronale en minimisant la différence entre l'image de sortie et l'image de texte binaire correspondante, le processus itératif recommençant alors à partir de l'étape de choix.

La phase de binarisation comporte au moins les étapes suivantes : • redimensionnement d'une image d'entrée comportant du texte en une image de dimension donnée ; • décomposition de l'image d'entrée en plusieurs canaux de codage d'image, fournis en entrée de l'architecture neuronale ; • construction d'une image de texte de sortie par l'architecture neuronale ;

• obtention de l'image de texte binaire.

La minimisation de la différence entre l'image de sortie et l'image de texte binaire correspondante est notamment effectuée par un algorithme de retro-propagation du gradient.

La minimisation de la différence entre l'image de sortie et l'image de texte binaire correspondante est effectuée en minimisant par exemple une

avec :

" N_τ représentant le nombre d'images de l'ensemble d'apprentissage utilisées pendant la phase d'apprentissage ; " F_h représentant la valeur d'un pixel de l'image de sortie ;

• D₁₁ représentant la valeur d'un pixel de l'image de texte binaire correspondante.

Le système de binarisation comprend une architecture neuronale comportant plusieurs couches hétérogènes de neurones artificiels :

• un premier ensemble d'une ou plusieurs couches de neurones effectuant une extraction de formes caractéristiques du texte de l'image comprenant le texte présentée en entrée de l'architecture neuronale ;

• un deuxième ensemble d'une ou plusieurs couches de neurones effectuant une construction des formes caractéristiques du texte en une image de sortie.

Le premier ensemble de couches de neurones de l'architecture neuronale comporte notamment :

• une couche d'entrée comportant un nombre NE de cartes E_c de pixels de l'image comportant le texte d'entrée. Les cartes E₀ sont de dimension donnée et correspondent respectivement à un canal de codage de l'image comprenant le texte selon un espace de codage d'image préalablement choisi ;

• une couche de convolution comportant un nombre NCi de cartes Cn de neurones. Les cartes Cn sont de dimension donnée. Chaque neurone de chaque carte Cn est par exemple connecté par un premier ensemble de MiXM₁ connexions synaptiques à un ensemble de M₁XM₁ pixels de chaque carte E_c. Chaque pixel de chaque carte E_c est connecté à un ou plusieurs neurones de chaque carte d, ;

• une couche de sous-échantillonnage comportant un nombre NS₂ de cartes S^ de dimension réduite par rapport à la dimension donnée. Chaque neurone d'une carte S_2j reçoit par exemple une moyenne de

M₂XM₂ sorties de M₂XM₂ neurones voisins d'une carte Cn . Chaque neurone de chaque carte d, est connecté à un seul neurone d'une carte S_2J par l'intermédiaire d'un deuxième ensemble de connexions synaptiques. Le deuxième ensemble de couches de neurones de l'architecture neuronale comporte notamment :

• une couche de sur-échantillonnage comportant un nombre NU₃ de cartes U_3k de dimension supérieure à la dimension des cartes S^ et inférieure à la dimension donnée. Chaque neurone de chaque carte l^_k est par exemple connecté à un neurone d'une carte S_2j. Chaque neurone d'une carte S^ est par exemple connecté à un ensemble de M₂χM₂ neurones voisins d'une carte U_3k par l'intermédiaire d'un troisième ensemble de M₂XM₂ connexions synaptiques ;

• une couche de convolution-inverse étant une couche de sortie de l'architecture neuronale. La couche de convolution-inverse comporte notamment une carte de neurones. Chaque neurone de chaque carte U_3k est par exemple connecté à un ensemble de MixMi neurones voisins de la couche de sortie. Chaque neurone de la couche de sortie est par exemple connecté à un ou plusieurs neurones voisins de chaque carte U3_k par l'intermédiaire d'un quatrième ensemble de connexions synaptiques.

Les neurones de la couche de convolution Ci utilisent une première fonction d'activation de type linéaire ; les neurones de la couche de sous-échantillonnage S₂ utilisent une deuxième fonction d'activation de type sigmoïde ; les neurones de la couche de sur-échantillonnage U₃ utilisent une troisième fonction d'activation de type sigmoïde et les neurones de la couche de convolution-inverse F utilisent une quatrième fonction d'activation de type sigmoïde.

Chaque connexion synaptique de l'architecture neuronale est associée à un poids synaptique W_{u v} . Les poids de chaque ensemble de connexions synaptiques entre les neurones de chaque couche de l'architecture neuronale sont par exemple partagés par les neurones de chaque couche de l'architecture neuronale hormis la couche d'entrée.

Un programme informatique comprend notamment des instructions de code de programme pour l'exécution du procédé de binarisation d'une image comprenant un texte. Le programme informatique est notamment exécuté par un ou plusieurs processeurs.

L'invention a notamment pour principal avantage de traiter de manière robuste des images au fond complexe, présentant des variations de chrominance, de faibles contrastes et un bruit élevé.

L'invention possède également l'avantage de prendre en compte la forme des caractères de texte.

Le système selon l'invention permet avantageusement de prendre en compte simultanément plusieurs canaux de couleurs.

Un autre avantage du système selon l'invention est qu'il ne nécessite pas de paramétrage empirique.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'aide de la description qui suit, donnée à titre illustratif et non limitatif, et faite en regard des dessins annexés qui représentent :

• la figure 1a : un synoptique des différentes phases du procédé selon l'invention ;

• la figure 1 b : un exemple d'un ensemble d'apprentissage pour une phase d'apprentissage du procédé selon l'invention ;

• la figure 2 : un schéma de principe d'une architecture d'un perceptron multicouches ;

• la figure 3a : un schéma de principe du fonctionnement d'un neurone artificiel ; • la figure 3b : une fonction d'activation d'un neurone artificiel ;

• la figure 4a : un schéma fonctionnel d'une architecture neuronale selon l'invention ;

• la figure 4b : un exemple de convolution entre deux couches de l'architecture neuronale selon l'invention ; • la figure 4c : un exemple de sous-échantillonnage entre deux couches de l'architecture neuronale selon l'invention ; • la figure 4d : un exemple de sur-échantillonnage entre deux couches de l'architecture neuronale selon l'invention ;

• la figure 4e : un exemple de convolution-inverse entre deux couches de l'architecture neuronale selon l'invention ; • la figure 5 : un synoptique de différentes étapes possibles de la phase d'apprentissage du procédé selon l'invention ;

• la figure 6 : un synoptique de différentes étapes possibles d'une phase de binarisation du procédé selon l'invention ;

La figure 1a représente deux phases 1 ,2 du procédé de binarisation selon l'invention.

Le procédé selon l'invention repose notamment sur une architecture neuronale selon l'invention comportant plusieurs couches hétérogènes de neurones artificiels. Les couches hétérogènes de neurones artificiels permettent :

• de développer automatiquement des extracteurs de caractéristiques de bas niveaux, comme des lignes ou des angles dans une image, caractérisant des caractères de texte dans une image ; • d'apprendre des règles permettant de séparer les caractères de texte, du fond de l'image afin d'étiqueter automatiquement les pixels de l'image en pixels de texte ou en pixels de fond.

Une première phase 1 du procédé de binarisation automatique selon l'invention est une phase d'apprentissage 1 d'un procédé de construction d'une image de texte binaire. Cette phase d'apprentissage 1 permet de régler des poids de connexions synaptiques entre les neurones des différentes couches de l'architecture neuronale selon l'invention qui sera décrite par la suite. Cette première phase d'apprentissage 1 s'effectue préalablement à une deuxième phase de binarisation automatique 2 d'un texte dans une image.

Au cours de la première phase d'apprentissage 1 un ensemble d'apprentissage 3, représenté par exemple sur la figure 1 b, est construit.

L'ensemble d'apprentissage 3 comprend un ensemble d'images comportant du texte 4 produites artificiellement et présentant des variations importantes en terme de bruit de codage, de contraste et de couleur. L'ensemble d'apprentissage 3 comprend également des images de texte binaires 5 correspondant à chaque image couleur comportant du texte 4. Les images comportant du texte 4 sont construites à partir d'un ensemble d'images de texte binaires 5 auxquelles sont appliqués : • différents types de bruits comme des bruits suivant une loi uniforme ou une loi Gaussienne ; • des filtres de lissage afin d'obtenir des images artificielles comportant du texte 4 se rapprochant le plus possible d'image réelles. Une fois l'ensemble d'apprentissage construit, chaque image comportant du texte 4 est présentée à une couche d'entrée de l'architecture neuronale selon l'invention. L'architecture neuronale comporte au moins une couche de neurone intermédiaire entre la couche d'entrée et une couche de sortie. Cette architecture neuronale apprend à construire, globalement et en un passage, une image de texte binaire à partir d'une image comportant du texte 4. Une image de texte résultat est donc obtenue en sortie de l'architecture neuronale. Cette image de texte résultat est comparée, au cours de la phase d'apprentissage 1 , à l'image de texte binaire 5 de la base d'apprentissage 3 correspondant à l'image comportant du texte 4 présentée en entrée de l'architecture neuronale. Si une différence significative existe entre l'image de texte résultat et l'image de texte binaire désirée, les poids des connexions synaptiques de l'architecture neuronale sont mis à jour en fonction de la différence détectée, afin de minimiser cette dernière.

Une fois la première phase d'apprentissage 1 accomplie, l'architecture neuronale peut traiter des images couleur inconnues comportant du texte. L'architecture neuronal produit en sortie une image de texte résultat dont les éléments permettent d'étiqueter directement chaque pixel de l'image en pixel de fond de l'image ou en pixel de texte.

La figure 2 représente un schéma général d'un réseau de neurones artificiels 20 de type perceptron multicouches. Le système de binarisation selon l'invention met en œuvre une architecture neuronale de type perceptron multicouches. Ce perceptron multicouches 20 permet au système de binarisation selon l'invention d'apprendre un ensemble de poids de connexion entre les différents neurones du perceptron 20 afin de pouvoir construire une image de texte binaire. Le perceptron multicouches 20 est donc un réseau orienté de neurones artificiels organisés en plusieurs couches hétérogènes 21 , 22, 23, 24. L'information circule dans le perceptron 20 dans un seul sens, de la couche d'entrée 21 vers la couche de sortie 24. Le perceptron 20 est alors dit orienté. Le réseau de neurones 20 représenté sur la figure 2 comporte une couche d'entrée 21 , deux couches cachées 22, 23 et une couche de sortie 24. La couche d'entrée 21 est une couche de neurones virtuelle associée aux données d'entrées du système de binarisation par exemple, elle n'est donc pas réellement composée de neurones artificiels. Les couches suivantes, 22, 23, 24 comportent chacune un ensemble de neurones artificiels. Dans le cas général, un perceptron multicouches peut comporter un nombre de couches de neurones quelconque et un nombre de neurones et d'entrées par couche de neurones également quelconque. Sur la figure 2, le réseau de neurones 20 comporte trois entrées 21 , quatre neurones sur la première couche cachée 22, trois neurones sur la deuxième couche cachée 23 et quatre neurones sur la couche de sortie 24. Les sorties 25 des neurones de la couche de sortie 24 correspondent à la sortie du système de binarisation par exemple.

Un neurone artificiel, comme celui représenté sur la figure 3a, est une unité de calcul qui reçoit en entrée un signal sous la forme d'un vecteur X de n valeurs réelles par exemple, n étant supérieur ou égal à un. Ce vecteur X arrive dans le neurone par l'intermédiaire de n connexions synaptiques qui portent chacune un poids pouvant prendre une valeur réelle W_n, ii étant compris entre zéro et n. Un neurone artificiel délivre par exemple en sortie une valeur réelle y. Les différentes opérations réalisées par le neurone artificiel sont représentées sur la figure 3a décrite par la suite.

Dans le perceptron multicouches 20 les neurones des différentes couches 21 , 22, 23, 24 sont reliés entre eux par l'intermédiaire de connexions synaptiques pondérées 26, 27, 28. Des premières connexions synaptiques 26 relient les neurones de la couche d'entrée 21 aux neurones de la première couche cachée 22, des deuxièmes connexions synaptiques

27 relient les neurones de la première couche cachée 22 aux neurones de la deuxième couche cachée 23 et des troisièmes connexions synaptiques 28 relient les neurones de la deuxième couche cachée 23 aux neurones de la couche de sortie 24. Le poids affecté à chaque connexion synaptique 26, 27,

28 permet de gouverner le fonctionnement du réseau de neurones 20 et donc de programmer une application de l'espace des entrées du réseau de neurones 20 vers l'espace des sorties du réseau de neurones 20 à l'aide d'une transformation non linéaire. La création d'un perceptron multicouches afin de résoudre un problème donné passe donc par l'inférence de la meilleure application possible telle que définie par un ensemble de données d'apprentissage constituées de paires (X, y) de vecteurs d'entrées X et de sorties désirées y.

La figure 3a représente un schéma fonctionnel d'un neurone artificiel 32. Le neurone artificiel 32 est donc une unité de calcul recevant en entrée un vecteur X de n valeurs réelles [xi, X₂, ... , x_n], n étant supérieur ou égal à un, plus une valeur fixe notée Xo et valant Xo=+1. Chacune des entrées X_N, ii valant zéro à n, excite une des connexions synaptiques 30 pondérée par un poids w_M. Le poids Wo est le poids de la connexion synaptique associée à la valeur d'entrée X₀. La quantité w_oχxo est appelée biais et correspond à une valeur seuil pour le neurone artificiel 32.

Une fonction de sommation calcule ensuite un potentiel V à partir des valeurs x, du vecteur X reçu en entrée : V = ^ (W_n X X_n ) (101 )

/7=0

Après passage du potentiel V dans une fonction dite d'activation φ, le neurone artificiel 32 délivre une sortie qui peut être une valeur réelle y telle que : y₌ φ(_v)_{= φ}(∑_{Wπ X X} ) ₍₁₀2)

V»=o J La fonction d'activation φ peut prendre différentes formes en fonction des applications voulues. Dans le cadre du système de binarisation selon l'invention, deux types de fonctions d'activation sont notamment utilisées : • une première fonction d'activation linéaire de type :

Φ(x) = x (103) • une deuxième fonction d'activation non-linéaire dite sigmoïde de type :

Φ(x) = tanh(Λr) = ^{(C ~ e} ^ ( 104)

(e^x + e^'1 ) La figure 3b représente un exemple de fonction sigmoïde : la fonction tanh(x) présentant l'avantage de produire des valeurs 31 bornées entre moins un et plus un.

La figure 4a représente une architecture 40 de réseaux de neurones de type perceptron multicouches utilisé par le système de binarisation selon l'invention. Cette architecture de réseau de neurones 40, ou architecture neuronale 40, comporte cinq couches de neurones hétérogènes E, C-i, S₂, U₃, F interconnectées. L'architecture neuronale 40 comporte :

• un premier ensemble de couches de neurones 41 , chaque couche de neurones comportant une série de cartes issues notamment d'opérations de convolution et de sous-échantillonnage ; « un deuxième ensemble de couches de neurones 42, chaque couche de neurones comportant une série de cartes issues notamment d'opérations de sur-échantillonnage et de convolution-inverse. Le premier ensemble de couches de neurones 41 est chargé d'extraire des primitives caractéristiques en matière de forme et de couleur d'une image d'entrée 43 comportant du texte. Le deuxième ensemble de couches de neurones 42 permet de construire à partir des primitives extraites une image de sortie 44.

Une première couche de neurones E, est une couche d'entrée E de l'architecture neuronale 40. La couche d'entrée E peut comporter un nombre NE de cartes E_c de neurones, avec c valant un à NE. Chacune des cartes E_c de neurones correspond à un canal de codage de l'image d'entrée

43 selon un espace de codage d'image choisi au préalable. Par exemple si l'on utilise un espace de couleurs RVB, signifiant rouge vert et bleu, chaque carte correspondra à une couleur de l'espace de couleur RVB. Le nombre

NE de cartes E_c est par exemple trois, comme représenté sur la figure 4a.

Ainsi la première carte E₁ correspond par exemple au canal rouge de l'image d'entrée 43, la deuxième carte E₂ correspond par exemple au canal vert de l'image d'entrée 43 et la troisième carte E₃ correspond par exemple au canal bleu de l'image d'entrée 43. D'autres espaces de codage de l'image peuvent être utilisés afin de décomposer l'image en canaux, par exemple un codage en luminance, teinte et saturation,

Chaque carte E_c représente une matrice de pixels de l'image de taille HxL correspondant à la taille de l'image d'entrée 43. L'image d'entrée 43 peut par exemple avoir une taille de 24x48. Chaque pixel (Pι_m)_c d'un canal de couleur c de l'image d'entrée 43 peut prendre les valeurs un à deux cent cinquante-cinq. Les indices I et m représentent respectivement un indice de ligne et un indice de colonne dans la matrice de pixels représentant l'image d'entrée 43. Chaque élément (E|_m )_c d'une carte E₀ de la couche d'entrée E est obtenu en effectuant l'opération suivante :

(E_nΛ = ^{(nΛ ~ 12}%>₈ dO5) avec l'=l et m'=m, I' et m' étant respectivement l'indice d'une ligne et l'indice d'une colonne d'une carte E₀ de neurones. Chaque valeur (Er_m )_c est alors comprise entre moins un et plus un.

Une deuxième couche de neurones Ci est une couche de convolution Ci. Cette couche de convolution Ci comporte un nombre NCi de cartes Ci,, i étant compris entre un et NC-i. On peut prendre par exemple NCi=30. Chaque carte C-i, est connectée à toutes les cartes E_c de la couche d'entrée E. Chaque neurone de chaque carte Ci₁ utilise une fonction d'activation de type linéaire (103). Chaque neurone de chaque carte Ci₁ est connecté à un ensemble de M₁XM₁ éléments E_{i m}' voisins de chaque carte E_c par un premier ensembles de M-IxM₁ connexions synaptiques 45. Chaque carte C₁, est de taille H₁XLi avec H₁ = (H - M, ) + 1 et L, = (L - M₁ ) + 1 , par exemple : H₁=20 et L₁=44. La convolution utilisée pour passer de la couche d'entrée E à la couche de convolution C₁ est par exemple une convolution de taille

La figure 4b représente un exemple de convolution entre une première portion 50 d'une carte E_c de la forme d'un premier rectangle 50 de dimension 7χ12 et une deuxième portion 51 d'une carte C₁, de la forme d'un deuxième rectangle 51 de taille 5x10. Pour éviter, par un effet de bord de la convolution, d'utiliser des éléments de la carte E_c n'existant pas, on définit un troisième rectangle 53 de la taille du premier rectangle 50 moins une bande de taille (M₁-I )/2 que l'on enlève de chaque côté du premier rectangle 50, Mi étant impair dans ce cas. Le troisième rectangle 53 a donc par exemple une taille de 5χ10 ce qui correspond à la taille d'une carte C₁₁. Un premier neurone 52 situé dans le troisième rectangle 53 est connecté avec un deuxième neurone 54 du deuxième rectangle 51. Le premier neurone 52 est à la même position dans le troisième rectangle 53 que le deuxième neurone 54 dans le deuxième rectangle 51 , les deuxième et troisième rectangles 51 , 53 ayant la même taille. Chaque neurone du premier rectangle 50, appartenant à un carré 55 de côté Mi dont le centre est le premier neurone 52, est connecté au deuxième neurone 54. Le deuxième neurone 54 est donc connecté de la même manière à un ensemble de MixMi éléments

voisins des autres cartes E_c. Chaque neurone d'une carte d, partage avec les autres neurones de l'ensemble des cartes Ci, les poids des connexions synaptiques ainsi que les poids associés au biais de chaque neurone des cartes Ci₁. Tous les neurones des cartes d, utilisent donc un même ensemble W de mêmes valeurs W,_v de poids des connexions synaptiques, avec iv compris entre zéro et M-_IXM-_I, Wo étant le poids synaptique relatif au biais.

La convolution utilisée pour passer de la couche d'entrée E à la couche de convolution Ci permet de réaliser une détection de bas-niveau dans les cartes d'entrées E_c. Une détection de bas-niveau permet d'extraire des formes de base dans une image comme des coins ou des lignes de contraste orientées.

Une troisième couche de neurones S₂ est une couche de sous- échantillonnage S₂ comportant un nombre NS₂ de cartes S_2j de neurones, j étant compris entre un et NS₂, avec notamment NS₂=NCi. La couche de sous-échantillonnage S₂ est connectée à la couche de convolution Ci par l'intermédiaire d'un deuxième ensemble de connexions synaptiques 46. Chaque neurone de chaque carte S_2j reçoit une moyenne de M₂χM₂ éléments voisins d'une carte d, avec i=j par exemple. Chaque neurone de chaque carte S_2j multiplie alors la moyenne reçue par un poids synaptique et y ajoute un biais comme représenté sur la figure 3a. L'ensemble des poids synaptiques ainsi que le poids associé au biais de chaque neurone sont à apprendre et sont partagés par l'ensemble des neurones de chaque carte

S₂,

La figure 4c représente un exemple de sous-échantillonnage entre une troisième portion 56 d'une carte d, et une quatrième portion 57 d'une carte S₂,. La troisième portion 56 de la carte Ci, se présente sous la forme d'un quatrième rectangle 56 de taille 4x10. La quatrième portion 57 de la carte S_2j se présente sous la forme d'un cinquième rectangle 57 de taille 2x5. Dans l'exemple représenté sur la figure 4c, le sous-échantillonnage est donc de taille 2x2. En effet, le quatrième rectangle 56 peut être décomposé en carrés de taille M₂χM₂=2χ2, comme un carré 58 représenté sur la figure 4c. L'ensemble des neurones de la carte Ci, compris dans le carré 58 est connecté à un même troisième neurone 59 de la carte S_2j. Chaque neurone de chaque carte Ci, est donc connecté à un seul neurone d'une carte S_2j. L'ensemble des poids des connexions synaptiques entre les neurones de la carte d, et le troisième neurone 59 de la carte S_2j ainsi que le poids associé au biais, sont les mêmes pour l'ensemble des neurones de la cartes S_2j. La sortie de chaque neurone d'une carte S₂, est obtenue par un passage dans une fonction d'activation de type sigmoïde (104). Chaque carte S_2j est de taille H₂χL₂ avec H₂ = H,/M₂ et L₂ = L,/M₂ . Par exemple on peut avoir H₂=IO et L₂=22.

Au niveau de la sortie de la couche de sous-échantillonnage S₂, les caractéristiques du texte de l'image d'entrée 43 sont extraites et condensées. Les couches suivantes U₃, F de l'architecture neuronale 40 permettent de construire une image de sortie 44.

Une quatrième couche de neurones U₃ de l'architecture neuronale 40 est une couche de sur-échantillonnage U₃. La couche de suréchantillonnage U₃ comporte un nombre NU₃ de cartes de neurones U_3K, k étant compris entre un et NU₃. NU₃ est notamment égal à NS₂. Chaque carte U_3k est connectée à une carte S₂, correspondante par l'intermédiaire d'un troisième ensemble de connexions synaptiques 47. Une carte S₂, correspondant à une carte U_3k est telle que j=k.

Comme représenté sur la figure 4d, chaque neurone 60 d'une carte S₂, est connecté à un ensemble de M₂χM₂ neurones voisins 61 de la carte U₃k correspondant. Chaque neurone d'une carte U_3k est connecté à un neurone de la carte S₂, correspondant. Sur la figure 4d, M₂χM₂ vaut 2x2. La taille d'une carte S₂, étant H₃χL₃ avec H, = H₁ x M₂ et L, = L₁ x M₂ , H₃χL₃ vaut par exemple 20x44.

Chaque neurone d'une carte U_3k multiplie la sortie des neurones d'une carte S_2j à laquelle il est connecté par un poids synaptique et y ajoute un biais. La sortie de chaque neurone d'une carte U_3k est obtenue après passage dans une fonction sigmoïde du type (104) comme représentée sur la figure 3b. Les M₂χM₂ poids synaptiques sont partagés par l'ensemble des neurones de chaque carte U_3k.

La couche de sur-échantillonnage U₃ effectue une première construction de l'image de sortie 44 en affinant les caractéristiques du texte extraites par les couches précédentes E, Ci, S₂ de l'architecture neuronale 40.

Une cinquième couche F de l'architecture neuronale 40 est une couche de sortie F, comportant une carte de sortie F de neurones. La carte de sortie F est connectée à toutes les cartes U_3k de la couche de suréchantillonnage U₃ par un quatrième ensemble de connexions synaptiques 48. Chaque neurone d'une carte U_3k est connecté par un ensemble de M₁XMi connexions synaptiques 48 à un ensemble de M-ixMi neurones voisins de la carte de sortie F. Un exemple d'une connexion entre une carte U_3k et la carte F est représentée sur la figure 4e. Il s'agit d'un schéma inverse par rapport à une convolution comme celle représentée figure 4b. Ce schéma est donc nommé convolution-inverse. Sur la figure 4e, seuls les neurones compris dans un sixième rectangle 62 comportent tous les neurones d'une carte U_3k à l'exception des neurones situés dans une bande de largeur (M₁ -l)/2 située sur les bords de la cartes U_3k. Ceci évite d'avoir, au cours de la convolution-inverse, des neurones de la carte U_3k n'étant connectés avec aucun neurone de la carte de sortie F. Par exemple, un quatrième neurone 63 situé à l'intérieur du sixième rectangle 62 est connecté avec un ensemble 64 de MixMi neurones, les M-ixMi neurones étant situés dans un carré 64 dont le centre est un cinquième neurone 65 dont la position dans la carte F correspond à la position du quatrième neurone 63 dans la carte U_3k.

Les M₁XM₁ poids synaptiques et le poids associé au biais d'un neurone de la carte de sortie F, sont partagés par tous les neurones de la carte de sortie F. La sortie de chaque neurone est obtenue après passage dans une fonction de type sigmoïde comme la fonction (104) représentée sur la figure 3b. La convolution-inverse permet de construire la carte de sortie F à la taille de l'image d'entrée 43. La carte de sortie F est donc de taille H₄χL₄ avec H₄=H et L₄=L. Les sorties des neurones de la carte de sortie F se présentent donc sous la forme d'une matrice de valeurs de l'image de texte binaire construite. Etant donné que les valeurs de sortie des neurones de la carte de sortie F sont continues et qu'elles se situent entre les valeurs moins un et plus un, on évalue le signe de chaque élément de la matrice de valeurs de l'image de sortie 44 afin de convertir la matrice obtenue en une image de texte binaire. Chaque sortie de neurone de la carte de sortie F possède une valeur f,k,jk, ik correspondant à un indice de ligne et jk correspondant à un indice de colonne dans la carte de sortie F. ik est compris entre un et H₄ et jk est compris entre un et L₄. Un pixel P',_k,_Jk situé sur la ligne ik et la colonne jk de l'image de texte binaire a pour valeurs :

P'_lkJk vaut donc soit zéro dans pour un pixel de texte, c'est à dire un pixel noir, soit deux cent cinquante cinq pour un pixel de fond c'est à dire un pixel blanc dans l'image de texte binaire.

La cinquième couche F permet donc de construire une image de texte binaire de même dimension que l'image d'entrée 43 reçue par la couche d'entrée E de l'architecture neuronale 40. Cette construction permet également d'effectuer une fusion des caractéristiques du texte affinées par la couche de sur-échantillonnage U₃.

L'architecture neuronale 40 est mise au point dans un premier temps au cours de la phase d'apprentissage 1 qui permet de régler les poids des différentes connexions synaptiques. Une fois mise au point, l'architecture neuronale 40 est utilisée au cours de la phase de binarisation 2 afin de produire une image de texte binaire à partir d'une image comportant du texte quelconque 43.

La figure 5 représente un ensemble d'étapes possibles de la phase d'apprentissage 1 selon l'invention. Cette phase d'apprentissage 1 permet donc une mise au point de l'architecture neuronale 40 afin que cette architecture apprenne un procédé de construction d'une image de texte binaire. La phase d'apprentissage est un procédé itératif comportant notamment sept étapes 70, 71 , 72, 73, 74, 75, 77.

Une première étape 70 est la construction de l'ensemble d'apprentissage 3 représenté figure 1 b. L'ensemble d'apprentissage 3 comporte un premier ensemble de N_τ images comportant du texte 4 et un deuxième ensemble d'images de texte binaire 5 correspondant aux images comportant du texte 4. L'ensemble d'apprentissage 3 est construit à partir d'un premier ensemble d'images de texte binaire 5. Les images de texte binaire 5 présentent des textes de différentes tailles, avec des polices de caractères différentes. A partir de chaque image de texte binaire 5, on construit une nouvelle image 4 contenant le texte de l'image de texte binaire 5. Cette nouvelle image 4 est une image couleur : une ou plusieurs couleurs sont choisies pour le texte et une ou plusieurs couleurs sont choisies pour le fond. Ensuite on applique, à cette nouvelle image 4, différents type de bruits comme des bruits uniformes ou des bruits Gaussiens. Des filtres de lissage sont également appliqués afin d'obtenir des images comportant du texte 4 de synthèse se rapprochant le plus possible d'images réelles comportant du texte et possédant une forte variabilité. Ainsi pour chaque nouvelle image 4 construite, on dispose de l'image de texte binaire correspondante 5 qui sera utilisée comme image désirée en sortie de l'architecture neuronale 40. L'ensemble des images 4, 5 de l'ensemble d'apprentissage 3 sont dimensionnées afin de correspondre au format d'image traité par l'architecture neuronale 40. On obtient donc un ensemble d'apprentissage comportant des images de taille HxL. Une deuxième étape 71 de la phase d'apprentissage 1 du procédé selon l'invention est une étape d'initialisation des poids synaptiques. Les poids synaptiques sont les différents poids associés aux connexions synaptiques 45, 46, 47, 48 entre les différentes couches de neurones E, Ci, S₂, U₃, F de l'architecture neuronale 40. Les poids synaptiques sont initialisés de manière aléatoire avec des petites valeurs.

Une troisième étape 72 de la phase d'apprentissage 1 est le choix aléatoire d'un couple d'images comportant une première image comportant du texte 4 et une deuxième image de texte binaire 5 correspondant à la première image comportant du texte 4. La deuxième image de texte binaire 5 représente l'image que l'on attend en sortie de l'architecture neuronale 40. La première image comportant du texte 4 est l'image d'entrée 43 de l'architecture neuronale 40.

Une quatrième étape 73 permet de décomposer l'image d'entrée 43 en NE cartes, chacune correspondant par exemple à l'image d'entrée 43 sur un canal de couleur suivant l'espace de couleur choisi. Si l'image d'entrée 43 est une image en niveaux de gris, les trois cartes sont alors identiques.

Au cours d'une cinquième étape 74, l'image d'entrée 43 est traitée par l'architecture neuronale 40 en présentant à la couche d'entrée E de l'architecture neuronale 40 la décomposition sur les différents canaux de couleurs de l'image d'entrée 43. La couche d'entrée E et les couches suivantes C-i, S₂, U₃, F sont activées l'une après l'autre. En couche de sortie F, on obtient une réponse de l'architecture neuronale 40 sous la forme d'une image de sortie 44. Au cours d'une sixième étape 75, l'image de sortie 44 est comparée avec la deuxième image de texte binaire 5 correspondante à la première image comportant du texte 4 présentée en entrée de l'architecture neuronale 40. La deuxième image de texte binaire 5 est l'image désirée l_d en sortie de l'architecture neuronale. La comparaison entre l'image de sortie 44 et l'image désirée l_d est effectuée en normalisant dans un premier temps les pixels de l'image désirée I_d afin d'obtenir des valeurs de pixels D_h comprises entre moins un et plus un. La normalisation des pixels de l'image désirée Id est effectuée en utilisant la relation (105) par exemple. La valeur des pixels F_h de l'image de sortie 44 est comprise entre moins un et plus un. On définit alors une fonction objectif O telle que :

O = Y Y(F. - Z), Y (107)

L'objectif de la phase d'apprentissage 1 est de minimiser la fonction objectif O afin d'avoir une image de sortie 44 la plus proche possible de l'image désirée I_d. La fonction objectif O est une erreur quadratique moyenne entre les valeurs des pixels de l'image désirée l_d et les valeurs des pixels de l'image de sortie 44. Afin de minimiser la fonction objectif O, on utilise par exemple un algorithme de rétro-propagation du gradient qui permet de calculer les poids synaptiques optimaux.

De manière générale, on évalue la fonction objectif O au cours d'une septième étape 76. Si la valeur de la fonction objectif O est inférieure à une valeur seuil fixée ε par exemple alors les poids synaptiques de l'architecture neuronale 40 sont mis à jour au cours d'une huitième étape 77. Ensuite on repasse à la troisième étape 72 de choix d'une nouvelle image d'entrée et d'une image de texte binaire correspondant parmi les NT images de l'ensemble d'apprentissage 3. Puis la nouvelle image d'entrée est traitée par l'architecture neuronale 40 au cours de la cinquième étape 74 et ainsi de suite jusqu'à ce que la valeur de la fonction objectif O soit inférieure à la valeur seuil ε ou qu'un nombre d'itérations fixé soit effectué.

De façon générale, l'apprentissage à l'aide d'un réseau de neurones revient à déterminer tous les poids des connexions synaptiques du réseau de neurones de manière à obtenir un vecteur de sorties désirées D en fonction d'un vecteur d'entrées E. Dans l'architecture neuronale 40 selon l'invention le vecteur de sorties désirées est l'ensemble des valeurs D_h des pixels de l'image désirée I_d et le vecteur d'entrées E est l'ensemble des valeurs des pixels de l'image d'entrée 43.

Pour cela une base d'apprentissage est constituée comme l'ensemble d'apprentissage 3. De manière générale, une base d'apprentissage quelconque comporte une liste de K paires de vecteurs ( E_{1 1} D₁ ). Y₁ représente les sorties d'un réseau de neurones à un instant t , pour une entrée E₁ . Y₁ correspond donc à l'ensemble des valeurs F_h à un instant donné. On vise donc à minimiser une erreur quadratique moyenne θ , sur la couche de sortie du réseau de neurones, donnée de manière générale par la relation suivante : θ = — T_S Y ^_^^θ,' avec θ,' = | I|ID ' - F ' l III² (108)

Pour cela, une descente de gradient est réalisée à l'aide d'un algorithme itératif : θ^(l) = θ^ι'-ⁿ - pVθ^u-^]) (109) où V^^(M)est le gradient de l'erreur quadratique moyenne θ à l'instant t - \ par rapport à l'ensemble des P poids W_u des connexions synaptiques du réseau de neurones et où p est un pas d'apprentissage. V<9^(M) est donné par la relation suivante :

avec u compris entre zéro et P. La mise en œuvre de cette descente de gradient dans un réseau de neurones utilise donc un algorithme itératif de retro-propagation du gradient.

De manière générale, un réseau de neurones peut être défini par les paramètres suivants : • c , l'indice d'une couche du réseau de neurones, avec c = O pour la couche d'entrée du réseau de neurones, c = l à c = C - l pour les couches cachées du réseau de neurones et c = C pour la couche de sortie du réseau de neurones ; • // = 1 à // = n_c , l'indice des n_c neurones de la couche du réseau de neurones d'indice c ;

• S_{n c} , l'ensemble des neurones de la couche d'indice c - 1 du réseau de neurones connecté aux entrées du neurone iiόe la couche d'indice cdu réseau de neurones ; • W_jn , le poids de la connexion synaptique du neurone d'indice jj au neurone d'indice ij .

L'algorithme de rétro-propagation du gradient fonctionne en deux étapes principales :

• une étape de propagation au cours de laquelle un signal, représenté par un vecteur d'entrée E₁ , traverse le réseau de neurones et produit une réponse en sortie sous la forme d'un vecteur Y_{r ,}

• une étape de rétro-propagation au cours de laquelle un signal représentant l'erreur θ, est rétro-propagé dans le réseau de neurones et permet de modifier les différents poids synaptiques afin de minimiser l'erreur O₁ .

L'algorithme de rétro-propagation du gradient utilise notamment deux paramètres p et γ :

• p est le pas d'apprentissage de l'algorithme de rétro-propagation du gradient, il est fixé à une valeur positive très petite, de l'ordre de 0,00001 ;

• γ est le moment de l'algorithme de rétro-propagation du gradient, il est fixé à une valeur positive comprise entre zéro et un de l'ordre de 0,1.

Dans un premier temps, les valeurs des poids synaptiques W _v du réseau de neurones sont fixées à de petites valeurs. L'algorithme de rétro-propagation du gradient comporte les étapes suivantes :

• une première étape est le choix d'une paire de vecteurs ( E₁ D₁ ) ;

• une deuxième étape est l'étape de propagation, elle permet de calculer les sorties des couches de neurones successives du réseau de neurones : par exemple lorsque l'on présente un vecteur E₁ à la couche d'entrée du réseau de neurones, on a alors F₀ = E₁ et on assigne à D la valeur D₁.

Ensuite pour chaque couche c du réseau de neurones de la couche 1 à la couche C, et pour chaque neurone ii de la couche c, on calcule :

. le potentiel : V_1n, _c = ∑w,_Λlw y_J)X__x (111 )

• la valeur de sortie : y_{ιw c} = φ(v_m J (112) avec y_{ιw c} = φ(v_{m c}) (113)

Φ représentant la fonction d'activation du neurone ii et Y_c = [y_u,...,y_mx ,...,y_{ll x} \ (114)

• une troisième étape de rétro-propagation au cours de laquelle les couches du réseau de neurones sont parcourues dans le sens inverse au sens de la propagation, ainsi : pour chaque couche de neurones c de la couche C à la couche 1 , et pour chaque neurone ii de la couche c :

• on calcule:

• on met à jour les poids des connexions synaptiques arrivant au neurone ii de la manière suivante : à chaque itération de l'algorithme de rétro propagation du gradient, on calcule : AW^™ = p δ_(W, JV-. + r ΔWZ Pour tout jj e S_mx (1 16) avec AW ^'"^'' = 0 lors de la première itération puis W^* _n ^' = W_{u ι t} + AW ^'"I pour tout jj e S_{ιw c} (117) enfin, on met à jour AW^'"^'' : AW^°[ = AW ^"I pour tout jj e S_{m c} (1 18) et on met à jour W_^ :

W_n = W^" _m pour tout jj € S_{m c} (119)

• on calcule l'erreur quadratique moyenne θ à l'aide de la relation (108).

Ces étapes sont répétées jusqu'à ce que l'erreur quadratique moyenne θ soit suffisamment petite pour être négligeable ou qu'un nombre maximum d'itérations ait été atteint. A cette fin, on peut fixer une erreur seuil ε en dessous duquel on considère que l'erreur quadratique moyenne θ est négligeable. On peut également fixer un nombre Nb d'itérations maximums.

L'algorithme de retro-propagation du gradient appliqué à l'architecture neuronale 40 converge vers une solution stable après environ six-cent itérations.

La figure 6 représente différentes étapes possibles 80, 81 , 82, 83 de la phase de binarisation 2 du procédé selon l'invention. La phase de binarisation 2 utilise l'architecture neuronale 40, une fois mise au point au cours de la phase d'apprentissage 1 , afin de binariser une image quelconque comportant un texte.

Une première étape 80 est une étape de redimensionnement de l'image d'entrée 43 inconnue à une taille HxL d'images prise en compte par l'architecture neuronale 40. Une étape préliminaire peut permettre de détecter une zone de texte dans une image afin d'extraire de l'image uniquement la zone contenant le texte. Cette extraction de zone de texte peut être manuelle, ou automatique grâce à des logiciels d'extraction de texte dans une image. Au cours de la deuxième étape 81 , l'image d'entrée 43 est décomposée sous la forme de NE cartes correspondant aux NE canaux de l'espace de couleurs utilisé par l'architecture neuronale 40. Ces cartes sont ensuite présentées en entrée E de l'architecture neuronale 40.

La troisième étape 82 permet de traiter l'image d'entrée 43 : les couches successives Ci, S₂, U₃, F de l'architecture neuronale 40 sont activées les unes après les autres afin de construire une image de sortie 44. Sur la couche de sortie F de l'architecture neuronale 40, on obtient donc la réponse de l'architecture neuronale 40 sous la forme d'une image de sortie 44. L'image de sortie se présente sous la forme d'une matrice de pixels de taille HxL.

Les valeurs des pixels de l'image de sortie 44 sont converties au cours d'une quatrième étape 83 d'obtention d'une image binarisée. La conversion permet d'obtenir des valeurs de pixels valant zéro ou deux cent cinquante-cinq afin de construire une image de texte binaire correspondant à l'image d'entrée 43. La conversion s'effectue selon la formule (106). L'image de texte binaire ainsi obtenue peut alors être traitée par un logiciel de reconnaissance de caractères. L'invention a été décrite pour une partition des pixels d'une image en deux jeux de pixels, un premier jeu de pixels comportant du texte et un deuxième jeux de pixels comportant le fond de l'image. La binarisation selon l'invention peut s'appliquer à une partition en un nombre de jeux de pixels supérieur à deux.

Dans le procédé selon l'invention, une image d'entrée 43 est décomposée en trois canaux selon une décomposition de l'image dans un espace de couleurs RVB dans le procédé selon l'invention. Un autre espace de couleur ou un autre espace de codage de l'image peuvent être utilisés afin de décomposer l'image d'entrée sur une ou plusieurs cartes selon les canaux de l'espace de codage.

Le procédé et le système de binarisation selon l'invention permettent avantageusement de développer un système de binarisation d'image comportant du texte par un apprentissage supervisé sans aucun choix empirique de paramètre. Un autre avantage de l'invention est de prendre en compte directement la forme des caractères du texte du fait de la classification automatique de chaque pixel de l'image d'entrée 43 en pixels de texte ou pixels de fond à partir d'extracteurs de caractéristiques locales et globales automatiques appris. De plus, le système selon l'invention prend en compte directement et simultanément différents canaux de couleurs sans réduire les traitements à la seule luminance ou à un traitement indépendant par canal de couleur.

Avantageusement, le procédé selon l'invention présente une forte robustesse aux bruits, aux faibles contrastes, aux variations de chrominance, aux effets de transparence, et à la complexité du fond de l'image d'entrée 43.

Claims

REVENDICATIONS

1. Procédé de binarisation d'une image comprenant un texte caractérisé en ce qu'il comporte : • une phase préliminaire d'apprentissage (1 ) d'un procédé de construction d'une image de texte binaire par une architecture neuronale (40) comportant des couches hétérogènes (E, C-i, S₂, U₃, F) de neurones artificiels, une couche d'entrée comportant plusieurs cartes de neurones, lesdites cartes correspondant respectivement à un canal de codage de l'image comprenant le texte selon un espace de codage d'image préalablement choisi, ladite image de texte binaire étant composée de pixels du texte valant une première valeur et de pixels de fond de l'image comprenant le texte valant au moins une autre valeur ; • une phase de binarisation (2) de l'image comprenant le texte (43) par le procédé de construction d'une image de texte binaire appris au cours de la phase préliminaire d'apprentissage (1 ).

2. Procédé selon la revendication précédente, caractérisé en ce que la phase préliminaire d'apprentissage (1 ) est un processus itératif comportant les étapes suivantes :

• construction (70) d'un ensemble d'apprentissage (3) composé d'images comportant du texte (4) et des images de texte binaires (5) correspondantes ; • initialisation (71 ) de poids de connexions synaptiques entre les couches hétérogènes (E, d, S₂, U₃, F) de neurones artificiels de l'architecture neuronale (40) ;

• choix (72) d'un couple, comprenant une image comportant du texte d'entrée (4) et l'image de texte binaire correspondante (5), dans l'ensemble d'apprentissage (3) ;

• décomposition (73) de l'image comportant du texte d'entrée (4) en plusieurs canaux de codage d'image, fournis en entrée de l'architecture neuronale (40) ;

• construction (74) d'une image de sortie (44), à partir de l'image comportant du texte d'entrée (4), par l'architecture neuronale (40) ; • comparaison (75) de l'image de sortie (44) avec l'image de texte binaire correspondante (5) en évaluant une différence entre l'image de sortie (44) et l'image de texte binaire correspondante (5) ; si la différence entre l'image de texte binaire correspondante (5) et l'image de sortie (44) dépasse un seuil ε,

• mise à jour (77) des poids de connexions synaptiques de l'architecture neuronale (40) en minimisant la différence entre l'image de sortie (44) et l'image de texte binaire correspondante (5), le processus itératif recommençant alors à partir de l'étape de choix (72).

3. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que la phase de binarisation (2) comporte les étapes suivantes :

• redimensionnement (80) d'une image d'entrée (43) comportant du texte en une image de dimension donnée ;

• décomposition (81 ) de l'image d'entrée (43) en plusieurs canaux de codage d'image, fournis en entrée de l'architecture neuronale (40) ;

• construction (82) d'une image de texte de sortie (44) par l'architecture neuronale (40) ; • obtention (83) de l'image de texte binaire.

4. Procédé selon la revendication 2, caractérisé en ce que la minimisation de la différence entre l'image de sortie (44) et l'image de texte binaire correspondante (5) est effectuée par un algorithme de retro-propagation du gradient.

5. Procédé selon la revendication 4, caractérisé en ce que la minimisation de la différence entre l'image de sortie (44) et l'image de texte binaire correspondante (5) est effectuée en minimisant une fonction objectif O représentant une erreur quadratique moyenne :

γv ₇ x L x n _kk _ _{x h}_ _\ avec :

• N₁ représentant le nombre d'images (4) de l'ensemble d'apprentissage (3) utilisées pendant la phase d'apprentissage (1 ) ; • F₁₁ représentant la valeur d'un pixel de l'image de sortie (44) ; • D_h représentant la valeur d'un pixel de l'image de texte binaire correspondante (5).

6. Système de binarisation d'une image comportant un texte, caractérisé en ce qu'il comprend une architecture neuronale (40) comportant plusieurs couches hétérogènes (E, d, S₂, U₃, F) de neurones artificiels :

• un premier ensemble (41 ) d'une ou plusieurs couches de neurones effectuant une extraction de formes caractéristiques du texte de l'image comprenant le texte présentée en entrée de l'architecture neuronale (40) ;

• un deuxième ensemble (42) d'une ou plusieurs couches de neurones effectuant une construction des formes caractéristiques du texte en une image de sortie (44).

7. Système selon la revendication 6, caractérisé en ce que le premier ensemble (41 ) de couches de neurones de l'architecture neuronale (40) comporte :

• une couche d'entrée (E) comportant un nombre NE de cartes E_c de pixels de l'image comportant le texte d'entrée (43), les cartes E₀ étant de dimension donnée et correspondant respectivement à un canal de codage de l'image comprenant le texte selon un espace de codage d'image préalablement choisi ;

• une couche de convolution (Ci) comportant un nombre NCi de cartes Ci, de neurones, les cartes d, étant de dimension donnée, chaque neurone de chaque carte C-i, étant connecté par un premier ensemble de MixMi connexions synaptiques (45) à un ensemble de M-ixMi pixels de chaque carte E_c, chaque pixel de chaque carte E_c étant connecté à un ou plusieurs neurones de chaque carte Ci, ;

• une couche de sous-échantillonnage (S₂) comportant un nombre NS₂ de cartes S_2j de dimension réduite par rapport à la dimension donnée, chaque neurone d'une carte S_2j recevant une moyenne de M₂χM₂ sorties de M₂χM₂ neurones voisins d'une carte C-n , chaque neurone de chaque carte d, étant connecté à un seul neurone d'une carte S_2j par l'intermédiaire d'un deuxième ensemble de connexions synaptiques (46).

8. Système selon l'une quelconque des revendications 6 et 7, caractérisé en ce que le deuxième ensemble (42) de couches de neurones de l'architecture neuronale (40) comporte :

• une couche de sur-échantillonnage (U₃) comportant un nombre NU₃ de cartes U_3k de dimension supérieure à la dimension des cartes S₂J et inférieure à la dimension donnée, chaque neurone de chaque carte U_3k étant connecté à un neurone d'une carte S₂J, chaque neurone d'une carte S₂J étant connecté à un ensemble de M₂XM₂ neurones voisins d'une carte U_3k par l'intermédiaire d'un troisième ensemble de M₂XM₂ connexions synaptiques (47) ;

• une couche de convolution-inverse (F), étant une couche de sortie (F) de l'architecture neuronale (40), comportant une carte de neurones, chaque neurone de chaque carte U_3R étant connecté à un ensemble de M-ixMi neurones voisins de la couche de sortie (F), chaque neurone de la couche de sortie (F) étant connecté à un ou plusieurs neurones voisins de chaque carte U_3k par l'intermédiaire d'un quatrième ensemble de connexions synaptiques (48).

9. Système selon la revendication 8, caractérisé en ce que : • les neurones de la couche de convolution (Ci) utilisent une première fonction d'activation de type linéaire ;

• les neurones de la couche de sous-échantillonnage (S₂) utilisent une deuxième fonction d'activation de type sigmoïde ;

• les neurones de la couche de sur-échantillonnage (U₃) utilisent une troisième fonction d'activation de type sigmoïde ;

• les neurones de la couche de convolution-inverse (F) utilisent une quatrième fonction d'activation de type sigmoïde.

10. Système selon l'une quelconque des revendications 6 à 9, caractérisé en ce que, chaque connexion synaptique (45, 46, 47, 48) de l'architecture neuronale (40) étant associée à un poids synaptique W_{lj m} , les poids de chaque ensemble de connexions synaptiques (45, 46, 47, 48) entre les neurones de chaque couches de l'architecture neuronale (40) sont partagés par les neurones de chaque couche (Ci, S₂, U₃, F) de l'architecture neuronale (40) hormis la couche d'entrée (F).

11. Programme informatique comprenant des instructions de code de programme pour l'exécution du procédé de binarisation d'une image comprenant un texte selon l'une quelconque des revendications 1 à 5, ledit programme informatique étant exécuté par un ou plusieurs processeurs.