WO2004013802A2

WO2004013802A2 - Procede et systeme de localisation automatique de zones de texte dans une image

Info

Publication number: WO2004013802A2
Application number: PCT/FR2003/002406
Authority: WO
Inventors: Walid Mahdi; Mohsen Ardabilian; Liming Chen
Original assignee: Ecole Centrale De Lyon
Priority date: 2002-07-31
Filing date: 2003-07-30
Publication date: 2004-02-12
Also published as: FR2843220B1; AU2003269080A1; CN1685358A; FR2843220A1; WO2004013802A3; EP1525553A2

Abstract

Le système de localisation automatique de zones de texte dans une image numérique comprend une unité (150, 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par l'unité de localisation (170). L'unité (170) de localisation de zones de texte potentielles comprend avantageusement des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. L'unité (180) de sélection met en oeuvre un procédé de découpage de l'intensité appliqué à l'image en niveaux de gris issue d'une unité de traitement (160) contenue dans l'unité (150, 160) de conversion en image binaire.

Description

Procédé et système de localisation automatique de zones de texte dans une image

Domaine de l'invention La présente invention a pour objet un procédé et un système de localisation automatique de zones de texte dans une image.

Art antérieur

Il existe déjà de nombreux articles présentant des travaux relatifs à la reconnaissance automatique de caractères dans une image numérique. A titre d'exemple, on peut se référer à l'article de Ohya, 1, Shio, A., Akomatsu, S. intitulé "Recognïzing characters in scène images" paru dans IEEE Trans. On PAMI, Vol. 16, No. 2, pp. 214-220, février 1994.

De telles techniques de reconnaissance optique de caractères (OCR) procèdent de la façon suivante : il est d'abord formé une image binaire par application d'un seuil local sur l'image en niveaux de gris. Ensuite, des composants connexes sont extraits de l'image binaire pour obtenir des segments de caractères potentiels. Chaque segment de caractère potentiel est alors examiné par une technique de reconnaissance de caractères.

De tels procédés de reconnaissance optique de caractères créent malheureusement deux problèmes majeurs lorsqu'ils sont appliqués à des images numériques présentant des arrière-plans complexes comme c'est le cas avec des images vidéo. De fait, il s'avère que chaque segment de caractère peut être divisé par erreur en plusieurs composants connexes du fait de divers bruits présents dans les images numériques. De plus, ces procédés sont très coûteux en termes de calcul, car ils appliquent les techniques de l'OCR à chaque segment de caractère candidat.

En vue de limiter le nombre de segments devant faire l'objet d'une vérification de caractère, dans un article de Zhong, Y., Kary, K., Jain, A. K. intitulé "Locating text in complex color images" paru dans "Pattern récognition", Vol. 28, no. 10, 1995, pp. 1523-1535, il a été proposé deux procédés particuliers de détection automatique de zones de texte dans des images en couleurs. Le premier procédé utilise la segmentation de composants connexes. Ce procédé fonctionne difficilement avec des images vidéo, car il présuppose qu'un caractère est un composant connexe qui est séparé des autres objets à l'intérieur de l'image. Le second procédé se fonde sur le principe de la variance spatiale. De fait, la variance spatiale de régions de texte est généralement plus importante que le fond d'une image. Les essais pratiqués ont montré que ceci pouvait contribuer à faciliter la détection de texte mais que cela restait en soi insuffisant.

Le document WO 01/69529 A2 décrit un procédé pour localiser du texte dans des images numériques. Selon ce procédé, une image numérique est d'abord mise à l'échelle en images de résolutions différentes, puis un réseau neuronal est utilisé pour déterminer si les pixels dans les images de résolutions différentes font partie de zones de texte ou non. Les résultats obtenus sont alors représentés par des boîtes initiales englobant du texte. Ces boîtes initiales englobant du texte sont ensuite examinées en utilisant des profils de projection horizontale ou verticale ayant des seuils adaptatifs.

Le document WO 00/63833 décrit un procédé pour segmenter une image en zones de texte et zones sans texte. Ce procédé est basé sur une simple quantification spatiale, basée sur des blocs, de l'histogramme des niveaux de gris à 15 niveaux d'intensité.

Les différentes techniques connues d'extraction de texte dans des images manquent ainsi de fiabilité ou de finesse ou sont limitées à des images de caractéristiques particulières. Obiet et description succincte de l'invention

La présente invention a pour but de remédier aux inconvénients des systèmes et procédés de l'art antérieur et de permettre une détection fiable de zones de texte dans une image, de telle sorte que les zones de texte localisées par le procédé et le système selon l'invention puissent ensuite faire l'objet d'un traitement classique de reconnaissance optique de caractères afin d'obtenir des textes complets.

L'invention vise en particulier à permettre la localisation de zones de texte dans des images vidéo de différents types de programmes (publicité, informations télévisées, films de court ou long métrage,...) et quelle que soit la présentation de ce texte, avec différents types et styles de caractères et même dans le cas où le fond d'image est complexe.

L'invention vise ainsi à permettre une recherche par le contenu sémantique dans des séquences d'images, en prenant en compte aussi bien des indications sous forme de texte naturel apparaissant dans des images, tels que des noms de rues ou des enseignes de magasins, que sous forme de texte artificiel introduit, par exemple sous forme de sous- titres, dans un post-traitement des images, après la prise de vue.

Ces buts sont atteints grâce à un procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape de conversion de l'image numérique en image binaire, une deuxième étape de localisation de zones de texte potentielles et une troisième étape de sélection de zones de texte effectives. Avantageusement, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans l'image d'origine. Au cas où l'image ou les images à traiter ne seraient pas déjà sous forme numérique, une étape préalable peut simplement consister en une conversion analogique-numérique des images à traiter.

Selon l'invention, la première étape comprend une étape de conversion d'une image numérique en une image définie par des niveaux de gris.

Avantageusement, la première étape de conversion de l'image numérique en image binaire comprend une étape de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image d'entrée I, avec 0 < M < 1.

Selon un autre aspect de l'invention, la première étape de conversion de l'image numérique en image binaire comprend une étape de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW en une valeur 1 correspondant au blanc. Lorsque l'on effectue à la fois un traitement de multirésolution et une binarisation utilisant un procédé de seuillage, l'ordre des deux opérations peut être interchangé en fonction des applications envisagées.

La deuxième étape de localisation de zones de texte potentielles comprend l'application de différents masques morphologiques selon un ordre qui peut être adapté aux contextes particuliers de mise en œuvre de l'invention.

De façon plus particulière, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité de cette ligne ou de cette colonne présentent tous les deux la valeur 1.

Selon un autre aspect, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce rectangle ou de ce carré présentent tous les deux la valeur 1. Avantageusement, après une étape de multirésolution, la deuxième étape de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0. On peut choisir à titre d'exemple ce seuil à 75% de la largeur de l'image résultant de l'étape de multirésolution lorsque la ligne est la direction privilégiée.

Selon un autre aspect de l'invention, la deuxième étape de localisation de zones de texte potentielles peut comprendre en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.

Selon un mode de réalisation particulier, lors de la deuxième étape de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire.

Dans ce cas, selon un premier mode de réalisation possible, on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée 'G et on applique à cette matrice transposée ^tG les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire. Selon un deuxième mode de réalisation possible, on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs morphologiques transposés.

Selon une caractéristique avantageuse, la troisième étape de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliqué à l'image en niveaux de gris.

Dans ce cas, selon un premier mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L] selon la fonction v = f(a) avec a si a < u v = {

L si a > u où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Selon un autre mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un, mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'espace [u, L], où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v = { L si a > u.

La valeur de la constante u peut être déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante :

1/ L est initialisée avec la valeur N représentant la couleur blanche,

2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (N- 1), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise en compte dans cette opération.

Avantageusement, le seuil est fixé à 2% du nombre total de pixels de l'image, mais ce seuil peut être modifié en fonction de l'application.

Selon une caractéristique préférentielle du procédé selon l'invention, après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement Pi et P₂ et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(Pι, P₂) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.

Le procédé selon l'invention comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhι_g(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhι_g(i) avec la ligne adjacente qui précède immédiatement Rhι_g(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhι_g(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos higQ et Pos Rhigo-i) ou respectivement entre les ensembles Pos _Rhig i) et Pos Rhig(i₊i) qui concernent des positions pour les pixels des lignes Rhι_g(i) et Rhι_g(i-1), ou respectivement des lignes Rh|g(i) et Rhι_g(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite première direction privilégiée. Le procédé selon l'invention peut en outre comprendre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhι_g(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des , pixels formant ladite ligne représentative Rhι_g(i) et on ajoute à la ligne représentative Rhι_g(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhι_g(i).

La première direction privilégiée peut être une direction horizontale ou verticale.

De façon particulière, la ligne représentative Rhι_g(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur maximale L correspondant au blanc.

Selon l'invention, les blocs fermés produits susceptibles de contenir du texte présentent avantageusement la forme de parallélogrammes et de préférence la forme de rectangles. Pour certaines applications, après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des zones de texte.

L'invention concerne également un système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité de conversion d'une image numérique d'entrée en image binaire, une unité de localisation de zones de texte potentielles appliquées à l'image binaire et une unité de sélection de zones de texte effectives mises en évidence par ladite unité de localisation. Avantageusement, l'unité de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. De préférence, l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens de conversion d'une image numérique I en une image G définie par des niveaux de gris.

Selon une caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution.

Selon une autre caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage pour transformer une image d'entrée en niveaux de gris en une image binaire BW.

Avantageusement, le système comprend des moyens de transposition de matrices représentatives d'images ou de masques morphologiques.

Le procédé et le système selon l'invention peuvent donner lieu à un très grand nombre d'applications.

L'invention permet par exemple, pour des raisons de sécurité, d'extraire automatiquement et d'enregistrer les mentions portées sur des plaques d'immatriculation de véhicules automobiles à partir d'images filmées dans diverses situations : par exemple, aux entrées de parcs de stationnement, aux barrières de péage d'autoroutes, dans des stations- service de distribution de carburant, aux points de contrôle de frontières,... Un tel système de détection et de reconnaissance de plaques mineralogiques peut comprendre un dispositif de capture d'images numériques, tel qu'une caméra vidéo numérique, un module d'analyse d'image et un système de gestion de base de données pour le stockage et la comparaison de données. Dans ce contexte, le module d'analyse d'image doit d'abord localiser la zone de la plaque d'immatriculation, puis extraire cette zone et fournir les informations relatives à cette zone, le cas échéant après un post-traitement, à l'entrée d'un système de type OCR pour obtenir, sous la forme d'un texte alphanumérique, les indications du numéro d'immatriculation.

Une autre application possible du procédé et du système selon l'invention consiste en la détection de logos et la reconnaissance de ceux- ci dans des émissions de télévision.

Lors de la vente d'espaces publicitaires pour une diffusion en direct d'un événement, par exemple dans le cadre d'un match de football ou dans une émission de télévision, les opérateurs ont besoin de connaître exactement la visibilité et la durée d'exposition d'une marque qui est affichée dans un espace publicitaire. Pour cela, il est nécessaire de mettre en œuvre un procédé tel que celui de la présente invention, qui est capable d'extraire des zones de texte à partir d'images de l'événement concerné, pour permettre ensuite une comparaison avec des noms de marque ou de désignation préalablement stockés dans une base de données.

Brève description des dessins

D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, donnés à titre d'exemples, en référence aux dessins qui l'accompagnent, sur lesquels :

- la Figure 1 est un organigramme montrant de façon schématique les étapes principales du procédé de localisation automatique de zones de texte dans une image, conformément à l'invention, - la Figure 2A montre un exemple d'image de départ comportant deux zones de texte sur un fond d'image complexe,

- la Figure 2B représente une image binaire de sortie ayant fait l'objet d'un premier traitement de rehaussement des formes de zones de texte potentielles, conformément à l'invention, - la Figure 2C représente une image binaire ayant donné lieu en outre à une élimination de zones de texte potentielles manifestement incorrectes,

- la Figure 2D représente une image telle que celle de la Figure 2C ayant en outre donné lieu, conformément à l'invention, à une étape de localisation de zones de texte potentielles par l'application de masques morphologiques,

- la Figure 3 montre à une plus grande échelle l'image de la Figure 2D, - les Figures 4 à 8 montrent les histogrammes des différentes régions de texte potentielles de la Figure 3, après application d'une étape de séparation des pixels des zones de texte potentielles par rapport au fond de l'image,

- les Figures 9 à 15 représentent divers exemples d'application de masques morphologiques à une image telle que celle de la Figure 2C ou le cas échéant de la Figure 2B,

- la Figure 16 montre divers exemples d'images présentant du texte sur un fond complexe et auxquelles peut s'appliquer le procédé selon l'invention, et - la Figure 17 est un schéma-bloc montrant les composants essentiels d'un exemple de système de localisation automatique de zones de texte dans une image, conformément à l'invention.

Description détaillée de modes particuliers de réalisation Le système et le procédé selon l'invention peuvent s'appliquer à la détection de texte naturel inclus dans les images dès la prise de vue, comme par exemple des noms d'enseignes de magasins, des noms de rues ou des indications portées sur des panneaux indicateurs ou tableaux d'affichage. C'est le cas par exemple de l'image 143 de la Figure 16 qui fait apparaître sur une porte un nom de fonction "gardien". L'invention s'applique également à la détection de texte artificiel superposé à des images au montage.

C'est, le cas par exemple des images 141 et 142, de la Figure 16.

Ces textes constituent par exemple des logos ("ECL" sur l'image 142), des génériques, des sous-titres de commentaires annonçant un sujet, traduisant des paroles ou donnant des précisions (par exemple, le nom et la fonction de la personne représentée sur l'image 141).

Le texte naturel présente certaines caractéristiques particulières qui peuvent être utilisées pour faciliter la détection : - les caractères du texte sont à l'avant-plan,

- les caractères du texte présentent un bon contraste par rapport au fond car ils sont prévus pour être lus facilement,

- les caractères du texte sont monochromes,

- les caractères du texte présentent des dimensions encadrées dans certaines limites (par exemple, une lettre n'est jamais aussi grande que la surface de l'écran et la taille minimale des caractères comprend un nombre minimum de pixels pour que les caractères soient lisibles). Le procédé selon l'invention s'applique à des images numériques présentant un fond complexe, pouvant présenter une faible résolution et être affectées par le bruit, et sans paramètres de contrôle.

Le procédé peut ainsi s'appliquer à des images vidéo, limite les fausses détections et permet de localiser et extraire avec une très grande fiabilité les zones de texte, même avec des images de faible qualité.

La Figure 1 montre les étapes principales du procédé selon l'invention.

A partir d'une image numérique couleur, on procède d'abord à l'étape 10 à une transformation de l'image numérique en une image numérique en niveaux de gris.

Cette dernière image est soumise à l'étape 20 à un rehaussement des formes des zones de texte. L'étape 20 peut comprendre une étape 21 de multirésolution et une étape 22 de binarisation, l'ordre des étapes 21 et 22 étant interchangeable.

Avec l'image binaire issue de l'étape 20, on procède à l'étape 30 à une localisation des zones de texte potentielles pour obtenir une image binaire avec des zones de texte potentielles délimitées par des blocs blancs.

A l'étape finale 40, on procède à la sélection des zones de texte effectives, lesquelles peuvent ensuite être soumises dans l'image numérique de départ à un processus classique de reconnaissance optique de caractères (OCR).

On décrira maintenant de façon plus détaillée différents traitements d'image mis en œuvre au cours des différentes étapes du procédé selon l'invention. Pour l'étape 10 de transformation de l'image numérique énoncée sur la Figure 1, on considérera que l'image de départ est une image numérique représentée par une ou plusieurs matrices. Si ce n'est pas le cas, par exemple si l'image d'entrée est dans un format compressé tel que par exemple le format JPEG, on convertit d'abord l'image d'entrée en une image numérique sous une forme matricielle. De la même façon, si l'on dispose d'images d'entrée sous forme analogique, on convertit d'abord par des techniques classiques, ces images analogiques sous une forme numérique.

Lorsque l'image numérique d'entrée I est une image couleur, on convertit celle-ci en une image G en niveaux de gris.

Cette étape 10 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire et indispensable pour l'étape 22 de binarisation qui sera décrite plus en détail dans la suite de la description.

L'étape 10 initiale peut également le cas échéant s'accompagner d'une étape supplémentaire de calcul de la matrice transposée de la matrice G. La matrice transposée te résultant de cette opération peut être utilisée par exemple pour la détection de régions de texte vertical.

On rappellera que si A est une matrice m x n, la transposée Α de la matrice A est formée en interchangeant les rangées et les colonnes de la matrice A. Ainsi, la i^ème ligne de la matrice A devient la i^eme colonne de la matrice transposée *A quel que soit i. La matrice transposée Α est ainsi une matrice n x m.

Une image numérique I et un opérateur morphologique M peuvent être considérés tous deux comme des matrices, dont les matrices transposées peuvent être déterminées selon la définition donnée plus haut.

Dans le procédé selon la présente invention, l'étape 30 de localisation de zones de texte potentielles comprend l'application de filtres morphologiques. Un filtre morphologique est un masque.

Pour la mise en évidence de zones de texte verticales plutôt qu'horizontales, on peut donc procéder d'abord à la transposition d'une image numérique d'entrée, représentée par une matrice I, pour obtenir une nouvelle image représentée par la matrice % puis appliquer ensuite un ensemble d'opérateurs morphologiques Mn } adaptés à l'origine pour des détections de zones de texte potentielles horizontales. Selon une alternative, on peut appliquer également un jeu d'opérateurs morphologiques transposés ^M r directement à l'image d'entrée I.

Les deux façons de faire conduisent au même résultat final.

Dans le cas où l'on connaît à l'avance les régions de l'image dans lesquelles du texte est susceptible d'apparaître, par exemple dans le cas de détection de texte artificiel, tel que des sous-titres, il est également possible dès l'étape initiale 10, de définir une région préférentielle dans laquelle les zones de texte seront recherchées. Une telle définition de région préférentielle permet d'accélérer le processus de localisation en limitant l'étendue de l'image à laquelle est appliqué l'ensemble des étapes 20 à 40 du procédé illustré sur la Figure 1.

On décrira maintenant l'étape 20 de rehaussement des formes des zones de texte.

La localisation de zones probables de présence de texte dans une image fait partie d'un pré-traitement d'image qui est fondamental pour permettre la détection correcte de texte.

Il existe divers procédés dans le domaine de la reconnaissance de formes qui sont basés sur des techniques de seuillage, de regroupement de pixels ou de détection de contours utilisant des méthodes statistiques, la logique floue ou les réseaux neuronaux. Des procédés récents mais coûteux font appel à une représentation des textures et des couleurs par une modélisation en champs de Markov. Toutefois, aucune technique ne s'avère adaptée à toutes les applications.

Selon la présente invention, on utilise une approche multirésolution et une conversion de l'image en niveaux de gris en une image binaire pour la mise en évidence des formes de zones de texte probables.

La conversion d'une image d'entrée en niveaux de gris I en une image binaire BW (étape 22) s'opère par seuillage. Ainsi, l'image binaire de sortie BW présente une valeur de 0 (noir) pour tous les pixels de l'image d'entrée I qui ont une valeur inférieure à un seuil prédéterminé et une valeur de 1 (blanc) pour tous les autres pixels.

La mise en œuvre d'un procédé de multirésolution (étape 21) pour la localisation de lignes de texte se fonde sur la caractéristique de base selon laquelle une ligne de texte apparaît sous la forme d'une ligne pleine dans une image de faible résolution. Le procédé de multirésolution, lorsqu'il est appliqué à une image d'entrée I, conduit à produire une image de sortie J qui a M fois la taille de l'image I. .

Si M est compris entre 0 et 1,0, l'image J est plus petite que l'image I. Si M est supérieur à 1,0, l'image J est plus grande que l'image I. On passe d'une image I à une image J de résolution différente par un procédé d'interpolation spécifique.

On peut choisir pour M la valeur 0,125 à titre d'exemple de valeur inférieure à 1,0. On peut par ailleurs utiliser un procédé d'interpolation par le plus proche voisin. Toutefois, d'autres techniques d'interpolation, telles qu'une interpolation linéaire, pourraient également être utilisées.

Le paramètre M peut varier et être adapté par exemple à la taille de l'image. Le procédé selon l'invention ne dépend pas de la valeur du paramètre M, dès lors que celui-ci est compris entre 0 et 1. On peut également changer la valeur de seuil utilisée pour convertir une image en niveaux de gris en une image binaire, par exemple en fonction de l'image d'entrée. A titre d'exemple, cette valeur de seuil peut être de l'ordre de 0,7.

La Figure 2B montre clairement que le procédé de multirésolution permet de filtrer l'image d'entrée en ne conservant que des composants connexes ayant une couleur homogène correspondant à une zone significative.

L'étape 30 de localisation de zones de texte potentielles consiste en l'application de masques morphologiques à des images binaires telles que celles des Figures 2B ou 2C en vue d'obtenir la fermeture de blocs susceptibles de contenir du texte, en remplissant les zones vides entre caractères ou mots.

Si l'image binaire de départ est une image telle que celles des

Figures 2B ou 2C, issue de l'étape 20, on applique de façon répétée plusieurs opérations morphologiques binaires jusqu'à ce que l'image obtenue J ne présente plus beaucoup de changements par rapport à l'image précédente et présente une apparence avec des blocs fermés telle que celle de la Figure 2D.

A titre préférentiel, on peut utiliser trois masques morphologiques différents pour réaliser la fermeture des blocs susceptibles de contenir du texte. Ces différents masques morphologiques peuvent être combinés entre eux et appliqués selon des ordres différents.

Le premier masque morphologique Mi est représenté sur la Figure 9. En considérant une ligne 50 de pixels 51 à 58, tous les pixels intermédiaires 52 à 57 sont mis à la valeur "1" quelle que soit leur valeur initiale "0" ou "1", lorsque les pixels d'extrémité 51 et 58, à gauche et à droite présentent la valeur 1. La même opération peut être faite sur des colonnes, par exemple en utilisant la matrice transposée de Mi, comme indiqué plus haut, ou en utilisant la transposée de la matrice représentant l'image d'entrée.

Le deuxième masque morphologique Nb est représenté sur la Figure 10. Des rectangles de départ 60 et 70 comprenant des pixels 61 à 66 et 71 à 76 sont transformés en un rectangle 80 comprenant des pixels 81 à 86. Le rectangle de départ 60, respectivement 70, comprend des pixels

63, 64, respectivement 71, 76, situés à l'extrémité de diagonales, qui présentent tous deux une valeur "1". Dans ce cas, le rectangle 80 de l'image transformée comprend des pixels 81 à 86 qui ont tous la valeur "1". Comme dans le cas du masque morphologique Mi, l'opération du masque morphologique Nb peut s'appliquer à des lignes ou à des colonnes en utilisant des matrices transposées.

Le troisième masque morphologique M est représenté sur la Figure 11. Ce masque M₃ est très semblable au masque morphologique Nb et vise à obtenir la fermeture de diagonales. A partir d'éléments carrés 90A, 90B d'une image de départ, on obtient un élément carré 100 d'image convertie.

Lorsque deux pixels 92A, 93A respectivement 91B, 94B d'un carré initial 90A respectivement 90B présentent tous deux la valeur "1" quelle que soit la valeur des autres pixels 91A, 94A respectivement 92B, 93B, tous les pixels 111 à 114 du carré 100 de l'image transformée ont la valeur "1".

A titre d'exemples, on a représenté sur les Figures 12 et 13 deux exemples d'application du troisième masque morphologique M₃. Dans le cas de la Figure 12, on procède en deux temps à partir du carré 90C comportant deux pixels en diagonale 92C, 93C présentant la valeur "1" et les deux autres pixels 91C, 94C qui présentent la valeur "0". Dans un premier temps, on donne la valeur "1" au pixel 94C situé en bas à droite tandis que les autres pixels 91C à 93C gardent des valeurs inchangées pour former des pixels 91C à 94C. Dans un deuxième temps, on donne la valeur "1" au pixel 91C situé en haut à gauche, tandis que les autres pixels 92C à 94C sont inchangés, de telle sorte que l'on obtient un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1.

La Figure 13 représente un cas similaire à celui de la Figure 12 mais où l'on procède de façon symétrique. Dans le carré de départ 90D, on commence par donner la valeur "1" au pixel 90D situé en haut à gauche qui présente au départ la valeur 0, les autres pixels 92D à 94D présentant des valeurs inchangées égales à "1" pour les pixels 92D, 93D et égale à 0 pour le pixel 94D. On donne ensuite la valeur "1" au pixel 94D' situé en bas à droite tandis que les autres pixels 91D' à 93D' présentent une valeur "1" inchangée. On obtient ainsi de même un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1. On peut procéder aux opérations des Figures 12 à 13 en parallèle, ce qui correspond au processus illustré sur la Figure 11. Les Figures 2D et 3 montrent toutes les régions sous la forme de blocs fermés 1 à 5 ayant une probabilité de contenir du texte. On peut noter que l'on peut recenser cinq zones candidates 1 à 5 susceptibles de contenir du texte alors que dans l'image initiale de la Figure 2A on ne voit que deux zones contenant effectivement du texte.

La détection de régions de texte potentielles sur l'image d'entrée I peut être dérivée par le mappage entre les coordonnées de blocs de texte potentiel dans l'image binaire et celles de l'image d'entrée I. On peut ensuite appliquer aux régions de texte potentielles détectées sur l'image d'entrée diverses techniques d'OCR.

La sélection des zones de texte effectives correspond à une étape 40 (Figure 1) et sera explicitée en référence aux Figures 4 à 8.

La présence, dans l'image de la Figure 3, de zones 1 à 3 ayant une probabilité de contenir du texte, mais n'en comportant pas en réalité, s'explique par le fait que l'étape 20 basée sur la multirésolution et la binarisation est un procédé efficace lorsqu'il est appliqué à un document contenant du texte, dans lequel un pixel appartient soit au fond de l'image, soit à un certain objet significatif de l'image. En revanche, dans le cas d'une image numérique comprenant un fond complexe, comme dans le cas d'images vidéo, il existe en général sur une image plusieurs objets distincts de couleurs différentes, ce qui peut induire de fausses détections par ce procédé de rehaussement.

Dans le cas du procédé selon l'invention, l'étape 21 de multirésolution ne constitue qu'un prétraitement permettant d'effectuer une première localisation de régions candidates susceptibles de contenir du texte. Chaque région candidate 1 à 5 (Figure 3) est ensuite examinée à nouveau au cours d'une étape 40 de sélection afin de déterminer si cette région candidate contient effectivement du texte ou non. L'étape 40 de sélection de zones de texte effectives comprend elle- même deux étapes qui comprennent la séparation des pixels du fond de l'image et le filtrage des régions de texte effective.

L'étape de séparation des pixels de fond de l'image vise à mettre en évidence les pixels des caractères par rapport au fond de l'image. Pour cela, il est appliqué un procédé de découpage de l'intensité à l'image en niveaux de gris obtenue après la première étape de transformation d'image. Cette technique est utile lorsque différentes caractéristiques d'une image sont contenues dans différents niveaux de gris. On procède à un mappage de chaque niveau de gris appartenant à l'intervalle [0, L] en un niveau de gris v appartenant à l'intervalle [0,L] selon la transformation définie par l'équation (1) v = f(a) (1) qui peut être définie simplement par l'équation (2) : a, a < u v = { (2) sinon L où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Une autre transformation possible pour augmenter la mise en évidence des pixels de caractères par rapport au fond est définie par l'équation (3) : u, a ≤ u v = { (3) sinon L

De plus, la valeur de u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G (par exemple en 256 nuances) obtenus de l'image d'entrée I après l'étape 10, de la façon suivante :

1. L est initialisée avec la valeur 256 (couleur blanche). 2. Pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur 256, puis on additionne progressivement au nombre Nb le nombre de pixels ayant la couleur 255, puis 254 et ainsi de suite jusqu'à ce que le nombre Nb soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image. La dernière couleur de l'histogramme H, prise en compte dans cette opération, est affectée à u.

Avantageusement, le seuil est fixé à 2% du nombre total de pixels, mais ce seuil peut être modifié en fonction des applications. Le filtrage des régions de texte effectives s'effectue par une simple analyse de la variation spatiale de toutes les régions candidates susceptibles de contenir du texte, après transformation par l'opération précédemment décrite de séparation des pixels représentant des caractères par rapport au fond de l'image. Cette analyse est fondée sur la caractéristique selon laquelle les caractères d'un texte présentent généralement un contraste important par rapport au fond.

On procède ainsi, pour l'histogramme de chaque région de texte potentielle transformée, à la localisation des deux pics les plus importants (maximums locaux) afin de repérer leur position Pi et P₂.

Les Figures 4 à 8 représentent une telle démarche appliquée aux régions de texte potentielles 1 à 5 identifiées sur la Figure 3.

Une variation spatiale de chaque région de texte potentielle est caractérisée par l'équation (4) : D(Pι, P₂) = abs (P1-P2) (4)

Si la distance D(Pι, P₂) est supérieure à un seuil prédéfini, la région de texte potentielle est considérée comme une région de texte effective. Sinon, elle est simplement ignorée. Comme on peut le voir sur les Figures 4 à 6, les régions 1, 2 et 3 de la Figure 3 ont une faible variation spatiale, dès lors que les distances entre les maximums locaux 101, 102 (Figure 4), 201 à 204 (Figure 5), 301 à 305 (Figure 6) sont faibles. En conséquence, ces régions seront ensuite ignorées. En revanche, les régions 4 et 5 de la Figure 3 ont une forte variation spatiale, dès lors que les distances D(Pι, P₂) entre les maximums locaux 401, 402 (Figure 7) ou 501, 502 (Figure 8) sont élevées. Ces régions 4 et 5 seront donc retenues.

La valeur de seuil peut être choisie par exemple comme étant égale à 15% du nombre total dans les niveaux d'échelle de gris. La précision du procédé est d'autant meilleure que la valeur de seuil est élevée.

Le procédé selon l'invention peut présenter diverses variantes et étapes supplémentaires visant à mieux délimiter les frontières des régions de texte ou à accélérer l'ensemble du processus en éliminant quelques régions de texte potentielles qui sont de façon évidente négatives.

En particulier, on peut améliorer la localisation des régions de texte, et notamment la prise en compte de l'intégralité d'une zone de texte, en appliquant de façon récursive un processus de séparation des pixels par rapport au fond, à chaque région du texte effective déjà transformée. Ceci conduit à mieux définir les frontières horizontales et verticales de chaque zone de texte.

Pour mieux délimiter horizontalement les frontières d'une zone de texte, on sélectionne d'abord une ligne horizontale représentative Rhι_g(i) parmi toutes les lignes d'une zone de texte qui a été identifiée selon le procédé de base conforme à l'invention.

Le choix de Rhι_g(i) peut être effectué en sélectionnant la ligne qui est formée par le maximum de pixels alignés horizontalement et appartenant à des caractères. En général, la ligne sélectionnée Rhι_g(i) sera la ligne formée par le nombre maximum de pixels ayant une valeur égale à L car après la transformation consistant à séparer les pixels du fond, les caractères d'une région de texte sont considérés comme étant monochromes et contrastent avec le fond de l'image.

On procède ensuite à une comparaison de Rhι_g(i) avec la ligne adjacente Rhι_g(i-1) qui précède immédiatement (respectivement avec la ligne adjacente Rhι_g(i+1) qui suit immédiatement), afin de décider de fusionner ou non les deux lignes dans un même bloc de texte.

Le critère de fusion est fondé sur la distribution spatiale des valeurs de gris et le principe de pixels monochromes connexes de la façon suivante : Soit Pos R_hig(i) et Pos Rhig^-i) (respectivement Pos Rhigo₊i)) deux ensembles qui décrivent les positions des pixels dans la ligne Rhι_g(i) et Rhig(i-l) (respectivement Rhι_g(i+1)) qui ont une valeur de gris égale à L.

On considère l'équation (5) suivante :

POS R lg(i) O POS Rhlg(i-l) ≠ 0 , respecti vement Pos Rhigo n Pos Rhig(i₊i) ≠ 0 ,

Si l'équation (5) est satisfaite, on remplace la ligne Rhι_g(i) par la ligne Rhι_g(i-1), (respectivement la ligne Rhι_g(i+1)), et le processus est appliqué de façon récursive jusqu'à une complète stabilisation des frontières horizontales inférieure et supérieure de la zone de texte. Pour la délimitation verticale des frontières des zones de texte, on peut ajouter à la ligne représentative Rhι_g(i) tous les pixels qui satisfont les conditions suivantes :

- on ne prend en considération que les pixels qui sont à gauche ou à droite des pixels formant la ligne représentative Rhι_g(i), - on n'ajoute à la ligne Rhι_g(i) que les pixels ayant la même valeur de couleur que les pixels de Rhι_g(i),

- les pixels adjacents à la ligne Rhι_g(i) doivent respecter le principe d'élimination sous forme négative qui sera présenté plus loin.

Pour la détection de zones de texte situées en position verticale dans une image numérique, on peut appliquer les principes de délimitation qui viennent d'être exposés, par exemple en effectuant d'abord une délimitation verticale. Mais cela revient à travailler sur la transposition de la matrice qui représente l'image d'entrée, comme cela a été exposé plus haut en relation avec la transformation d'images numériques. Le procédé de localisation de régions de texte peut être accéléré lorsque l'on a une certaine connaissance préalable des régions susceptibles de contenir du texte.

Notamment pour le cas d'images vidéo, on peut appliquer un procédé d'élimination de forme négative, qui consiste à éliminer tous les composants connexes de couleur homogène touchant le bord d'une image, ainsi que toutes les lignes horizontales qui ont une longueur supérieure à un seuil prédéfini l_t.

Ce dernier opérateur d'élimination peut être représenté par l'opérateur morphologique Nl₄ illustré sur la Figure 14. La Figure 2C illustre le résultat d'un tel procédé d'élimination de forme négative appliqué à l'image de la Figure 2B.

Sur la Figure 14, on voit que, pour une ligne 120 comportant des pixels 121 à 128, dont les deux pixels d'extrémité 121 et 128 présentent la valeur "1", tandis que les autres pixels 122 à 127 présentent chacun une valeur "0" ou "1", dans le cas où la longueur de la ligne est supérieure à un seuil l_t (par exemple égal à 75% de la taille de l'image résultant du processus de multirésolution), alors tous les pixels 121 à 128 sont mis à la valeur "0" correspondant au noir.

La Figure 15 montre un autre exemple d'amélioration possible consistant en un remplissage de diagonales pour éliminer un pixel isolé dans le fond de l'image. L'opérateur morphologique NI5 illustré sur la Figure 15 consiste, dans un carré 130 de neuf pixels, à donner la valeur "0" à un pixel central isolé 135 de valeur "1" entouré de huit pixels 131 à 134, 136 à 139 de valeur "0". Lorsque l'on applique l'opérateur morphologique NI5 de la Figure 15 avant les opérateurs morphologiques Nli, Nb; NI3 des Figures 9 à 13, on augmente la précision des frontières des zones de texte détectées dans l'image en éliminant les pixels isolés qui pourraient être intégrés dans des régions de texte effectives lorsque l'on applique l'opérateur morphologique Mi.

On a représenté sur la Figure 17 le schéma bloc d'un exemple de système de localisation automatique de zones de texte dans une image mettant en œuvre l'invention. Une image numérique d'entrée I est d'abord appliquée à une unité de traitement 150 qui assure la conversion de l'image numérique d'entrée I en une image G définie par des niveaux de gris.

L'image G en niveaux de gris est elle-même appliquée à une unité de traitement 160. L'unité de traitement 160 comprend un module d'entrée 163, qui peut assurer par exemple le calcul de la transposée de la matrice de l'image G en niveaux de gris, ou de la transposée de matrices représentatives de masques morphologiques.

Le module d'entrée 163 peut également, le cas échéant, permettre de définir (a priori) des régions de l'image G qui constituent des sous- ensembles dans lesquels se fera le processus de recherche de zones de texte.

Le module d'entrée 163 coopère avec un module 161 de multirésolution qui comprend des moyens d'interpolation pour transformer une image qui lui est appliquée en une image de plus faible résolution.

Le module d'entrée 163 coopère également avec un module 162 de seuillage qui transforme une image en niveaux de gris qui lui est appliquée en une image binaire BW.

Le module d'entrée 163 peut faire appel aux modules 161 et 162 dans un ordre quelconque. Chacun des modules 161, 162 peut également utiliser comme image d'entrée directement une image produite par l'autre module.

L'image binaire fournie en sortie de l'unité de traitement 160 est appliquée à une unité 170 de localisation de zones de texte potentielles. L'unité 170 de localisation comprend un ou plusieurs filtres morphologiques et permet d'appliquer des masques morphologiques sur l'image binaire issue de l'unité de traitement 160 pour réaliser la fermeture de blocs susceptibles de contenir du texte.

On obtient ainsi en sortie de l'unité de localisation 170 une image binaire dans laquelle les régions de texte potentielles sont représentées par des blocs blancs rectangulaires fermés.

L'unité de sélection 180 permet ensuite de sélectionner les zones de texte effectives à partir des zones de texte potentielles mises en évidence par l'unité de localisation 170. L'unité de sélection 180 met en œuvre le procédé précédemment décrit de découpage de l'intensité appliqué à l'image en niveaux de gris issue de l'unité de traitement 160, et applique à toutes les régions candidates susceptibles de contenir du texte mises en évidence par l'unité de localisation 170 un filtrage consistant en une analyse de la variation spatiale des régions candidates, après avoir réalisé une séparation des pixels du fond de l'image.

Les unités et modules du système de localisation automatique de zones de texte dans une image peuvent être réalisés sous une forme matérielle ou logicielle. Une unité de traitement 190 agit sur l'image numérique de départ I, dans les zones localisées et sélectionnées par les unités de localisation 170 et de sélection 180, pour effectuer divers traitements classiques de reconnaissance optique de caractères. Ces traitements classiques ne sont ainsi appliqués que sur des régions ciblées très limitées de l'image d'entrée.

Claims

REVENDICATIONS

1. Procédé de localisation automatique de zones de texte dans une image numérique, comprenant une première étape (10, 20) de conversion de l'image numérique en image binaire, une deuxième étape

(30) de localisation de zones de texte potentielles et une troisième étape

(40) de sélection de zones de texte effectives, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris et une étape (21) de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image d'entrée I, avec 0 < M < 1, et en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans l'image d'origine.

2. Procédé selon la revendication 1, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (22) de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW en une valeur 1 correspondant au blanc.

3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité de cette ligne ou de cette colonne présentent tous les deux la valeur 1.

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce rectangle ou de ce carré présentent tous les deux la valeur 1.

5. Procédé selon la revendication 1, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape (20) de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0.

6. Procédé selon la revendication 5, caractérisé en ce que ledit pourcentage définissant ledit seuil est de l'ordre de 75%.

7. Procédé selon l'une quelconque des revendications 3 et 4, caractérisé en ce que la deuxième étape de localisation (30) de zones de texte potentielles comprend en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.

8. Procédé selon l'une quelconque des revendications 3 à 5, caractérisé en ce que lors de la deuxième étape (30) de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire.

9. Procédé selon la revendication 8, caractérisé en ce qu'on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée te et on applique à cette matrice transposée te les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire.

10. Procédé selon la revendication 8, caractérisé en ce qu'on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs morphologiques transposés.

11. Procédé selon l'une quelconque des revendications 1 à 10, caractérisé en ce que la troisième étape (40) de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliquée à l'image en niveaux de gris.

12. Procédé selon la revendication 11, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L], selon la fonction v = f(a) avec a si a < u v = {

L si a > u

où u est une constante représentant une valeur de niveau de gris compris entre 0 et L.

13. Procédé selon la revendication 11, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L], où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [u,L] où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec

u si a < u v = {

L si a > u.

14. Procédé selon l'une quelconque des revendications 12 et 13, caractérisé en ce que la valeur de la constante u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante : 1/ L est initialisée avec la valeur N représentant la couleur blanche,

15. Procédé selon la revendication 14, caractérisé en ce que ledit seuil représente 2% du nombre total de pixels de l'image.

16. Procédé selon l'une quelconque des revendications 11 à 15, caractérisé en ce qu'après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement Pi et P₂ et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(Pι, P₂) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.

17. Procédé selon la revendication 16, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhι_g(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhι_g(i) avec la ligne adjacente qui précède immédiatement Rhι_g(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhι_g(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos _hig o et Pos Rhig(i-i) ou respectivement entre les ensembles Pos Rhigc et Pos R ig(i₊i) qui concernent des positions pour les pixels des lignes Rhι_g(i) et Rhι_g(i-1), ou respectivement des lignes Rhι_g(i) et Rhι_g(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite première direction privilégiée.

18. Procédé selon la revendication 16 ou la revendication 17, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhι_g(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhι_g(i) et on ajoute à la ligne représentative Rhι_g(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhι_g(i).

19. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la première direction privilégiée est une direction horizontale.

20. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la première direction privilégiée est une direction verticale.

21. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la ligne représentative Rhι_g(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur maximale L correspondant au blanc.

22. Procédé selon l'une quelconque des revendications 1 à 21, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la forme de parallélogrammes.

23. Procédé selon la revendication 22, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la forme de rectangles.

24. Procédé selon la revendication 1, caractérisé en ce que, après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des zones de texte.

25. Système de localisation automatique de zones de texte dans une image numérique, comprenant une unité (150 ; 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par ladite unité (170) de localisation, caractérisé en ce que l'unité (150 ; 160) de conversion d'une image numérique d'entrée I en image binaire comprend des moyens (150) de conversion d'une image numérique I en une image G définie par des niveaux de gris, et au moins un module de multirésolution (161) comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution et en ce que l'unité (170) de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire.

26. Système selon la revendication 25, caractérisé en ce que l'unité (150 ; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage (162) pour transformer une image d'entrée en niveaux de gris en une image binaire BW.

27. Système selon l'une quelconque des revendications 25 et 26, caractérisé en ce qu'il comprend des moyens (163) de transposition de matrices représentatives d'images ou de masques morphologiques.

28. Procédé selon l'une quelconque des revendications 1 à 24, caractérisé en ce qu'il est appliqué à la détection et à la reconnaissance de logos dans des émissions de télévision.