WO2004013802A2 - Procede et systeme de localisation automatique de zones de texte dans une image - Google Patents

Procede et systeme de localisation automatique de zones de texte dans une image Download PDF

Info

Publication number
WO2004013802A2
WO2004013802A2 PCT/FR2003/002406 FR0302406W WO2004013802A2 WO 2004013802 A2 WO2004013802 A2 WO 2004013802A2 FR 0302406 W FR0302406 W FR 0302406W WO 2004013802 A2 WO2004013802 A2 WO 2004013802A2
Authority
WO
WIPO (PCT)
Prior art keywords
image
pixels
text
value
binary image
Prior art date
Application number
PCT/FR2003/002406
Other languages
English (en)
Other versions
WO2004013802A3 (fr
Inventor
Walid Mahdi
Mohsen Ardabilian
Liming Chen
Original Assignee
Ecole Centrale De Lyon
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecole Centrale De Lyon filed Critical Ecole Centrale De Lyon
Priority to EP03750862A priority Critical patent/EP1525553A2/fr
Priority to AU2003269080A priority patent/AU2003269080A1/en
Publication of WO2004013802A2 publication Critical patent/WO2004013802A2/fr
Publication of WO2004013802A3 publication Critical patent/WO2004013802A3/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention relates to a method and a system for automatically locating text areas in an image.
  • OCR optical character recognition
  • WO 01/69529 A2 describes a method for locating text in digital images. According to this method, a digital image is first scaled into images of different resolutions, and then a neural network is used to determine whether the pixels in the images of different resolutions are part of text boxes or not. The results obtained are then represented by initial boxes including text. These initial boxes containing text are then examined using horizontal or vertical projection profiles with adaptive thresholds.
  • the document WO 00/63833 describes a method for segmenting an image into text areas and areas without text. This process is based on a simple spatial quantification, based on blocks, of the gray level histogram at 15 intensity levels.
  • the object of the present invention is to remedy the drawbacks of the systems and methods of the prior art and to allow reliable detection of text zones in an image, so that the text zones located by the method and the system according to the invention. he invention could then be the subject of a conventional optical character recognition processing in order to obtain complete texts.
  • the invention aims in particular to allow the localization of text zones in video images of different types of programs (advertising, television information, short or feature films, etc.) and whatever the presentation of this text, with different types and styles of characters and even in the case where the background image is complex.
  • the invention thus aims to enable a search by semantic content in sequences of images, taking into account both indications in the form of natural text appearing in images, such as street names or shop signs, only in the form of artificial text introduced, for example in the form of subtitles, in a post-processing of the images, after the shooting.
  • a method for automatically locating text areas in a digital image characterized in that it comprises a first step of converting the digital image into a binary image, a second step of locating text areas potentials and a third step of selecting effective text areas.
  • the second step of locating potential text areas includes the application of morphological operations on the binary image in order to produce closed blocks capable of containing text, in the original image. If the image or images to be processed are not already in digital form, a preliminary step may simply consist in an analog-digital conversion of the images to be processed.
  • the first step comprises a step of converting a digital image into an image defined by gray levels.
  • the first step of converting the digital image into a binary image comprises a multiresolution step using an interpolation method to transform an input image I into an output image J of lower resolution whose size is M times that of the input image I, with 0 ⁇ M ⁇ 1.
  • the first step of converting the digital image into a binary image comprises a binarization step using a thresholding method to transform an input image I in gray levels into a binary image BW, each pixel of the input image I having a value lower than a predefined threshold being converted in the binary image BW to a value 0 corresponding to black and all the other pixels of the input image I being converted in l binary image BW at a value 1 corresponding to white.
  • a thresholding method to transform an input image I in gray levels into a binary image BW, each pixel of the input image I having a value lower than a predefined threshold being converted in the binary image BW to a value 0 corresponding to black and all the other pixels of the input image I being converted in l binary image BW at a value 1 corresponding to white.
  • the second step of locating potential text areas includes the application of different morphological masks in an order which can be adapted to the particular contexts of implementation of the invention.
  • the second step of locating potential text areas comprises the application of at least one morphological mask to perform on the binary image at least one morphological operation according to which the value 1 is assigned to all the pixels d 'a line or column when in the binary image the end pixels of this line or of this column both have the value 1.
  • the second step of locating potential text zones comprises the application of at least one morphological mask to perform on the binary image at least one morphological operation according to which the value 1 is assigned to all the pixels d 'a rectangle or a square defined on two lines or two columns when in the binary image two pixels located diagonally at the ends of this rectangle or this square both have the value 1.
  • the second step of locating potential text areas comprises an initial step according to which a morphological mask is applied to perform on the binary image a morphological operation according to which, for each row or each column comprising at its ends two pixels of value 1 and having a length greater than a threshold corresponding to a percentage less than 100% of the dimension of the ima ge resulting from the multiresolution step, all the pixels of the row or column considered are assigned a value 0.
  • this threshold at 75% of the width of the image resulting from the multiresolution step when the line is the preferred direction.
  • the second step of locating potential text areas can firstly include the application of a morphological mask to perform on the binary image a morphological operation according to which the value 0 is assigned to each pixel of the binary image which is surrounded by pixels which all have the value 0.
  • the operations are applied morphological by considering exclusively the lines of the binary image.
  • one proceeds to a transposition of the image defined by gray levels and represented by a matrix G into a transposed image represented by a transposed matrix 'G and one applies to this matrix transposed t G the morphological operations of the second step of locating potential text areas by exclusively considering the lines of the binary image.
  • the morphological operations of the second step of locating potential text areas are again applied to the image G defined by gray levels and represented by a matrix G, exclusively considering the columns of l binary image through the use of transposed morphological operators.
  • the third step of selecting effective text zones comprises a prior step of separating the pixels belonging to the background of the image, during which a division is made of the intensity applied to the image in shades of grey.
  • u is a constant representing a gray level value between 0 and L.
  • the value of the constant u can be determined dynamically from the histogram H of the grayscale image G comprising N shades, obtained from the input image I after the conversion step d '' a digital image into an image defined by gray levels, as follows:
  • the threshold is fixed at 2% of the total number of pixels in the image, but this threshold can be modified depending on the application.
  • the effective text areas are filtered by locating the two most important peaks of the histogram of each of the potential text zones, these two most important peaks being identified by their positions Pi and P 2 respectively and by classifying as effective text zone any zone for which the distance D (P ⁇ , P 2 ) is greater than a predetermined threshold S and ignoring any other potential text area that does not meet this condition.
  • the method according to the invention further comprises a step of delimiting the borders of the effective text zones in a first preferred direction, according to which for each effective text zone, first a representative line Rh ⁇ g (i) oriented according to the first preferred direction among all the lines of the effective text zone considered oriented in this first preferred direction, the line Rh ⁇ g (i) is compared with the adjacent line which immediately precedes Rh ⁇ g (i-1) and respectively with the adjacent line immediately following Rh ⁇ g (i + 1), for each couple of lines, we decide to merge the two lines into a single block of text if the intersection is not empty between the Pos higQ and Pos Rhigo-i sets) or respectively between the sets Pos Rh ig i) and Pos Rhig (i + i) which relate to positions for the pixels of the lines Rh ⁇ g (i) and Rh ⁇ g (i-1), or respectively of the lines Rh
  • the method according to the invention may also comprise a step of delimiting the borders of the effective text areas oriented in a second preferred direction perpendicular to the first preferred direction, according to which, for each effective text area, first selecting a representative line Rh ⁇ g (i) oriented in the first preferred direction among all the lines in the text area effective considered oriented in the first preferred direction, at each iteration, we only consider the pixels lying on either side of, the pixels forming said representative line Rh ⁇ g (i) and added to the representative line Rh ⁇ g (i ) exclusively the pixels having the same color as the pixels of the representative line Rh ⁇ g (i).
  • the first preferred direction can be a horizontal or vertical direction.
  • the representative line Rh ⁇ g (i) oriented in the first preferred direction is constituted by the line comprising the maximum number of pixels having a value equal to the maximum value L corresponding to white.
  • the closed blocks produced capable of containing text advantageously have the form of parallelograms and preferably the form of rectangles.
  • a limited area of the image is preselected to which the other processing steps are applied aimed at locating text areas .
  • the invention also relates to a system for automatically locating text areas in a digital image, characterized in that it comprises a unit for converting an input digital image into a binary image, a unit for locating text areas potentials applied to the binary image and a unit for selecting effective text zones highlighted by said localization unit.
  • the unit for locating potential text areas comprises means for applying at least one morphological filter to the binary image resulting from the conversion of the digital image into a binary image.
  • the unit for converting an input digital image I into a binary image comprises means for converting a digital image I into an image G defined by gray levels.
  • the unit for converting an input digital image into a binary image comprises at least one multiresolution module comprising interpolation means for transforming an input image into an output image of lower resolution .
  • the unit for converting an input digital image into a binary image comprises at least one thresholding module for transforming an input image in gray levels into a binary image BW.
  • the system includes means for transposing matrices representative of morphological images or masks.
  • the method and the system according to the invention can give rise to a very large number of applications.
  • Such a system for detecting and recognizing number plates may include a device for capturing digital images, such as a digital video camera, an image analysis module, and a database management system for storing and comparing data.
  • the image analysis module must first locate the area of the license plate, then extract this area and provide the information relating to this area, if applicable if necessary after a post-processing, at the entry of an OCR type system to obtain, in the form of an alphanumeric text, the indications of the registration number.
  • Another possible application of the method and of the system according to the invention consists in the detection of logos and the recognition of these in television broadcasts.
  • FIG. 1 is a flowchart showing schematically the main steps of the method for automatically locating text areas in an image, in accordance with the invention
  • FIG. 2A shows an example of starting image comprising two text areas against a complex background
  • FIG. 2B represents an output binary image having undergone a first processing of enhancement of the shapes of potential text zones, in accordance with the invention
  • FIG. 2C represents a binary image which has also given rise to the elimination of manifestly incorrect potential text areas
  • FIG. 2D represents an image such as that of FIG. 2C having also given rise, in accordance with the invention, to a step of locating potential text areas by the application of morphological masks,
  • FIG. 3 shows on a larger scale the image of Figure 2D
  • - Figures 4 to 8 show the histograms of the different potential text regions of Figure 3, after applying a step of separating the pixels from the areas of potential text relative to the background of the image,
  • FIGS. 9 to 15 represent various examples of the application of morphological masks to an image such as that of FIG. 2C or, where appropriate, of FIG. 2B,
  • - Figure 16 shows various examples of images presenting text on a complex background and to which the method according to the invention can be applied
  • - Figure 17 is a block diagram showing the essential components of an example system automatic location of text areas in an image, according to the invention.
  • the system and the method according to the invention can be applied to the detection of natural text included in the images from the moment of shooting, such as for example names of shop signs, names of streets or indications on signs or bulletin boards. This is the case, for example, of image 143 in FIG. 16 which shows on a door a function name "guardian".
  • the invention also applies to the detection of artificial text superimposed on images during editing.
  • Natural text has certain special characteristics which can be used to facilitate detection: - the characters of the text are in the foreground,
  • the characters of the text have dimensions framed within certain limits (for example, a letter is never as large as the surface of the screen and the minimum size of the characters includes a minimum number of pixels for the characters to be readable) .
  • the method according to the invention applies to digital images having a complex background, which may have a low resolution and be affected by noise, and without control parameters.
  • the method can thus be applied to video images, limits false detections and makes it possible to locate and extract text zones with very high reliability, even with low quality images.
  • FIG 1 shows the main steps of the method according to the invention.
  • step 10 From a digital color image, first of all a step 10 is carried out to transform the digital image into a gray level digital image.
  • Step 20 can include a multiresolution step 21 and a binarization step 22, the order of steps 21 and 22 being interchangeable.
  • step 30 With the binary image resulting from step 20, one proceeds in step 30 to a localization of the potential text areas to obtain a binary image with potential text areas delimited by white blocks.
  • the effective text areas are selected, which can then be subjected in the initial digital image to a conventional optical character recognition (OCR) process.
  • OCR optical character recognition
  • the starting image is a digital image represented by one or more matrices. If this is not the case, for example if the input image is in a compressed format such as for example the JPEG format, we first convert the input image into a digital image in a matrix form . In the same way, if one has input images in analog form, one converts first by conventional techniques, these analog images in a digital form.
  • the digital input image I is a color image
  • this is converted into a grayscale image G.
  • This conversion step 10 can be carried out by conventional techniques. It consists of a simple conversion of a digital color image, generally represented by three matrices in the color space, for example RGB, into a grayscale matrix. This step is necessary and essential for step 22 of binarization which will be described in more detail in the following description.
  • the initial step 10 can also if necessary be accompanied by an additional step of calculating the transposed matrix of the matrix G.
  • the transposed matrix te resulting from this operation can be used for example for the detection of regions of vertical text .
  • the transpose ⁇ of the matrix A is formed by interchanging the rows and the columns of the matrix A.
  • the i th row of the matrix A becomes the i th column of the transposed matrix * To whatever i.
  • the transposed matrix ⁇ is thus an nx m matrix.
  • a digital image I and a morphological operator M can both be considered as matrices, the transposed matrices of which can be determined according to the definition given above.
  • the step 30 of locating potential text zones comprises the application of morphological filters.
  • a morphological filter is a mask.
  • the regions of the image in which text is likely to appear are known in advance, for example in the case detection of artificial text, such as subtitles, it is also possible from the initial step 10, to define a preferred region in which the text zones will be sought.
  • a preferred region definition makes it possible to speed up the localization process by limiting the extent of the image to which all of the steps 20 to 40 of the method illustrated in FIG. 1 are applied.
  • step 20 of enhancing the shapes of the text zones.
  • the location of probable areas of text presence in an image is part of an image preprocessing which is fundamental to allow the correct detection of text.
  • a multiresolution approach and a conversion of the grayscale image into a binary image are used to highlight the shapes of probable text zones.
  • the conversion of an input image in gray levels I into a binary image BW takes place by thresholding.
  • the output binary image BW has a value of 0 (black) for all the pixels of the input image I which have a value below a predetermined threshold and a value of 1 (white) for all the others. pixels.
  • step 21 The implementation of a multiresolution method (step 21) for locating lines of text is based on the basic characteristic that a line of text appears as a solid line in a low resolution image.
  • the multiresolution method when applied to an input image I, results in producing an output image J which has M times the size of the image I..
  • image J is smaller than image I. If M is greater than 1.0, image J is larger than image I.
  • M is greater than 1.0, image J is larger than image I.
  • the parameter M can vary and be adapted for example to the size of the image.
  • the method according to the invention does not depend on the value of the parameter M, as long as it is between 0 and 1. It is also possible to change the threshold value used to convert a grayscale image into a binary image , for example depending on the input image. For example, this threshold value can be of the order of 0.7.
  • Figure 2B clearly shows that the multiresolution method makes it possible to filter the input image while keeping only related components having a homogeneous color corresponding to a significant area.
  • Step 30 of locating potential text areas consists of applying morphological masks to binary images such as those of FIGS. 2B or 2C in order to obtain the closing of blocks likely to contain text, by filling in the areas spaces between characters or words.
  • the starting binary image is an image such as those of
  • Figures 2B or 2C from step 20, several binary morphological operations are repeatedly applied until the image obtained J no longer presents many changes compared to the previous image and presents an appearance with closed blocks such as that of Figure 2D.
  • three different morphological masks can be used to close the blocks likely to contain text. These different morphological masks can be combined with each other and applied in different orders.
  • the first morphological mask Mi is represented in FIG. 9. Considering a line 50 of pixels 51 to 58, all the intermediate pixels 52 to 57 are set to the value "1" regardless of their initial value “0" or "1 ", when the end pixels 51 and 58, on the left and on the right have the value 1.
  • the same operation can be done on columns, for example by using the transposed matrix of Mi, as indicated above, or by using the transpose of the matrix representing the input image.
  • the second morphological mask Nb is represented in FIG. 10.
  • Starting rectangles 60 and 70 comprising pixels 61 to 66 and 71 to 76 are transformed into a rectangle 80 comprising pixels 81 to 86.
  • the starting rectangle 60, respectively 70 includes pixels
  • the rectangle 80 of the transformed image comprises pixels 81 to 86 which all have the value "1".
  • the operation of the morphological mask Nb can be applied to rows or columns using transposed matrices.
  • the third morphological mask M is shown in Figure 11.
  • This mask M 3 is very similar to the morphological mask Nb and aims to obtain the closure of diagonals. From square elements 90A, 90B of a starting image, a square element 100 of converted image is obtained.
  • FIGS. 12 and 13 show two examples of the application of the third morphological mask M 3 .
  • the square 90C comprising two diagonal pixels 92C, 93C having the value "1" and the other two pixels 91C, 94C which having the value "0".
  • a second step we give the value "1" to the pixel 91C located at the top left, while the other pixels 92C to 94C are unchanged, so that we obtain a square 100 of which all the pixels 111 to 114 have the value 1.
  • Figure 13 shows a case similar to that of Figure 12 but where we proceed symmetrically.
  • the starting square 90D we start by giving the value "1" to the pixel 90D located at the top left which initially has the value 0, the other pixels 92D to 94D having unchanged values equal to "1" for the pixels 92D, 93D and equal to 0 for the pixel 94D.
  • Pixel 94D 'located at the bottom right is then given the value "1" while the other pixels 91D' to 93D 'have an unchanged value "1".
  • a square 100 is thus obtained in the same way, all the pixels 111 to 114 of which have the value 1.
  • the operations of FIGS. 12 to 13 can be carried out in parallel, which corresponds to the process illustrated in FIG. 11.
  • Figures 2D and 3 show all regions as closed blocks 1 to 5 with a probability of containing text. We can note that we can identify five candidate zones 1 to 5 likely to contain text whereas in the initial image of Figure 2A we see only two zones actually containing
  • the detection of potential text regions on the input image I can be derived by mapping between the coordinates of blocks of potential text in the binary image and those of the input image I. We can then apply to potential text regions detected on the input image various OCR techniques.
  • step 20 based on multiresolution and binarization is an effective process when applied to a document containing text, in which a pixel belongs either to the background of the image, or to a certain significant object of the image.
  • a digital image comprising a complex background
  • step 21 of multiresolution constitutes only a preprocessing making it possible to carry out a first location of candidate regions likely to contain text.
  • Each candidate region 1 to 5 (FIG. 3) is then examined again during a selection step 40 in order to determine whether this candidate region actually contains text or not.
  • the step 40 for selecting effective text areas itself comprises two steps which include separating the pixels from the background of the image and filtering the effective text regions.
  • the step of separating the background pixels from the image aims to highlight the pixels of the characters with respect to the background of the image.
  • a method of cutting out the intensity of the grayscale image obtained after the first image transformation step is applied. This technique is useful when different characteristics of an image are contained in different levels of gray.
  • the value of u is determined dynamically from the histogram H of the grayscale image G (for example in 256 shades) obtained from the input image I after the step 10, as follows:
  • L is initialized with the value 256 (white color). 2. To determine the value of u, we first calculate the number of pixels Nb having the color 256, then we gradually add to the number Nb the number of pixels having the color 255, then 254 and so on until the number Nb is greater than a threshold representing a small percentage of the total number of pixels in the image. The last color of the histogram H, taken into account in this operation, is assigned to u.
  • the threshold is fixed at 2% of the total number of pixels, but this threshold can be modified according to the applications.
  • the effective text regions are filtered by a simple analysis of the spatial variation of all the candidate regions likely to contain text, after transformation by the previously described operation of separating the pixels representing characters from the background of the 'picture. This analysis is based on the characteristic according to which the characters of a text generally present a significant contrast with the background.
  • Figures 4 to 8 represent such an approach applied to the potential text regions 1 to 5 identified in Figure 3.
  • the potential text region is considered to be an effective text region. Otherwise, it is simply ignored.
  • regions 1, 2 and 3 in Figure 3 have little spatial variation, since the distances between the local maximums 101, 102 ( Figure 4), 201 to 204 ( Figure 5), 301 to 305 ( Figure 6) are weak. As a result, these regions will then be ignored.
  • regions 4 and 5 of Figure 3 have a strong spatial variation, since the distances D (P ⁇ , P 2 ) between the local maximums 401, 402 ( Figure 7) or 501, 502 ( Figure 8) are high. These regions 4 and 5 will therefore be retained.
  • the threshold value can be chosen for example to be equal to 15% of the total number in the gray scale levels.
  • the precision of the method is all the better the higher the threshold value.
  • the method according to the invention can present various variants and additional steps aimed at better delimiting the borders of the text regions or at speeding up the whole process by eliminating a few potential text regions which are obviously negative.
  • Rh ⁇ g (i) can be made by selecting the line which is formed by the maximum number of horizontally aligned pixels belonging to characters.
  • the selected line Rh ⁇ g (i) will be the line formed by the maximum number of pixels having a value equal to L because after the transformation consisting in separating the pixels from the background, the characters in a text region are considered to be monochrome and contrast with the background of the image.
  • Rh ⁇ g (i) we then proceed to a comparison of Rh ⁇ g (i) with the adjacent line Rh ⁇ g (i-1) which immediately precedes (respectively with the adjacent line Rh ⁇ g (i + 1) which immediately follows), in order to decide whether to merge or not the two lines in the same text block.
  • the fusion criterion is based on the spatial distribution of the gray values and the principle of connected monochrome pixels as follows: Let Pos R h ig (i) and Pos Rhig ⁇ -i) (respectively Pos Rhigo + i)) two sets which describe the positions of the pixels in the line Rh ⁇ g (i) and Rhig (il) (respectively Rh ⁇ g (i + 1)) which have a gray value equal to L.
  • the delimitation principles can be applied which have just been exposed, for example by first carrying out a vertical delimitation. But this amounts to working on the transposition of the matrix which represents the input image, as was explained above in relation to the transformation of digital images.
  • the process of locating text regions can be speeded up when one has some prior knowledge of regions likely to contain text.
  • FIG. 2C illustrates the result of such a negative-form elimination method applied to the image of FIG. 2B.
  • FIG. 14 it can be seen that, for a line 120 comprising pixels 121 to 128, the two end pixels 121 and 128 of which have the value "1", while the other pixels 122 to 127 each have a value " 0 "or” 1 ", in the case where the length of the line is greater than a threshold l t (for example equal to 75% of the size of the image resulting from the multiresolution process), then all the pixels 121 to 128 are set to the value "0" corresponding to black.
  • a threshold l t for example equal to 75% of the size of the image resulting from the multiresolution process
  • Figure 15 shows another example of a possible improvement consisting of filling in diagonals to eliminate an isolated pixel in the background of the image.
  • the morphological operator NI5 illustrated in FIG. 15 consists, in a square 130 of nine pixels, of giving the value "0" to an isolated central pixel 135 of value "1" surrounded by eight pixels 131 to 134, 136 to 139 of value "0".
  • FIG. 17 shows the block diagram of an example of an automatic system for locating text areas in an image implementing the invention.
  • An input digital image I is first applied to a processing unit 150 which converts the input digital image I into an image G defined by gray levels.
  • the grayscale image G is itself applied to a processing unit 160.
  • the processing unit 160 comprises an input module 163, which can, for example, calculate the transpose of the matrix of the image G in gray levels, or of the transpose of representative matrices of morphological masks.
  • the input module 163 can also, if necessary, make it possible to define (a priori) regions of the image G which constitute subsets in which the process of searching for text zones will be carried out.
  • the input module 163 cooperates with a multiresolution module 161 which includes interpolation means to transform an image applied to it into a lower resolution image.
  • the input module 163 also cooperates with a thresholding module 162 which transforms a grayscale image which is applied to it into a binary image BW.
  • the input module 163 can call on modules 161 and 162 in any order. Each of the modules 161, 162 can also use as an input image directly an image produced by the other module.
  • the binary image output from the processing unit 160 is applied to a unit 170 for locating potential text areas.
  • the location unit 170 includes one or more morphological filters and makes it possible to apply morphological masks to the binary image from the processing unit 160 in order to close blocks likely to contain text.
  • the selection unit 180 then makes it possible to select the effective text zones from the potential text zones highlighted by the localization unit 170.
  • the selection unit 180 implements the previously described method of cutting out the intensity applied to the grayscale image from the processing unit 160, and applies to all candidate regions likely to contain text highlighted by the location unit 170 a filtering consisting of an analysis of the spatial variation of the candidate regions, after having carried out a separation of the pixels from the background of the image.
  • the units and modules of the system for automatically locating text areas in an image can be produced in hardware or software.
  • a processing unit 190 acts on the initial digital image I, in the areas located and selected by the location units 170 and selection 180, to carry out various conventional treatments of optical character recognition. These conventional treatments are therefore only applied to very limited targeted regions of the input image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

Le système de localisation automatique de zones de texte dans une image numérique comprend une unité (150, 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par l'unité de localisation (170). L'unité (170) de localisation de zones de texte potentielles comprend avantageusement des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. L'unité (180) de sélection met en oeuvre un procédé de découpage de l'intensité appliqué à l'image en niveaux de gris issue d'une unité de traitement (160) contenue dans l'unité (150, 160) de conversion en image binaire.

Description

Procédé et système de localisation automatique de zones de texte dans une image
Domaine de l'invention La présente invention a pour objet un procédé et un système de localisation automatique de zones de texte dans une image.
Art antérieur
Il existe déjà de nombreux articles présentant des travaux relatifs à la reconnaissance automatique de caractères dans une image numérique. A titre d'exemple, on peut se référer à l'article de Ohya, 1, Shio, A., Akomatsu, S. intitulé "Recognïzing characters in scène images" paru dans IEEE Trans. On PAMI, Vol. 16, No. 2, pp. 214-220, février 1994.
De telles techniques de reconnaissance optique de caractères (OCR) procèdent de la façon suivante : il est d'abord formé une image binaire par application d'un seuil local sur l'image en niveaux de gris. Ensuite, des composants connexes sont extraits de l'image binaire pour obtenir des segments de caractères potentiels. Chaque segment de caractère potentiel est alors examiné par une technique de reconnaissance de caractères.
De tels procédés de reconnaissance optique de caractères créent malheureusement deux problèmes majeurs lorsqu'ils sont appliqués à des images numériques présentant des arrière-plans complexes comme c'est le cas avec des images vidéo. De fait, il s'avère que chaque segment de caractère peut être divisé par erreur en plusieurs composants connexes du fait de divers bruits présents dans les images numériques. De plus, ces procédés sont très coûteux en termes de calcul, car ils appliquent les techniques de l'OCR à chaque segment de caractère candidat.
En vue de limiter le nombre de segments devant faire l'objet d'une vérification de caractère, dans un article de Zhong, Y., Kary, K., Jain, A. K. intitulé "Locating text in complex color images" paru dans "Pattern récognition", Vol. 28, no. 10, 1995, pp. 1523-1535, il a été proposé deux procédés particuliers de détection automatique de zones de texte dans des images en couleurs. Le premier procédé utilise la segmentation de composants connexes. Ce procédé fonctionne difficilement avec des images vidéo, car il présuppose qu'un caractère est un composant connexe qui est séparé des autres objets à l'intérieur de l'image. Le second procédé se fonde sur le principe de la variance spatiale. De fait, la variance spatiale de régions de texte est généralement plus importante que le fond d'une image. Les essais pratiqués ont montré que ceci pouvait contribuer à faciliter la détection de texte mais que cela restait en soi insuffisant.
Le document WO 01/69529 A2 décrit un procédé pour localiser du texte dans des images numériques. Selon ce procédé, une image numérique est d'abord mise à l'échelle en images de résolutions différentes, puis un réseau neuronal est utilisé pour déterminer si les pixels dans les images de résolutions différentes font partie de zones de texte ou non. Les résultats obtenus sont alors représentés par des boîtes initiales englobant du texte. Ces boîtes initiales englobant du texte sont ensuite examinées en utilisant des profils de projection horizontale ou verticale ayant des seuils adaptatifs.
Le document WO 00/63833 décrit un procédé pour segmenter une image en zones de texte et zones sans texte. Ce procédé est basé sur une simple quantification spatiale, basée sur des blocs, de l'histogramme des niveaux de gris à 15 niveaux d'intensité.
Les différentes techniques connues d'extraction de texte dans des images manquent ainsi de fiabilité ou de finesse ou sont limitées à des images de caractéristiques particulières. Obiet et description succincte de l'invention
La présente invention a pour but de remédier aux inconvénients des systèmes et procédés de l'art antérieur et de permettre une détection fiable de zones de texte dans une image, de telle sorte que les zones de texte localisées par le procédé et le système selon l'invention puissent ensuite faire l'objet d'un traitement classique de reconnaissance optique de caractères afin d'obtenir des textes complets.
L'invention vise en particulier à permettre la localisation de zones de texte dans des images vidéo de différents types de programmes (publicité, informations télévisées, films de court ou long métrage,...) et quelle que soit la présentation de ce texte, avec différents types et styles de caractères et même dans le cas où le fond d'image est complexe.
L'invention vise ainsi à permettre une recherche par le contenu sémantique dans des séquences d'images, en prenant en compte aussi bien des indications sous forme de texte naturel apparaissant dans des images, tels que des noms de rues ou des enseignes de magasins, que sous forme de texte artificiel introduit, par exemple sous forme de sous- titres, dans un post-traitement des images, après la prise de vue.
Ces buts sont atteints grâce à un procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape de conversion de l'image numérique en image binaire, une deuxième étape de localisation de zones de texte potentielles et une troisième étape de sélection de zones de texte effectives. Avantageusement, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans l'image d'origine. Au cas où l'image ou les images à traiter ne seraient pas déjà sous forme numérique, une étape préalable peut simplement consister en une conversion analogique-numérique des images à traiter.
Selon l'invention, la première étape comprend une étape de conversion d'une image numérique en une image définie par des niveaux de gris.
Avantageusement, la première étape de conversion de l'image numérique en image binaire comprend une étape de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image d'entrée I, avec 0 < M < 1.
Selon un autre aspect de l'invention, la première étape de conversion de l'image numérique en image binaire comprend une étape de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW en une valeur 1 correspondant au blanc. Lorsque l'on effectue à la fois un traitement de multirésolution et une binarisation utilisant un procédé de seuillage, l'ordre des deux opérations peut être interchangé en fonction des applications envisagées.
La deuxième étape de localisation de zones de texte potentielles comprend l'application de différents masques morphologiques selon un ordre qui peut être adapté aux contextes particuliers de mise en œuvre de l'invention.
De façon plus particulière, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité de cette ligne ou de cette colonne présentent tous les deux la valeur 1.
Selon un autre aspect, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce rectangle ou de ce carré présentent tous les deux la valeur 1. Avantageusement, après une étape de multirésolution, la deuxième étape de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0. On peut choisir à titre d'exemple ce seuil à 75% de la largeur de l'image résultant de l'étape de multirésolution lorsque la ligne est la direction privilégiée.
Selon un autre aspect de l'invention, la deuxième étape de localisation de zones de texte potentielles peut comprendre en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.
Selon un mode de réalisation particulier, lors de la deuxième étape de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire.
Dans ce cas, selon un premier mode de réalisation possible, on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée 'G et on applique à cette matrice transposée tG les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire. Selon un deuxième mode de réalisation possible, on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs morphologiques transposés.
Selon une caractéristique avantageuse, la troisième étape de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliqué à l'image en niveaux de gris.
Dans ce cas, selon un premier mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L] selon la fonction v = f(a) avec a si a < u v = {
L si a > u où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Selon un autre mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un, mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'espace [u, L], où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v = { L si a > u.
La valeur de la constante u peut être déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante :
1/ L est initialisée avec la valeur N représentant la couleur blanche,
2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (N- 1), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise en compte dans cette opération.
Avantageusement, le seuil est fixé à 2% du nombre total de pixels de l'image, mais ce seuil peut être modifié en fonction de l'application.
Selon une caractéristique préférentielle du procédé selon l'invention, après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement Pi et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(Pι, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.
Le procédé selon l'invention comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhιg(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhιg(i) avec la ligne adjacente qui précède immédiatement Rhιg(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhιg(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos higQ et Pos Rhigo-i) ou respectivement entre les ensembles Pos Rhig i) et Pos Rhig(i+i) qui concernent des positions pour les pixels des lignes Rhιg(i) et Rhιg(i-1), ou respectivement des lignes Rh|g(i) et Rhιg(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite première direction privilégiée. Le procédé selon l'invention peut en outre comprendre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhιg(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des , pixels formant ladite ligne représentative Rhιg(i) et on ajoute à la ligne représentative Rhιg(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhιg(i).
La première direction privilégiée peut être une direction horizontale ou verticale.
De façon particulière, la ligne représentative Rhιg(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur maximale L correspondant au blanc.
Selon l'invention, les blocs fermés produits susceptibles de contenir du texte présentent avantageusement la forme de parallélogrammes et de préférence la forme de rectangles. Pour certaines applications, après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des zones de texte.
L'invention concerne également un système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité de conversion d'une image numérique d'entrée en image binaire, une unité de localisation de zones de texte potentielles appliquées à l'image binaire et une unité de sélection de zones de texte effectives mises en évidence par ladite unité de localisation. Avantageusement, l'unité de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. De préférence, l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens de conversion d'une image numérique I en une image G définie par des niveaux de gris.
Selon une caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution.
Selon une autre caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage pour transformer une image d'entrée en niveaux de gris en une image binaire BW.
Avantageusement, le système comprend des moyens de transposition de matrices représentatives d'images ou de masques morphologiques.
Le procédé et le système selon l'invention peuvent donner lieu à un très grand nombre d'applications.
L'invention permet par exemple, pour des raisons de sécurité, d'extraire automatiquement et d'enregistrer les mentions portées sur des plaques d'immatriculation de véhicules automobiles à partir d'images filmées dans diverses situations : par exemple, aux entrées de parcs de stationnement, aux barrières de péage d'autoroutes, dans des stations- service de distribution de carburant, aux points de contrôle de frontières,... Un tel système de détection et de reconnaissance de plaques mineralogiques peut comprendre un dispositif de capture d'images numériques, tel qu'une caméra vidéo numérique, un module d'analyse d'image et un système de gestion de base de données pour le stockage et la comparaison de données. Dans ce contexte, le module d'analyse d'image doit d'abord localiser la zone de la plaque d'immatriculation, puis extraire cette zone et fournir les informations relatives à cette zone, le cas échéant après un post-traitement, à l'entrée d'un système de type OCR pour obtenir, sous la forme d'un texte alphanumérique, les indications du numéro d'immatriculation.
Une autre application possible du procédé et du système selon l'invention consiste en la détection de logos et la reconnaissance de ceux- ci dans des émissions de télévision.
Lors de la vente d'espaces publicitaires pour une diffusion en direct d'un événement, par exemple dans le cadre d'un match de football ou dans une émission de télévision, les opérateurs ont besoin de connaître exactement la visibilité et la durée d'exposition d'une marque qui est affichée dans un espace publicitaire. Pour cela, il est nécessaire de mettre en œuvre un procédé tel que celui de la présente invention, qui est capable d'extraire des zones de texte à partir d'images de l'événement concerné, pour permettre ensuite une comparaison avec des noms de marque ou de désignation préalablement stockés dans une base de données.
Brève description des dessins
D'autres caractéristiques et avantages de l'invention ressortiront de la description suivante de modes particuliers de réalisation, donnés à titre d'exemples, en référence aux dessins qui l'accompagnent, sur lesquels :
- la Figure 1 est un organigramme montrant de façon schématique les étapes principales du procédé de localisation automatique de zones de texte dans une image, conformément à l'invention, - la Figure 2A montre un exemple d'image de départ comportant deux zones de texte sur un fond d'image complexe,
- la Figure 2B représente une image binaire de sortie ayant fait l'objet d'un premier traitement de rehaussement des formes de zones de texte potentielles, conformément à l'invention, - la Figure 2C représente une image binaire ayant donné lieu en outre à une élimination de zones de texte potentielles manifestement incorrectes,
- la Figure 2D représente une image telle que celle de la Figure 2C ayant en outre donné lieu, conformément à l'invention, à une étape de localisation de zones de texte potentielles par l'application de masques morphologiques,
- la Figure 3 montre à une plus grande échelle l'image de la Figure 2D, - les Figures 4 à 8 montrent les histogrammes des différentes régions de texte potentielles de la Figure 3, après application d'une étape de séparation des pixels des zones de texte potentielles par rapport au fond de l'image,
- les Figures 9 à 15 représentent divers exemples d'application de masques morphologiques à une image telle que celle de la Figure 2C ou le cas échéant de la Figure 2B,
- la Figure 16 montre divers exemples d'images présentant du texte sur un fond complexe et auxquelles peut s'appliquer le procédé selon l'invention, et - la Figure 17 est un schéma-bloc montrant les composants essentiels d'un exemple de système de localisation automatique de zones de texte dans une image, conformément à l'invention.
Description détaillée de modes particuliers de réalisation Le système et le procédé selon l'invention peuvent s'appliquer à la détection de texte naturel inclus dans les images dès la prise de vue, comme par exemple des noms d'enseignes de magasins, des noms de rues ou des indications portées sur des panneaux indicateurs ou tableaux d'affichage. C'est le cas par exemple de l'image 143 de la Figure 16 qui fait apparaître sur une porte un nom de fonction "gardien". L'invention s'applique également à la détection de texte artificiel superposé à des images au montage.
C'est, le cas par exemple des images 141 et 142, de la Figure 16.
Ces textes constituent par exemple des logos ("ECL" sur l'image 142), des génériques, des sous-titres de commentaires annonçant un sujet, traduisant des paroles ou donnant des précisions (par exemple, le nom et la fonction de la personne représentée sur l'image 141).
Le texte naturel présente certaines caractéristiques particulières qui peuvent être utilisées pour faciliter la détection : - les caractères du texte sont à l'avant-plan,
- les caractères du texte présentent un bon contraste par rapport au fond car ils sont prévus pour être lus facilement,
- les caractères du texte sont monochromes,
- les caractères du texte présentent des dimensions encadrées dans certaines limites (par exemple, une lettre n'est jamais aussi grande que la surface de l'écran et la taille minimale des caractères comprend un nombre minimum de pixels pour que les caractères soient lisibles). Le procédé selon l'invention s'applique à des images numériques présentant un fond complexe, pouvant présenter une faible résolution et être affectées par le bruit, et sans paramètres de contrôle.
Le procédé peut ainsi s'appliquer à des images vidéo, limite les fausses détections et permet de localiser et extraire avec une très grande fiabilité les zones de texte, même avec des images de faible qualité.
La Figure 1 montre les étapes principales du procédé selon l'invention.
A partir d'une image numérique couleur, on procède d'abord à l'étape 10 à une transformation de l'image numérique en une image numérique en niveaux de gris.
Cette dernière image est soumise à l'étape 20 à un rehaussement des formes des zones de texte. L'étape 20 peut comprendre une étape 21 de multirésolution et une étape 22 de binarisation, l'ordre des étapes 21 et 22 étant interchangeable.
Avec l'image binaire issue de l'étape 20, on procède à l'étape 30 à une localisation des zones de texte potentielles pour obtenir une image binaire avec des zones de texte potentielles délimitées par des blocs blancs.
A l'étape finale 40, on procède à la sélection des zones de texte effectives, lesquelles peuvent ensuite être soumises dans l'image numérique de départ à un processus classique de reconnaissance optique de caractères (OCR).
On décrira maintenant de façon plus détaillée différents traitements d'image mis en œuvre au cours des différentes étapes du procédé selon l'invention. Pour l'étape 10 de transformation de l'image numérique énoncée sur la Figure 1, on considérera que l'image de départ est une image numérique représentée par une ou plusieurs matrices. Si ce n'est pas le cas, par exemple si l'image d'entrée est dans un format compressé tel que par exemple le format JPEG, on convertit d'abord l'image d'entrée en une image numérique sous une forme matricielle. De la même façon, si l'on dispose d'images d'entrée sous forme analogique, on convertit d'abord par des techniques classiques, ces images analogiques sous une forme numérique.
Lorsque l'image numérique d'entrée I est une image couleur, on convertit celle-ci en une image G en niveaux de gris.
Cette étape 10 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire et indispensable pour l'étape 22 de binarisation qui sera décrite plus en détail dans la suite de la description.
L'étape 10 initiale peut également le cas échéant s'accompagner d'une étape supplémentaire de calcul de la matrice transposée de la matrice G. La matrice transposée te résultant de cette opération peut être utilisée par exemple pour la détection de régions de texte vertical.
On rappellera que si A est une matrice m x n, la transposée Α de la matrice A est formée en interchangeant les rangées et les colonnes de la matrice A. Ainsi, la ième ligne de la matrice A devient la ieme colonne de la matrice transposée *A quel que soit i. La matrice transposée Α est ainsi une matrice n x m.
Une image numérique I et un opérateur morphologique M peuvent être considérés tous deux comme des matrices, dont les matrices transposées peuvent être déterminées selon la définition donnée plus haut.
Dans le procédé selon la présente invention, l'étape 30 de localisation de zones de texte potentielles comprend l'application de filtres morphologiques. Un filtre morphologique est un masque.
Pour la mise en évidence de zones de texte verticales plutôt qu'horizontales, on peut donc procéder d'abord à la transposition d'une image numérique d'entrée, représentée par une matrice I, pour obtenir une nouvelle image représentée par la matrice % puis appliquer ensuite un ensemble d'opérateurs morphologiques Mn } adaptés à l'origine pour des détections de zones de texte potentielles horizontales. Selon une alternative, on peut appliquer également un jeu d'opérateurs morphologiques transposés ^M r directement à l'image d'entrée I.
Les deux façons de faire conduisent au même résultat final.
Dans le cas où l'on connaît à l'avance les régions de l'image dans lesquelles du texte est susceptible d'apparaître, par exemple dans le cas de détection de texte artificiel, tel que des sous-titres, il est également possible dès l'étape initiale 10, de définir une région préférentielle dans laquelle les zones de texte seront recherchées. Une telle définition de région préférentielle permet d'accélérer le processus de localisation en limitant l'étendue de l'image à laquelle est appliqué l'ensemble des étapes 20 à 40 du procédé illustré sur la Figure 1.
On décrira maintenant l'étape 20 de rehaussement des formes des zones de texte.
La localisation de zones probables de présence de texte dans une image fait partie d'un pré-traitement d'image qui est fondamental pour permettre la détection correcte de texte.
Il existe divers procédés dans le domaine de la reconnaissance de formes qui sont basés sur des techniques de seuillage, de regroupement de pixels ou de détection de contours utilisant des méthodes statistiques, la logique floue ou les réseaux neuronaux. Des procédés récents mais coûteux font appel à une représentation des textures et des couleurs par une modélisation en champs de Markov. Toutefois, aucune technique ne s'avère adaptée à toutes les applications.
Selon la présente invention, on utilise une approche multirésolution et une conversion de l'image en niveaux de gris en une image binaire pour la mise en évidence des formes de zones de texte probables.
La conversion d'une image d'entrée en niveaux de gris I en une image binaire BW (étape 22) s'opère par seuillage. Ainsi, l'image binaire de sortie BW présente une valeur de 0 (noir) pour tous les pixels de l'image d'entrée I qui ont une valeur inférieure à un seuil prédéterminé et une valeur de 1 (blanc) pour tous les autres pixels.
La mise en œuvre d'un procédé de multirésolution (étape 21) pour la localisation de lignes de texte se fonde sur la caractéristique de base selon laquelle une ligne de texte apparaît sous la forme d'une ligne pleine dans une image de faible résolution. Le procédé de multirésolution, lorsqu'il est appliqué à une image d'entrée I, conduit à produire une image de sortie J qui a M fois la taille de l'image I. .
Si M est compris entre 0 et 1,0, l'image J est plus petite que l'image I. Si M est supérieur à 1,0, l'image J est plus grande que l'image I. On passe d'une image I à une image J de résolution différente par un procédé d'interpolation spécifique.
On peut choisir pour M la valeur 0,125 à titre d'exemple de valeur inférieure à 1,0. On peut par ailleurs utiliser un procédé d'interpolation par le plus proche voisin. Toutefois, d'autres techniques d'interpolation, telles qu'une interpolation linéaire, pourraient également être utilisées.
Le paramètre M peut varier et être adapté par exemple à la taille de l'image. Le procédé selon l'invention ne dépend pas de la valeur du paramètre M, dès lors que celui-ci est compris entre 0 et 1. On peut également changer la valeur de seuil utilisée pour convertir une image en niveaux de gris en une image binaire, par exemple en fonction de l'image d'entrée. A titre d'exemple, cette valeur de seuil peut être de l'ordre de 0,7.
La Figure 2B montre clairement que le procédé de multirésolution permet de filtrer l'image d'entrée en ne conservant que des composants connexes ayant une couleur homogène correspondant à une zone significative.
L'étape 30 de localisation de zones de texte potentielles consiste en l'application de masques morphologiques à des images binaires telles que celles des Figures 2B ou 2C en vue d'obtenir la fermeture de blocs susceptibles de contenir du texte, en remplissant les zones vides entre caractères ou mots.
Si l'image binaire de départ est une image telle que celles des
Figures 2B ou 2C, issue de l'étape 20, on applique de façon répétée plusieurs opérations morphologiques binaires jusqu'à ce que l'image obtenue J ne présente plus beaucoup de changements par rapport à l'image précédente et présente une apparence avec des blocs fermés telle que celle de la Figure 2D.
A titre préférentiel, on peut utiliser trois masques morphologiques différents pour réaliser la fermeture des blocs susceptibles de contenir du texte. Ces différents masques morphologiques peuvent être combinés entre eux et appliqués selon des ordres différents.
Le premier masque morphologique Mi est représenté sur la Figure 9. En considérant une ligne 50 de pixels 51 à 58, tous les pixels intermédiaires 52 à 57 sont mis à la valeur "1" quelle que soit leur valeur initiale "0" ou "1", lorsque les pixels d'extrémité 51 et 58, à gauche et à droite présentent la valeur 1. La même opération peut être faite sur des colonnes, par exemple en utilisant la matrice transposée de Mi, comme indiqué plus haut, ou en utilisant la transposée de la matrice représentant l'image d'entrée.
Le deuxième masque morphologique Nb est représenté sur la Figure 10. Des rectangles de départ 60 et 70 comprenant des pixels 61 à 66 et 71 à 76 sont transformés en un rectangle 80 comprenant des pixels 81 à 86. Le rectangle de départ 60, respectivement 70, comprend des pixels
63, 64, respectivement 71, 76, situés à l'extrémité de diagonales, qui présentent tous deux une valeur "1". Dans ce cas, le rectangle 80 de l'image transformée comprend des pixels 81 à 86 qui ont tous la valeur "1". Comme dans le cas du masque morphologique Mi, l'opération du masque morphologique Nb peut s'appliquer à des lignes ou à des colonnes en utilisant des matrices transposées.
Le troisième masque morphologique M est représenté sur la Figure 11. Ce masque M3 est très semblable au masque morphologique Nb et vise à obtenir la fermeture de diagonales. A partir d'éléments carrés 90A, 90B d'une image de départ, on obtient un élément carré 100 d'image convertie.
Lorsque deux pixels 92A, 93A respectivement 91B, 94B d'un carré initial 90A respectivement 90B présentent tous deux la valeur "1" quelle que soit la valeur des autres pixels 91A, 94A respectivement 92B, 93B, tous les pixels 111 à 114 du carré 100 de l'image transformée ont la valeur "1".
A titre d'exemples, on a représenté sur les Figures 12 et 13 deux exemples d'application du troisième masque morphologique M3. Dans le cas de la Figure 12, on procède en deux temps à partir du carré 90C comportant deux pixels en diagonale 92C, 93C présentant la valeur "1" et les deux autres pixels 91C, 94C qui présentent la valeur "0". Dans un premier temps, on donne la valeur "1" au pixel 94C situé en bas à droite tandis que les autres pixels 91C à 93C gardent des valeurs inchangées pour former des pixels 91C à 94C. Dans un deuxième temps, on donne la valeur "1" au pixel 91C situé en haut à gauche, tandis que les autres pixels 92C à 94C sont inchangés, de telle sorte que l'on obtient un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1.
La Figure 13 représente un cas similaire à celui de la Figure 12 mais où l'on procède de façon symétrique. Dans le carré de départ 90D, on commence par donner la valeur "1" au pixel 90D situé en haut à gauche qui présente au départ la valeur 0, les autres pixels 92D à 94D présentant des valeurs inchangées égales à "1" pour les pixels 92D, 93D et égale à 0 pour le pixel 94D. On donne ensuite la valeur "1" au pixel 94D' situé en bas à droite tandis que les autres pixels 91D' à 93D' présentent une valeur "1" inchangée. On obtient ainsi de même un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1. On peut procéder aux opérations des Figures 12 à 13 en parallèle, ce qui correspond au processus illustré sur la Figure 11. Les Figures 2D et 3 montrent toutes les régions sous la forme de blocs fermés 1 à 5 ayant une probabilité de contenir du texte. On peut noter que l'on peut recenser cinq zones candidates 1 à 5 susceptibles de contenir du texte alors que dans l'image initiale de la Figure 2A on ne voit que deux zones contenant effectivement du texte.
La détection de régions de texte potentielles sur l'image d'entrée I peut être dérivée par le mappage entre les coordonnées de blocs de texte potentiel dans l'image binaire et celles de l'image d'entrée I. On peut ensuite appliquer aux régions de texte potentielles détectées sur l'image d'entrée diverses techniques d'OCR.
La sélection des zones de texte effectives correspond à une étape 40 (Figure 1) et sera explicitée en référence aux Figures 4 à 8.
La présence, dans l'image de la Figure 3, de zones 1 à 3 ayant une probabilité de contenir du texte, mais n'en comportant pas en réalité, s'explique par le fait que l'étape 20 basée sur la multirésolution et la binarisation est un procédé efficace lorsqu'il est appliqué à un document contenant du texte, dans lequel un pixel appartient soit au fond de l'image, soit à un certain objet significatif de l'image. En revanche, dans le cas d'une image numérique comprenant un fond complexe, comme dans le cas d'images vidéo, il existe en général sur une image plusieurs objets distincts de couleurs différentes, ce qui peut induire de fausses détections par ce procédé de rehaussement.
Dans le cas du procédé selon l'invention, l'étape 21 de multirésolution ne constitue qu'un prétraitement permettant d'effectuer une première localisation de régions candidates susceptibles de contenir du texte. Chaque région candidate 1 à 5 (Figure 3) est ensuite examinée à nouveau au cours d'une étape 40 de sélection afin de déterminer si cette région candidate contient effectivement du texte ou non. L'étape 40 de sélection de zones de texte effectives comprend elle- même deux étapes qui comprennent la séparation des pixels du fond de l'image et le filtrage des régions de texte effective.
L'étape de séparation des pixels de fond de l'image vise à mettre en évidence les pixels des caractères par rapport au fond de l'image. Pour cela, il est appliqué un procédé de découpage de l'intensité à l'image en niveaux de gris obtenue après la première étape de transformation d'image. Cette technique est utile lorsque différentes caractéristiques d'une image sont contenues dans différents niveaux de gris. On procède à un mappage de chaque niveau de gris appartenant à l'intervalle [0, L] en un niveau de gris v appartenant à l'intervalle [0,L] selon la transformation définie par l'équation (1) v = f(a) (1) qui peut être définie simplement par l'équation (2) : a, a < u v = { (2) sinon L où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Une autre transformation possible pour augmenter la mise en évidence des pixels de caractères par rapport au fond est définie par l'équation (3) : u, a ≤ u v = { (3) sinon L
De plus, la valeur de u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G (par exemple en 256 nuances) obtenus de l'image d'entrée I après l'étape 10, de la façon suivante :
1. L est initialisée avec la valeur 256 (couleur blanche). 2. Pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur 256, puis on additionne progressivement au nombre Nb le nombre de pixels ayant la couleur 255, puis 254 et ainsi de suite jusqu'à ce que le nombre Nb soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image. La dernière couleur de l'histogramme H, prise en compte dans cette opération, est affectée à u.
Avantageusement, le seuil est fixé à 2% du nombre total de pixels, mais ce seuil peut être modifié en fonction des applications. Le filtrage des régions de texte effectives s'effectue par une simple analyse de la variation spatiale de toutes les régions candidates susceptibles de contenir du texte, après transformation par l'opération précédemment décrite de séparation des pixels représentant des caractères par rapport au fond de l'image. Cette analyse est fondée sur la caractéristique selon laquelle les caractères d'un texte présentent généralement un contraste important par rapport au fond.
On procède ainsi, pour l'histogramme de chaque région de texte potentielle transformée, à la localisation des deux pics les plus importants (maximums locaux) afin de repérer leur position Pi et P2.
Les Figures 4 à 8 représentent une telle démarche appliquée aux régions de texte potentielles 1 à 5 identifiées sur la Figure 3.
Une variation spatiale de chaque région de texte potentielle est caractérisée par l'équation (4) : D(Pι, P2) = abs (P1-P2) (4)
Si la distance D(Pι, P2) est supérieure à un seuil prédéfini, la région de texte potentielle est considérée comme une région de texte effective. Sinon, elle est simplement ignorée. Comme on peut le voir sur les Figures 4 à 6, les régions 1, 2 et 3 de la Figure 3 ont une faible variation spatiale, dès lors que les distances entre les maximums locaux 101, 102 (Figure 4), 201 à 204 (Figure 5), 301 à 305 (Figure 6) sont faibles. En conséquence, ces régions seront ensuite ignorées. En revanche, les régions 4 et 5 de la Figure 3 ont une forte variation spatiale, dès lors que les distances D(Pι, P2) entre les maximums locaux 401, 402 (Figure 7) ou 501, 502 (Figure 8) sont élevées. Ces régions 4 et 5 seront donc retenues.
La valeur de seuil peut être choisie par exemple comme étant égale à 15% du nombre total dans les niveaux d'échelle de gris. La précision du procédé est d'autant meilleure que la valeur de seuil est élevée.
Le procédé selon l'invention peut présenter diverses variantes et étapes supplémentaires visant à mieux délimiter les frontières des régions de texte ou à accélérer l'ensemble du processus en éliminant quelques régions de texte potentielles qui sont de façon évidente négatives.
En particulier, on peut améliorer la localisation des régions de texte, et notamment la prise en compte de l'intégralité d'une zone de texte, en appliquant de façon récursive un processus de séparation des pixels par rapport au fond, à chaque région du texte effective déjà transformée. Ceci conduit à mieux définir les frontières horizontales et verticales de chaque zone de texte.
Pour mieux délimiter horizontalement les frontières d'une zone de texte, on sélectionne d'abord une ligne horizontale représentative Rhιg(i) parmi toutes les lignes d'une zone de texte qui a été identifiée selon le procédé de base conforme à l'invention.
Le choix de Rhιg(i) peut être effectué en sélectionnant la ligne qui est formée par le maximum de pixels alignés horizontalement et appartenant à des caractères. En général, la ligne sélectionnée Rhιg(i) sera la ligne formée par le nombre maximum de pixels ayant une valeur égale à L car après la transformation consistant à séparer les pixels du fond, les caractères d'une région de texte sont considérés comme étant monochromes et contrastent avec le fond de l'image.
On procède ensuite à une comparaison de Rhιg(i) avec la ligne adjacente Rhιg(i-1) qui précède immédiatement (respectivement avec la ligne adjacente Rhιg(i+1) qui suit immédiatement), afin de décider de fusionner ou non les deux lignes dans un même bloc de texte.
Le critère de fusion est fondé sur la distribution spatiale des valeurs de gris et le principe de pixels monochromes connexes de la façon suivante : Soit Pos Rhig(i) et Pos Rhig^-i) (respectivement Pos Rhigo+i)) deux ensembles qui décrivent les positions des pixels dans la ligne Rhιg(i) et Rhig(i-l) (respectivement Rhιg(i+1)) qui ont une valeur de gris égale à L.
On considère l'équation (5) suivante :
POS R lg(i) O POS Rhlg(i-l) ≠ 0 , respecti vement Pos Rhigo n Pos Rhig(i+i) ≠ 0 ,
Si l'équation (5) est satisfaite, on remplace la ligne Rhιg(i) par la ligne Rhιg(i-1), (respectivement la ligne Rhιg(i+1)), et le processus est appliqué de façon récursive jusqu'à une complète stabilisation des frontières horizontales inférieure et supérieure de la zone de texte. Pour la délimitation verticale des frontières des zones de texte, on peut ajouter à la ligne représentative Rhιg(i) tous les pixels qui satisfont les conditions suivantes :
- on ne prend en considération que les pixels qui sont à gauche ou à droite des pixels formant la ligne représentative Rhιg(i), - on n'ajoute à la ligne Rhιg(i) que les pixels ayant la même valeur de couleur que les pixels de Rhιg(i),
- les pixels adjacents à la ligne Rhιg(i) doivent respecter le principe d'élimination sous forme négative qui sera présenté plus loin.
Pour la détection de zones de texte situées en position verticale dans une image numérique, on peut appliquer les principes de délimitation qui viennent d'être exposés, par exemple en effectuant d'abord une délimitation verticale. Mais cela revient à travailler sur la transposition de la matrice qui représente l'image d'entrée, comme cela a été exposé plus haut en relation avec la transformation d'images numériques. Le procédé de localisation de régions de texte peut être accéléré lorsque l'on a une certaine connaissance préalable des régions susceptibles de contenir du texte.
Notamment pour le cas d'images vidéo, on peut appliquer un procédé d'élimination de forme négative, qui consiste à éliminer tous les composants connexes de couleur homogène touchant le bord d'une image, ainsi que toutes les lignes horizontales qui ont une longueur supérieure à un seuil prédéfini lt.
Ce dernier opérateur d'élimination peut être représenté par l'opérateur morphologique Nl4 illustré sur la Figure 14. La Figure 2C illustre le résultat d'un tel procédé d'élimination de forme négative appliqué à l'image de la Figure 2B.
Sur la Figure 14, on voit que, pour une ligne 120 comportant des pixels 121 à 128, dont les deux pixels d'extrémité 121 et 128 présentent la valeur "1", tandis que les autres pixels 122 à 127 présentent chacun une valeur "0" ou "1", dans le cas où la longueur de la ligne est supérieure à un seuil lt (par exemple égal à 75% de la taille de l'image résultant du processus de multirésolution), alors tous les pixels 121 à 128 sont mis à la valeur "0" correspondant au noir.
La Figure 15 montre un autre exemple d'amélioration possible consistant en un remplissage de diagonales pour éliminer un pixel isolé dans le fond de l'image. L'opérateur morphologique NI5 illustré sur la Figure 15 consiste, dans un carré 130 de neuf pixels, à donner la valeur "0" à un pixel central isolé 135 de valeur "1" entouré de huit pixels 131 à 134, 136 à 139 de valeur "0". Lorsque l'on applique l'opérateur morphologique NI5 de la Figure 15 avant les opérateurs morphologiques Nli, Nb; NI3 des Figures 9 à 13, on augmente la précision des frontières des zones de texte détectées dans l'image en éliminant les pixels isolés qui pourraient être intégrés dans des régions de texte effectives lorsque l'on applique l'opérateur morphologique Mi.
On a représenté sur la Figure 17 le schéma bloc d'un exemple de système de localisation automatique de zones de texte dans une image mettant en œuvre l'invention. Une image numérique d'entrée I est d'abord appliquée à une unité de traitement 150 qui assure la conversion de l'image numérique d'entrée I en une image G définie par des niveaux de gris.
L'image G en niveaux de gris est elle-même appliquée à une unité de traitement 160. L'unité de traitement 160 comprend un module d'entrée 163, qui peut assurer par exemple le calcul de la transposée de la matrice de l'image G en niveaux de gris, ou de la transposée de matrices représentatives de masques morphologiques.
Le module d'entrée 163 peut également, le cas échéant, permettre de définir (a priori) des régions de l'image G qui constituent des sous- ensembles dans lesquels se fera le processus de recherche de zones de texte.
Le module d'entrée 163 coopère avec un module 161 de multirésolution qui comprend des moyens d'interpolation pour transformer une image qui lui est appliquée en une image de plus faible résolution.
Le module d'entrée 163 coopère également avec un module 162 de seuillage qui transforme une image en niveaux de gris qui lui est appliquée en une image binaire BW.
Le module d'entrée 163 peut faire appel aux modules 161 et 162 dans un ordre quelconque. Chacun des modules 161, 162 peut également utiliser comme image d'entrée directement une image produite par l'autre module.
L'image binaire fournie en sortie de l'unité de traitement 160 est appliquée à une unité 170 de localisation de zones de texte potentielles. L'unité 170 de localisation comprend un ou plusieurs filtres morphologiques et permet d'appliquer des masques morphologiques sur l'image binaire issue de l'unité de traitement 160 pour réaliser la fermeture de blocs susceptibles de contenir du texte.
On obtient ainsi en sortie de l'unité de localisation 170 une image binaire dans laquelle les régions de texte potentielles sont représentées par des blocs blancs rectangulaires fermés.
L'unité de sélection 180 permet ensuite de sélectionner les zones de texte effectives à partir des zones de texte potentielles mises en évidence par l'unité de localisation 170. L'unité de sélection 180 met en œuvre le procédé précédemment décrit de découpage de l'intensité appliqué à l'image en niveaux de gris issue de l'unité de traitement 160, et applique à toutes les régions candidates susceptibles de contenir du texte mises en évidence par l'unité de localisation 170 un filtrage consistant en une analyse de la variation spatiale des régions candidates, après avoir réalisé une séparation des pixels du fond de l'image.
Les unités et modules du système de localisation automatique de zones de texte dans une image peuvent être réalisés sous une forme matérielle ou logicielle. Une unité de traitement 190 agit sur l'image numérique de départ I, dans les zones localisées et sélectionnées par les unités de localisation 170 et de sélection 180, pour effectuer divers traitements classiques de reconnaissance optique de caractères. Ces traitements classiques ne sont ainsi appliqués que sur des régions ciblées très limitées de l'image d'entrée.

Claims

REVENDICATIONS
1. Procédé de localisation automatique de zones de texte dans une image numérique, comprenant une première étape (10, 20) de conversion de l'image numérique en image binaire, une deuxième étape
(30) de localisation de zones de texte potentielles et une troisième étape
(40) de sélection de zones de texte effectives, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris et une étape (21) de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image d'entrée I, avec 0 < M < 1, et en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans l'image d'origine.
2. Procédé selon la revendication 1, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (22) de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW en une valeur 1 correspondant au blanc.
3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité de cette ligne ou de cette colonne présentent tous les deux la valeur 1.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce rectangle ou de ce carré présentent tous les deux la valeur 1.
5. Procédé selon la revendication 1, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape (20) de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0.
6. Procédé selon la revendication 5, caractérisé en ce que ledit pourcentage définissant ledit seuil est de l'ordre de 75%.
7. Procédé selon l'une quelconque des revendications 3 et 4, caractérisé en ce que la deuxième étape de localisation (30) de zones de texte potentielles comprend en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.
8. Procédé selon l'une quelconque des revendications 3 à 5, caractérisé en ce que lors de la deuxième étape (30) de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire.
9. Procédé selon la revendication 8, caractérisé en ce qu'on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée te et on applique à cette matrice transposée te les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire.
10. Procédé selon la revendication 8, caractérisé en ce qu'on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs morphologiques transposés.
11. Procédé selon l'une quelconque des revendications 1 à 10, caractérisé en ce que la troisième étape (40) de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliquée à l'image en niveaux de gris.
12. Procédé selon la revendication 11, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L], selon la fonction v = f(a) avec a si a < u v = {
L si a > u
où u est une constante représentant une valeur de niveau de gris compris entre 0 et L.
13. Procédé selon la revendication 11, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L], où 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [u,L] où u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec
u si a < u v = {
L si a > u.
14. Procédé selon l'une quelconque des revendications 12 et 13, caractérisé en ce que la valeur de la constante u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante : 1/ L est initialisée avec la valeur N représentant la couleur blanche,
2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (N- 1), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise en compte dans cette opération.
15. Procédé selon la revendication 14, caractérisé en ce que ledit seuil représente 2% du nombre total de pixels de l'image.
16. Procédé selon l'une quelconque des revendications 11 à 15, caractérisé en ce qu'après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement Pi et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(Pι, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.
17. Procédé selon la revendication 16, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhιg(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhιg(i) avec la ligne adjacente qui précède immédiatement Rhιg(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhιg(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos hig o et Pos Rhig(i-i) ou respectivement entre les ensembles Pos Rhigc et Pos R ig(i+i) qui concernent des positions pour les pixels des lignes Rhιg(i) et Rhιg(i-1), ou respectivement des lignes Rhιg(i) et Rhιg(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite première direction privilégiée.
18. Procédé selon la revendication 16 ou la revendication 17, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhιg(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhιg(i) et on ajoute à la ligne représentative Rhιg(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhιg(i).
19. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la première direction privilégiée est une direction horizontale.
20. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la première direction privilégiée est une direction verticale.
21. Procédé selon l'une quelconque des revendications 16 à 18, caractérisé en ce que la ligne représentative Rhιg(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur maximale L correspondant au blanc.
22. Procédé selon l'une quelconque des revendications 1 à 21, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la forme de parallélogrammes.
23. Procédé selon la revendication 22, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la forme de rectangles.
24. Procédé selon la revendication 1, caractérisé en ce que, après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des zones de texte.
25. Système de localisation automatique de zones de texte dans une image numérique, comprenant une unité (150 ; 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par ladite unité (170) de localisation, caractérisé en ce que l'unité (150 ; 160) de conversion d'une image numérique d'entrée I en image binaire comprend des moyens (150) de conversion d'une image numérique I en une image G définie par des niveaux de gris, et au moins un module de multirésolution (161) comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution et en ce que l'unité (170) de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire.
26. Système selon la revendication 25, caractérisé en ce que l'unité (150 ; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage (162) pour transformer une image d'entrée en niveaux de gris en une image binaire BW.
27. Système selon l'une quelconque des revendications 25 et 26, caractérisé en ce qu'il comprend des moyens (163) de transposition de matrices représentatives d'images ou de masques morphologiques.
28. Procédé selon l'une quelconque des revendications 1 à 24, caractérisé en ce qu'il est appliqué à la détection et à la reconnaissance de logos dans des émissions de télévision.
PCT/FR2003/002406 2002-07-31 2003-07-30 Procede et systeme de localisation automatique de zones de texte dans une image WO2004013802A2 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP03750862A EP1525553A2 (fr) 2002-07-31 2003-07-30 Procede et systeme de localisation automatique de zones de texte dans une image
AU2003269080A AU2003269080A1 (en) 2002-07-31 2003-07-30 Method and system for automatically locating text areas in an image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR02/09749 2002-07-31
FR0209749A FR2843220B1 (fr) 2002-07-31 2002-07-31 "procede et systeme de localisation automatique de zones de texte dans une image"

Publications (2)

Publication Number Publication Date
WO2004013802A2 true WO2004013802A2 (fr) 2004-02-12
WO2004013802A3 WO2004013802A3 (fr) 2004-04-08

Family

ID=30129584

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2003/002406 WO2004013802A2 (fr) 2002-07-31 2003-07-30 Procede et systeme de localisation automatique de zones de texte dans une image

Country Status (5)

Country Link
EP (1) EP1525553A2 (fr)
CN (1) CN1685358A (fr)
AU (1) AU2003269080A1 (fr)
FR (1) FR2843220B1 (fr)
WO (1) WO2004013802A2 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667251B (zh) * 2008-09-05 2014-07-23 三星电子株式会社 具备辅助定位功能的ocr识别方法和装置
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN102411707A (zh) * 2011-10-31 2012-04-11 世纪龙信息网络有限责任公司 一种图片中文本的识别方法及识别装置
CN103186786A (zh) * 2011-12-30 2013-07-03 鸿富锦精密工业(深圳)有限公司 封闭图形识别系统及方法
CN108959287B (zh) 2017-05-17 2021-08-03 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN115803772A (zh) * 2020-05-12 2023-03-14 Polycom通讯技术(北京)有限公司 用于检测和显示白板文本和/或活跃说话者的系统和方法
CN113312990B (zh) * 2021-05-13 2024-08-23 汕头市同行网络科技有限公司 一种基于光学字符识别的电竞比赛赛况实时输出方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BLOOMBERG D S ET AL: "Document image summarization without OCR" PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) LAUSANNE, SEPT. 16 - 19, 1996, NEW YORK, IEEE, US, vol. 1, 16 septembre 1996 (1996-09-16), pages 229-232, XP010202636 ISBN: 0-7803-3259-8 *
DEFORGES O ET AL: "Segmentation d'images de documents par une approche multirésolution" TRAITEMENT DU SIGNAL, 1995, GRETSI, FRANCE, vol. 12, no. 6, pages 527-539, XP008011651 ISSN: 0765-0019 *
DIMITROVA N ET AL: "MPEG-7 Videotext description scheme for superimposed text in images and video" SIGNAL PROCESSING. IMAGE COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 1-2, septembre 2000 (2000-09), pages 137-155, XP004216273 ISSN: 0923-5965 *
LIANG J ET AL: "Document layout structure extraction using bounding boxes of different entitles" APPLICATIONS OF COMPUTER VISION, 1996. WACV '96., PROCEEDINGS 3RD IEEE WORKSHOP ON SARASOTA, FL, USA 2-4 DEC. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 2 décembre 1996 (1996-12-02), pages 278-283, XP010206444 ISBN: 0-8186-7620-5 *
MESSELODI S ET AL: "Automatic identification and skew estimation of text lines in real scene images" PATTERN RECOGNITION, PERGAMON PRESS INC. ELMSFORD, N.Y, US, vol. 32, no. 5, mai 1999 (1999-05), pages 791-810, XP004222747 ISSN: 0031-3203 *
WERNICKE A ET AL: "On the segmentation of text in videos" IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, XX, XX, vol. 3, 30 juillet 2000 (2000-07-30), pages 1511-1514, XP002178986 *
YU ZHONG ET AL: "Automatic caption localization in compressed video" IMAGE PROCESSING, 1999. ICIP 99. PROCEEDINGS. 1999 INTERNATIONAL CONFERENCE ON KOBE, JAPAN 24-28 OCT. 1999, PISCATAWAY, NJ, USA,IEEE, US, 24 octobre 1999 (1999-10-24), pages 96-100, XP010368958 ISBN: 0-7803-5467-2 *

Also Published As

Publication number Publication date
FR2843220A1 (fr) 2004-02-06
CN1685358A (zh) 2005-10-19
WO2004013802A3 (fr) 2004-04-08
EP1525553A2 (fr) 2005-04-27
FR2843220B1 (fr) 2005-02-18
AU2003269080A1 (en) 2004-02-23

Similar Documents

Publication Publication Date Title
EP1298588B1 (fr) Procédé de traitement d&#39;images pour l&#39;extraction automatique d&#39;éléments sémantiques
BE1017547A6 (fr) Compression d&#39;images numeriques de documents scannes.
EP3572976A1 (fr) Procede de traitement d&#39;un flux d&#39;images video
EP3832535A1 (fr) Procédé de détection d&#39;au moins un élément d&#39;intérêt visible dans une image d&#39;entrée au moyen d&#39;un réseau de neurones à convolution
CA3043090C (fr) Procede de reconnaissance de caracteres
WO2009141378A1 (fr) Procede et systeme d&#39;indexation et de recherche de documents video
FR3081244A1 (fr) Procede de reconnaissance de caracteres
Fazlali et al. Single image rain/snow removal using distortion type information
WO2004013802A2 (fr) Procede et systeme de localisation automatique de zones de texte dans une image
FR3095286A1 (fr) Procédé de traitement d’image d’un document d’identité.
WO2019129985A1 (fr) Procede de formation d&#39;un reseau de neurones pour la reconnaissance d&#39;une sequence de caracteres et procede de reconnaissance associe
EP1390905B1 (fr) Procede de detection de zones de texte dans une image video
FR2860902A1 (fr) Determination de caracteristiques textuelles de pixels
WO2008087316A2 (fr) Procede et systeme de binarisation d&#39;une image comprenant un texte
EP4091098A1 (fr) Procédé de traitement d&#39;une image candidate
Saha et al. Npix2Cpix: A GAN-based Image-to-Image Translation Network with Retrieval-Classification Integration for Watermark Retrieval from Historical Document Images
EP1768049B1 (fr) Procédé et système de reproduction de documents par segmentation et amélioration sélective des images et des textes
CN113888758B (zh) 一种基于复杂场景中的弯曲文字识别方法和系统
Shetty et al. Automated Identity Document Recognition and Classification (AIDRAC)-A Review
Khan et al. Target detection in cluttered FLIR imagery using probabilistic neural networks
Bouaziz et al. Automatic text regions location in video frames.
FR3112228A1 (fr) Dispositif et procédé pour générer un masque de la silhouette du profil d’une structure
CN115797630A (zh) 遮挡车辆图像生成方法、装置及电子设备
BE1017576A6 (fr) Procede d&#39;agrandissement rapide d&#39;images en couleur.
FR2982057A1 (fr) Procede de reconnaissance d&#39;une image dans une scene

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003750862

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 20038235072

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003750862

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP

WWW Wipo information: withdrawn in national office

Ref document number: 2003750862

Country of ref document: EP