NL1015943C2 - Interpretation of colored documents. - Google Patents

Interpretation of colored documents. Download PDF

Info

Publication number
NL1015943C2
NL1015943C2 NL1015943A NL1015943A NL1015943C2 NL 1015943 C2 NL1015943 C2 NL 1015943C2 NL 1015943 A NL1015943 A NL 1015943A NL 1015943 A NL1015943 A NL 1015943A NL 1015943 C2 NL1015943 C2 NL 1015943C2
Authority
NL
Netherlands
Prior art keywords
color
colors
connected component
assigned
connected components
Prior art date
Application number
NL1015943A
Other languages
Dutch (nl)
Inventor
Peter Franciscus Marie Nacken
Original Assignee
Ocu Technologies B V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocu Technologies B V filed Critical Ocu Technologies B V
Priority to NL1015943A priority Critical patent/NL1015943C2/en
Priority to EP01202937A priority patent/EP1182605B1/en
Priority to US09/924,509 priority patent/US6999616B2/en
Priority to JP2001243415A priority patent/JP4719386B2/en
Application granted granted Critical
Publication of NL1015943C2 publication Critical patent/NL1015943C2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Color Image Communication Systems (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Description

Océ-Technologies B.V., te VenloOcé-Technologies B.V., Venlo

Interpretatie van gekleurde documenten 5 De uitvinding betreft een werkwijze voor het extraheren van informatie- elementen in een kleurbevattend digitaal beeld ten behoeve van een automatische interpretatie-bewerking.Interpretation of colored documents. The invention relates to a method for extracting information elements in a color-containing digital image for the purpose of automatic interpretation processing.

Een dergelijke automatische interpretatie-bewerking is bijvoorbeeld automatische lay-out-analyse, automatische optische karakterherkenning of automatische herkenning 10 van waardepapieren, en met “informatie-elementen” wordt bijvoorbeeld bedoeld: karakters.Such an automatic interpretation operation is for example automatic layout analysis, automatic optical character recognition or automatic recognition of securities, and by "information elements" is meant for example: characters.

Het extraheren van informatie-elementen uit een in zwart/wit uitgevoerd documentbeeld en een daaropvolgende automatische lay-out-analyse is bekend, bijvoorbeeld uit EP 0 629 078 B, maar ook andere methoden zijn bekend uit de 15 literatuur. Verschillende andere methoden worden genoemd in dè inleiding van het genoemde Europese octrooi.Extracting information elements from a black-and-white document image and a subsequent automatic layout analysis is known, for example from EP 0 629 078 B, but other methods are also known from the literature. Various other methods are mentioned in the introduction to the aforementioned European patent.

De bekende methoden werken meestal door in een digitaal beeld dat bijvoorbeeld is gevormd door een document te scannen met een electro-optische scanner, groepen van aaneengrenzende pixels van gelijke kleur (“verbonden componenten” ofwel 20 “connected components”) te onderscheiden in informatiedragende (voorgrond-) groepen en achtergrond-groepen, en de informatiedragende groepen te classificeren in types, zoals (bijvoorbeeld) karakters, lijnen, foto’s, etc. Vervolgens kunnen de informatiedragende pixelgroepen, of een selectie daarvan, overeenkomend met een beperkte verzameling types, worden ge-extraheerd voor een verdere interpretatie-25 bewerking.The known methods usually work by, in a digital image formed by, for example, scanning a document with an electro-optical scanner, distinguishing groups of adjacent pixels of the same color ("connected components" or "connected components") into information-carrying ( foreground groups and background groups, and to classify the information-carrying groups into types, such as (for example) characters, lines, photos, etc. Next, the information-carrying pixel groups, or a selection thereof, corresponding to a limited set of types, can be classified extracted for a further interpretation operation.

De genoemde methoden gaan uit van een binair beeld in zwart en wit, dat wil zeggen een beeld van binaire pixels. Zulke pixels hebben slechts twee mogelijke waarden: aan of uit, 0 of 1, wit of zwart. De ene mogelijke waarde, bijvoorbeeld zwart, wordt als informatiedragend beschouwd, terwijl de andere waarde, dus wit, als niet-30 informatiedragend ofwel achtergrond geldt. Deze methoden kunnen niet zonder meer op kleurbevattende digitale beelden worden toegepast, omdat zulke beelden pixels bevatten met verschillende kleuren, die niet zonder meer kunnen worden ingedeeld in de twee klassen “informatiedragend” en “achtergrond”. Zowel de informatie als de achtergrond kunnen namelijk gekleurd zijn, terwijl niet a priori bekend is, welke kleur 35 wejke functie heeft.The methods mentioned are based on a binary image in black and white, that is, an image of binary pixels. Such pixels have only two possible values: on or off, 0 or 1, white or black. The one possible value, for example black, is considered information-bearing, while the other value, i.e. white, counts as non-information-bearing or background. These methods cannot simply be applied to color-containing digital images, because such images contain pixels with different colors, which cannot simply be classified into the two classes "information-bearing" and "background". Both the information and the background can be colored, while it is not known a priori which color has a function.

i ö -1- o ? 2i ö -1- o? 2

Bovendien bevat een kleurenbeeld vaak nog fouten, kleine gebiedjes met een afwijkende kleur, ten gevolge van het beperkte oplossende vermogen van de scanner, ruls en/of registerfouten bij het afdrukken van het gescande kleurendocument. Dit uit zich bijvoorbeeld in pixels met een overgangskleur langs de randen van karakters. Als 5 voorbeeld wordt verwezen naar Fig. 1, waarin een detail van een gescand documentbeeld wordt getoond, waarin de als gevolg van scannerfouten verkeerd gekleurde pixels gearceerd worden weergegeven.In addition, a color image often still contains errors, small areas with a different color, due to the limited resolution of the scanner, noise and / or register errors when printing the scanned color document. This is expressed, for example, in pixels with a transition color along the edges of characters. As an example, reference is made to FIG. 1, in which a detail of a scanned document image is shown, in which the incorrectly colored pixels as a result of scanner errors are displayed shaded.

Zulke verkeerd gekleurde gebiedjes leveren problemen op, omdat zij de interpretatie-bewerking verstoren.Such incorrectly colored areas cause problems because they disturb the interpretation process.

10 Gekleurde beelden bevatten vaak zeer veel verschillende kleuren. Ook dit levert problemen op bij extractie-bewerkingen, omdat alle in het beeld voorkomende kleuren afzonderlijk moeten worden ingedeeld als informatie-dragend of achtergrond. Het is daarom aantrekkelijk om de verzameling in een document voorkomende kleuren eerst te quantiseren in een beperkt aantal kleurgroepen.10 Colored images often contain many different colors. This also causes problems with extraction operations, because all colors occurring in the image must be separately classified as information-bearing or background. It is therefore attractive to first quantize the collection of colors occurring in a document in a limited number of color groups.

15 Technieken om kleuren te quantiseren zijn beschreven in de literatuur, bijvoorbeeld in Sobottka, K. et al.: “Identification of text on colored book and journal covers”, Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, en in aanvraagsters Nederlandse octrooiaanvrage nr. 1013669. In beide documenten wordt de kleurquantisatie uitgevoerd als voorbereiding voor een 20 interpretatie-bewerking. Volgens deze methoden worden de kleuren die in een digitaal beeld voorkomen gegroepeerd in een beperkt aantal clusters en worden alle kleuren die in een zekere cluster liggen, gekarakteriseerd door een kleurcode voor die cluster. Locaal is er dan meestal nog maar een zeer klein aantal verschillende kleurcodes aanwezig, zodat een onderscheid tussen informatie-elementen en achtergrond veel 25 eenvoudiger wordt.Techniques for quantizing colors have been described in the literature, for example in Sobottka, K. et al .: "Identification of text on colored book and journal covers", Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, and in Applicants' Dutch Patent Application No. 1013669. In both documents, the color quantization is carried out in preparation for an interpretation operation. According to these methods, the colors that occur in a digital image are grouped in a limited number of clusters and all colors that are in a certain cluster are characterized by a color code for that cluster. Locally there is then usually only a very small number of different color codes present, so that a distinction between information elements and background becomes much easier.

Overigens wordt hierdoor het probleem van verkeerd gekleurde gebiedjes langs de randen van informatie-elementen niet opgelost, want deze kunnen bij quantisatie afwijkende kleurcodes krijgen, met name wanneer in het beeld op andere plaatsen beeldelementen met (vrijwel) dezelfde kleur als de bedoelde “verkeerde" kleur 30 voorkomen. Ook kan er juist door de quantisatie een situatie ontstaan, waarin informatie-elementen in onderdelen met verschillende kleurcodes uiteenvallen, waardoor zo een informatie-element als geheel onherkenbaar wordt voor een verder bewerkingsproces.Incidentally, this does not solve the problem of incorrectly colored areas along the edges of information elements, because these may receive deviating color codes during quantization, in particular when image elements with (almost) the same color as the intended "wrong" in other places in the image color 30. It is also precisely through quantization that a situation can arise in which information elements fall into parts with different color codes, so that an information element as a whole becomes unrecognizable for a further processing process.

In de genoemde Nederlandse octrooiaanvrage wordt een nabewerking van het aan 35 kleurquantisatie onderworpen beeld voorgesteld, die bestaat uit het vaststellen van 3 karaktercontouren met behulp van chain-coding. Hierbij wordt een contour geconstrueerd als scheiding tussen de pixels met een kleurcode die afwijkt van die van de omgevende achtergrond en de pixels met de kleurcode van de achtergrond. De verdere verwerking geschiedt dan op de contouren, zonder nog naar de oorspronkelijke 5 kleurcodes te kijken.In the aforementioned Dutch patent application a post-processing of the image subjected to color quantization is proposed, which consists of determining 3 character contours with the aid of chain coding. Here, a contour is constructed as a separation between the pixels with a color code that differs from that of the surrounding background and the pixels with the color code of the background. The further processing then takes place on the contours, without looking at the original 5 color codes.

Nadeel van deze nabewerkingsmethode is, dat alle van de achtergrondkleur afwijkende pixels worden beschouwd als te behoren bij het informatie-element of karakter, ook als zij eigenlijk tot de achtergrond behoren. Opnieuw verwijzend naar Fig.A disadvantage of this post-processing method is that all pixels deviating from the background color are considered to belong to the information element or character, even if they actually belong to the background. Referring again to FIG.

1, zal deze bekende methode de twee cijfers als een geheel extraheren en als gevolg 10 daarvan kunnen fouten optreden bij een OCR-bewerking.1, this known method will extract the two digits as a whole and, as a result, errors may occur in an OCR operation.

Het zij hierbij opgemerkt, dat kleurquantisatie alleen nodig is, wanneer het te bewerken beeld veel kleuren bevat. Is dit niet het geval, dan kan quantisatie overbodig zijn.It should be noted here that color quantization is only required if the image to be processed contains many colors. If this is not the case, then quantization may be unnecessary.

De uitvinding heeft tot doel om een verbeterde bewerking van kleurenbeelden te 15 verschaffen, waardoor een automatische interpretatie-bewerking nauwkeuriger resultaten kan bereiken.The invention has for its object to provide an improved processing of color images, whereby an automatic interpretation processing can achieve more accurate results.

De uitvinding omvat daartoe de volgende stappen: - het in het digitale beeld onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur, 20 - het indelen van verbonden componenten in achtergrond - verbonden componenten en andere verbonden componenten en het groeperen van aaneengrenzende genoemde andere verbonden componenten, - het toewijzen van verbonden componenten van een groep aaneengrenzende genoemde andere verbonden componenten aan een voorgrond of aan de achtergrond 25 op grond van een voorafbepaald toewijzingscriterium, - het samenvoegen van aaneengrenzende, aan voorgrond toegewezen verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.To this end the invention comprises the following steps: - distinguishing in the digital image from connected components consisting of adjacent pixels of the same color, - dividing connected components into background - connected components and other connected components and grouping adjacent said other connected components, - assigning connected components of a group of adjacent said other connected components to a foreground or to the background on the basis of a predetermined allocation criterion, - merging adjacent connected components assigned to the foreground and extracting a merged whole as an information element.

In een uitvoeringsvorm van de uitvinding bevat de werkwijze een 30 voorbereidingsstap, omvattende - het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren in een beperkt aantal gequantiseerde kleuren.In an embodiment of the invention, the method comprises a preparation step, comprising - quantizing the colors occurring in a digital image to be processed into a limited number of quantized colors.

Deze voorbereidingsstap is nodig wanneer het te bewerken beeld veel verschillende kleuren bevat. Dit zal vaak het geval zijn. In dat geval dient de term “kleur” 35 in deze beschrijving te worden geïnterpreteerd als “gequantiseerde kleur”.This preparation step is necessary when the image to be processed contains many different colors. This will often be the case. In that case, the term "color" 35 in this description should be interpreted as "quantized color".

44

In een verdere uitvoeringsvorm is het genoemde toewijzingscriterium gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van de groep genoemde andere verbonden componenten waartoe de toe te wijzen verbonden component behoort en met de kleur van een achtergrond - verbonden 5 component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft.In a further embodiment, the said allocation criterion is based on a comparison of the color of a connected component to be assigned with the colors of the group of other connected components mentioned to which the connected component to be assigned belongs and to the color of a background. component which at least partially surrounds the connected component to be allocated.

Meer bepaald wordt de kleur van een toe te wijzen verbonden component vergeleken met het gemiddelde van de kleuren van de groep verbonden componenten waartoe de toe te wijzen verbonden component behoort en met de kleur van de achtergrond - verbonden component.More specifically, the color of a connected component to be assigned is compared with the average of the colors of the group of connected components to which the connected component to be assigned belongs and with the color of the background - connected component.

10 In een nog verdere uitvoeringsvorm worden de genoemde andere verbonden componenten eerst ingedeeld in typen en worden alleen verbonden componenten van voorafbepaalde typen geanalyseerd met het genoemde toewijzingscriterium.In a still further embodiment, the said other connected components are first classified into types and only connected components of predetermined types are analyzed with the said allocation criterion.

De keuze van de geanalyseerde component-typen wordt bepaald door de specifieke automatische interpretatie-bewerking en heeft tot doel om het aantal te 15 analyseren verbonden componenten te beperken, hetgeen ten goede komt aan de bewerkingstijd en de robuustheid van de bewerking. Wanneer bijvoorbeeld de interpretatie-bewerking karakter-herkenning is, zal het alleen interessant zijn om die verbonden componenten te analyseren die mogelijk deel kunnen uitmaken van een karakter.The choice of the component types analyzed is determined by the specific automatic interpretation processing and aims to limit the number of connected components to be analyzed, which benefits the processing time and the robustness of the processing. For example, if the interpretation operation is character recognition, it will only be interesting to analyze those connected components that may be part of a character.

20 De uitvinding omvat voorts een inrichting waarin de uitvinding wordt toegepast.The invention further comprises a device in which the invention is applied.

De uitvinding, waaronder begrepen het kwantiseren van kleuren van een afbeelding alsook de combinatie van het kwantiseren van kleuren van een afbeelding en het interpreteren van dat beeld, kan worden uitgevoerd in een daartoe geschikt geprogrammeerde computer en betreft daarom eveneens een computerprogramma en 25 een opslagmedium waarop het computerprogramma is opgeslagen.The invention, including the quantization of colors of an image as well as the combination of the quantization of colors of an image and the interpretation of that image, can be carried out in a suitably programmed computer and therefore also relates to a computer program and a storage medium on which the computer program has been saved.

De uitvinding zal nu worden toegelicht aan de hand van de bijgevoegde figuren. Hierin is:The invention will now be explained with reference to the accompanying figures. Herein is:

Fig. 1 een weergave van een detail van een gescand kleurenbeeld;FIG. 1 is a representation of a detail of a scanned color image;

Fig. 2 een schematische weergave van de gebruiksomgeving voor de huidige uitvinding; 30 Fig. 3 een schematisch weergave van de samenstellende onderdelen van een inrichting volgens de uitvinding;FIG. 2 is a schematic representation of the use environment for the present invention; FIG. 3 is a schematic representation of the component parts of a device according to the invention;

Fig. 4 een beslissingsschema voor indeling van verbonden componenten in typen;FIG. 4 a decision diagram for classifying connected components into types;

Fig. 5 een stroomschema van de werking van een toewijzingmodule volgens de uitvinding; 35 Fig. 6 A, B, C en Fig. 7 A, B, C weergaven van digitale beelden in verschillende stadia m . *? 9^3 5 van bewerking.FIG. 5 is a flow chart of the operation of an allocation module according to the invention; FIG. 6 A, B, C and FIG. 7 A, B, C views of digital images in different stages m. *? 9 ^ 3 5 of editing.

Fig. 2 toont een omgeving waarin de huidige uitvinding met vrucht kan worden toegepast.FIG. 2 shows an environment in which the present invention can be successfully applied.

Getoond wordt een samenstel van een bron-eenheid 20 voor een digitaal 5 kleurenbeeld, bijvoorbeeld een elektro-optische scanner 10 voor het scannen van een document of een opslageenheid 11 met scandata, een voorbewerkingseenheid 21 volgens de huidige uitvinding, die informatie-elementen extraheert, en een of meer interpretatie-eenheden, in dit voorbeeld een lay-out-analyse-eenheid 22 die een onderlinge samenhang van informatie-eenheden vaststelt en een karakterherkennings 10 (OCR)-eenheid 23 die het zo gevonden tekstbeeld omzet in tekstcode, die verder digitaal te verwerken is. De eenheden 21,22 en 23 kunnen zijn ge-implementeerd in een geschikt geprogrammeerde computer 12. De resultaten kunnen bijvoorbeeld worden opgeslagen in een geheugen-eenheid 13.Shown is an assembly of a source unit 20 for a digital color image, for example an electro-optical scanner 10 for scanning a document or a storage unit 11 with scan data, a pre-processing unit 21 according to the present invention, which extracts information elements, and one or more interpretation units, in this example a layout analysis unit 22 which establishes a mutual coherence of information units and a character recognition 10 (OCR) unit 23 which converts the thus found text image into text code, which further can be processed digitally. The units 21, 22 and 23 can be implemented in a suitably programmed computer 12. The results can, for example, be stored in a memory unit 13.

Karakters zijn niet altijd eenvoudig te herkennen in een gescand kleurenbeeld.Characters are not always easy to recognize in a scanned color image.

15 Een kleurenscan bevat namelijk vaak veel verschillende kleuren, ook als het gescande beeld slechts enkele (hoofd)kleuren heeft. Drukfouten in het gescande document, ten gevolge van registerfouten in het drukproces, en scanfouten ten gevolge van ruis en het beperkte oplossende vermogen van de scanner kunnen afwijkend gekleurde pixels of gebiedjes van pixels veroorzaken, die niet zonder meer kunnen worden herkend en 20 verwijderd. Deze afwijkend gekleurde gebiedjes veroorzaken interpretatiefouten, en het is de functie van de voorbewerkingseenheid 21 om informatie-elementen te extraheren, die zijn ontdaan van zulke verstoringen.15 A color scan often contains many different colors, even if the scanned image only has a few (main) colors. Printing errors in the scanned document, due to register errors in the printing process, and scanning errors due to noise and the limited resolution of the scanner can cause abnormally colored pixels or areas of pixels that cannot be recognized and removed without further ado. These differently colored areas cause interpretation errors, and it is the function of the pre-processing unit 21 to extract information elements that have been stripped of such disturbances.

De verschillende onderdelen van de voorbewerkingseenheid 21 zijn weergegeven in Fig. 3 en omvatten de volgende modules: 25 - een kleurquantisatiemodule 31 voor terugbrengen van het aantal kleuren in het beeld tot een beperkt aantal - een classificatiemodule 32 voor het inventariseren van de in het beeld voorkomende verbonden componenten en het indelen daarvan in typen - een selectiemodule 33 voor het selecteren van de verbonden componenten van 30 bepaalde typen - een verdelingsmodule 34 voor het verdelen van de geselecteerde verbonden componenten in achtergrond - verbonden componenten en niet-achtergrond -verbonden componenten en het groeperen van de laatstgenoemde in eilanden van aan elkaar grenzende verbonden componenten 35 - een toekenningssmodule 35 voor het toekennen van de verbonden componenten van 1 6 een eiland aan de voorgrond en de achtergrond, en - een samenstellingsmodule 36 voor het samenstellen van de verbonden componenten van een eiland, die behoren tot de voorgrond, tot een informatie-element.The various components of the pre-processing unit 21 are shown in FIG. 3 and comprise the following modules: - a color quantization module 31 for reducing the number of colors in the image to a limited number - a classification module 32 for inventorying the connected components occurring in the image and classifying them into types - a selection module 33 for selecting the connected components of certain types - a distribution module 34 for dividing the selected connected components into background - connected components and non-background-connected components and grouping the latter into islands of adjacent connected components 35 - an allocation module 35 for assigning the connected components of an island to the foreground and the background, and - an assembly module 36 for assembling the connected components of an island, belonging to the foreground, into an information element .

De werking van deze modules zal nu worden beschreven.The operation of these modules will now be described.

5 De kleurquantisatiemodule 31 heeft tot doel om een indeling in voorgrond- en achtergrond-elementen mogelijk te maken. Kleur alleen is hiervoor immers een onvoldoende criterium, en dus moet elke verbonden component als potentieel informatiedragend worden beschouwd. Omdat in een digitaal kleurenbeeld 24 bits gebruikt worden om een kleur te beschrijven, zal een gescand kleuren beeld al snel een 10 groot aantal verschillende kleuren bevatten. Door kleurquantisatie wordt het aantal kleuren sterk verkleind.The color quantization module 31 has the purpose of enabling a division into foreground and background elements. After all, color alone is not a sufficient criterion for this, and therefore every connected component must be considered as potentially carrying information. Because 24 bits are used in a digital color image to describe a color, a scanned color image will quickly contain a large number of different colors. The number of colors is greatly reduced by color quantization.

Er zijn verschillende methoden om kleuren te quantiseren. In aanvraagsters Nederlandse octrooiaanvrage nr. 1013669 wordt een methode beschreven, waarin de kleurenruimte wordt verdeeld in een klein aantal compartimenten die elk een 15 concentratie van in het beeld aanwezige kleuren bevatten. Alle kleuren in een compartiment krijgen een gelijke kleurcode. In Sobottka, K. et al.: “Identification of text on colored book and journal covers”, Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, wordt voorgesteld om een driedimensionaal histogram van kleuren op te stellen. Vervolgens wordt voor iedere 20 histogram-cel een pointer naar de hoogste buurcel vastgesteld. Aldus wordt rond elk locaal maximum in het histogram een gebied gedefinieerd, welk gebied in zijn geheel een kleurcode krijgt toegewezen.There are different methods for quantizing colors. Applicant's Dutch patent application No. 1013669 describes a method in which the color space is divided into a small number of compartments, each containing a concentration of colors present in the image. All colors in a compartment receive the same color code. In Sobottka, K. et al .: "Identification of text on colored book and journal covers", Fifth International Conference on Document Analysis and Recognition, Sept. 1999, pp. 57-62, it is suggested to set up a three-dimensional histogram of colors. Next, a pointer to the highest neighboring cell is determined for every 20 histogram cells. An area is thus defined around each local maximum in the histogram, which area is assigned a color code as a whole.

Hier zijn slechts twee kleurquantisatiemethoden beschreven, maar er zijn er meer bekend. De keuze van een methode is arbitrair en behoort niet tot de huidige uitvinding. 25 De kleurquantisatiemodule 31 levert een digitaal beeld met een beperkt aantal kleuren af aan de classificatiemodule 32, die alle pixels van het digitale beeld classeert in verbonden componenten en de verbonden componenten indeelt naar type. Een verbonden component is een groep aaneengrenzende pixels met dezelfde kleurcode. Om elke verbonden component wordt een grensbox gelegd, dat is de kleinste rechthoek 30 die om de verbonden component heen past.Only two color quantization methods are described here, but more are known. The choice of a method is arbitrary and does not belong to the present invention. The color quantization module 31 delivers a digital image with a limited number of colors to the classification module 32, which classifies all pixels of the digital image into connected components and classifies the connected components by type. A connected component is a group of adjacent pixels with the same color code. A boundary box is placed around each connected component, that is the smallest rectangle 30 that fits around the connected component.

Vervolgens worden voor elke verbonden component de volgende attributen gemeten: - de coördinaten van de linkerbovenhoek (xO, yO) en rechterbenedenhoek (x1, y1) van de grensbox 35 - de grootte (het aantal pixels van de verbonden component) . · w 7 - de kleurcode van de verbonden component - de gemiddelde waarde en de standaarddeviatie SDEV van de (werkelijke) kleuren in de verbonden component.The following attributes are then measured for each connected component: - the coordinates of the upper left corner (xO, yO) and lower right corner (x1, y1) of the boundary box 35 - the size (the number of pixels of the connected component). · W 7 - the color code of the connected component - the average value and the standard deviation SDEV of the (actual) colors in the connected component.

Uit deze attributen worden de volgende eigenschappen van de verbonden component 5 berekend: - de breedte - de hoogteThe following properties of the connected component 5 are calculated from these attributes: - the width - the height

- het oppervlak A- the surface A

- de grootste maat B (= max (breedte, hoogte)) 10 - de kleinste maat S (= min (breedte, hoogte)) - aspectverhouding AR (= (grootste maat)/(kleinste maat)) - de bedekkingsgraad C, d.i. het bedekte gedeelte van de grensbox (= grootte/(breedte x hoogte))- the largest dimension B (= max (width, height)) 10 - the smallest dimension S (= min (width, height)) - aspect ratio AR (= (largest dimension) / (smallest dimension)) - the degree of coverage C, di the covered part of the border box (= size / (width x height))

Met behulp van de aldus berekende eigenschappen wordt een verbonden 15 component ingedeeld in een van de volgende typen: NOISE: klein element zonder betekenis HLINE: (gedeelte van) een horizontale lijn VLINE: (gedeelte van) een verticale lijn SMALL: klein karakter of deel van een karakter 20 CHAR: karakter PHOTO: (deel van) een foto GRAPH: grafisch element BACKGR: groot, homogeen achtergrondveld UNKNOWN: niet definieerbaar 25 De classering wordt uitgevoerd met behulp van een beslissingsboom die is weergegeven in Fig. 4. Deze figuur spreekt grotendeels voor zichzelf. In een aantal stappen wordt gebruik gemaakt van een voorafgekozen drempelwaarde T. De waarde hiervan kan experimenteel bepaald worden. De waarde 3,5 mm, zijnde een in documenten veelgebruikte karaktergrootte, blijkt goed te voldoen. Overigens zijn ook de 30 andere aangegeven drempelwaarden slechts als voorbeeld bedoeld.Using the properties calculated in this way, a connected component is classified into one of the following types: NOISE: small element without meaning HLINE: (part of) a horizontal line VLINE: (part of) a vertical line SMALL: small character or part of a character 20 CHAR: character PHOTO: (part of) a photo GRAPH: graphic element BACKGR: large, homogeneous background field UNKNOWN: not definable 25 The classification is performed with the help of a decision tree shown in FIG. 4. This figure largely speaks for itself. A pre-selected threshold value T is used in a number of steps. The value thereof can be determined experimentally. The value 3.5 mm, being a character size commonly used in documents, appears to be satisfactory. Incidentally, the other stated threshold values are also intended as an example only.

Voor de verdere bewerking worden alleen verbonden componenten van voorafbepaalde types geselecteerd. De keuze van deze types is afhankelijk van de specifieke interpretatie-bewerking die volgt. In dit voorbeeld wordt als interpretatie-bewerking karakterherkenning toegepast. Hiervoor zijn alleen die verbonden 35 componenten benodigd, die zelf een karakter of een deel daarvan kunnen zijn, namelijk: 1015941 8 CHAR, NOISE, SMALL en UNKNOWN. Bovendien worden de verbonden componenten van type BACKGR geselecteerd. De betreffende selectie wordt uitgevoerd door de selectiemodule 33, die de geselecteerde verbonden componenten doorgeeft aan de indelingsmodule 34.Only further connected components of predetermined types are selected for further processing. The choice of these types depends on the specific interpretation operation that follows. In this example, character recognition is used as the interpretation operation. Only those connected components are required for this, which can themselves be a character or part thereof, namely: 1015941 8 CHAR, NOISE, SMALL and UNKNOWN. In addition, the connected components of type BACKGR are selected. The relevant selection is carried out by the selection module 33, which transmits the selected connected components to the classification module 34.

5 De indelingsmodule 34 groepeert verbonden componenten die niet van het type achtergrond zijn in zogenaamde “eilanden”, waarbij een “eiland” een geheel is van aan elkaar grenzende verbonden componenten. De “eilanden" worden doorgegeven aan de toewijzingsmodule 35, die vaststelt, welke verbonden componenten tot het informatie-element behoren. Een “eiland” bevat immers in de regel een aantal verbonden 10 componenten waarvan een deel behoort tot een informatie-element en een ander deel tot de achtergrond.The classification module 34 groups connected components that are not of the background type into so-called "islands", where an "island" is a whole of adjacent connected components. The "islands" are passed on to the allocation module 35, which determines which connected components belong to the information element. After all, an "island" generally comprises a number of connected components, part of which belongs to an information element and another part to the background.

De toewijzingsmodule 35 voert een procedure uit die is weergegeven in Fig. 5, en is gebaseerd op een voorafbepaald toewijzingscriterium met betrekking op de kleuren van “eiland” en omgevende achtergrond. Volgens het toewijzingscriterium wordt een 15 verbonden component toegewezen aan een voorgrond (informatiedragend) of de achtergrond (niet informatiedragend).The allocation module 35 performs a procedure shown in FIG. 5, and is based on a predetermined allocation criterion regarding the colors of "island" and surrounding background. According to the allocation criterion, a connected component is assigned to a foreground (information-bearing) or the background (not information-bearing).

In een eerste stap S1 wordt de RGB-waarde van de achtergrond-component die het “eiland” omgeeft vastgesteld. Indien het “eiland” juist op de grens van twee of zelfs meer achtergrond-componenten is gelegen, wordt in deze stap de gemiddelde RGB-20 waarde van de omgevende achtergrons-componenten berekend, bijvoorbeeld door eenvoudige middeling van de R-, G-, respectievelijk B-waarden. Ook kan hier een gewogen gemiddelde, bijvoorbeeld naar oppervlakte, worden gebruikt.In a first step S1, the RGB value of the background component surrounding the "island" is determined. If the "island" is just on the border of two or even more background components, the average RGB-20 value of the surrounding background components is calculated in this step, for example by simple averaging of the R, G, B values respectively. A weighted average, for example by surface area, can also be used here.

Vervolgens wordt in stap S2 de gemiddelde RGB-waarde van de verbonden componenten in het “eiland” berekend, bijvoorbeeld door eenvoudige middeling van de 25 R-, G-, respectievelijk B-waarden. Ook kan hier een gewogen gemiddelde, bijvoorbeeld naar oppervlakte, worden gebruikt.Subsequently, in step S2, the average RGB value of the connected components in the "island" is calculated, for example by simple averaging of the R, G and B values, respectively. A weighted average, for example by surface area, can also be used here.

Dan wordt voor iedere verbonden component (stappen S3, S8, S9) de eigenlijke toewijzingsprocedure (S4 - S7) uitgevoerd. In stap S4 worden de afstanden in de kleurenruimte tussen de RGB-waarde van de onderzochte verbonden component en de 30 (eventueel gemiddelde) RGB-waarde van de achtergrond, respectievelijk de gemiddelde RGB-waarde van het “eiland” berekend. Deze afstanden worden vergeleken (S5) en de onderzochte verbonden component wordt toegewezen aan de voorgrond, als de afstand tot de “eiland”-waarde kleiner is dan die tot de achtergrond-waarde (S6), en aan de achtergrond in het andere geval (S7).Then, for each connected component (steps S3, S8, S9), the actual allocation procedure (S4 - S7) is performed. In step S4, the distances in the color space between the RGB value of the examined connected component and the (possibly average) RGB value of the background, respectively the average RGB value of the "island" are calculated. These distances are compared (S5) and the connected component examined is assigned to the foreground if the distance to the "island" value is less than that to the background value (S6), and to the background in the other case ( S7).

35 In dit voorbeeld wordt met de RGB-waarde van een element de RGB-waarde van ^ i c, * ·: ' Λ.·· ·'./ '·· V.„ 9 de gequantiseerde kleur daarvan bedoeld. In een alternatieve vorm zou hiervoor ook de gemiddelde RGB-waarde van de oorspronkelijke kleuren van alle afzonderlijke pixels van zo een element kunnen worden gebruikt.35 In this example, the RGB value of an element means the RGB value of ^ i c, * ·: 'Λ. ·· ·' ./ '·· V.' 9 its quantized color. In an alternative form, the average RGB value of the original colors of all the individual pixels of such an element could also be used for this.

Tenslotte worden de resultaten van de toewijzing doorgegeven aan de 5 samenstellingsmodule 36, die de voorgrond - verbonden componenten samenstelt tot afzonderlijke informatie-eenheden. Deze worden, met hun posities, doorgegeven aan de interpretatie-eenheden.Finally, the results of the allocation are passed on to the assembly module 36, which assembles the foreground-connected components into separate information units. These are, with their positions, passed on to the interpretation units.

Nu alle elementen in het digitale beeld zijn ingedeeld in twee categorieën, namelijk voorgrond en achtergrond, kunnen de conventionele interpretatie-bewerkingen 10 worden toegepast, in dit voorbeeld lay-out-analyse, gevolgd door karakterherkenning. Lay-out-analyse is bijvoorbeeld beschreven in EP 0 629 078 B en in andere documenten, waarvan er enkele genoemd zijn in de inleiding van EP 0 629 078 B. Deze bewerking maakt geen deel uit van de huidige uitvinding.Now that all elements in the digital image are divided into two categories, namely foreground and background, the conventional interpretation operations 10 can be applied, in this example layout analysis, followed by character recognition. Layout analysis is described, for example, in EP 0 629 078 B and in other documents, some of which are mentioned in the introduction to EP 0 629 078 B. This operation is not part of the present invention.

Voorbeelden van de werking van de voorbewerkingseenheid 21 zoals die 15 hierboven is beschreven worden getoond in Pig. 6 A, B en C en Fig. 7 A, B en C. In Fig. 6 A is een sterk vergroot gedeelte van een gescand beeld weergegeven. De grijstinten in de figuur geven verschillende kleuren aan, waarvan sommige onderling maar weinig verschillen. Het is voor een automaat niet a priori vast te stellen, welke pixels informatiedragend zijn en welke niet, ook al heeft een menselijke waarnemer hier in het 20 geheel geen moeite mee. Wanneer alle pixels met een kleur die afwijkt van de achtergrond zouden worden toegekend aan de voorgrond, dus aan het informatie-element, dan zouden de drie afgebeelde cijfers een geheel vormen, omdat er tussen de afzondelijke cijfers “bruggen” (51,52) van pixels met een overgangskleur liggen. Deze overgangskleuren zijn het gevolg van de beperkte resolutie van de scanner, waardoor 25 op de randen van de cijfers pixels worden gegenereerd met een grijstint die met de gemiddelde grijswaarde van het gedeeltelijk witte, gedeeltelijk zwarte pixel overeenkomen. Bovendien veroorzaakt het optische systeem van de scanner overstraling van de overgangen tussen voor- en achtergrond, wat resulteert in de geconstateerde “bruggen”.Examples of the operation of the pre-processing unit 21 as described above are shown in Pig. 6 A, B and C and FIG. 7 A, B and C. In FIG. 6 A shows a greatly enlarged portion of a scanned image. The shades of gray in the figure indicate different colors, some of which differ little from each other. It is not possible to establish a priori for a machine which pixels are information-carrying and which are not, even though a human observer has no problem with this at all. If all pixels with a color that deviated from the background were assigned to the foreground, that is to the information element, the three figures displayed would form a whole, because there are "bridges" (51.52) between the individual figures pixels with a transition color. These transition colors are the result of the limited resolution of the scanner, as a result of which pixels on the edges of the figures are generated with a gray tint corresponding to the average gray value of the partly white, partly black pixel. In addition, the scanner's optical system causes flare of the transitions between foreground and background, resulting in the "bridges" detected.

30 De scandata worden vervolgens onderworpen aan een kleurquantisatie in de module 31, en het resultaat daarvan wordt getoond in Fig. 6 B. De verschillende grijstinten hierin corresponderen met verschillende gequantiseerde kleuren. Duidelijk is te zien, dat de begrenzingen van de cijfers nog steeds verschillende kleuren bevatten, en dat de quantisatie in dit geval ook niet heeft geleid tot eliminatie van de “bruggen” 51, 35 52. Ondanks de beperking in het aantal kleuren is verdere automatische interpretatie ? h .. 1The scan data is then subjected to a color quantization in the module 31, and the result thereof is shown in FIG. 6 B. The different shades of gray herein correspond to different quantized colors. It can be clearly seen that the limits of the figures still contain different colors, and that the quantization in this case also did not lead to the elimination of the "bridges" 51, 35 52. Despite the limitation in the number of colors, further automatic interpretation? h .. 1

<9 '\4? * V' ïé V<9 '\ 4? * V 'í V

10 nog steeds niet niet goed mogelijk.10 still not possible.

Fig. 6 C toont het resultaat van de modules 32 - 36, waaruit blijkt, dat nu alle storingen zijn verwijderd, zodat de scandata nu geschikt zijn voor verdere interpretatie.FIG. 6 C shows the result of the modules 32 - 36, which shows that all malfunctions have now been removed, so that the scan data is now suitable for further interpretation.

In Fig. 7 A is een andere verstoring van de scandata weergegeven. Hierin zijn 5 kleurverschillen aanwezig in de karakters, zoals bijvoorbeeld zichtbaar is in het bovenste gedeelte van de letter “a”, dat uit twee verschillend gekleurde stukken 53,54 bestaat. Bij de daaropvolgende kleurquantisatie blijken deze verschillende kleuren in verschillende kleurcodes 55,56 gequantiseerd te worden (Fig. 7 B). Deze opdeling kan ontstaan, wanneer de gemiddelde kleur van een karakter juist op de grens ligt van twee 10 gequantiseerde kleuren. Zeer kleine kleurverschillen in het gescande beeld van het karakter kunnen dan juist de grens overschrijden en nu eens de ene, dan weer de andere gequantiseerde kleur doen selecteren.In FIG. 7 A, another disruption of the scan data is shown. There are 5 color differences present in the characters, as is visible for example in the upper part of the letter "a", which consists of two differently colored pieces 53,54. In the subsequent color quantization, these different colors appear to be quantized in different color codes 55.56 (Fig. 7B). This division can occur when the average color of a character is just on the border of two quantized colors. Very small color differences in the scanned image of the character can then just cross the border and have one color selected, then the other selected.

Dit effect maakt automatische interpretatie geheel onmogelijk, omdat er nu zelfs geen basisvormen meer beschikbaar zijn in een enkele kleur. Echter, bij de bewerking 15 in de modules 32 - 36 blijken de verschillend gekleurde fragmenten toch weer te zijn samengevoegd tot de juiste karaktervormen (Fig. 7 C).This effect makes automatic interpretation completely impossible, because there are no longer even basic forms available in a single color. However, during the processing 15 in the modules 32 - 36, the differently colored fragments appear to have been merged again into the correct character shapes (Fig. 7 C).

Hoewel de uitvinding is toegelicht aan de hand van de bovenstaande beschrijving, is zij hier niet toe beperkt. De vakman zal zich realiseren dat binnen de reikwijdte van de navolgende conclusies alternatieve uitvoeringen mogelijk zijn, Deze worden geacht 20 binnen de beschermingsomvang van het octrooi te zijn begrepen.Although the invention has been explained with reference to the above description, it is not limited thereto. Those skilled in the art will realize that alternative embodiments are possible within the scope of the following claims. These are considered to be included within the scope of the patent.

·.·.

Claims (22)

1. Werkwijze voor het extraheren van informatie-elementen uit een kleurbevattend digitaal beeld, 5 omvattende: - het in het digitale beeld onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur; , - het indelen van achtergrond - verbonden-componenten en andere verbonden componenten en het groeperen van aaneengrenzende genoemde andere verbonden 10 componenten; - het toewijzen van verbonden componenten, behorende tot een groep genoemde andere verbonden componenten, aan een voorgrond of aan de achtergrond op grond van een voorafbepaald toewijzingscriterium; en - het samenvoegen van aaneengrenzende, aan de voorgrond toegewezen 15 verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.Method for extracting information elements from a color-containing digital image, comprising: - distinguishing in the digital image from connected components consisting of adjacent pixels of the same color; classifying background - connected components and other connected components and grouping adjacent said other connected components; - assigning connected components, belonging to a group of said other connected components, to a foreground or to the background based on a predetermined allocation criterion; and - merging adjacent, foreground assigned components and extracting a merged entity as an information element. 2. Werkwijze volgens conclusie 1, tevens omvattende een voorbereidingsstap welke omvat: 20. het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren in een beperkt aantal gequantiseerde kleuren en het vervangen van oorspronkelijk in de beeldsignalen voorkomende kleuren door gequantiseerde kleuren.A method according to claim 1, further comprising a preparation step which comprises: 20. quantizing the colors occurring in a digital image to be processed into a limited number of quantized colors and replacing colors originally occurring in the image signals with quantized colors. 3. Werkwijze volgens conclusie 1 of 2, waarin 25 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van een groep genoemde andere verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft. 303. Method as claimed in claim 1 or 2, wherein said allocation criterion is based on a comparison of the color of a connected component to be assigned with the colors of a group of said other connected components of which the connected component to be allocated is part and with the color of a background-connected component that at least partially surrounds the connected component to be allocated. 30 4. Werkwijze volgens conclusie 3, waarin het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met het gemiddelde van de kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 35 component deel van uitmaakt en met de kleur van de achtergrond - verbonden-component.4. Method as claimed in claim 3, wherein said allocation criterion is based on a comparison of the color of a connected component to be assigned with the average of the colors of the group of connected components to which the connected component to be assigned belongs and with the color of the background - connected component. 5. Werkwijze volgens conclusie 4, waarin het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 5 kleuren van de groep verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt dan met de kleur van de achtergrond - verbonden-component, de toe te wijzen verbonden component wordt toegewezen aan de voorgrond.The method according to claim 4, wherein said assignment criterion consists in that when the color of a connected component to be assigned corresponds more to the average of the 5 colors of the group of connected components of which the connected component to be assigned is part than to the color of the background - connected component, the connected component to be assigned is assigned to the foreground. 6. Werkwijze volgens conclusie 1 of 2, waarin de genoemde andere verbonden componenten eerst op grond van hun eigenschappen worden ingedeeld in typen en waarin alleen verbonden componenten van voorafbepaalde typen geanalyseerd met het genoemde toewijzingscriterium. 15A method according to claim 1 or 2, wherein said other connected components are first classified into types based on their properties and wherein only connected components of predetermined types are analyzed with said allocation criterion. 15 7. Werkwijze voor het automatisch interpreteren van een kleurbevattend digitaal beeld, omvattende het extraheren van informatie-elementen uit het kleurbevattende digitale beeld volgens een der voorgaande conclusies en 20 het uitvoeren van een automatische interpretatie-bewerking op basis van de ge ëxtraheerde informatie-elementen.7. Method for automatically interpreting a color-containing digital image, comprising extracting information elements from the color-containing digital image according to any one of the preceding claims and performing an automatic interpretation operation on the basis of the extracted information elements. 8. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een lay-out-analyse omvat. 25The method of claim 7, wherein the automatic interpretation operation comprises a layout analysis. 25 9. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een karakterherkenning omvat.The method of claim 7, wherein the automatic interpretation operation comprises a character recognition. 10. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een 30 herkenning van grafisch elementen in het beeld omvat.10. Method as claimed in claim 7, wherein the automatic interpretation processing comprises recognition of graphic elements in the image. 11. Inrichting voor het extraheren van informatie-elementen uit een kleurbevattend digitaal beeld, omvattende: - ontvangstmiddelen voor het ontvangen van een digitale beeldsignalen 35 overeenkomend met een kleurbevattend beeld; . J - een classificatiemodule voor het in de digitale beeldsignalen onderscheiden van verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur; - een indelingsmodule voor het indelen van achtergrond - verbonden-componenten en andere verbonden componenten en het groeperen van 5 aaneengrenzende genoemde andere verbonden componenten; - een toekenningsmodule voor het toewijzen van verbonden componenten aan een voorgrond of aan de achtergrond op grond van een voorafbepaald toewijzingscriterium; en - een samenstellingsmodule voor het samenvoegen van aaneengrenzende, aan 10 voorgrond toegewezen verbonden componenten en het extraheren van een samengevoegd geheel als een informatie-element.11. Device for extracting information elements from a color-containing digital image, comprising: - receiving means for receiving a digital image signals corresponding to a color-containing image; . J - a classification module for distinguishing in the digital image signals from connected components consisting of adjacent pixels of the same color; - a classification module for classifying background - connected components and other connected components and grouping adjacent said other connected components; - an allocation module for assigning connected components to a foreground or to the background based on a predetermined allocation criterion; and - a composition module for merging contiguous, foreground assigned components and extracting a merged entity as an information element. 12. Inrichting volgens conclusie 11, tevens omvattende - een kleurquantisatiemodule voor het quantiseren van de in te bewerken digitale 15 beeldsignalen voorkomende kleuren in een beperkt aantal gequantiseerde kleuren en het vervangen van oorspronkelijk in de beeldsignalen voorkomende kleuren door gequantiseerde kleuren.12. Device as claimed in claim 11, further comprising - a color quantization module for quantizing the colors occurring in digital image signals to be processed into a limited number of quantized colors and replacing colors originally occurring in the image signals with quantized colors. 13. Inrichting volgens conclusie 11 of 12, waarin 20 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met de kleuren van een groep genoemde andere verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft. 2513. Device as claimed in claim 11 or 12, wherein said allocation criterion is based on a comparison of the color of a connected component to be assigned with the colors of a group of said other connected components of which the connected component to be allocated is part and with the color of a background-connected component that at least partially surrounds the connected component to be allocated. 25 14. Inrichting volgens conclusie 13, waarin het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur van een toe te wijzen verbonden component met het gemiddelde van de kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 30 component deel van uitmaakt en met de kleur van de achtergrond - verbonden-component.14. Device as claimed in claim 13, wherein said allocation criterion is based on a comparison of the color of a connected component to be assigned with the average of the colors of the group of connected components to which the connected component to be assigned belongs and with the color of the background - connected component. 15. Inrichting volgens conclusie 14, waarin het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een 35 toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 1 n ... , . 4 .Ίι kleuren van de groep verbonden componenten waar de toe te wijzen verbonden component deel van uitmaakt dan met de kleur van de achtergrond - verbonden-component, de toe te wijzen verbonden component wordt toegewezen aan de voorgrond. 515. Device as claimed in claim 14, wherein said allocation criterion consists in that when the color of a connected component to be allocated corresponds more to the average of the 1 n ... 4.. Colors of the group of connected components of which the connected component to be assigned is part, then with the color of the background - connected component, the connected component to be assigned is assigned to the foreground. 5 16. Inrichting volgens conclusie 11 of 12, waarin de classificatiemodule is voorzien van middelen om genoemde andere verbonden componenten op grond van hun eigenschappen te classeren in typen en waarin een selectiemodule aanwezig is voor het selecteren van verbonden 1 o componenten van voorafbepaalde typen en alleen de geselecteerde verbonden componenten door te geven aan de verdelingsmodule.Device as claimed in claim 11 or 12, wherein the classification module is provided with means for classifying said other connected components according to their properties into types and wherein a selection module is present for selecting connected 10 components of predetermined types and only the to pass on selected connected components to the distribution module. 17. Inrichting voor het automatisch interpreteren van een kleurbevattend digitaal beeld, omvattende 15 een inrichting voor het extraheren van informatie-elementen uit het kleurbevattende digitale beeld volgens een der conclusies 8 tot en met 13, en een interpretatie-eenheid voor het uitvoeren van een automatische interpretatie-bewerking op basis van de ge-extraheerde informatie-elementen.17. Device for automatically interpreting a color-containing digital image, comprising a device for extracting information elements from the color-containing digital image according to one of claims 8 to 13, and an interpretation unit for performing an automatic interpretation processing based on the extracted information elements. 18. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een lay-out-analyse omvat.The device of claim 17, wherein the automatic interpretation operation comprises a layout analysis. 19. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een karakterherkenning omvat. 25The device of claim 17, wherein the automatic interpretation operation comprises a character recognition. 25 20. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een herkenning van grafisch elementen in het beeld omvat.The apparatus of claim 17, wherein the automatic interpretation operation includes recognition of graphic elements in the image. 21. Computerprogramma-product met programmacode die op een door een machine 30 uitleesbare drager is opgeslagen, voor het uitvoeren van de werkwijze volgens een der conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer wordt uitgevoerd.A computer program product with program code stored on a machine-readable carrier for performing the method according to any of claims 1 to 6 and 7 to 10, when the program is executed in a computer. 22. Computerprogramma voor het uitvoeren van alle stappen volgens een der 35 conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer wordt uitgevoerd. ‘<*43A computer program for performing all steps according to any one of claims 1 to 6 and 7 to 10, when the program is executed in a computer. "<* 43
NL1015943A 2000-08-16 2000-08-16 Interpretation of colored documents. NL1015943C2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
NL1015943A NL1015943C2 (en) 2000-08-16 2000-08-16 Interpretation of colored documents.
EP01202937A EP1182605B1 (en) 2000-08-16 2001-08-02 Interpretation of coloured documents
US09/924,509 US6999616B2 (en) 2000-08-16 2001-08-09 Interpretation of colored documents
JP2001243415A JP4719386B2 (en) 2000-08-16 2001-08-10 Interpreting color manuscripts

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL1015943A NL1015943C2 (en) 2000-08-16 2000-08-16 Interpretation of colored documents.
NL1015943 2000-08-16

Publications (1)

Publication Number Publication Date
NL1015943C2 true NL1015943C2 (en) 2002-02-19

Family

ID=19771901

Family Applications (1)

Application Number Title Priority Date Filing Date
NL1015943A NL1015943C2 (en) 2000-08-16 2000-08-16 Interpretation of colored documents.

Country Status (4)

Country Link
US (1) US6999616B2 (en)
EP (1) EP1182605B1 (en)
JP (1) JP4719386B2 (en)
NL (1) NL1015943C2 (en)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4189506B2 (en) * 2000-06-09 2008-12-03 コニカミノルタビジネステクノロジーズ株式会社 Apparatus, method and recording medium for image processing
US8054518B2 (en) * 2003-05-30 2011-11-08 Hewlett-Packard Development Company, L.P. Color imaging devices, color imaging methods, and color separation methods
CN100382096C (en) 2003-08-20 2008-04-16 奥西-技术有限公司 Document scanner
US7646517B2 (en) * 2004-02-27 2010-01-12 Seiko Epson Corporation Image processing system and image processing method
WO2006066325A1 (en) * 2004-12-21 2006-06-29 Canon Kabushiki Kaisha Segmenting digital image and producing compact representation
US20100049035A1 (en) * 2005-05-27 2010-02-25 Qingmao Hu Brain image segmentation from ct data
US20070253615A1 (en) * 2006-04-26 2007-11-01 Yuan-Hsiang Chang Method and system for banknote recognition
US8000535B2 (en) * 2007-06-18 2011-08-16 Sharp Laboratories Of America, Inc. Methods and systems for refining text segmentation results
US8223395B2 (en) * 2007-07-20 2012-07-17 Sharp Laboratories Of America, Inc. Methods and systems for refining text color in a digital image
US7760912B2 (en) * 2007-08-01 2010-07-20 Tandent Vision Science, Inc. Image segregation system with method for handling textures
US8144978B2 (en) * 2007-08-01 2012-03-27 Tandent Vision Science, Inc. System and method for identifying complex tokens in an image
AU2007237365B2 (en) * 2007-12-05 2011-05-12 Canon Kabushiki Kaisha Colour reproduction in a colour document image
US8139850B2 (en) * 2008-12-05 2012-03-20 Tandent Vision Science, Inc. Constraint generation for use in image segregation
US8260050B2 (en) * 2008-12-05 2012-09-04 Tandent Vision Science, Inc. Test bed for optimizing an image segregation
US8139867B2 (en) * 2008-12-05 2012-03-20 Tandent Vision Science, Inc. Image segregation system architecture
US20100142846A1 (en) * 2008-12-05 2010-06-10 Tandent Vision Science, Inc. Solver for image segregation
US8351691B2 (en) * 2008-12-18 2013-01-08 Canon Kabushiki Kaisha Object extraction in colour compound documents
AU2009201252B2 (en) * 2009-03-31 2011-06-02 Canon Kabushiki Kaisha Colour correcting foreground colours for visual quality improvement
US8194975B2 (en) * 2009-06-29 2012-06-05 Tandent Vision Science, Inc. Use of an intrinsic image in face recognition
US8306335B2 (en) * 2011-03-30 2012-11-06 Seiko Epson Corporation Method of analyzing digital document images
US9524440B2 (en) 2014-04-04 2016-12-20 Myscript System and method for superimposed handwriting recognition technology
US9384403B2 (en) 2014-04-04 2016-07-05 Myscript System and method for superimposed handwriting recognition technology
CN112990022A (en) * 2021-03-18 2021-06-18 广州伟宏智能科技有限公司 OCR character recognition and extraction method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684576A2 (en) * 1994-05-24 1995-11-29 International Business Machines Corporation Improvements in image processing
EP0910035A1 (en) * 1997-10-15 1999-04-21 Jeffrey Horace Johnson Method for automatic extraction on printed text or handwriting on a background, in a multi-level digital image

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6446885A (en) * 1987-08-18 1989-02-21 Agency Ind Science Techn Color information separating method for document picture
NL9301004A (en) 1993-06-11 1995-01-02 Oce Nederland Bv Apparatus for processing and reproducing digital image information.
US5956419A (en) * 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
EP0767581B1 (en) 1995-09-29 2002-05-22 Hewlett-Packard Company, A Delaware Corporation Image processing apparatus and method
JPH1083455A (en) * 1996-07-08 1998-03-31 Sony Corp Object recognizing device and method
US5778092A (en) * 1996-12-20 1998-07-07 Xerox Corporation Method and apparatus for compressing color or gray scale documents
US6687404B1 (en) * 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US6532302B2 (en) * 1998-04-08 2003-03-11 Canon Kabushiki Kaisha Multiple size reductions for image segmentation
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684576A2 (en) * 1994-05-24 1995-11-29 International Business Machines Corporation Improvements in image processing
EP0910035A1 (en) * 1997-10-15 1999-04-21 Jeffrey Horace Johnson Method for automatic extraction on printed text or handwriting on a background, in a multi-level digital image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOICHI SASAKAWA ET AL: "A METHOD FOR THRESHOLD SELECTION IN BINARY IMAGES USING MEAN ADJACENT-PIXEL NUMBER", SYSTEMS & COMPUTERS IN JAPAN,US,SCRIPTA TECHNICA JOURNALS. NEW YORK, vol. 22, no. 3, 1991, pages 66 - 73, XP000234172, ISSN: 0882-1666 *

Also Published As

Publication number Publication date
EP1182605B1 (en) 2012-11-28
US20020039439A1 (en) 2002-04-04
JP4719386B2 (en) 2011-07-06
EP1182605A1 (en) 2002-02-27
JP2002099915A (en) 2002-04-05
US6999616B2 (en) 2006-02-14

Similar Documents

Publication Publication Date Title
NL1015943C2 (en) Interpretation of colored documents.
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
KR100523898B1 (en) Identification, separation and compression of multiple forms with mutants
Yu et al. An approach to Korean license plate recognition based on vertical edge matching
US5546474A (en) Detection of photo regions in digital images
US5854853A (en) Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US6757426B2 (en) System and method for image processing by automatic color dropout
US7379593B2 (en) Method for image segmentation from proved detection of background and text image portions
EP1269394B1 (en) Improved method for image binarization
CN110599512A (en) Medicine name identification method and system based on image identification
JPH05225378A (en) Area dividing system for document image
CN110766017A (en) Mobile terminal character recognition method and system based on deep learning
CN112507782A (en) Text image recognition method and device
CN113392819B (en) Batch academic image automatic segmentation and labeling device and method
GB2364416A (en) Image processing
WO2021150226A1 (en) Determining minimum scanning resolution
Lin et al. Text extraction from name cards using neural network
EP0446630A2 (en) Method and apparatus for segmenting characters in an amount field on a financial document
Boiangiu et al. Automatic Correction of OCR Results Using Similarity Detection for Words and Fonts
JPH04134578A (en) Picture binarizing system
Cracknell et al. A colour classification approach to form dropout
Fischer et al. Segmentation of the Yellow Pages
Parker Effective and efficient binarization of degraded document images
Ouji et al. Comprehensive color segmentation system for noisy digitized documents to enhance text extraction
Reddy et al. An edge-based text region extraction from document images using connected component analysis

Legal Events

Date Code Title Description
PD2B A search report has been drawn up
V1 Lapsed because of non-payment of the annual fee

Effective date: 20140301