JPS61296481A - Document reader - Google Patents

Document reader

Info

Publication number
JPS61296481A
JPS61296481A JP60137521A JP13752185A JPS61296481A JP S61296481 A JPS61296481 A JP S61296481A JP 60137521 A JP60137521 A JP 60137521A JP 13752185 A JP13752185 A JP 13752185A JP S61296481 A JPS61296481 A JP S61296481A
Authority
JP
Japan
Prior art keywords
image
area
region
attribute
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60137521A
Other languages
Japanese (ja)
Inventor
Kazumi Matsuura
松浦 一巳
Yoji Maeda
前田 陽二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP60137521A priority Critical patent/JPS61296481A/en
Publication of JPS61296481A publication Critical patent/JPS61296481A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To improve the accuracy of attribute decision and to process graphic areas or list areas other than characters by detecting an image area on the basis of a compressed and stored image and comparing the detected image area with a feature previously prepared in each attribute of a character string, a list, a graphic, or the like to decide the attribute. CONSTITUTION:A document image stored in an image information storing part 1 is divided into small areas and a compressed image setting up '1' as the value of picture elements when the number of picture elements '1' is >=5 and setting up '0' when the number of picture element <5 is stored in a compressed image storing part 2. A feature image setting up the value of picture elements to '1' when picture element '1' are connected in the eight directions from the left end to the right end of each small area and setting up other picture elements to '0' is stored in a picture element feature storing part 3. A compressed image processing part 4 scans the compressed image in the character string direction, and when the continuousness of picture elements '0' is less than a prescribed value, forms a conversion image obtained by rewriting the value of the picture elements into '1' and an area detecting part 5 detects an area where picture elements '1' are connected in four directions. An attribute deciding part 16 compares the detected result with the feature previously prepared in each attribute such as a character string, a list, a graphic or the like to decide the attribute. An area processing part 17 separates a character pattern and outputs the pattern to recognize it.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文字と図表や写真等の文字以外の情報が混
在する文書から文字を読取る文書読取装置に関するもの
であり、特に、文字列、表、図等の領域の属性に応じた
処理が出来る文書読取装置ターンのみを切り出して読取
る従来の文書読取装置の構成図を示す。図において、■
は文書を光学的に走査し、光電変換することによって得
られた2値の画像(文書画像)を記憶する画像記憶手段
としてのイメージ情報記憶部、2は上記イメージ情報記
憶部1に記憶された文書画像を小領域に分割し、各小領
域を1画素に対応させることにより圧縮して得られた2
値の画像(圧縮画像)を記憶する画像圧縮記憶手段とし
ての圧縮画像記憶部、3は上記圧縮画像の各画素の特徴
を対応する文書画像から抽出して記憶する特徴抽出手段
としての画素特徴記憶部、4は上記の圧縮画像を文字列
方向に走査して、値が“0”の画素が何個連続するかを
調べ、予め設定した闇値以下のときには、これらの画素
の値を“1”に変換する圧縮画像処理部、5は圧縮画像
処理部4で得られた画像(変換画像)において、値が“
1”の画素が連結している領域を画像領域として、検出
する領域検出手段としての領域検出部、6は領域検出部
5で検出した各画像領域に対して、その形状と画素特徴
記憶部3に記憶された画素特徴の割合から、検出した領
域が文字列領域であるか否かを判定して文字列を検出す
る文字列検出部、7は領域検出部5で検出した領域が文
字列領域であると判定された場合、その文字列領域に対
応する画像を、イメージ情報記憶部1に記憶された文書
画像から切り出して記憶する文字列イメージ記憶部、8
は文字列イメージ記憶部7に記憶された文字列の画像か
ら1文字ずつ切り出し、これを認識して文字コードを出
力する文字認識部である。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a document reading device that reads characters from a document containing a mixture of characters and non-text information such as diagrams, photographs, etc. 1 is a diagram showing a configuration of a conventional document reading device that cuts out and reads only turns of a document reading device that can perform processing according to the attributes of areas such as tables and figures. In the figure, ■
2 is an image information storage section as an image storage means for storing a binary image (document image) obtained by optically scanning a document and photoelectrically converting it; 2 obtained by compressing the document image by dividing it into small regions and making each small region correspond to one pixel.
A compressed image storage section 3 serves as an image compression storage means for storing a value image (compressed image), and 3 a pixel feature storage section 3 serves as a feature extraction means for extracting and storing the features of each pixel of the compressed image from the corresponding document image. Section 4 scans the above compressed image in the direction of the character string, checks how many consecutive pixels have a value of "0", and sets the value of these pixels to "1" when the value is below a preset darkness value. A compressed image processing unit 5 converts the image (converted image) obtained by the compressed image processing unit 4 into “
A region detecting unit as a region detecting means detects a region where pixels of 1” are connected as an image region, and 6 stores the shape and pixel characteristics storage unit 3 for each image region detected by the region detecting unit 5. A character string detection unit detects a character string by determining whether or not the detected area is a character string area based on the ratio of pixel features stored in the area, and 7 indicates that the area detected by the area detection unit 5 is a character string area. If it is determined that the character string area is, a character string image storage unit 8 cuts out and stores an image corresponding to the character string area from the document image stored in the image information storage unit 1;
is a character recognition unit that cuts out each character from the character string image stored in the character string image storage unit 7, recognizes each character, and outputs a character code.

第4図は、第3図における各処理部の出力画像を示した
図である。図において、9はイメージ情報記憶部1に記
憶された文書画像、10は上記文書画@、9を圧縮し、
圧縮画像記憶部2に記憶された圧縮画像、11は圧縮画
像10の各画素に対応する文書画像9の小領域において
、横方向の直線が存在する画素の値を“1”、存在しな
い画素の値を“0”とした画素特徴画像、12は圧縮画
像処理部4で処理された変換画像、13は領域検出部5
で検出された画像領域の形状と直線特徴の割合から、文
字列検出部6で文字列と判定された領域(文字列領域)
、14は文字列イメージ記憶部7で切り出された文字列
の画像、15は文字認識部8における認識結果である。
FIG. 4 is a diagram showing output images of each processing section in FIG. 3. In the figure, 9 is a document image stored in the image information storage unit 1, 10 is the document image @, 9 is compressed,
In the compressed image 11 stored in the compressed image storage unit 2, in a small area of the document image 9 corresponding to each pixel of the compressed image 10, the value of the pixel where a horizontal straight line exists is set to "1", and the value of the pixel that does not exist is set to "1". A pixel characteristic image with a value of "0", 12 is a converted image processed by the compressed image processing unit 4, and 13 is a region detection unit 5
An area determined to be a character string by the character string detection unit 6 (character string area) based on the shape of the image area detected and the proportion of linear features.
, 14 is an image of a character string cut out by the character string image storage section 7, and 15 is a recognition result in the character recognition section 8.

次に、動作について説明する。Next, the operation will be explained.

イメージ情報記憶部1に記憶された例えば1024X1
024画素から成る文書画像9を縦8画素、横32画素
から成る128X32個の小領域に分割し、各小領域で
値が“1”の画素の数を計数し、その計数値が5以上で
あれば“1”、5未満であれば“0”を画素の値とした
圧縮画像10を形成し、圧縮画像記憶部2に記憶する。
For example, 1024X1 stored in the image information storage unit 1
Divide the document image 9 consisting of 0.024 pixels into 128 x 32 small areas consisting of 8 pixels vertically and 32 pixels horizontally, count the number of pixels with a value of "1" in each small area, and if the counted value is 5 or more. If the pixel value is "1", if the pixel value is less than 5, the pixel value is "0", and a compressed image 10 is formed and stored in the compressed image storage section 2.

一方、各小領域において、左端から右端まで値が“1”
の画素が8方向で連結しているとき“1”、その他のと
き“0”を画素の値とした画素特徴画像11を形成し、
画素特徴記憶部3に記憶する。
On the other hand, in each small area, the value is “1” from the left end to the right end.
Forming a pixel characteristic image 11 with a pixel value of "1" when the pixels of are connected in eight directions, and "0" otherwise,
It is stored in the pixel feature storage section 3.

次に、圧縮画像処理部4において、圧縮画像10を文字
列方向(横方向)に走査し、値が“O”の画素が何個連
続するかを調べ、3個以下の場合は、これらの画素の値
を“1”に書換えた変換画像12を形成する。
Next, in the compressed image processing unit 4, the compressed image 10 is scanned in the character string direction (horizontal direction), and the number of consecutive pixels with the value "O" is determined. If the number is 3 or less, these pixels are scanned. A converted image 12 with pixel values rewritten to "1" is formed.

次に、領域検出部5において、変換画像12を走査し、
値が“1”の画素が4方向で連結する領域を検出し、検
出された各領域に対して、文字列検出部6において、文
字列領域であるか否かを検査する。これは、文字列の形
状は横方向に長い長方形であり、且つ、横方向の直線で
は無いことが知られていることから、領域検出部5で検
出された画像領域の形状と、横方向の直線が存在するこ
とを示す画素特徴画像11の情報を用いて検査し、文字
列領域13を検出する。
Next, the area detection unit 5 scans the converted image 12,
An area in which pixels with a value of "1" are connected in four directions is detected, and each detected area is inspected by the character string detection unit 6 to determine whether or not it is a character string area. This is because it is known that the shape of a character string is a horizontally long rectangle and is not a horizontally straight line. The character string region 13 is detected by inspection using information in the pixel characteristic image 11 indicating the existence of a straight line.

次に、文字列検出部6で検出された文字列領域13に対
応する文字列の画像14を文書画像9から切り出し、文
字認識部8において、この文字列の画+114から周知
の技術を用いて各文字パターンを切り出して認識し、認
識結果15を出力する。
Next, a character string image 14 corresponding to the character string area 13 detected by the character string detection unit 6 is cut out from the document image 9, and the character recognition unit 8 extracts the image 14 of the character string from the image +114 of this character string using a well-known technique. Each character pattern is cut out and recognized, and a recognition result 15 is output.

この様に、従来の文書読取装置では、文書画像の中から
文字列領域のみを切り出し、これを読取りの対象として
いた。従って、文字列検出部6では、検出された領域の
形状と直線特徴の割合だけから文字列領域であるか否か
を検査していた。
In this way, conventional document reading devices cut out only the character string area from the document image and read this area. Therefore, the character string detection unit 6 checks whether the detected region is a character string region or not based only on the shape of the detected region and the proportion of linear features.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

従来の文書読取装置では、上記の様に、文字列領域のみ
を読取り対象としていた為に、例えば表領域は表中の文
字パターンを切り出して読取り、写真領域はその領域の
文書画像を圧縮して出力するといった領域の属性に応じ
た処理が出来なかった。又、文字列領域か否かを検査す
るには、領域の形状と直線特徴の割合だけを用いていた
為に、検出された領域が図領域であるか表領域であるか
を判別するには判定基準が少なく、判別するのが困難で
あるといった問題点があった。
As mentioned above, conventional document reading devices only read character string areas, so for example, for a table area, the character pattern in the table is cut out and read, and for a photo area, the document image in that area is compressed. It was not possible to perform processing according to the attributes of the area, such as output. In addition, since only the shape of the area and the ratio of linear features were used to check whether it is a character string area, it is difficult to determine whether the detected area is a figure area or a table area. There were problems in that there were few criteria and it was difficult to distinguish.

この発明は、上記の様な問題点を解消する為になされた
もので、その目的は、検出した領域の属性(文字列、図
、表、写真、その他)を判定し、領域の属性に応じた処
理が出来る文書読取装置を提供することにある。
This invention was made to solve the above-mentioned problems, and its purpose is to determine the attributes (character strings, figures, tables, photographs, etc.) of the detected area, and to determine the attributes of the area. The object of the present invention is to provide a document reading device that can perform various processes.

〔問題点を解決するための手段〕[Means for solving problems]

この発明に係る文書読取装置は、画像記憶手段に記憶さ
れた文書画像を所定数の画素から成る小領域に分割し、
各小領域を1画素に圧縮して記憶することにより圧縮画
像を形成する画像圧縮記憶手段と、上記文書画像から上
記小領域毎に画像の所定の特徴を抽出する特徴抽出手段
と、上記圧縮画像から画素の連結性にもとづき画像領域
を検出する領域検出手段と、上記画像領域の属性をその
領域全体あるいは上記特徴抽出手段で抽出された小領域
毎の画像の特徴と予め属性毎に用意された画像の特徴と
を較べることにより判定する属性判定手段と、上記画像
領域に対応する文書画像の領域を切り出して上記画像領
域の属性に応じた処理を行う領域処理手段とを備えたも
のである。
A document reading device according to the present invention divides a document image stored in an image storage means into small regions each consisting of a predetermined number of pixels,
an image compression storage means for forming a compressed image by compressing each small region into one pixel and storing the compressed image; a feature extraction means for extracting a predetermined feature of an image for each of the small regions from the document image; a region detection means for detecting an image region based on pixel connectivity; and a region detection means for detecting an image region based on pixel connectivity; The apparatus is equipped with an attribute determining means that makes a determination by comparing the characteristics of the image, and an area processing means that cuts out an area of the document image corresponding to the image area and performs processing according to the attribute of the image area.

〔作用〕[Effect]

この発明においては、画像圧縮記憶手段により圧縮記憶
された圧縮画像にもとづき領域検出手段で画像領域が検
出される。属性判定手段は上記画像領域の外形や特徴抽
出手段で抽出した特徴を予め文字列、表、図形等の属性
毎に用意した特徴と較べることにより当該画像領域の属
性を判定する。
In this invention, the image area is detected by the area detection means based on the compressed image compressed and stored by the image compression storage means. The attribute determining means determines the attributes of the image region by comparing the outline of the image region and the features extracted by the feature extracting means with features prepared in advance for each attribute such as a character string, table, figure, etc.

そして、この属性にもとづき、領域処理手段は上記画像
領域に対応して文書画像から切り出した画像を処理する
Then, based on this attribute, the area processing means processes the image cut out from the document image corresponding to the image area.

〔実施例〕〔Example〕

以下、この発明の一実施例を図について説明する。 An embodiment of the present invention will be described below with reference to the drawings.

第1図は、この発明による文書読取装置の一実施例を示
す全体構成図である。尚、前記第3図に示したものと同
−又は相当部分には同一符号を用いて、その説明は省略
する。図において、16は領域検出部5で検出した各画
像領域に対して、文字列9図2表、写真等の領域の属性
を判定する属性判定手段としての属性判定部である。属
性を判定するには、検出された画像領域の形状、検出さ
れた画像領域を所定数の部分領域に分割し、各部分領域
に占める画素特徴の割合の分布を用い、予め用意してお
いたモデルと同定することにより行う。17は上記属性
判定部16で判定された属性に応じて、検出された画像
領域の処理をする領域処理手段としての領域処理部であ
る。領域を処理するには、例えば、検出された領域が文
字列ならば対応する文書画像の領域を切り出し、得られ
た文字列の画像から1文字ずつの文字パターンを切り出
し、これらを認識して文字コードの列を出力する。検出
した領域が表ならば、表中の文字列を検出し、対応する
文書画像の領域を切り出し、文字切り出しと文字認識を
行って、文字コードの列を裏構造と共に出力する。検出
した領域が写真や図ならば、対応する文書画像の領域を
切り出し、得られた画像を圧縮して出力するというもの
である。
FIG. 1 is an overall configuration diagram showing an embodiment of a document reading device according to the present invention. Incidentally, the same reference numerals are used for the same or corresponding parts as those shown in FIG. 3, and the explanation thereof will be omitted. In the figure, reference numeral 16 denotes an attribute determining unit as attribute determining means for determining the attributes of areas such as character strings 9, photographs, etc. for each image area detected by the area detecting unit 5. To determine attributes, the shape of the detected image area, the detected image area is divided into a predetermined number of partial areas, and the distribution of the proportion of pixel features in each partial area is used. This is done by identifying the model. Reference numeral 17 denotes a region processing section as a region processing means for processing the detected image region according to the attribute determined by the attribute determination section 16. To process a region, for example, if the detected region is a character string, cut out the corresponding region of the document image, cut out character patterns for each character from the obtained character string image, and recognize these to create characters. Output a string of code. If the detected area is a front, a character string in the front is detected, the corresponding area of the document image is extracted, character extraction and character recognition are performed, and a string of character codes is output together with the back structure. If the detected area is a photograph or drawing, the corresponding area of the document image is cut out, the resulting image is compressed, and then output.

第2図は、第1図における各処理部の出力画像を示した
図であり、18はイメージ情報記憶部1で記憶された文
書画像であり、表と図から成る。
FIG. 2 is a diagram showing output images of each processing section in FIG. 1, and 18 is a document image stored in the image information storage section 1, which consists of a table and a diagram.

19は文書画像18を圧縮して圧縮画像記憶部2に記憶
された圧縮画像、2oは圧縮画像19の各画素に対応す
る文書画像18の各小領域において、横方向の直線が存
在する画素の値を“1”、その他の画素の値を“0”と
した画素特徴画像、21は圧縮画像19を圧縮画像処理
部5で処理して得られた変換画像、22は変換画像21
で値が“1”の画素が4方向で連結する領域を領域検出
部5で検出し、検出された領域の外接四辺形において、
縦の長さ、横の長さ、画素特徴の割合、領域を4分割し
たときの各部分領域における画素特徴の割合から求めた
分布を調べ、属性判定部16で属性を判定した結果、2
3は属性判定部16で表領域と判定された領域から文字
列領域を検出し、文書画像18から対応する領域を切り
出して得られた文字列の画像から文字を切り出した文字
パターン、24は文字パターン23を認識した結果を裏
構造と共に出力した出力結果である。
19 is a compressed image stored in the compressed image storage unit 2 by compressing the document image 18, and 2o is a compressed image of the pixel where a horizontal straight line exists in each small area of the document image 18 corresponding to each pixel of the compressed image 19. A pixel characteristic image in which the value is "1" and the values of other pixels are "0", 21 is a converted image obtained by processing the compressed image 19 by the compressed image processing unit 5, 22 is a converted image 21
The area detection unit 5 detects an area where pixels with a value of "1" are connected in four directions, and in the circumscribed quadrilateral of the detected area,
As a result of examining the distribution obtained from the vertical length, the horizontal length, the ratio of pixel features, and the ratio of pixel features in each partial region when the region is divided into four, and determining the attribute in the attribute determination section 16, 2
3 is a character pattern in which characters are extracted from a character string image obtained by detecting a character string area from an area determined to be a table area by the attribute determination unit 16 and cutting out a corresponding area from the document image 18; 24 is a character pattern; This is an output result in which the result of recognizing the pattern 23 is output together with the back structure.

次に、動作について説明する。Next, the operation will be explained.

この様な構成において、イメージ情報記憶部1に記憶さ
れている例えば1024X1024画素から成る文書画
像は、縦方向に8画素、横方向に32画素から成る12
8x32個の小領域に分割する。
In such a configuration, a document image stored in the image information storage unit 1 and consisting of, for example, 1024×1024 pixels is divided into 12 pixels consisting of 8 pixels in the vertical direction and 32 pixels in the horizontal direction.
Divide into 8x32 small areas.

次に、この各小領域において値が“1゛の画素の数を計
数し、その計数値が5以上ならば“1”、5未満ならば
“0”を画素の値とした圧縮画像19を形成し、圧縮画
像記憶部2に記憶する。
Next, the number of pixels with a value of "1" is counted in each small area, and if the counted value is 5 or more, the pixel value is "1", and if it is less than 5, the pixel value is set to "0" to create the compressed image 19. and stores it in the compressed image storage section 2.

一方、上記の各小領域において、左端から右端まで値が
“1”の画素が8方向で連結しているとき画素の値を“
1”、その他のとき画素の値を“O”とした画素特徴画
像20を形成し、画素特徴記憶部3に記憶する。
On the other hand, in each of the above small areas, when pixels with a value of "1" are connected in eight directions from the left end to the right end, the pixel value is "
1”, and in other cases, a pixel characteristic image 20 is formed in which the pixel value is “O” and is stored in the pixel characteristic storage unit 3.

次に、圧縮画像処理部4において、圧縮画像19を文字
列方向に走査し、値が“O”の画素が何個連続するかを
調べ、所定数以下の゛とき、これらの画素の値を“1”
に書換えた変換画像21を形成する。
Next, the compressed image processing unit 4 scans the compressed image 19 in the direction of the character string, checks how many consecutive pixels with the value "O", and when the number is less than a predetermined number, changes the value of these pixels. “1”
A converted image 21 rewritten as follows is formed.

次に、領域検出部5では、変換画像21において、値が
“1”の画素が例えば4方向で連結する領域を画像領域
として検出する。
Next, the area detection unit 5 detects an area in which pixels having a value of "1" are connected in, for example, four directions in the converted image 21 as an image area.

次に、属性判定部16では、領域検出部5で検出された
各画像領域において、外接四辺形の縦の長さと横の長さ
や、検出された領域に対応する画素特徴画像や圧縮画像
の領域における値が“1”の画素の数が外接四辺形の画
素数に占める割合の外に、外接四辺形を4分割して得ら
れる各部分領域において同様な割合を調べ、その分布を
求める。
Next, the attribute determination unit 16 determines the vertical and horizontal lengths of the circumscribed quadrilateral in each image area detected by the area detection unit 5, and the area of the pixel characteristic image or compressed image corresponding to the detected area. In addition to the ratio of the number of pixels with a value of "1" to the number of pixels of the circumscribed quadrilateral, a similar ratio is examined in each partial region obtained by dividing the circumscribed quadrilateral into four, and its distribution is determined.

そして、表や図は文字列よりも縦方向に長く、表は横方
向の直線が多く、部分領域間の画素特徴の分布が比較的
安定であり、図は、一般には横方向の直線が比較的少な
く、部分領域間の画素特徴の分布に偏りがあることが多
いといった予め用意されたモデルと同定することによっ
て、画像領域の属性を判定し、判定した結果22を得る
Tables and figures are longer in the vertical direction than text strings, tables have many horizontal straight lines, and the distribution of pixel features between subregions is relatively stable, whereas figures generally have horizontal straight lines. The attributes of the image region are determined by identifying it with a pre-prepared model in which the distribution of pixel features between partial regions is often biased, and a determined result 22 is obtained.

次に、領域処理部17では、属性判定部5で判定した結
果が表であった領域に対しては、画素特徴画像や圧縮画
像を用いて表中の文字列領域を検出し、対応する領域を
文書画像18から切り出し、得られた文字列の画像から
文字パターン23を切り出し、切り出された各文字パタ
ーンを認識し、その結果を文字列の存在した欄の位置と
共に出力し、出力結果24を得る。
Next, in the area processing unit 17, for the area whose result determined by the attribute determination unit 5 is a table, the character string area in the table is detected using the pixel feature image or the compressed image, and the corresponding area is detected. is extracted from the document image 18, the character pattern 23 is extracted from the obtained character string image, each extracted character pattern is recognized, the result is output together with the position of the column where the character string existed, and the output result 24 is obtain.

尚、以上では、画素特徴として小領域における直線の有
無を抽出して用いる場合を例に挙げて示したが、円弧、
破線、ベタ黒、太い直線等小領域で抽出可能な他の特徴
を用いても良く、又、画素特徴は複数種用いてもよい。
In the above example, the presence or absence of a straight line in a small area is extracted and used as a pixel feature, but circular arcs,
Other features that can be extracted in a small area, such as a broken line, solid black, and a thick straight line, may be used, and multiple types of pixel features may be used.

又、各画像領域における特徴情報の使い方として、検出
した画像領域を分割した場合について説明したが、分割
せず画素特徴の連続性、密度などを特徴情報として用い
てもよい。又、この特徴情報は、図と表を判別する場合
を例に挙げたが、領域の属性判定における判断基準とし
て一般に用いることが出来る。
Further, as for how to use the feature information in each image region, the case where the detected image region is divided has been described, but the continuity, density, etc. of pixel features may be used as the feature information without dividing. Further, although this feature information has been exemplified in the case of distinguishing between a figure and a table, it can generally be used as a criterion for determining the attributes of an area.

又、領域の処理は、表領域について説明したが、他の属
性についても、同様な処理をすることが出来る。
Further, although the area processing has been described for table areas, similar processing can be performed for other attributes as well.

〔発明の効果〕〔Effect of the invention〕

以上の様に、この発明による文書読取装置は、画像記憶
手段に記憶された文書画像を所定数の画素から成る小領
域に分割し、各小領域を1画素に圧縮して記憶すること
により圧縮画像を形成する画像圧縮記憶手段と、上記文
書画像から上記小領域毎に画像の所定の特徴を抽出する
特徴抽出手段と、上記圧縮画像から画素の連結性にもと
づき画像領域を検出する領域検出手段と、上記画像領域
の属性をその領域全体あるいは上記特徴抽出手段で抽出
された小領域毎の画像の特徴と予め属性毎に用意された
画像の特徴とを較べることにより判定する属性判定手段
と、上記画像領域に対応する文書画像の領域を切り出し
て上記画像領域の属性に応じた処理を行う領域処理手段
とを備えたことにより、属性判定の精度を高くすること
が出来るので、文字以外の図領域や表領域の処理等も行
うことが出来、柔軟なシステムを構成することが出来る
という効果がある。
As described above, the document reading device according to the present invention divides the document image stored in the image storage means into small regions each consisting of a predetermined number of pixels, compresses each small region into one pixel, and stores the compressed image. an image compression storage means for forming an image; a feature extraction means for extracting a predetermined image feature for each of the small regions from the document image; and an area detection means for detecting an image region from the compressed image based on pixel connectivity. and attribute determination means for determining the attributes of the image region by comparing the image features of the entire region or each small region extracted by the feature extraction means with image features prepared in advance for each attribute; By including an area processing means that cuts out an area of the document image corresponding to the image area and performs processing according to the attribute of the image area, it is possible to increase the accuracy of attribute determination. It is also possible to process areas and tablespaces, and has the effect of configuring a flexible system.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例を示す構成図、第2図は第
1図の各構成要素からの出力画像を示す図、第3図は従
来の装置の構成図、第4図は従来の装置の各構成要素か
らの出力画像を示す図である。 1はイメージ情報記憶部(画像記憶手段)、2は圧縮画
像記憶部(画像圧縮記憶手段)、3は画素特徴記憶部(
特徴抽出手段)、4は圧縮画像処理部、5は領域検出部
(手段)、16は属性判定部(手段)、17は領域処理
部(手段)である。 尚、図中、同一符号は同一、又は相当部分を示す。 土1図 図
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing output images from each component in FIG. 1, FIG. 3 is a block diagram of a conventional device, and FIG. 4 is a block diagram of a conventional device. FIG. 3 is a diagram showing output images from each component of the device. 1 is an image information storage unit (image storage means), 2 is a compressed image storage unit (image compression storage unit), and 3 is a pixel feature storage unit (
4 is a compressed image processing section, 5 is a region detection section (means), 16 is an attribute determination section (means), and 17 is a region processing section (means). In addition, in the figures, the same reference numerals indicate the same or corresponding parts. Soil 1 map

Claims (2)

【特許請求の範囲】[Claims] (1)文字以外の情報を含む文書を画像として、画素単
位に記憶する画像記憶手段を備え、記憶された文書画像
から文字パターンを切り出して読取る文書読取装置にお
いて、上記文書画像を所定数の画素から成る小領域に分
割し、各小領域を1画素に圧縮して記憶することにより
圧縮画像を形成する画像圧縮記憶手段と、上記文書画像
から上記小領域毎に画像の所定の特徴を抽出する特徴抽
出手段と、上記圧縮画像から画素の連結性にもとづき画
像領域を検出する領域検出手段と、上記画像領域の属性
をその領域全体あるいは上記特徴抽出手段で抽出された
小領域毎の画像の特徴と予め属性毎に用意された画像の
特徴とを較べることにより判定する属性判定手段と、上
記画像領域に対応する文書画像の領域を切り出して上記
画像領域の属性に応じた処理を行う領域処理手段とを備
えたことを特徴とする文書読取装置。
(1) In a document reading device that is equipped with an image storage means for storing a document containing information other than characters as an image pixel by pixel, and that cuts out and reads a character pattern from the stored document image, the document image is divided into a predetermined number of pixels. an image compression storage means for forming a compressed image by dividing the document image into small regions, and compressing and storing each small region into one pixel; a feature extraction means; a region detection means for detecting an image region from the compressed image based on pixel connectivity; and a region detection means for detecting an image region from the compressed image based on pixel connectivity; attribute determination means for determining the image by comparing the image characteristics prepared in advance for each attribute; and area processing means for cutting out a region of the document image corresponding to the image region and performing processing according to the attribute of the image region. A document reading device comprising:
(2)属性判定手段は、領域検出手段で検出された画像
領域を所定数の部分領域に分割し、得られた各部分領域
に対して、特徴抽出手段で抽出された各小領域の特徴の
出現頻度を求め、その値に基づいて、検出した画像領域
の属性を判定することを特徴とする特許請求の範囲第1
項記載の文書読取装置。
(2) The attribute determining means divides the image region detected by the region detecting means into a predetermined number of partial regions, and for each of the obtained partial regions, the characteristic of each small region extracted by the feature extracting means is determined. Claim 1, characterized in that the appearance frequency is determined and the attribute of the detected image area is determined based on the value.
The document reading device described in Section 1.
JP60137521A 1985-06-24 1985-06-24 Document reader Pending JPS61296481A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60137521A JPS61296481A (en) 1985-06-24 1985-06-24 Document reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60137521A JPS61296481A (en) 1985-06-24 1985-06-24 Document reader

Publications (1)

Publication Number Publication Date
JPS61296481A true JPS61296481A (en) 1986-12-27

Family

ID=15200619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60137521A Pending JPS61296481A (en) 1985-06-24 1985-06-24 Document reader

Country Status (1)

Country Link
JP (1) JPS61296481A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63298487A (en) * 1987-05-28 1988-12-06 Ricoh Co Ltd Area dividing and discriminating system for document picture
JPH02288991A (en) * 1989-02-17 1990-11-28 Fuji Electric Co Ltd Document processor
JPH04195693A (en) * 1990-11-28 1992-07-15 Toshiba Corp Multimedia input device
JPH04303278A (en) * 1990-12-29 1992-10-27 Gold Star Co Ltd Character-string separating method for compressed image
US5867593A (en) * 1993-10-20 1999-02-02 Olympus Optical Co., Ltd. Image region dividing apparatus
US5872864A (en) * 1992-09-25 1999-02-16 Olympus Optical Co., Ltd. Image processing apparatus for performing adaptive data processing in accordance with kind of image

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63298487A (en) * 1987-05-28 1988-12-06 Ricoh Co Ltd Area dividing and discriminating system for document picture
JPH02288991A (en) * 1989-02-17 1990-11-28 Fuji Electric Co Ltd Document processor
JPH04195693A (en) * 1990-11-28 1992-07-15 Toshiba Corp Multimedia input device
JPH04303278A (en) * 1990-12-29 1992-10-27 Gold Star Co Ltd Character-string separating method for compressed image
US5872864A (en) * 1992-09-25 1999-02-16 Olympus Optical Co., Ltd. Image processing apparatus for performing adaptive data processing in accordance with kind of image
US5867593A (en) * 1993-10-20 1999-02-02 Olympus Optical Co., Ltd. Image region dividing apparatus

Similar Documents

Publication Publication Date Title
JPH0721310A (en) Document recognizing device
JPS61296481A (en) Document reader
JPH0548510B2 (en)
EP0689168B1 (en) Image processing method and apparatus
JPH08180068A (en) Electronic filing device
JPH0291789A (en) Character recognizing system
JPH0564396B2 (en)
JPH02210586A (en) Table area separator
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JPS61289476A (en) Format forming system for character reader
JP2590099B2 (en) Character reading method
JPH02253383A (en) Picture processor
JP3140079B2 (en) Ruled line recognition method and table processing method
JPH03268181A (en) Document reader
JPH0540849A (en) Area extraction method for document image
JPS60238986A (en) Pattern matching system of character recognition device
JPS62200472A (en) Line detector
JPH02187883A (en) Document reader
JPH04316178A (en) Method for discriminating attribute of document picture
JPH07111738B2 (en) Area boundary extraction method in document
JPH08185475A (en) Picture recognition device
JPS62194590A (en) Character recognizing system
JPH04288773A (en) Attribute discriminating method
JPH05174179A (en) Document image processor
JPS60230277A (en) Detection/segment system of character