JPS61175878A - Document reading device - Google Patents

Document reading device

Info

Publication number
JPS61175878A
JPS61175878A JP60017265A JP1726585A JPS61175878A JP S61175878 A JPS61175878 A JP S61175878A JP 60017265 A JP60017265 A JP 60017265A JP 1726585 A JP1726585 A JP 1726585A JP S61175878 A JPS61175878 A JP S61175878A
Authority
JP
Japan
Prior art keywords
character
pattern
basic pattern
evaluation value
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60017265A
Other languages
Japanese (ja)
Other versions
JPH0467674B2 (en
Inventor
Fumio Yoda
依田 文夫
Yoji Maeda
前田 陽二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP60017265A priority Critical patent/JPS61175878A/en
Publication of JPS61175878A publication Critical patent/JPS61175878A/en
Publication of JPH0467674B2 publication Critical patent/JPH0467674B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To cut out characters correctly even when information such as a character frame, etc. by detecting positional information of a basic pattern, calculating a character valuation value based on the information, and determining the position of a basic pattern to be cut out as a character based on the magnitude of the value. CONSTITUTION:Characters written on a sheet of paper 1 are scanned optically by a scanning device 2 and picture information for one line is stored in a pattern memory. The information in a memory 3 is sent to a basic pattern area detecting device, and the basic pattern that becomes structural elements of a character is extracted from the information by the device 8, and coordinates of left end and right end and upper end and lower end of a rectangle that circumscribes each basic pattern are detected as positional information of the basic pattern. The character valuation value is calculated by a character valuation value calculating device based on the information and position of individual character cut out by a character cut-out position determining device 10. Then, a character pattern is read from a memory 3 by a character cut-out device 11 and sent to a cut-out pattern buffer, and character is cut out correctly by unit of one character.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書読取り装置に関するものであり、特に読
取った文書内の文字列から文字パターンを切り出す手段
の改良に関するものである。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a document reading device, and particularly to an improvement in a means for cutting out a character pattern from a character string in a read document.

〔従来の技術〕[Conventional technology]

文字を認識するには、用紙に記入された文字を光電交換
し、文字の部分とその背景の部分に対応した“1”、“
0”の2値信号に変換した画像パターンから1文字づつ
文字パターンを切り出さなければならない。
To recognize characters, the characters written on paper are photoelectrically exchanged, and "1" and "," which correspond to the character part and its background part, are
Character patterns must be cut out one character at a time from the image pattern converted into a binary signal of 0''.

第7図は特公昭55−42434号に示された従来のこ
の種装置の構成を示す図であり、図中1は用紙、2は用
紙1上に記入された文字を光学的に走査して光電交換す
る走査手段、3は光電交換された1行分の文字の画像情
報を格納するパターンメモリ、4は上記パターンメモリ
3を文字の各行毎に上下に走査して求めた周辺分布値が
予め設定したしきい値に以上の場合には「1」、K以下
の場合rQJに2値化した画像パターンから「1」が連
続する部分に対応する上記パターンメモリ3内の画像パ
ターン(以下、「基本パターン」と言う)の左端の座標
と右端の座標とを検出する右端/左端検出手段である。
Fig. 7 is a diagram showing the configuration of a conventional device of this type disclosed in Japanese Patent Publication No. 55-42434. A scanning means for photoelectrically exchanging, 3 a pattern memory storing image information of one line of characters that have been photoelectrically exchanged, and 4 a peripheral distribution value obtained by scanning the pattern memory 3 vertically for each line of characters; The image pattern in the pattern memory 3 (hereinafter referred to as This is right/left end detection means for detecting the left end coordinates and right end coordinates of the basic pattern (referred to as "basic pattern").

5は予め文書フォーマント情報として与えられるか、あ
るいは用紙1上に記入されたマーク情報等から文字枠の
座標を検出し、この情報を格納する枠情報検出である。
Reference numeral 5 denotes frame information detection in which the coordinates of a character frame are detected from mark information, etc., given in advance as document form information or written on the sheet 1, and this information is stored.

6は1文字のパターンを切り出す文字切り出し手段、7
は切り出した文字のパターンを格納する切り出しパター
ンバッファである。
6 is a character cutting means for cutting out a pattern of one character; 7
is an extraction pattern buffer that stores the extracted character pattern.

従来の文字パターン切り出し装置は、上記のように構成
され、左端/右端検出手段4で検出した基本パターンの
左端と右端の座標と、上記枠情報検出手段5で検出した
文字枠の座標とを比較することにより、1文字のパター
ンを切り出すようになっている。
The conventional character pattern cutting device is configured as described above, and compares the coordinates of the left end and right end of the basic pattern detected by the left end/right end detection means 4 with the coordinates of the character frame detected by the frame information detection means 5. By doing this, a pattern of one character can be cut out.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

ところが、上記のような従来装置では、文字枠の座標と
文字枠の大きさの情報を基準にして1文字ずつ文字パタ
ーンを切り出すため、漢字の「語」などのように左右に
分離しても独立の文字として読める文字では、文字枠を
意識して記入されておれば、「言」と「吾」との2つの
文字要素を分離することなく正しく1文字として切り出
すことができるが、文字が文字枠を意識しないで記入さ
れた自由な書式の手書き文字列の場合には、文字枠の情
報が使えないため、文字パターンを正しく切り出せない
という問題点があった。
However, with conventional devices such as those mentioned above, character patterns are cut out character by character based on information on the coordinates of the character frame and the size of the character frame, so even if the character pattern is separated into left and right parts, such as the ``word'' of kanji, For characters that can be read as independent characters, if the characters are written with the character frame in mind, the two character elements of ``go'' and ``go'' can be correctly extracted as one character without separating them. In the case of a freely formatted handwritten character string that is entered without being aware of the character frame, there is a problem in that the character pattern cannot be correctly extracted because the character frame information cannot be used.

この発明は、このような問題点を解決するためになされ
たもので、文字記入枠を設定しない文書に記入された文
字列を1文字ずつ正しく切り出すことができる文書読取
り装置を提供することを目的としている。
The present invention was made in order to solve such problems, and an object of the present invention is to provide a document reading device that can correctly cut out character strings written in a document without a character entry frame one character at a time. It is said that

〔問題点を解決するための手段〕[Means for solving problems]

この発明に係る文字パターン切り出し装置は、文書に記
載された文字列から基本となるパターンを検出する基本
パターン検出手段と、基本パターンが文字らしいか否か
を定量的に評価する文字評価値算出手段と、1行分の文
字評価値に基づいて基本パターンの切り出し位置を決定
する切り出し位置決定手段と、決定した切り出し位置に
基づいて文字列から文字を切り出す文字切り出し手段と
を設けたものである。
The character pattern extraction device according to the present invention includes a basic pattern detection means for detecting a basic pattern from a character string written in a document, and a character evaluation value calculation means for quantitatively evaluating whether the basic pattern is likely to be a character. The present invention is provided with a cutout position determining means for determining a cutout position of a basic pattern based on character evaluation values for one line, and a character cutout means for cutting out characters from a character string based on the determined cutout position.

〔作用〕[Effect]

この発明においては、基本パターン検出手段で文字を構
成する文字要素の基本パターンの位置情報を検出した後
、文字評価値算出手段において上記基本パターンの位置
情報を用いて上記基本パターンおよび上記基本パターン
を結合したときの結合パターンがどの程度文字パターン
らしいかを定量的に表わした文字評価値を算出し、上記
文字切り出し位置決定手段においてこの文字評価値の大
きさに基づいて文字として切り出す基本パターンの位置
を決定する。このため、文字枠などの情報がなくても文
字を正しく切り出すことができる。
In this invention, after the basic pattern detecting means detects the positional information of the basic pattern of the character elements constituting the character, the character evaluation value calculating means uses the positional information of the basic pattern to detect the basic pattern and the basic pattern. A character evaluation value that quantitatively represents how much the combined pattern resembles a character pattern when combined is calculated, and the position of the basic pattern to be cut out as a character in the character extraction position determining means based on the size of this character evaluation value. Determine. Therefore, characters can be correctly extracted even without information such as character frames.

〔発明の実施例〕[Embodiments of the invention]

以下、図面を用いて本発明の詳細な説明する。 Hereinafter, the present invention will be explained in detail using the drawings.

第1図は、この発明の実施例の構成を示す図である。図
中、■、2.3.7は従来装置と同一のものである。8
は従来装置と同一の手法で求めた基本パターンの左端と
右端の座標に加え、さらに基本パターンの上端と下端の
座標を検出する基本パターン領域検出手段である。9は
′上記基本パターン領域手段8で求めた基本パターンの
位置情報から基本パターンおよび連続する複数個の基本
パターンを結合した結合パターンのそれぞれがどの程度
1文字のパターンらしいかを定量化した値(以後「文字
評価値」と呼ぶ)を計算する文字評価値算出手段である
。10は上記文字評価値算出手段9で求めた文字評価値
の大きさに基づき切り出す文字パターンの位置を決定す
る文字切り出し位置決定手段である。1)は上記文字切
り出し位置決定手段10で決定した切り出し位置情報に
基づいて上記パターンメモリ3から1文字ずつ文字パタ
ーンを読み出し、切り出しパターンバッファ7に転送す
る文字切り出し手段である。
FIG. 1 is a diagram showing the configuration of an embodiment of the present invention. In the figure, ■, 2.3.7 are the same as the conventional device. 8
is a basic pattern area detecting means that detects the coordinates of the upper and lower ends of the basic pattern in addition to the coordinates of the left and right ends of the basic pattern obtained using the same method as the conventional device. 9 is a value that quantifies the extent to which each basic pattern and a combined pattern obtained by combining a plurality of consecutive basic patterns are likely to be patterns of one character, based on the basic pattern position information obtained by the basic pattern area means 8. This is a character evaluation value calculation means for calculating a character evaluation value (hereinafter referred to as a "character evaluation value"). Reference numeral 10 denotes a character cutting position determining means for determining the position of a character pattern to be cut out based on the size of the character evaluation value calculated by the character evaluation value calculating means 9. 1) is a character cutting means which reads a character pattern one character at a time from the pattern memory 3 based on the cutting position information determined by the character cutting position determining means 10 and transfers it to the cutting pattern buffer 7.

第2図は、用紙に記入された入力文字列の例を示す図で
あり、図中、1は用紙、12は一例として掲げた入力文
字列「読み取る」、13は文字枠である。
FIG. 2 is a diagram showing an example of an input character string written on a paper. In the figure, 1 is the paper, 12 is the input character string "read" as an example, and 13 is a character frame.

第3図は、上記基本パターン領域検出手段8の処理を説
明するための図であり、図中、14は上記パターンメモ
リ3に格納した画像情報、15は上記画像情報14の文
字射影図、16.17.18.19は基本パターンの左
端、右端、上端、下端の座標である。
FIG. 3 is a diagram for explaining the processing of the basic pattern area detection means 8, in which 14 is the image information stored in the pattern memory 3, 15 is a character projection diagram of the image information 14, and 16 .17.18.19 are the coordinates of the left end, right end, top end, and bottom end of the basic pattern.

以下、第2図、第3図を用いて基本パターン領域検出手
段8の動作を説明する。
The operation of the basic pattern area detecting means 8 will be explained below with reference to FIGS. 2 and 3.

まず、第2図の用紙1上に記載された文字列「読み取る
J12は、走査手段2で光電変換され、1行分の画像情
報となり、パターンメモリ3に格納される。なお、第2
図に示した文字枠12は、本発明の処理とは特に関係が
ないが入力文字列「読み取る」12が不規則なピッチで
記入されていることを明確にさせるために便宜上提示し
たものであり、上記パターンメモリ3に格納した上記画
像情報14には文字枠に相当する画像情報は含まれない
First, the character string "Read J12" written on the paper 1 in FIG.
The character frame 12 shown in the figure is not particularly related to the process of the present invention, but is presented for convenience to make it clear that the input character string "read" 12 is written at irregular pitches. , the image information 14 stored in the pattern memory 3 does not include image information corresponding to character frames.

次に、パターンメモリ3内の画像情報14は、基本パタ
ーン領域検出手段8に転送される。基本パターン領域検
出手段8では、画像情報14から文字の構成要素となる
基本パターンを抽出し、各基本パターンに外接する矩形
の左端と右端および上端と下端との座標を基本パターン
の位置情報として検出する。具体的には、上記パターン
メモリ3内の各画素を入力文字列「読み取る」12と直
交する上下方向に走査して画像情報14の文字部分を表
わす画素数を計数することにより、画像情報14の周辺
分布値を求め、この周辺分布値が所定のしきい値に以上
の場合は「1」、そうでない場合は「0」の2値化画像
情報に変換し、元の画像情報に対応する文字射影図15
を作成する。次に、文字射影図15のうち値「1」の画
像情報が連続する部分の幅を基本パターンの幅と見なし
、上記画像情報14から各基本パターンの左端の座標1
6と右端の座標17を検出する。また、各基本パターン
の左端の座標16と右端の座標17を検出した後、各基
本パターンの上端の座標18と下端の座標19を検出す
る。例えば、第3図の基本パターン「言」の上端の座標
18と下端の座標19は、基本パターン「言」の左端の
座標16と右端の座標I7に囲まれた範囲に存在する画
像情報14の各画素に対し、上端の行から下端の行に向
かって左右方向に走査した時、はじめて文字部分を示す
画素に出合った時の座標を基本パターン「言」の上端の
座標18とし、最後に出合った文字部分を示す画素の行
の座標を基本パターンの下端の座標19として決定する
Next, the image information 14 in the pattern memory 3 is transferred to the basic pattern area detection means 8. The basic pattern area detection means 8 extracts basic patterns that are constituent elements of characters from the image information 14, and detects the coordinates of the left end, right end, top end, and bottom end of a rectangle circumscribing each basic pattern as position information of the basic pattern. do. Specifically, each pixel in the pattern memory 3 is scanned in the vertical direction perpendicular to the input character string "read" 12 and the number of pixels representing the character part of the image information 14 is counted, thereby reading the image information 14. The marginal distribution value is calculated, and if this marginal distribution value is greater than or equal to a predetermined threshold value, it is converted into binary image information of "1", otherwise it is "0", and the characters corresponding to the original image information are converted. Projection diagram 15
Create. Next, in the character projection diagram 15, the width of the part where image information with the value "1" continues is regarded as the width of the basic pattern, and from the above image information 14, the left end coordinate 1 of each basic pattern is
6 and the rightmost coordinate 17 are detected. Further, after detecting the coordinates 16 of the left end and the coordinates 17 of the right end of each basic pattern, the coordinates 18 of the top end and the coordinates 19 of the bottom end of each basic pattern are detected. For example, the top coordinate 18 and bottom coordinate 19 of the basic pattern ``word'' in FIG. When scanning each pixel in the horizontal direction from the top row to the bottom row, the coordinates when the pixel indicating the character part is encountered for the first time are taken as coordinates 18 of the top of the basic pattern "word", The coordinates of the pixel row indicating the character part are determined as the coordinates 19 of the lower end of the basic pattern.

第1表は、基本パターンの位置情報を示す表であり、画
像情報14から抽出した「言」、「売」、「み」、「耳
」、「又」、「る」の計6個の基本パターンの位置情報
が示しである。
Table 1 is a table showing the position information of the basic patterns, and includes a total of 6 characters extracted from the image information 14: ``goto'', ``sei'', ``mi'', ``mimi'', ``mata'', and ``ru''. The position information of the basic pattern is shown.

第1表 次に、文字評価値算出手段9の処理について説明する。Table 1 Next, the processing of the character evaluation value calculation means 9 will be explained.

文字評価値算出手段9では、第1表に示した各基本パタ
ーンの位置情報を用いて1つの基本パターンで構成され
ているパターンがどの程度文字らしいか、また連続する
複数個の基本パターンを結合して構成される結合パター
ンがどの程度文字らしいかを示す文字評価値を算出する
The character evaluation value calculation means 9 uses the position information of each basic pattern shown in Table 1 to determine how much a pattern composed of one basic pattern is like a character, and also to combine multiple consecutive basic patterns. A character evaluation value indicating how much the combined pattern formed by the above characters resembles a character is calculated.

文字評価値は次の方法で算出される。The character evaluation value is calculated by the following method.

一般に文字は、個々に独立した小さな図形であリ1.以
下に示す性質が実験的に確かめられている。
In general, characters are small, independent figures.1. The properties shown below have been experimentally confirmed.

(1)1文字は、バランスのとれた形をしている。(1) Each letter has a well-balanced shape.

文字に外接する矩形は正方形に近い形状を有す。A rectangle circumscribing a character has a shape close to a square.

(2)文字と文字の間には、文字同士を分離する空白部
分が存在する。
(2) There is a blank space between characters that separates the characters.

(3)「語」などのように文字要素を左右に分離しても
1つの文字として成立する文字でも、この文字内の空白
部分は上記第2項に示した文字間の空白部分の幅に比べ
て狭い。
(3) Even in characters such as "word" that can be established as a single character even if the character elements are separated left and right, the blank space within this character is the same as the width of the blank space between characters as shown in item 2 above. narrow in comparison.

そこで、本発明では、基本パターンがどの程度文字らし
いかを示す文字評価値を基本パターンの形状と基本パタ
ーン間に存在する空白部分の幅の大きさに基づいて計算
する。具体的には、画像情報14内の左側の基本パター
ンから順にP□。
Therefore, in the present invention, a character evaluation value indicating how much a basic pattern resembles a character is calculated based on the shape of the basic pattern and the width of the blank space between the basic patterns. Specifically, P□ in order from the left basic pattern in the image information 14.

p、z2・・・PMM(計M個)とした時、左側から第
1番目の基本パターンPiiから第j番目の基本パター
ンP(i≦j)を1つにしたパターンPijに対する文
字評価値V(i、j)の値の大小によりパターンPij
がどの程度文字パターンらしいかを評価する。
p, z2... When PMM (total M pieces), character evaluation value V for pattern Pij, which is a combination of the first basic pattern Pii from the left to the jth basic pattern P (i≦j) The pattern Pij is determined by the magnitude of the values of (i, j).
Evaluate how much it resembles a character pattern.

ここに、 Wij  :パターンPijの幅 Hij  :パターンPijの高さ IWij  :パターンPij内に存在する空白部分0
Wij  :パターンPijの両端に存在する空白部分
01〜C,:定数 である。
Here, Wij: Width of pattern Pij Hij: Height of pattern Pij IWij: Blank portion existing within pattern Pij 0
Wij: Blank portions 01 to C existing at both ends of pattern Pij: Constant.

式1で求まる文字評価値V (i、J)はパターンPi
jに外接する矩形が正方形に近く、またパターンPij
内に存在する空白部分が狭く、さらにパターンPijの
両端に存在する空白部分が広いほど大きな値をとる。
The character evaluation value V (i, J) found by formula 1 is the pattern Pi
The rectangle circumscribing j is close to a square, and the pattern Pij
The smaller the blank space within the pattern Pij is and the wider the blank spaces at both ends of the pattern Pij, the larger the value.

この場合、Wijから0Wijは基本パターン領域検出
手段8で求めた各基本パターンの左端と右端および上端
と下端との座標から求めることができる。
In this case, Wij to 0Wij can be determined from the coordinates of the left end, right end, upper end, and lower end of each basic pattern determined by the basic pattern area detection means 8.

例えば、基本パターンPiiの左端と右端の座標をSX
i、EXi  (SXi≦EX i)とし、上端と下端
の座標SYi、EYi  (SYi≦EYi)とした時
、Wij、  Hij、  IWij、 0Wij、は
以下に示す式2〜7で求めることができる。
For example, the coordinates of the left and right ends of the basic pattern Pii are SX
When i, EXi (SXi≦EX i), and the coordinates of the upper and lower ends are SYi, EYi (SYi≦EYi), Wij, Hij, IWij, 0Wij can be obtained using equations 2 to 7 shown below.

Wij −4EXj −3Xi + l    −−−
−−−−−−−−(2)1)ij =MAX(EYk)
  MIN(SYk)  −−−−−−−−−−−−−
13)k= ’ + J   k = i + j第2
表は、文字評価値算出手段9における処理結果を示す表
であって、第1表に示した6個の基本パターンの位置情
報に基づいて式1から基本パターン「言」、「売」、「
み」、「耳」、「又」、「る」および連続する複数個の
基本パターンを結合した結合パターン「読」、「売み」
、「み耳」「取」、「又る」、・・・・・・の文字評価
値を求めたちのである。例えば、基本パターン「言」に
対する文字評価値は、「68」であり、2つの基本パタ
ーン「言」と「売」を結合したパターンに対する文字評
価値は、r146Jとなったことを示している。なお、
この例では、連続する3個の基本パターンまでを結合し
たときの文字評価値まで求めた例を示している。
Wij −4EXj −3Xi + l ---
−−−−−−−−(2)1)ij =MAX(EYk)
MIN(SYk)
13) k= ' + J k = i + j second
The table shows the processing results of the character evaluation value calculation means 9, and is based on the position information of the six basic patterns shown in Table 1.
``mi'', ``mimi'', ``mata'', ``ru'', and combined patterns that combine multiple consecutive basic patterns ``yomi'', ``sale''
, ``mimi,''``tori,''``mataru,'' and so on. For example, the character evaluation value for the basic pattern "goto" is "68", and the character evaluation value for the pattern combining the two basic patterns "goto" and "sale" is r146J. In addition,
This example shows an example in which character evaluation values are obtained when up to three consecutive basic patterns are combined.

ノヌ′Fノb匂 第2表 基本パターンと結合パターンの組み合わせについて、さ
らに分かり易く説明する。第4図は、上記画像情@14
から抽出した基本パターンと結合パターンとを組み合わ
せて切り出した2つのケースの例について示した図であ
り、この例では6(囚の基本パターン「言」、「売」、
「み」、「耳」、「又」、「る」をそれぞれ1文字とし
て切り出した場合と、結合パターン「読」と4個の基本
パターン「み」、「耳」、「又」、「る」をそれぞれ1
文字として切り出した場合について示している。
Combinations of basic patterns and combination patterns in Table 2 will be explained more clearly. Figure 4 is the above image information @14
This is a diagram showing two examples of cases extracted by combining basic patterns and combined patterns extracted from .
When "mi", "mimi", "mata", "ru" are each cut out as one character, the combined pattern "yomi" and the four basic patterns "mi", "mimi", "mata", "ru" ” for each 1
This shows the case where it is cut out as a character.

次に、文字切り出し位置決定手段10の処理について説
明する。
Next, the processing of the character cutout position determining means 10 will be explained.

文字切り出し位置決定手段10は、第2表に示した基本
パターンと結合パターン各々の文字評価値を用いて、画
像情報14から切り出す個々の文字の位置を決定する。
The character cutting position determining means 10 determines the position of each character to be cut out from the image information 14 using the character evaluation values of the basic patterns and combined patterns shown in Table 2.

具体的には、基本パターンと結合パターンとをそれぞれ
1文字として切り出す単位と考え、切り出しの可能な全
ての組み合わせに対し、文字列としての切り出しの確か
さを示す切り出し評価値Vを第2表に示した文字評価値
から算出し、この切り出し評価値■が最大となる基本パ
ターンと結合パターンの組み合わせを切り出し結果とし
て求める。
Specifically, the basic pattern and the combined pattern are each considered to be a unit of extraction as one character, and for all possible combinations of extraction, the extraction evaluation value V, which indicates the certainty of extraction as a character string, is shown in Table 2. It is calculated from the indicated character evaluation value, and the combination of the basic pattern and the combined pattern that maximizes the extraction evaluation value ■ is determined as the extraction result.

切り出し評価値■の算出法と切り出し評価値Vが最大と
なる組み合わせの求め方について具体的に説明する。
A method for calculating the cut-out evaluation value ■ and a method for finding a combination that maximizes the cut-out evaluation value V will be specifically explained.

第2表に示した文字評価値は、それぞれのパターンがど
の程度1文字らしいかを示す値である。
The character evaluation values shown in Table 2 are values that indicate how likely each pattern is to be a single character.

そこで、文字列の先頭から第1番目の基本パターンPi
iから第j番目の基本パターンPjj(j≧i)の計(
j−i+1)個のパターンを1つずつ個々の文字として
切り出した場合と連続する基本パターンPitから基本
パターンPjjを19のパターンとして結合した結合パ
ターンPijを1つの文字として切り出した場合との切
り出し方の優劣を比較するには、弐6に示すように文字
評価値の平均値を用いて、その大小を比較すればよい。
Therefore, the first basic pattern Pi from the beginning of the string
The sum of the j-th basic patterns Pjj (j≧i) from i (
j−i+1) patterns are cut out one by one as individual characters, and the combined pattern Pij, which is a combination of basic patterns Pjj as 19 patterns from continuous basic patterns Pit, is cut out as one character. In order to compare the superiority and inferiority of the characters, it is sufficient to use the average value of the character evaluation values and compare the magnitude thereof, as shown in 26.

なお、式6は式7と同値である。Note that Equation 6 is equivalent to Equation 7.

Σ V (r、 r)≧(j−i  + 1)V(i、
j)  ・・=・−・・−(7)r#“1 (i ≦j) そこで、基本パターンPiiから基本パターンPjjま
でを1つの文字とした時の切り出しの重みW(i、j)
を弐8で定義すれば、基本パターンpHからPMMまで
の計M個の基本パターンからなる入力文字列を切り出し
た時の確かさを示す切り出し評価値V (M)は、弐8
の切り出しの重みW(i、j)の和で定義した式9で求
められる。
Σ V (r, r) ≧ (j-i + 1) V (i,
j) ・・=・−・・−(7)r#“1 (i ≦j) Therefore, when the basic pattern Pii to the basic pattern Pjj are considered as one character, the weight of cutting out W(i, j)
If we define 28 as
It is determined by Equation 9 defined as the sum of the cutting weights W(i, j).

W(i+j)=(j  i + 1) V (i、j)
  ・−−−−−−−=(81)’ll+ ここで、 i+=1.  im=阿 1)≦12≦・・・・・・≦im(m5M)従って、最
適な切り出しを行なうには切り出し評価値V (M)が
最大となる切り出しの重みW(il、12)・・・、W
(im−1,im)に対応するパターンP i +  
、 i 2−Pim−1,imを求め、このパターンP
 i 1.i2=・Pim−+ 、imをそれぞれ1文
字として切り出せばよいことになる。
W (i + j) = (j i + 1) V (i, j)
・−−−−−−−=(81)'ll+ Here, i+=1. im=A1)≦12≦...≦im(m5M) Therefore, in order to perform optimal extraction, the extraction weight W(il, 12) that maximizes the extraction evaluation value V (M) is...・、W
Pattern P i + corresponding to (im-1, im)
, i 2-Pim-1,im, and this pattern P
i1. It is sufficient to cut out i2=·Pim−+ and im each as one character.

第5図は、切り出し評価値V (M)を求める式9の内
容を分かり易く説明するための図であり、図中、20は
有向枝に対応するパターン、21は有向枝に対応する切
り出しの重みである。この第5図では、弐8で定置した
各パターンに対する切り出しの重みを有向枝に割り付け
た重み付2端子有向グラフで表わしており、式9は始点
■から終点■に到達するために通った枝の重み21の和
に相当する。従って、切り出し評価値V (M)の最大
値を求める問題は、上記重み付2端子有向グラフ上で始
点■から終点■に至る技の重み21の和が最大となる経
路を見つける問題に帰着する。この種の問題を解くには
、総ての経路に対する枝の重み21の和を計算する必要
はなく、周知のダイナミックプログラミングの手法を用
いて短時間で枝の重み21の和、すなわちV (M)の
値が最大となる経路を見つけることができる。
FIG. 5 is a diagram for easily explaining the contents of Equation 9 for calculating the cutout evaluation value V (M). In the figure, 20 is a pattern corresponding to a directed edge, and 21 is a pattern corresponding to a directed edge. This is the weight of the cut. In this Figure 5, the cutout weight for each pattern fixed in 28 is expressed as a weighted two-terminal directed graph that is assigned to the directed edges, and Equation 9 is expressed by the branch passed through to reach the end point ■ from the starting point ■. This corresponds to the sum of the weights 21. Therefore, the problem of finding the maximum value of the cutout evaluation value V (M) boils down to the problem of finding a path on the weighted two-terminal directed graph that maximizes the sum of the weights 21 of the techniques from the starting point ■ to the ending point ■. To solve this type of problem, it is not necessary to calculate the sum of the edge weights 21 for all routes, but by using a well-known dynamic programming method, the sum of the edge weights 21, that is, V (M ) can be found.

すなわち、最左端の基本パターンpHから第n番目の基
本パターンPnnまでを対象とした切り出しの確かさV
 (n)が最大となる切り出し評価値をVmax  (
n)とすると、Vmax  (n)は式10に示す漸化
式で表現できる。
That is, the certainty of cutting out from the leftmost basic pattern pH to the n-th basic pattern Pnn is
The cutout evaluation value where (n) is maximum is Vmax (
n), Vmax (n) can be expressed by the recurrence formula shown in Equation 10.

Vmax(n)=MAX (Vmax(r)+w(r+
+ +n) −α0r=0+ n−1 但しVmax(0) = 0 そこでVmax (1) 、Vmax(2) 、”・V
max(M−1)、V max (M)と式10を用い
て順次計算することにより、V max (M)が簡単
に求まる。また、この時の経路、すなわち各枝に対応す
るパターンの組み合わせが切り出し結果となる。
Vmax(n)=MAX (Vmax(r)+w(r+
+ +n) -α0r=0+n-1 However, Vmax(0) = 0 Therefore, Vmax (1), Vmax(2), "・V
V max (M) can be easily found by sequentially calculating max (M-1), V max (M), and Equation 10. Further, the route at this time, that is, the combination of patterns corresponding to each branch becomes the cutting result.

第6図は、入力文字列「読み取る」のV max (1
) 。
Figure 6 shows the V max (1
).

V max (2) = V wax (6)を求めた
例を示す図であり、図中、22は切り出しの重みを表わ
している。第6図の例では、6個の基本パターンからな
る入力文字列「読み取る」に関する全ての切り出し評価
値のうち最大となるV max (6)の値は、r93
4Jであり、この値を与える経路すなわち基本パターン
と結合パターンの組み合わせは、「読」、「み」、「取
」、「る」となったことを示している。
It is a figure which shows the example which calculated|required Vmax(2)=Vwax(6), and in the figure, 22 represents the weight of cutting out. In the example of FIG. 6, the value of V max (6), which is the maximum among all extraction evaluation values regarding the input character string "read" consisting of six basic patterns, is r93
4J, indicating that the path that gives this value, that is, the combination of the basic pattern and the combined pattern, is "yomi", "mi", "tori", and "ru".

文字切り出し位置決定手段10では、切り出し評価値が
最大となる基本パターンと結合パターンの組み合わせを
決定する処理が完了すると、この基本パターンと結合パ
ターンの組み合わせを文字切り出し手段1)に指示する
When the character cutting position determining means 10 completes the process of determining the combination of the basic pattern and the combined pattern that gives the maximum cutting evaluation value, it instructs the character cutting means 1) to select the combination of the basic pattern and the combined pattern.

文字切り出し手段1)は、上記文字切り出し位置決定手
段lOから指示された基本パターンと結合パターンの情
報に基づいてパターンメモリ3から1文字ずつ文字パタ
ーンを読み出し、切り出しパターンバッファ7に転送す
る。
The character cutting means 1) reads character patterns one by one from the pattern memory 3 based on the basic pattern and combined pattern information instructed by the character cutting position determining means 1O, and transfers them to the cutting pattern buffer 7.

なお、上記実施例では式1を用いて評価値を算出する場
合について説明したが、この発明はこれに限らずパター
ンの形状、パターンの間隔およびパターン間の位置関係
を評価値に反映する他の式を用いても同様の効果を期待
できる。
In addition, although the above embodiment describes the case where the evaluation value is calculated using Equation 1, the present invention is not limited to this, and the present invention is not limited to this. A similar effect can be expected by using the formula.

また、本発明の例では3つの基本パターンを結合したパ
ターンまでの評価値を求める場合について説明したが、
これに限らず4個以上の基本パターンを結合したパター
ンの評価値を求めてもよい。
In addition, in the example of the present invention, a case has been described in which evaluation values are obtained for patterns that combine three basic patterns.
The evaluation value is not limited to this, and the evaluation value of a pattern that is a combination of four or more basic patterns may be obtained.

〔発明の効果〕〔Effect of the invention〕

この発明は以上説明したように、パターンの形状とパタ
ーン間の位置関係に基づいて1文字ずつ文字を切り出す
ため、文字枠などフォーマット情報が与えられてない一
般の用紙上に記入された文字列から文字を1文字単位で
正しく切り出すことができる。
As explained above, this invention cuts out characters one character at a time based on the shape of the patterns and the positional relationship between the patterns. It is possible to accurately cut out characters one by one.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例の構成を示すブロック図、
第2図は用紙に記入された入力文字列の例を示す図、第
3図は基本パターン領域検出手段の処理を説明するため
の図、第4図は基本パターンと結合パターンの組み合わ
せの例を示す図、第5図は切り出し評価値を求める方法
を説明するための図、第6図は切り出し評価値の例を示
す図、第7図は従来装置の構成を示すブロック図である
。 1・・・・・・用紙、2・・・・・・走査手段、3・・
・・・・パターンメモリ、8・・・・・・基本パターン
領域検出手段、9・・・・・・文字評価値算出手段、1
0・・・・・・文字切り出し位置決定手段、1)・・・
・・・文字切り出し手段、12・・・・・・切り出しパ
ターンバッファ。 代理人  弁理人   大音 増進(外2名)第1図 第4図 目・円・固セ十区・口 手続補正書(自発 1.事件の表示   特願昭 60−17265号2、
発明の名称 文書読取り装置 3、補正をする者 5、補正の対象 特許請求の範囲、発明の詳細な説明、図面。 6、補正の内容 (1)特許請求の範囲を別紙の通り補正する。 (2)明細書第3頁第5行目「以下」とあるのを「未満
」と補正する。 (3)同書第3頁第9行目乃至第1O行目「右#A/左
端」とあるのを「左端/右端」と補正する。 (4)同書第5頁第1行目に「文字パターン切り出し」
とあるのを「文書読取」と補正する。 (5)同書第5頁第3行目及び第1)行目「パターン検
出」とあるのを「パターン領域検出」と補正する。 (6)同書第6頁第10行目「領域手段」とあるのを「
領域検出手段」と補正する。 (7)同書第7頁第18行目「12」とあるのを「13
」と補正する。 (8)同書第1)頁第17行目rP (i≦j)」とあ
るのをrPjj(i≦j)」と補正する。 (9)同書第12頁第10行目rV (i、J)Jとあ
るのをrV (i、j)Jと補正する。 αΦ同書第13頁第9行目rMIN(SYk) Jとあ
るのをrMIN(SYk) + I Jと補正する。 1)1同書第13頁第1)行目「0」とあるのをro 
    (i=j)Jと補正する。 1r21間書第13頁第12行目「Σ(SXK+1−〇
Xk−1)Jとあるのを「Σ(SXK + t −EX
k −1)    (i<j)Jと補正する。 ll31同書第16頁第1行目乃至第10行目「基本パ
ターンと結合パターン・−・−場合について示している
。」とあるのを削除する。 圓同書第17頁第3行目と第4行目の間に次の文を挿入
する。 [基本パターンと結合パターンの組み合わせについて、
さらに分かり易く説明する。第4図は、上記画像情報1
4から抽出した基本パターンと結合パターンとを組み合
わせて切り出した2つのケースの例について示した図で
あり、この例では6個の基本パターン「言」、「売」、
「み」、「耳」、「又」、「る」をそれぞれ1文字とし
て切り出した場合と、結合パターン「読」と4個の基本
パターン「み」、「耳」、「又」、「る」をそれぞれ1
文字として切り出した場合について示している。」aI
j同書第18頁第1行目rj−j+IJとアルのをrj
−i +IJと補正する。 (10図面第1図を別紙の通り補正する。 以上 特許請求の範囲 (1)文書に記載された文字の画像を読取り、その読取
り画像に基づいて文字を認識する文書読取り装置におい
て、1つの文字を構成する文字要素を基本パターンとし
て検出する基本パターン韮検出手段と、この基本パター
ン■検出手段で検出した基本パターンが単独の文字とし
て成立するか否かを定量的に示す文字評価値を求める文
字評価値U手段と、この131)1)1区手段で算出さ
れた文字評価値に基づき文字要素を単独の文字として切
り出した時と複数の文字要素を結合して切り出した時の
切り出し評価値を求め、立夏切り出し評価値が最大とな
る文字要素の組合わせを1つの文字として切り出す文字
切り出し手段とを備えて成る文書読取り装置。 (2)文字評価値算■手段は、文字要素の基本パターン
の外形と連続する複数の文字要素間の位置関係とに基づ
き文字評価値を算出する事を特徴とする特許請求の範囲
第1項記載の文書読取り装置。 (3)文字に手段は、複数の文字要素を組合わせたとき
の文字評価値の平均値に基づき&特許請求の範囲第1項
記載の文書読取り装置。 第1 ■■ 1団 −」口 二」 ・7
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.
FIG. 2 is a diagram showing an example of an input character string written on a paper, FIG. 3 is a diagram for explaining the processing of the basic pattern area detection means, and FIG. 4 is a diagram showing an example of a combination of a basic pattern and a combined pattern. FIG. 5 is a diagram for explaining a method for determining a cutout evaluation value, FIG. 6 is a diagram showing an example of a cutout evaluation value, and FIG. 7 is a block diagram showing the configuration of a conventional device. 1...Paper, 2...Scanning means, 3...
...Pattern memory, 8...Basic pattern area detection means, 9...Character evaluation value calculation means, 1
0...Character cutting position determining means, 1)...
...Character cutting means, 12... Cutting pattern buffer. Agent Patent attorney Koshin Oon (2 others) Figure 1 Figure 4, Yen, Kose 10th District, Oral Procedures Amendment (Volunteer 1. Indication of the case, Patent Application No. 17265-1982, 2)
Invention title document reading device 3, person making the amendment 5, scope of claims to be amended, detailed description of the invention, and drawings. 6. Contents of amendment (1) The scope of claims will be amended as shown in the attached sheet. (2) On page 3, line 5 of the specification, the words "less than or equal to" should be amended to read "less than". (3) In the same book, page 3, line 9 to line 10, "Right #A/Left end" is corrected to "Left end/Right end." (4) “Character pattern cutting” in the first line of page 5 of the same book.
The text has been corrected to read "document reading." (5) In the same book, page 5, line 3 and line 1, "pattern detection" is corrected to "pattern area detection." (6) On page 6, line 10 of the same book, the phrase “area means” was replaced with “
"area detection means". (7) In the same book, page 7, line 18, replace ``12'' with ``13''.
” he corrected. (8) Ibid., page 1), line 17, ``rP (i≦j)'' is corrected to ``rPjj (i≦j)''. (9) Ibid., page 12, line 10, rV (i, J) J is corrected to rV (i, j) J. αΦIbid., page 13, line 9, rMIN(SYk) J is corrected to rMIN(SYk) + I J. 1) 1 Same book, page 13, line 1) ``0'' is ro
Correct as (i=j)J. 1r21, page 13, line 12, “Σ(SXK+1−〇Xk−1)J” should be changed to “Σ(SXK + t −EX
k −1) (i<j)J. 1131 Ibid., page 16, lines 1 to 10, delete the statement ``Basic pattern and combined pattern --- Cases are shown.'' Insert the following sentence between the third and fourth lines of page 17 of Endo. [About the combination of basic pattern and combination pattern,
Let me explain more clearly. Figure 4 shows the above image information 1.
This figure shows examples of two cases cut out by combining the basic patterns and combined patterns extracted from 4. In this example, the six basic patterns ``go'', ``sell'',
When "mi", "mimi", "mata", "ru" are each cut out as one character, the combined pattern "yomi" and the four basic patterns "mi", "mimi", "mata", "ru" ” for each 1
This shows the case where it is cut out as a character. ”aI
j Same book, page 18, line 1 rj-j + IJ and Al's rj
Correct as -i +IJ. (Amend Figure 1 of Drawing 10 as shown in the attached sheet.) Claims (1) A document reading device that reads an image of characters written in a document and recognizes the characters based on the read image; A basic pattern dwarf detection means for detecting the character elements constituting the basic pattern as a basic pattern, and a character for obtaining a character evaluation value quantitatively indicating whether or not the basic pattern detected by the detection means can be established as a single character. Based on the evaluation value U means and this 131) 1) 1 section means, the extraction evaluation value is calculated when character elements are extracted as individual characters and when multiple character elements are combined and extracted. and character cutting means for cutting out a combination of character elements with a maximum starting summer cutting evaluation value as one character. (2) Character evaluation value calculation ■ means calculates the character evaluation value based on the outer shape of the basic pattern of character elements and the positional relationship between a plurality of consecutive character elements, Claim 1 Document reading device as described. (3) The document reading device according to claim 1, wherein the means for character is based on the average value of character evaluation values when a plurality of character elements are combined. 1st ■■ Group 1-”Kuchi 2”・7

Claims (3)

【特許請求の範囲】[Claims] (1)文書に記載された文字の画像を読取り、その読取
り画像に基づいて文字を認識する文書読取り装置におい
て、1つの文字を構成する文字要素を基本パターンとし
て検出する基本パターン検出手段と、この基本パターン
検出手段で検出した基本パターンが単独の文字として成
立するか否かを定量的に示す文字評価値を求める文字評
価値演算手段と、この演算手段で算出された文字評価値
に基づき文字要素を単独の文字として切り出した時と複
数の文字要素を結合して切り出した時の切り出し評価値
を求める切り出し評価値演算手段と、切り出し評価値が
最大となる文字要素の組合わせを1つの文字として切り
出す文字切り出し手段とを備えて成る文書読取り装置。
(1) In a document reading device that reads an image of characters written on a document and recognizes characters based on the read image, a basic pattern detection means for detecting character elements constituting one character as a basic pattern; Character evaluation value calculation means for calculating a character evaluation value that quantitatively indicates whether or not the basic pattern detected by the basic pattern detection means can be established as a single character, and a character element based on the character evaluation value calculated by the calculation means. A cutout evaluation value calculation means for calculating a cutout evaluation value when cut out as a single character and when cut out by combining multiple character elements, and a combination of character elements that has the maximum cutout evaluation value as one character. A document reading device comprising a character cutting means for cutting out characters.
(2)文字評価値演算手段は、文字要素の基本パターン
の外形と連続する複数の文字要素間の位置関係とに基づ
き文字評価値を算出する事を特徴とする特許請求の範囲
第1項記載の文書読取り装置。
(2) The character evaluation value calculation means calculates the character evaluation value based on the outer shape of the basic pattern of character elements and the positional relationship between a plurality of consecutive character elements. document reading device.
(3)切り出し評価値演算手段は、複数の文字要素を組
合わせたときの文字評価値の平均値に基づき切り出し評
価値を算出することを特徴とする特許請求の範囲第1項
記載の文書読取り装置。
(3) Document reading according to claim 1, wherein the extraction evaluation value calculation means calculates the extraction evaluation value based on the average value of character evaluation values when a plurality of character elements are combined. Device.
JP60017265A 1985-01-31 1985-01-31 Document reading device Granted JPS61175878A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60017265A JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60017265A JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Publications (2)

Publication Number Publication Date
JPS61175878A true JPS61175878A (en) 1986-08-07
JPH0467674B2 JPH0467674B2 (en) 1992-10-29

Family

ID=11939132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60017265A Granted JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Country Status (1)

Country Link
JP (1) JPS61175878A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0337782A (en) * 1989-07-04 1991-02-19 Mitsubishi Electric Corp Character pattern segmenting device
JP2011138411A (en) * 2009-12-28 2011-07-14 Toshiba Corp Pattern recognition device and pattern recognition method
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (en) * 1983-12-20 1985-07-15 Nec Corp Character separating device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (en) * 1983-12-20 1985-07-15 Nec Corp Character separating device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0337782A (en) * 1989-07-04 1991-02-19 Mitsubishi Electric Corp Character pattern segmenting device
JP2011138411A (en) * 2009-12-28 2011-07-14 Toshiba Corp Pattern recognition device and pattern recognition method
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium

Also Published As

Publication number Publication date
JPH0467674B2 (en) 1992-10-29

Similar Documents

Publication Publication Date Title
CN106570500B (en) The recognition methods of line of text and device, computing device
US5799115A (en) Image filing apparatus and method
CN112185520A (en) Text structured processing system and method for medical pathology report picture
CN110728198B (en) Image processing method and device, electronic equipment and readable storage medium
CN105989366A (en) Inclination angle correcting method of text image, page layout analysis method of text image, vision assistant device and vision assistant system
JPH07192084A (en) Document picture processing method
JP2019003421A (en) Authenticity determination system, method and program for identity confirmation document
CN111695555B (en) Question number-based accurate question framing method, device, equipment and medium
US10894332B2 (en) Systems and methods for minimizing a total number of cuts to separate media instances imaged onto a media sheet
US20070041643A1 (en) Character recognition apparatus and character recognition method
JPS61175878A (en) Document reading device
WO2007077694A1 (en) Muzzle pattern information creating device, muzzle pattern information checking device, muzzle pattern information creating program, and muzzle pattern information creating method
CN109325415A (en) A method of all target areas are predicted based on image column alignment feature
JP2003091730A (en) Image checkup device, image checkup method and image checkup program
JP2009223612A (en) Image recognition device and program
JPH07175894A (en) Neural network, character recognition method, electronic parts mounting inspecting device and managing method using the same
CN108932788A (en) A kind of detection method, device and the equipment of banknote thickness abnormity grade
JPH0410087A (en) Base line extracting method
JP3476595B2 (en) Image area division method and image binarization method
JPH0728935A (en) Document image processor
JP4894195B2 (en) Teaching material processing apparatus, teaching material processing method, and teaching material processing program
JP2004220340A (en) Business form format editing device and business form format editing program
JP2918666B2 (en) Text image extraction method
JPH0991385A (en) Character recognition dictionary adding method and terminal ocr device using same
JP4318311B2 (en) Form, form processing apparatus, and form processing program

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term