JPS6297081A - Character recognizer - Google Patents

Character recognizer

Info

Publication number
JPS6297081A
JPS6297081A JP61237924A JP23792486A JPS6297081A JP S6297081 A JPS6297081 A JP S6297081A JP 61237924 A JP61237924 A JP 61237924A JP 23792486 A JP23792486 A JP 23792486A JP S6297081 A JPS6297081 A JP S6297081A
Authority
JP
Japan
Prior art keywords
character
recognition
characters
word
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61237924A
Other languages
Japanese (ja)
Other versions
JPH0520797B2 (en
Inventor
Hiromichi Fujisawa
藤沢 浩道
Yasuaki Nakano
中野 康明
Michio Yasuda
安田 道夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61237924A priority Critical patent/JPS6297081A/en
Publication of JPS6297081A publication Critical patent/JPS6297081A/en
Publication of JPH0520797B2 publication Critical patent/JPH0520797B2/ja
Granted legal-status Critical Current

Links

Abstract

PURPOSE:To deliver a misrecognized part of character recognizing results after correcting it accurately and to reduce the misrecognizing factor of characters, by providing a resemblance calculating circuit and an inspection processor consisting of a memory and a microprocessor to perform recognition of words. CONSTITUTION:A character observing part 4 of a character recognizer 1 recognizes the characters written on a form for each line and delivers 6 them to a microprocessor 20 of an inspection processor 10 in the form of a character code string. The processor 20 delivers two character codes to a resemblance calculating circuit 30. Then the circuit 30 reads two standard patterns corresponding to said character codes out of a standard pattern storage 5 and sends them back to the processor 20 after calculation of their resemblance. Then the processor 20 performs first the recognition of words (key items) and designates the types of characters of the fixed items via a memory 11 to check the character codes. For the character codes corresponding to the key items, the character code string of a word dictionary, i.e., the work recognizing result is substituted for the character code string of the key items. Thus the misrecognition is corrected accurately and the misrecognizing facto of characters is reduced.

Description

【発明の詳細な説明】 [発明の利用分野] 本発明は、漢字のように文字カテゴリが多い場合に適し
た、誤読文字修正機能を備えた文字認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Application of the Invention] The present invention relates to a character recognition device having a function of correcting misread characters, which is suitable for cases where there are many character categories such as kanji.

[従来技術] 従来、たとえば官公庁などの各種申請書の処理の多くは
人手によってなされている。これらの申請書は、普通漢
字仮名混り文で書かれており、これらの申請処理業務を
機械化しようとすると、漢字も含めた日本語文字の認識
装置が入力部に必要となる。現在、研究室のレベルでは
、実用上満足し得る読取精度を有する印刷漢字認識装置
の原理実験に成功しており(たとえば電子通信学会論文
誌、58−D巻、2号、94頁参照)5上記の各種申請
書の大半は和文タイプによる比較的高品質のタイプ印字
文書であることを考えると、上記の申請書処理業務にお
いて、印刷漢字認識装置を使用する環境条件は整ってい
るといえる。
[Prior Art] Conventionally, most of the processing of various applications in government offices and the like has been done manually. These application forms are usually written in a mixture of kanji and kana, and if the application processing task were to be automated, the input unit would need a recognition device for Japanese characters, including kanji. Currently, at the laboratory level, we have successfully conducted a principle experiment of a printed kanji recognition device with reading accuracy that is satisfactory for practical use (for example, see Journal of the Institute of Electronics and Communication Engineers, Vol. 58-D, No. 2, p. 94).5 Considering that most of the various application forms mentioned above are relatively high-quality type-printed documents in Japanese type, it can be said that the environmental conditions for using the printed kanji recognition device in the above-mentioned application processing work are in place.

しかし、実際に印刷漢字認識装置を実用化しようとする
場合、申請業務の性格上かなり高度の認識精度が要求さ
れる。一方、漢字は文字類が極めて多いことや、印字品
質が比較的良好であるといえども比較的品質の悪い申請
書が入力されることもあり得ることを考えると、読取精
度は全く十分であるとは言えない。
However, if a printed kanji recognition device is to be put into practical use, a fairly high level of recognition accuracy is required due to the nature of the application process. On the other hand, considering that kanji has an extremely large number of characters, and even if the print quality is relatively good, it is possible that an application form of relatively poor quality may be input, so the reading accuracy is quite sufficient. It can not be said.

しかるに、認識結果が正しいか否かを検定することによ
り、誤認識率を著しく減少せしめることが考えられる。
However, it is conceivable that the rate of misrecognition can be significantly reduced by testing whether or not the recognition results are correct.

従来、上記の考え方は次のように行われていた。数字を
対象とした文字認識装置では、金額を扱うことが多いの
で、たとえば帳票上には各項目の金額とともにそれらの
総計をも記載しておき、認識装置では各項目の認識結果
の総計と、総計の認識結果とを比較して誤りを検出する
方法が取られている。また英字を対象とする文字認識装
置では、各英文字はある限定された語當の中の1つの単
語を構成しているということを前提として、N−gra
mという手法を用いたが検定方法が考えられる。
Conventionally, the above idea was carried out as follows. Character recognition devices that target numbers often handle monetary amounts, so for example, the amount of each item and the total amount are written on a form, and the recognition device can write the total amount of recognition results for each item, A method is used to detect errors by comparing the total recognition results. In addition, in character recognition devices that target English letters, N-gra
Although the method called m was used, other verification methods can be considered.

しかし、上記従来の方法はそのまま漢字を対象とした文
字認識装置に適用することができない。
However, the above conventional method cannot be directly applied to a character recognition device for Chinese characters.

その理由は、漢字の場合は字種が英数字(多くて50字
)などの場合に比較して2000〜4000と多く、た
とえばN−gramの表の記憶容量が膨大になり、その
ままでは実現不可能になる。
The reason for this is that in the case of kanji, the number of character types is 2000 to 4000 compared to alphanumeric characters (50 characters at most), and for example, the storage capacity of an N-gram table becomes enormous, making it impossible to realize it as it is. It becomes possible.

[発明の目的コ したがって、本発明の目的は、字種の多い場合に適した
手法として単語情報を用いて読取結果を修正する手段、
を与え、全体として誤認識率を下げることにある。
[Object of the Invention] Accordingly, the object of the present invention is to provide a means for correcting reading results using word information as a method suitable for cases where there are many character types;
The objective is to reduce the overall misrecognition rate.

[発明の総括説明コ 上記の目的を達成するために、本発明においては、読取
結果を単語辞書中の単語と照合し、不一致の場合には単
語中の文字コードにおきかえて修正する点に特徴がある
[General description of the invention] In order to achieve the above object, the present invention is characterized in that the reading result is compared with the word in the word dictionary, and if there is a mismatch, the character code in the word is replaced and corrected. There is.

[発明の実施例] たとえば、次のような文書をもつ申請書を考える。[Embodiments of the invention] For example, consider an application with the following documents:

(例) 申請書の種類 登記申請書 登記の目的  全部移転 原 因    昭和52年2月2日売買権利者 氏 名   申出太部 所 在   東京都国立市1−1 持 分   3分の1 義務者 氏 名   乙用吹部 住 所   東京都立川市2−2 申請日    昭和52年3月3日 以上 本発明装置の原理の概略を、第1図の流れ図を用いて説
明する。まず、201,202で帳票上の文字を光電変
換し、一定枠内に切り出し、1行毎に認識し、認識結果
を文字コードの形で1行分出力する。認識部は上記動作
を帳票上の全文字が認識されるまで続ける。以上までは
従来の文字認識装置と同じである。つぎに、認識結果検
定部は、キー項目(1行の左側の所定の長さのフィール
ドに印刷される文字列)に対応する認識結果の文字系列
を抽出し、全キー項目が記憶される辞書の中から、この
文字系列が何番目のキー項目に該当するかを203で認
識する。これをキー項目の単語認識という。なお、文字
認識は誤まることも考えられるので、上記単語認識の手
法は工夫する必要がある。手法は後述する。
(Example) Type of application Registration application Purpose of registration All transfers Cause February 2, 1971 Name of purchase and sale right holder Name of applicant Atabe Office 1-1 Kunitachi-shi, Tokyo Equity 1/3rd of obligor Name: Otsuyo Fukibe Address: 2-2, Tachikawa-shi, Tokyo Application date: March 3, 1978 The outline of the principle of the device of the present invention will be explained using the flowchart shown in FIG. First, at 201 and 202, characters on a form are photoelectrically converted, cut out within a certain frame, recognized line by line, and the recognition result is output for one line in the form of a character code. The recognition unit continues the above operation until all characters on the form are recognized. Everything up to this point is the same as the conventional character recognition device. Next, the recognition result verification unit extracts the character sequence of the recognition result corresponding to the key item (character string printed in a field of a predetermined length on the left side of one line), and creates a dictionary in which all key items are stored. It is recognized in step 203 to which key item this character sequence corresponds. This is called key item word recognition. Note that character recognition may be incorrect, so the word recognition method described above needs to be devised. The method will be described later.

何番目のキー項目かが分ると、このキー項目に続く固定
項目に出現し得る字種が限定可能となり204で字種を
指定する。従って、文字認識結果の文字コード列の中で
固定項目に対応する文字コードを調べて、上記の許容さ
れる字種に含まれるか否かを次に205で調べる。この
とき、含まれないことが分れば、文字認識の結果が誤り
であるか、帳票の文字が誤字であったかのどちらかであ
る。したがって、この場合は上記の旨を認識結果に付随
して出力する。たとえば文字コードの符号を反転させる
。検定の結果、許容字種に含まれていれば、正読と見做
して、そのまま文字コートを出力する。
Once the number of the key item is known, the character types that can appear in the fixed items following this key item can be limited, and the character type is specified in step 204. Therefore, in the character code string resulting from character recognition, the character code corresponding to the fixed item is checked to see if it is included in the above-mentioned permissible character types in step 205. At this time, if it is found that it is not included, either the result of character recognition is incorrect or the characters on the form are misspelled. Therefore, in this case, the above information is output along with the recognition result. For example, reverse the sign of the character code. As a result of the test, if the character type is included in the allowable character types, it is assumed to be read correctly and the character code is output as is.

以上の動作を帳票上の文字がなくなるまで続ける。Continue the above operations until there are no more characters on the form.

つぎに、本発明の要点である認識結果の文字系列を単語
として認識する手筋を説明する。一般に単語認識をする
ためには単語の辞書(各単語を構成する文字コード列か
らなる表)を用意して、入力された字系列がどの辞書項
目と一致するかを調べればよい。しかし、実際には入力
された文字系列がすべて正しく読取られているとは限ら
ないので、どの辞書項目とも完全一致がとれない場合が
ある6したがって、辞書項目と一致がとれるか否かでは
なく、入力文字系列と各辞書項目との距離または等価的
に類似度(後で定義する)を求めて単語認識をする必要
がある。
Next, a method for recognizing a character sequence resulting from recognition as a word, which is the main point of the present invention, will be explained. Generally, in order to recognize words, it is sufficient to prepare a word dictionary (a table consisting of character code strings that make up each word) and check which dictionary item the input character sequence matches. However, in reality, not all input character sequences are read correctly, so it may not be possible to find a perfect match with any dictionary entry6. It is necessary to perform word recognition by determining the distance or equivalently the degree of similarity (to be defined later) between the input character sequence and each dictionary entry.

たとえば「申請日」が読取った結果として「甲請日」が
得られることがあるが、「甲請日」という辞書項目は明
らかに存在しない6 文字系列と辞書項目との類似度を各文字同志の類似度と
すると、上記例では「申」と「甲」との類似度が必要に
なる。しかし、このような2つの文字の組合せは、読取
対象字種を2000字として400,000の組合せと
なり、記憶しておくことは不可能である。したがって、
本発明装置では、異なる文字同志(上記例では「甲」と
「申」の類似度が必要になった場合は、認識装置内の該
当する標準パターン同志の類似度を計算してその値を用
いる。同じ文字同志の類似度は常に1とする。
For example, "Application date" may be obtained as a result of reading "Application date", but there is clearly no dictionary entry for "Application date"6. In the above example, the similarity between "Monkey" and "A" is required. However, such combinations of two characters are 400,000 combinations when the number of characters to be read is 2000 characters, and it is impossible to store them. therefore,
In the device of the present invention, when the similarity between different characters (in the above example, "K" and "Mon" is required, the similarity between the corresponding standard patterns in the recognition device is calculated and that value is used. .The degree of similarity between the same characters is always 1.

ここで類似1度とはOから1までの値をとる数値で、二
つの文字パターン同志の間に定義され、専用計算回路に
より容易に計算され、公知であるので、ここでは説明を
省略する。
Here, the degree of similarity is a numerical value ranging from O to 1, which is defined between two character patterns, is easily calculated by a dedicated calculation circuit, and is well known, so its explanation will be omitted here.

上記手法による単語認識のアルゴリズムを第4図の流れ
図を用いて説明する。まず、各辞書項目は、単語を構成
する文字数Nkと、文字コード列Wk= (wi(k)
l i=L  L ”’p Nk) とで表現されてい
る。全辞書項目の数をKとする。上でkは、項目番号(
単語番号)であり、1からKまでの値をとる。また単語
認識部へ入力される文字認識結果の文字系列(文字コー
ト列)を5=(s il i=1.2. ・=、N)で
表わす。文字系列Sとwkとの類似度をρにで表わす。
The word recognition algorithm using the above method will be explained using the flowchart shown in FIG. First, each dictionary entry has the number of characters Nk that makes up the word, and the character code string Wk = (wi(k)
It is expressed as l i=L L ”'p Nk). Let K be the total number of dictionary items. In the above, k is the item number (
word number) and takes values from 1 to K. Further, the character sequence (character code sequence) of the character recognition result input to the word recognition unit is expressed as 5=(s il i=1.2. . . . =, N). The degree of similarity between character series S and wk is expressed as ρ.

第2図に単語認識に必要な辞書の構成を示す。Figure 2 shows the structure of a dictionary necessary for word recognition.

1  辞書の最初の語501(番号D)はキー項目の数
Kを保持し、つぎに各項目の文字コード列を記憶する番
地A 1 z A 23・・・、ANを記憶する語50
2が続く。つぎは各キー項目の文字コード列を記憶する
語がつづく。たとえばA1番地503は、項目番号1の
単語を構成する文字の長さく文字数)N1を保持し、以
下のN1語504は各文字コードを記憶している。
1 The first word 501 (number D) of the dictionary holds the number K of key items, then the address A 1 z A 23, which stores the character code string of each item, the word 50 which stores AN.
2 follows. Next follows a word that stores the character code string of each key item. For example, the A1 address 503 stores N1 (length and number of characters) that constitute the word of item number 1, and the following N1 word 504 stores each character code.

第3図に単語認識の対象となる文字コード列を図示する
。文字コード列はメモリの作業用領域に一担格納され、
N語からなる。
FIG. 3 illustrates a character code string that is a target of word recognition. The character code string is stored in the working area of memory,
Consists of N words.

第4図において、単語認識は次のように実行される。ま
ず101,102で初期化をする。
In FIG. 4, word recognition is performed as follows. First, initialization is performed in steps 101 and 102.

103において、単語長が入力文字系列長に一致するか
否かを判定して、一致しないときは類似度ρにはOのま
まとして、次の単語を調べる。単語長が一致するときは
、105〜112の過程で類似度ρkを求める。
In step 103, it is determined whether the word length matches the input character sequence length, and if they do not match, the similarity ρ is left as O and the next word is examined. When the word lengths match, the degree of similarity ρk is calculated in steps 105 to 112.

104で初期化を行い、105で辞書内に番目の項目の
i番目の文字コードwx(k)と入力文字系列のi番目
の文字コードslとが一致するか否かを調べ、一致しな
いときは、106でρkに1を加え、一致しないときは
107において判定不能であったかどうかを調べる。5
b=Qのときは判定不能を示し、このときは106を実
行し、s1≠0のときは108において、認識装置内の
標準パターンを用いて、Wi(k)の標準パターンとs
lの標準パターンの類似度を計算し、ρkに加える。そ
こまでの文字数iでρkを割った値がしきい値εを越え
るかどうかを109で判定し、越えない場合は項目には
候補から113において除外する。越える場合は次の文
字に進み、全文字に対して105〜111の処理が終了
したときは112において、文字系列同志の類似度を文
字数Nで割って正規化する。
Initialization is performed in 104, and in 105 it is checked whether the i-th character code wx(k) of the th item in the dictionary matches the i-th character code sl of the input character series, and if they do not match, , 106 adds 1 to ρk, and if they do not match, it is checked in 107 whether it could not be determined. 5
When b=Q, it indicates that it is impossible to determine, in this case 106 is executed, and when s1≠0, in 108, the standard pattern in the recognition device is used to compare the standard pattern of Wi(k) and s
Calculate the similarity of standard patterns of l and add it to ρk. It is determined in 109 whether the value obtained by dividing ρk by the number of characters i up to that point exceeds the threshold value ε, and if it does not, the item is excluded from the candidates in 113. If the number exceeds the number, the process advances to the next character, and when the processing in steps 105 to 111 is completed for all characters, in step 112, the degree of similarity between the character series is divided by the number of characters N to normalize.

115において全辞書項目の処理が済んだことが検知さ
れたときは、116で求められた全類似度(ρkl k
”1* 2s・・・、K)の中の最大値ρ と次大値ρ
 を求め、絶対しきい値δとρ1を比較して117.さ
らにρ1とρ2の差に十分な開きがあるか否かを相対し
きい値γにより検定し、1     、 十分なときは119でρ を与λる単語番号k を出力
十分でないときは判定不能を120で出力する。
When it is detected in 115 that all dictionary items have been processed, the total similarity (ρkl k
``1 * 2s..., K) maximum value ρ and next largest value ρ
is calculated, and the absolute threshold value δ and ρ1 are compared and 117. Furthermore, whether or not there is a sufficient difference between ρ1 and ρ2 is tested using a relative threshold value γ, and when it is 1, output the word number k that gives ρ at 119. If it is not sufficient, it is impossible to judge. Output at 120.

つぎに、キー項目に続く固定項目に出現し得る字種を指
定する手段を説明する。本発明では、フラグ表なるもの
を第5図に示すごとく、またビット番号変換表なるもの
を第6図に示すごとく用意する。キー項目の単語認識結
果がkのときは、まずビット番号変換表を参照してフラ
グ表のどのビットを利用するかを示すビット位置番号b
(k)を求める。つぎに任意の文字に対するフラグ表の
内容を取り出し、b(k)ビット項目の値が1であると
きは同文字は同キー項目に続く字種として許され、0で
あるときは許されないということが分る。
Next, a method for specifying character types that can appear in fixed items following a key item will be explained. In the present invention, a flag table as shown in FIG. 5 and a bit number conversion table as shown in FIG. 6 are prepared. When the word recognition result of the key item is k, first refer to the bit number conversion table and bit position number b indicating which bit of the flag table is used.
Find (k). Next, extract the contents of the flag table for a given character, and if the value of the b(k) bit item is 1, the same character is allowed as a character type following the same key item, and if it is 0, it is not allowed. I understand.

したがって、この結果を用いて、原理の説明で述べたよ
うに認識結果を検定することができる6以下、本発明を
実施例を参照して詳細に説明する。
Therefore, using this result, the recognition result can be verified as described in the explanation of the principle.6 Hereinafter, the present invention will be described in detail with reference to examples.

第7図は本発明装置の一実施例のブロック図である。以
下、同図に従って実施例を説明する。
FIG. 7 is a block diagram of an embodiment of the apparatus of the present invention. Hereinafter, an embodiment will be described according to the same figure.

同図において1は従来の文字認識装置で、3が未知パタ
ーンを観測する文字観測部、4が文字認識処理装置、5
は標準パターン記憶装置である。
In the figure, 1 is a conventional character recognition device, 3 is a character observation section that observes unknown patterns, 4 is a character recognition processing device, and 5 is a character recognition device.
is a standard pattern storage device.

上記の部分は一公知であるのでここでは詳述しない。Since the above-mentioned parts are well known, they will not be described in detail here.

認識処理装置4の出力6は、帳票上の文字を行単位に認
識した結果で、文字コード列の形で転送される。ここで
、文字コード0のときは、その文字は認識不能であった
ことを表わす。
The output 6 of the recognition processing device 4 is the result of recognizing characters on a form line by line, and is transferred in the form of a character code string. Here, when the character code is 0, it means that the character is unrecognizable.

検定処理装置10は、メモリ11と類似度計算回路30
と、マイクロプロセッサ2oから成っている。回路30
は、マイクロプロセッサ20から2個の文字コードを受
けて、同文字コードに対応する2個の標準パターンを5
より受けて同標準パターン同志の類似度を計算し、結果
の類似度を20へ転送する。回路3oは、第4図の処理
108を実行するときに用いられる。
The test processing device 10 includes a memory 11 and a similarity calculation circuit 30.
and a microprocessor 2o. circuit 30
receives two character codes from the microprocessor 20 and generates two standard patterns corresponding to the same character codes into 5
Then, the similarity between the same standard patterns is calculated, and the resulting similarity is transferred to 20. The circuit 3o is used when executing the process 108 in FIG.

メモリ11は、第5図に示したフラグ表を記憶する部分
12と、第6図に示したビット番号変換表を記憶する部
分13と、第2に示したキー項目辞書を記憶する部分1
4と、さらに作業用領域15とからなっている。
The memory 11 includes a section 12 for storing the flag table shown in FIG. 5, a section 13 for storing the bit number conversion table shown in FIG. 6, and a section 1 for storing the key item dictionary shown in FIG.
4 and a work area 15.

マイクロプロセッサ20は2o内に持つマイクロプログ
ラムに従って、第4図で説明したアルゴリズムにより単
語認識(キー項目認識)を行い。
The microprocessor 20 performs word recognition (key item recognition) using the algorithm explained in FIG. 4 according to the microprogram contained in the microprocessor 2o.

固定項目の字種の指定を12に用いて行い、固定項目の
認識結果である文字コードを検定する。
The character type of the fixed item is specified using step 12, and the character code that is the recognition result of the fixed item is verified.

つぎに1文字認識装置としての処理の流れに沿って説明
する。
Next, the flow of processing as a single character recognition device will be explained.

帳票上に印加された文字パターンは3により充電変換さ
れ、一定の枠内に切り出され、4へ転送される。4では
3から送られてきた未知パターンと5内の各標準パター
ンとの類似度を計算し、最大類似度を与える文字のコー
トを、1行分まとめて、文字コード列として出力線6上
に出力する6ただし、ここで4は最大類似度が所定のし
きい値以上になっているかどうかを検定し、しきい値に
達しない場合は出力コーkを0とする。
The character pattern applied on the form is charged and converted by 3, cut out within a certain frame, and transferred to 4. In step 4, the degree of similarity between the unknown pattern sent from step 3 and each standard pattern in step 5 is calculated, and the coats of characters that give the maximum degree of similarity are summarized for one line and output as a character code string on output line 6. Output 6 However, here, 4 tests whether the maximum similarity is greater than a predetermined threshold, and if it does not reach the threshold, the output code k is set to 0.

検定処理装置lo内のマイクロプロセッサ20は1行ご
との認識結果の文字コート列を6を通して受は取りメモ
リ15に格納する。まず1行分の文字系列(ブランクも
1つの文字コードを与えられている)からキー項目に対
応する文字コード系列を抽出し、単語認識に移る。1行
分の文字コード列の例を第8図に示す。1行は25文字
からなり、先頭の8文字801がキー項目に対応し、後
半の17文字802が固定項目に対応する。文字コード
9999はブランクを意味する1eJ801内のブラン
クでない文字コード(第8図に於いてはS’l+ S2
+  ・・、s6)がキー項目の文字を認識した結果の
文字コート列である。
The microprocessor 20 in the verification processing device lo receives the character code string of the recognition result for each line through 6 and stores it in the memory 15. First, a character code sequence corresponding to a key item is extracted from a character sequence for one line (blanks are also given one character code), and the process moves on to word recognition. An example of a character code string for one line is shown in FIG. One line consists of 25 characters, the first 8 characters 801 correspond to key items, and the latter 17 characters 802 correspond to fixed items. The character code 9999 means blank and is a non-blank character code in 1eJ801 (in Figure 8, S'l+S2
+..., s6) is a character code string as a result of recognizing the characters of the key items.

単語認識はマイクロプログラムにより、第4図に示した
アルゴリズムに従って行う。ただし、同アルゴリズムに
おいて、第4図の処理108は、類似度計算回路によっ
て行う。すなわち、20は2個の文字コードSiと1(
番目の辞書項目の1番目の文字コードwi(k)(第4
図参照)を30に転送し、類似度計算の命令を30に対
して発する。
Word recognition is performed by a microprogram according to the algorithm shown in FIG. However, in the same algorithm, the process 108 in FIG. 4 is performed by a similarity calculation circuit. In other words, 20 is composed of two character codes Si and 1 (
1st character code wi(k) (4th
(see figure) is transferred to 30, and a similarity calculation command is issued to 30.

30は同命令を受けて、Siとwi(k)に対応する2
個の標準パターンを5より読み出し、同標準パターン同
志の類似度ρ を計算し、20に対し返送する。以上は
第1図の処理203である。
30 receives the same command and converts 2 corresponding to Si and wi(k).
The standard patterns 5 are read out from 5, the similarity ρ between the same standard patterns is calculated, and the result is returned to 20. The above is the process 203 in FIG.

マイクロプログラム単語認識が終了すると、検定処理に
移る。まず第1図の処理204を行う。
When the microprogram word recognition is completed, the process moves to verification processing. First, processing 204 in FIG. 1 is performed.

まず、キー項目認識の結果のキー項目番号が分ると、メ
モリ13内のビット番号変換表を調べて、同キー項目に
続く固定項目の字種を指定する所のフラグ表のビット番
号b を得る。続いて固定項目の認識結果の検定処理2
05を行う。2・0はメモリ15内の認識結果文字コー
ド列(第8図)の内、固定項目に対応する文字コード8
02から1つづつ取り出し、メモリ12内のフラグ表(
第5図参照)の各文字コードに対応するフラグのbビッ
ト目を調べる。同ビットが1のときは、許容される字種
であるので、その時は何もしないが、0のときは許容さ
れない字種であるので、同結果を与えた802内の文字
コードの符号を反転させる。たとえば、固定項目のある
認識結果文字コードが500であり、検定の結果許容さ
れない文字のときは同符号を反転させて−500とする
First, when the key item number as a result of key item recognition is known, the bit number conversion table in the memory 13 is checked and bit number b of the flag table that specifies the character type of the fixed item following the key item is determined. obtain. Next, verification processing 2 of recognition results for fixed items
Do 05. 2.0 is the character code 8 corresponding to the fixed item in the recognition result character code string (Fig. 8) in the memory 15.
02 one by one and the flag table in memory 12 (
Check the b-th bit of the flag corresponding to each character code (see FIG. 5). When the same bit is 1, it is an acceptable character type, so nothing is done at that time, but when it is 0, it is an unacceptable character type, so the sign of the character code in 802 that gave the same result is reversed. let For example, if the recognition result character code with a fixed item is 500, and the character is not allowed as a result of the verification, the same code is inverted and set to -500.

ここで、固定項目の認識結果の文字コードが4から送出
された段階で負の符号のときは、同文字コードに対する
検定処理は行わない。
Here, if the character code of the fixed item recognition result is a negative sign at the stage when it is sent from 4, the verification process for the same character code is not performed.

また、キー項目に対応する文字コー1(につぃては、単
語認識結果の辞書の文字コード列を第8図に示したキー
項目の文字コード列に代入する。例えば、文字認識結果
801が「申請臼」であっても単語認識の結果が「申請
臼」に対応するキー項目番号であるとするとマイクロプ
ロセッサ2oは「申請臼」の代りに「申請臼」に対応す
る文字コート列をメモリ14に格納しである辞書から取
り出して801を書き替えるので、文字認識結果に誤り
があって石正しく修正される。キー項目の単語認識の結
果が判定不能であった場合は、以後の文字コードの検定
ができないので同行の文字コードをすべて負に反転させ
る。
In addition, the character code string corresponding to the key item 1 (initially, the character code string of the dictionary of word recognition results is substituted into the character code string of the key item shown in FIG. 8. For example, if the character recognition result 801 is If the word recognition result is a key item number corresponding to "Application mortar" even if it is "Application mortar", the microprocessor 2o stores the character code string corresponding to "Application mortar" instead of "Application mortar". Since 801 is stored in 14 and retrieved from a dictionary, any errors in the character recognition results are corrected correctly.If the word recognition result for the key item is undecidable, the subsequent character codes Since it is not possible to test, all the accompanying character codes are inverted to negative.

検定が終了して第8図に示した文字コード列が書き替え
られると(誤りがない場合は結果的には変更がない。)
、20は同文字コード列801゜802を出力線50上
に出力する。
When the verification is completed and the character code string shown in Figure 8 is rewritten (if there are no errors, there will be no change as a result).
, 20 output the same character code strings 801 and 802 onto the output line 50.

以上の過程は帳票の行単位に実行される。The above process is executed for each line of the form.

[まとめコ 以上説明したごとく、本発明装置は文字認識結果の誤認
識が正しく修正されて出力されるので。
[Summary] As explained above, the apparatus of the present invention correctly corrects misrecognitions in character recognition results and outputs them.

誤認識率を低下させることができる。The misrecognition rate can be reduced.

本文字認識装置の結果を、たとえばっぎのように表示、
人手により最終判定を仰ぐことができる。
The results of this character recognition device are displayed, for example,
The final judgment can be made manually.

すなわち、正の文字コードが出力された場合は通常に表
示し、負の文字コードが出力された場合は、誤認識の可
能性が高いので、輝度や、色を変えてディスプレイした
り、樋示文字の脇に特殊記号を付して表示したりでき、
人手を介して修正できる。
In other words, if a positive character code is output, it will be displayed normally, but if a negative character code is output, there is a high possibility of misrecognition, so you may want to change the brightness or color of the display, or change the gutter display. You can display special symbols next to the characters.
It can be corrected manually.

本発明装置の特徴は、従来の文字認識装置の後段に付け
ればよいので大きな変更を必要としないこと、本検定処
理部を容易に取除くことができ認識部はそのまま従来の
認識装置として動作できるので、本検定処理部をオプシ
ョンとして取扱えることである。
The features of the device of the present invention are that it does not require major changes as it can be installed after the conventional character recognition device, and that the verification processing section can be easily removed and the recognition section can operate as a conventional recognition device as is. Therefore, this verification processing section can be handled as an option.

また、単語認識に際して、誤りを含んだ文字コード系列
から辞書を検索する手法で必要になる任意の二つの文字
の近さの測度を、標準パターン同志の類似度によって得
ている点も特徴である。したがって、近さの測度を貯え
るための膨大な記憶装置が不必要である。なお、本明細
書に述べた実施例においては、第5図で10の中に類似
度計算回路3oを設けたが、類似度計算機能は4が本来
持っているので、4を若干変更することにより、30を
4の中に含め、全体として効率的なものにすることがで
きる。
Another feature of this method is that the measure of the closeness between any two characters, which is required in the method of searching a dictionary from a character code sequence containing errors during word recognition, is obtained from the similarity between standard patterns. . Therefore, a large amount of storage for storing proximity measures is unnecessary. In the embodiment described in this specification, the similarity calculation circuit 3o is provided in 10 in FIG. 5, but since 4 originally has the similarity calculation function, 4 may be slightly modified. Therefore, 30 can be included in 4, making it more efficient as a whole.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の詳細な説明するための流れ図である。 第2図は、単語辞書の構成の図、第3図はキー項目に対
応する文字コード列の図である。 第4図は単語認識(キー項目認識)アルゴリズムを説明
するための流れ図、第5図はフラグ表、第6図はビット
番号変換表の図である。 第7図は本発明の一実施例のブロック図である。 第8図は文字認識結果の文字コード列の図であ第2凪 4夕1凶 第2)因
FIG. 1 is a flowchart for explaining the invention in detail. FIG. 2 is a diagram of the structure of a word dictionary, and FIG. 3 is a diagram of character code strings corresponding to key items. FIG. 4 is a flowchart for explaining the word recognition (key item recognition) algorithm, FIG. 5 is a flag table, and FIG. 6 is a bit number conversion table. FIG. 7 is a block diagram of one embodiment of the present invention. Figure 8 is a diagram of the character code string resulting from character recognition.

Claims (1)

【特許請求の範囲】[Claims] 1、未知文字パターンを入力する入力手段と、上記入力
された未知文字パターンと標準パターンとを照合しその
認識結果を単語毎に出力する出力手段と、単語情報を記
憶する記憶手段と、上記出力手段により出力される単語
毎の認識結果と上記単語情報とを比較し照合を行う照合
手段と、該照合結果に基づいて上記未知文字パターンを
単語毎に特定する手段とを有し、該手段は、上記照合結
果により誤認識の可能性の高い文字と他の文字とを区別
して表示する手段を有していることを特徴とする文字認
識装置。
1. An input means for inputting an unknown character pattern, an output means for comparing the input unknown character pattern with a standard pattern and outputting the recognition result for each word, a storage means for storing word information, and the above output. a collation means for comparing and collating the word information with the recognition result for each word outputted by the means; and means for specifying the unknown character pattern for each word based on the collation result; . A character recognition device comprising means for distinguishing and displaying characters that are likely to be misrecognized from other characters based on the matching results.
JP61237924A 1986-10-08 1986-10-08 Character recognizer Granted JPS6297081A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61237924A JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61237924A JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP58079399A Division JPS6055866B2 (en) 1983-05-09 1983-05-09 character recognition device

Publications (2)

Publication Number Publication Date
JPS6297081A true JPS6297081A (en) 1987-05-06
JPH0520797B2 JPH0520797B2 (en) 1993-03-22

Family

ID=17022471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61237924A Granted JPS6297081A (en) 1986-10-08 1986-10-08 Character recognizer

Country Status (1)

Country Link
JP (1) JPS6297081A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4945014A (en) * 1972-09-07 1974-04-27
JPS50137037A (en) * 1974-04-10 1975-10-30
JPS529377A (en) * 1975-07-05 1977-01-24 Bosch Gmbh Robert Electronic control unit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4945014A (en) * 1972-09-07 1974-04-27
JPS50137037A (en) * 1974-04-10 1975-10-30
JPS529377A (en) * 1975-07-05 1977-01-24 Bosch Gmbh Robert Electronic control unit

Also Published As

Publication number Publication date
JPH0520797B2 (en) 1993-03-22

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
CA2105494C (en) Method and apparatus for recognizing cursive writing from sequential input information
US6950555B2 (en) Holistic-analytical recognition of handwritten text
CN109284355B (en) Method and device for correcting oral arithmetic questions in test paper
JPS59139485A (en) Pattern identification method and apparatus
JPH0684006A (en) Method of online handwritten character recognition
CN110705302A (en) Named entity recognition method, electronic device and computer storage medium
JPH07509576A (en) How to recognize characters
JPH03144877A (en) Method and system for recognizing contextual character or phoneme
JPS6297081A (en) Character recognizer
JP3469375B2 (en) Method for determining certainty of recognition result and character recognition device
JPS6055866B2 (en) character recognition device
JPS594071B2 (en) character recognition device
CN115204182B (en) Method and system for identifying e-book data to be corrected
JPS59197974A (en) Character recognizing device
JP3470927B2 (en) Natural language analysis method and device
JP2908132B2 (en) Post-processing method of character recognition result
JP3548372B2 (en) Character recognition device
JPH0256086A (en) Method for postprocessing for character recognition
JPH0212481A (en) Character string recognizing device
JPH0934888A (en) Character recognition method and character recognition device
JP3245415B2 (en) Character recognition method
JP2637762B2 (en) Pattern detail identification method
JPS6336487A (en) Character reading system
JPH08329194A (en) Character recognition device