JPS6344287A - Character reader - Google Patents

Character reader

Info

Publication number
JPS6344287A
JPS6344287A JP61189245A JP18924586A JPS6344287A JP S6344287 A JPS6344287 A JP S6344287A JP 61189245 A JP61189245 A JP 61189245A JP 18924586 A JP18924586 A JP 18924586A JP S6344287 A JPS6344287 A JP S6344287A
Authority
JP
Japan
Prior art keywords
character
pattern
read
feature vector
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61189245A
Other languages
Japanese (ja)
Inventor
Tetsuji Sato
哲司 佐藤
Nobuo Tsuda
津田 伸生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61189245A priority Critical patent/JPS6344287A/en
Publication of JPS6344287A publication Critical patent/JPS6344287A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To increase processing speed by deciding the type of character that will be read next time from the code of a read character and eliminating the need that all patterns should be collated. CONSTITUTION:A pattern collating means 10 outputs a distance value obtained by collating the pattern of an input character pattern and the character code of a corresponding standard pattern. A standard feature vector storage means 11 stores a standard feature vector generated from the standard pattern of a character to be read. A read-out result output means 12 evaluates the distance values of plural standard patterns obtained by the pattern collating means 10 and outputs final read-out results of the input character pattern. A collation candidate selecting means 13 selects the type of character to be collated for a character to be read next time and by judging from the connecting relation between mutual characters comprising a word or sentence to be read and the code of the read character, inputs the corresponding standard feature vector to the pattern collating means 10, and selectively collates patterns.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、パタン照合処理を行う文字読取装置に関し
、特に単語や文章など連続する文字を読み取る際のパタ
ン照合処理を効率良く実行して読取速度と読取精度の向
上を図る文字読取装置に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a character reading device that performs pattern matching processing, and particularly to a character reading device that efficiently performs pattern matching processing when reading continuous characters such as words and sentences. The present invention relates to a character reading device that improves speed and reading accuracy.

〔従来の技術〕[Conventional technology]

手書き文字や印刷文字で書かれた大量の文書や帳票の計
算機等への高速入力手段として文字読取装置が用いられ
ている。この種の文字読取装置は、一般に光電変換され
た文字パタンに対して雑音除去、位置・大きさの正規化
等からなる前処理、その前処理済の文字パタンから所定
のアルゴリズム(手順)に基づいて入力特徴ベクトルを
生成する特徴抽出処理、t1m対象とする文字種別にあ
らがしめ標準パタンから生成してある標準特徴ベクトル
と特徴抽出処理で得られた入力特徴ベクトルとの間で距
離計算を行なうパタン照合処理、パタン照合処理によっ
て得られたe特徴ベクトル別の距離値に基づいて読取結
果となる文字コードを決定する後処理を実行する。
2. Description of the Related Art Character reading devices are used as means for high-speed input of large amounts of handwritten or printed documents and forms into computers and the like. This type of character reading device generally performs preprocessing on a photoelectrically converted character pattern, which consists of noise removal, normalization of position and size, etc., and then performs a preprocessing process based on the preprocessed character pattern based on a predetermined algorithm (procedure). A feature extraction process that generates an input feature vector using t1m, and a distance calculation between the standard feature vector generated from a standard pattern based on the character type targeted for t1m and the input feature vector obtained by the feature extraction process. Post-processing is performed to determine the character code that will be the reading result based on the pattern matching process and the distance value for each e feature vector obtained by the pattern matching process.

これらの処理で、パタン照合処理を除(前処理、特徴抽
出処理、後処理は、読取文字数に比例する演算量で処理
できるが、パタン照合処理は、入力文字毎に入力特徴ベ
クトルと総ての標準特徴ベクトルとの間で距離計算を行
うことから、(読取文字数)×(読取対象とする標準パ
クンの種類数)×(特徴ベクトルの次元数)に比例する
処理量を必要としていた。
These processes exclude pattern matching processing (pre-processing, feature extraction processing, and post-processing can be processed with the amount of calculation proportional to the number of characters read, but pattern matching processing uses input feature vectors and all input features for each input character). Since the distance is calculated between standard feature vectors, a processing amount proportional to (number of characters read) x (number of types of standard pakun to be read) x (number of dimensions of feature vectors) is required.

特に手書き漢字等を対象とした文字読取装置では、漢字
特有の複雑な文字パタンを手書きによる変形を吸収して
高精度に読み取る為に、数百次元の特徴ベクトルを使用
して、数千種類のPJ準特徴ベクトルとの照合を行う必
要があり、ベクトル間の距離を求めるパタン照合処理に
必要な演算量が膨大になっていた。
In particular, character reading devices that target handwritten kanji, etc. use hundreds of dimensional feature vectors to read thousands of types of complex character patterns unique to kanji with high precision by absorbing the deformation caused by handwriting. It is necessary to perform matching with the PJ quasi-feature vector, and the amount of calculation required for pattern matching processing to find the distance between vectors is enormous.

一方、従来の文字読取装置では、入力特徴ベクトルと認
識対象とする全カテゴリの標準特徴ベクトルと総当たり
でパタン照合を行うことから、数字の「0」とアルファ
ベットの「O」、漢数字の「−」とかなの長音「−」等
の類似文字を高精度に判別することが困難であった。こ
のため、このような類似文字を判別する為に、あらかじ
め用紙に記入する際に、例えばアルファベア)の「0」
の上に線を付加するようなことが行われている。
On the other hand, conventional character reading devices perform brute force pattern matching between the input feature vector and the standard feature vectors of all categories to be recognized. It has been difficult to discriminate similar characters such as "-" and the long kana "-" with high accuracy. Therefore, in order to distinguish such similar characters, when filling out the form in advance, for example, "0" for Alphabea)
Something like adding a line above the .

これにより、類慎文字に対するLi!m率を向上するこ
とはできるが、認識対象文字種を漢字まで拡大すると類
似文字種が飛躍的に増大し、用紙に記入する際に類似文
字を区別するように記入することは実際上困難であった
As a result, Li! Although it is possible to improve the m rate, expanding the range of characters to be recognized to include Kanji will dramatically increase the number of similar characters, making it difficult in practice to distinguish between similar characters when filling out forms. .

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

従来の文字読取装置では、入力1文字毎に認識対象とす
る4!準パタンの種類数と特徴ベクトルの次元数との積
に比例する計算量が必要であり、手書き漢字等を対象と
する場合には、次元数が多(、かつ大量の標準特徴ベク
トルと入力特徴ベクトルとの間で距離計算を行うことか
ら、パタン照合に要する計算量が膨大になり、パタン照
合処理が装置全体の読取速度を制約する問題があった。
In conventional character reading devices, each input character is recognized as 4! The amount of calculation is proportional to the product of the number of types of quasi-patterns and the number of dimensions of the feature vector, and when dealing with handwritten kanji, etc., the number of dimensions is large (and a large number of standard feature vectors and input features are required). Since distance calculations are performed between vectors, the amount of calculation required for pattern matching becomes enormous, and there is a problem in that the pattern matching process limits the reading speed of the entire device.

一方、入力特徴ベクトルと、認識対象とする文字別にあ
らかじめ標準パタンから生成した標準特徴ベクトルとの
間で総当たりのパタン照合処理を行うことから、漢数字
の「−」とかなの長音「−」等の類似文字を精度良く判
別することが困難な問題があった。
On the other hand, since a round-robin pattern matching process is performed between the input feature vector and a standard feature vector generated in advance from a standard pattern for each character to be recognized, it is possible to use There was a problem in which it was difficult to accurately distinguish similar characters such as .

〔問題点を解決するための手段〕[Means for solving problems]

この発明の文字読取装置では、読取対象とする日本語文
章あるいは単語を構成する文字相互の接続関係を記憶し
たテーブルをあらかじめ用意しておき、連続した文字の
読取処理の過程において、先に読み取りを行った文字の
文字コードからあらかじめ用意した接続関係を示すテー
ブルを検索し、次に読み取る文字に対する照合対象文字
種を決定する照合候補選択手段を具備したことを特徴と
する。照合候補選択手段によって得られた照合対象文字
に対応する標準特徴ベクトルと、入力特徴ベクトルとの
間で、パタン照合による距離計算を行なう、得られた距
離値を評価して入力文字パタンに充分−敗する!!準パ
タンか検出された段階で、その標準パタンに対応する文
字コードを読取結果として出力し、その後の照合処理を
打ち切る。
In the character reading device of the present invention, a table is prepared in advance that stores the connection relationships between characters constituting a Japanese sentence or word to be read, and in the process of reading consecutive characters, the reading is performed first. The present invention is characterized in that it includes a matching candidate selection means that searches a table showing connection relationships prepared in advance from the character code of the character read, and determines the type of character to be matched for the next character to be read. Distance calculation is performed by pattern matching between the standard feature vector corresponding to the character to be matched obtained by the matching candidate selection means and the input feature vector, and the obtained distance value is evaluated to determine whether it is sufficient for the input character pattern. Defeat! ! When a quasi-pattern is detected, the character code corresponding to the standard pattern is output as a reading result, and the subsequent matching process is terminated.

〔作 用〕[For production]

上記の特徴を存する文字読取装置は、複数の文字が連続
する単語あるいは文章を読み取り対象とし、次に読み取
った文字の文字コードから次に読み取る文字に対する照
合対象文字種をあらかじめ推定し、照合対象文字の標準
特徴ベクトルと入力特徴ベクトルの間の選択的なパタン
照合処理を行なう、したがって、この発明の文字読取装
置では、入力特徴ベクトルと、認識対象とする標準特徴
ベクトルとの間のパタン照合処理を総当たりで行う必要
がなく、従来処理速度を制限する要因となっていたパタ
ン照合処理量を削減できる。更に、接続頷度の高い字種
から照合処理を進め、入力文字に対する一致度を評価し
て充分一致する標準パタンか検出された段階で照合処理
を打ち切ることによって、複数の類似文字が存在する場
合であっても、文字間の接続関係から得られる接M!度
から類似文字に対する読取誤りを削減できる。
A character reading device with the above characteristics reads a word or sentence consisting of multiple consecutive characters, and estimates in advance the type of character to be matched against the next character to be read from the character code of the next read character. Therefore, the character reading device of the present invention performs selective pattern matching processing between a standard feature vector and an input feature vector. There is no need to perform matching on a hit basis, and the amount of pattern matching processing, which was a factor that limited processing speed in the past, can be reduced. Furthermore, if multiple similar characters exist, the matching process is proceeded from the character type with the highest degree of connection, and the matching process is stopped when a sufficiently matching standard pattern is detected by evaluating the degree of matching with the input character. Even if it is, the connection M obtained from the connection relationship between characters! It is possible to reduce reading errors for similar characters.

〔実施例〕〔Example〕

以下図面を参照してこの発明の一実施例を説明する。第
1図はこの発明の一実施例に係わる文字読取装置の基本
構成を示す0図に示していないが入力文字パタンは雑音
除去や位置・大きさの正規化等の前処理が行われた後に
、所定のアルゴリズムに基づいて入力特徴ベクトルが生
成される。この入力特徴ベクトルはパタン照合手段10
に入力され、このパタン照合手段10は入力特徴ベクト
ルと標準特徴ベクトル格納手段11から読みだした標準
特徴ベクトルとの間でベクトル間距離を計算する。した
がって、入力文字パタンに対して、パタン照合で求めた
距離値と対応する標準パタンの文字コードがパタン照合
手段10から出力される。
An embodiment of the present invention will be described below with reference to the drawings. Although not shown in Figure 1, which shows the basic configuration of a character reading device according to an embodiment of the present invention, the input character pattern is subjected to preprocessing such as noise removal and normalization of position and size. , an input feature vector is generated based on a predetermined algorithm. This input feature vector is
The pattern matching means 10 calculates the inter-vector distance between the input feature vector and the standard feature vector read from the standard feature vector storage means 11. Therefore, with respect to the input character pattern, the pattern matching means 10 outputs the character code of the standard pattern that corresponds to the distance value obtained by pattern matching.

標準待機ベクトル格納手段11は、読取対象とする文字
の標準パタンから生成した標準特徴ベクトルを格納し、
文字コード番号を与えることによって、対応する文字の
t!準特徴ベクトルを読み出すごとができる。
The standard standby vector storage means 11 stores standard feature vectors generated from standard patterns of characters to be read,
By giving the character code number, the corresponding character t! It is possible to read quasi-feature vectors every time.

読取結果出力手段12は、パタン照合手段10で求めた
複数の標準パタンに対する距離値を評価し、入力文字パ
タンに対する最終的な読取結果を出力する。すなわち入
力文字パタンとの距離が充分小さい標準パタンか1種類
存在する場合には、その標準パタンに対応する文字コー
ドを出力し、入力文字パタンとの距離が小さい標準パタ
ンか存在しない場合には、最終的な読取結果として読取
不能とする。また、入力文字パタンと複数の標準パタン
との距離がほぼ同一であり、最も近い標準パタンかいず
れであるか判別することが不可能な場合には、読取結果
を1種類に限定せずに複数の読取結果を出力する、ある
いは類似文字が存在することを出力することもある0以
上示した読取結果は、文字読取装置の出力として外部に
出力すると同時に、この発明では次に示す照合候補選択
手段130入力とする。
The reading result output means 12 evaluates the distance values for the plurality of standard patterns obtained by the pattern matching means 10, and outputs the final reading result for the input character pattern. In other words, if there is one type of standard pattern with a sufficiently small distance from the input character pattern, the character code corresponding to that standard pattern is output, and if there is no standard pattern with a small distance from the input character pattern, The final reading result is unreadable. In addition, if the distance between the input character pattern and multiple standard patterns is almost the same, and it is impossible to determine which standard pattern is the closest, the reading result may not be limited to one type, but multiple standard patterns. The reading result indicating 0 or more is outputted as the output of the character reading device, and at the same time, the present invention uses the following matching candidate selection means. It is assumed that there are 130 inputs.

照合候補選択手段13は、パタン照合手段部10におけ
るパタン照合の順序を制御する手段であり、以下に連続
した文字読取の過程を、図を用いて詳細に説明する。
The matching candidate selection means 13 is a means for controlling the order of pattern matching in the pattern matching means section 10, and the process of successive character reading will be explained in detail below using the drawings.

第2図は、読取対象文章として「文字相互の接続・・・
」を入力し、先頭から2番目の文字「字」を読み取る段
階の動作例を示している。この段階で、既に先頭の文字
「文」は読取が完了している。照合候補選択手段13で
は、得られた「文」の文字コードから次の入力文字パタ
ンに対する照合対象文字種を決定する。
Figure 2 shows the text to be read as ``Connections between characters...''
'' is input and the second character from the beginning is read. At this stage, the first character "sentence" has already been read. The matching candidate selection means 13 determines the character type to be matched for the next input character pattern from the obtained character code of the "sentence".

第3図に、照合候補文字種を推定する為の照合候補テー
ブルの例を一部示す、照合FA補子テーブル、文字コー
ド毎に次に接続する文字、即ち文字読取の過程で次に入
力される文字パタンとして出現する可能性のある文字の
コードが記載してある。
Fig. 3 shows a part of an example of a matching candidate table for estimating matching candidate character types, a matching FA complement table, and the next connected character for each character code, that is, the next input character in the character reading process. Contains codes for characters that may appear as character patterns.

第3図の例では、先に読み取る文字「日」 「火」「本
」・・・に対して、それぞれ「本、月、の・・・」「曜
、力、星・・・」 「人、語、体・・・」・・・が次の
文字として接続されることを示している。したがって、
この照合候補テーブルを用いることによって、連続する
文字読取を行う際に、先に読み取った文字の文字コード
から、次に読み取る文字として出現する可能性のある文
字の文字コードを得ることができる。
In the example in Figure 3, for the characters ``Sun'', ``Tuesday'', ``Book'', which are read first, ``Book, month, of...'', ``Yo, power, star...'', ``person'', etc. , word, body...'' indicates that it is connected as the next character. therefore,
By using this matching candidate table, when reading consecutive characters, it is possible to obtain the character code of a character that may appear as the next character to be read from the character code of the previously read character.

照合候補選択手段13で求めた照合候補文字種の文字コ
ードに基づいて、あらかじめ用意してある標準特徴ベク
トルを標準特徴ベクトル格納手段11から読み出し、パ
タン照合手段10に入力する0図の例では、先に読み取
った「文」に接続する可能性がある「学」 「章」 「
字」・・・に対応する標準特徴ベクトルを順次パタン照
合手段10に入力し、ベクトル間距離を計算する。
In the example of FIG. 0, a standard feature vector prepared in advance is read out from the standard feature vector storage means 11 based on the character code of the matching candidate character type determined by the matching candidate selection means 13, and is input to the pattern matching means 10. ``Science'', ``Chapter'', ``Sentence'' that may be connected to
The standard feature vectors corresponding to the characters "..." are sequentially input to the pattern matching means 10, and distances between the vectors are calculated.

一方、文字パタンに対して雑音除去や位置・大きさの正
規化等の処理を行った後に、所定のアルゴリズムに基づ
いて入力特徴ベクトルを生成する前処理、特徴抽出手段
14から、次に読取を行う文字パタンに対する入力特徴
ベクトルをパタン照合手段10に入力する。
On the other hand, after performing processing such as noise removal and position/size normalization on the character pattern, a preprocessing and feature extraction means 14 that generates an input feature vector based on a predetermined algorithm is used to perform the next reading. The input feature vector for the character pattern to be performed is input to the pattern matching means 10.

パタン照合手段10では、入力特徴ベクトルと「学」 
「章」 「字」・・・に対応する標準特徴ベクトルとの
間でパタン照合によるベクトル間距離の計算を行い、各
標準パタンに対する距離を求める。
In the pattern matching means 10, the input feature vector and the
The distance between the vectors is calculated by pattern matching with the standard feature vectors corresponding to "chapter", "character", etc., and the distance to each standard pattern is determined.

ベクトル間距離には、2つのベクトルの各要素の差の絶
対値を加算しその平均を取るシティプロ。
To calculate the distance between vectors, City Pro adds the absolute values of the differences between each element of two vectors and takes the average.

り距離と、2つのベクトルの各要素の差の2乗和を平均
するユークリッド距離とが既知である。これらのベクト
ル間の距離を求める方法では、2つのベクトルの要素同
士の演算を必要とすることから、1つの標準特徴ベクト
ルに対する距離を求めるのに、ベクトルの次元数回の繰
り返し演算が必要となる。したがって、1つの入力文字
に対して総ての標準特徴ベクトルとの照合を行った場合
には、(標準特徴ベクトル数)×(特徴ベクトルの次元
数)回の繰り返し演算が必要となる。第3図の例では、
標準パクンに対する距離として(文字、距M)が、(学
、140)(章、253)(、字、82)・・・が得ら
れたとする。読取結果出力手段12では、得られた距離
が最も小さい「字」の文字コードを読取結果として出力
する。
The Euclidean distance, which averages the sum of squares of the differences between the elements of two vectors, is known. These methods of finding distances between vectors require computations between the elements of the two vectors, so finding the distance to one standard feature vector requires repeated computations several times in the dimensions of the vectors. . Therefore, when one input character is compared with all the standard feature vectors, (number of standard feature vectors) x (number of dimensions of feature vectors) iterative calculations are required. In the example in Figure 3,
Assume that (letter, distance M) is obtained as the distance to the standard Pakun. The reading result output means 12 outputs the character code of the "character" with the smallest distance obtained as the reading result.

以上の処理過程において、照合候補選択手段13によっ
て限定した照合対象文字種とのパタン照合処理を行うだ
けで、入力文字に対する読取結果を出力することができ
る。
In the above process, the reading result for the input character can be output simply by performing pattern matching with the character types to be matched limited by the matching candidate selection means 13.

第4図は、この発明の文字読取装置の第2の実施例を示
す0本実施例では、第1の実施例に示した照合候補選択
手段13を、照合結果評価手段15と照合順序指定手段
16と、照合候補テーブル17とで構成する。
FIG. 4 shows a second embodiment of the character reading device of the present invention. In this embodiment, the matching candidate selection means 13 shown in the first embodiment is replaced with the matching result evaluation means 15 and the matching order specifying means. 16 and a matching candidate table 17.

照合結果評価手段15は、パタン照合手段10で求めた
特徴ベクトル間の距離を評価し、入力文字パタンに対し
て充分に一致している標準パタンか検出された場合に、
照合順序指定手段16に対して以後のパタン照合処理を
打ち切る信号を出力する。この時、読取結果出力手段1
2では、打ち切り指示を出したI準パタンに対する文字
コードを、最終的な読取結果として出力する。
The matching result evaluation means 15 evaluates the distance between the feature vectors obtained by the pattern matching means 10, and when a standard pattern that sufficiently matches the input character pattern is detected,
A signal is output to the matching order specifying means 16 to terminate the subsequent pattern matching process. At this time, the reading result output means 1
In step 2, the character code for the I quasi-pattern for which the abort instruction has been issued is output as the final reading result.

照合順序指定手段16は、以下に示す照合候補テーブル
17を用いて、第1候補から順次対応する標準特徴ベク
トルをパタン照合手段10に入力する。照合結果評価手
段15から打ち切り指示を受けた場合には、パタン照合
手段10を強制的に初期化して次の読取文字に対する処
理を可能とする。
The matching order specifying means 16 uses a matching candidate table 17 shown below to sequentially input corresponding standard feature vectors from the first candidate to the pattern matching means 10. When receiving an abort instruction from the matching result evaluation means 15, the pattern matching means 10 is forcibly initialized to enable processing for the next read character.

照合候補テーブル17は、読取対象とする文字に対して
、次に読み取った文字のコードから次に読み取る文字と
して出現する確率が高い文字、即ち連続する文字の接続
関係において次に接続する確率が高い文字から第1候補
、第2候補・・・として文字コードを記載しておく、こ
のようにして照合候補テーブル17を構成することによ
って、照合順序指定手段16で読取結果として出力する
確立の高い文字から照合処理を進めることができる。
The matching candidate table 17 contains characters that have a high probability of appearing as the next character to be read based on the code of the next character to be read, that is, characters that have a high probability of being connected next in the connection relationship of consecutive characters. By configuring the collation candidate table 17 in this way, in which character codes are written as the first candidate, second candidate, etc., characters with a high probability of being output as a reading result by the collation order specifying means 16 can be selected. You can proceed with the matching process from

第5図は、この発明の文字読取装置の第3の実施例を示
す。本実施例では、上記第2の実施例に示した照合候補
選択手段13に照合候補更新手段18を付加したことを
特徴とする。
FIG. 5 shows a third embodiment of the character reading device of the present invention. This embodiment is characterized in that a matching candidate updating means 18 is added to the matching candidate selecting means 13 shown in the second embodiment.

照合候補更新手段1日は、この発明の文字読取装置にお
いて、連続する読取過程で入力文章あるいは単語におけ
る文字間の接続関係を抽出して、照合候補テーブル17
を更新する手段である。照合候補テーブル17は、あら
かじめ大量の日本語文章等を解析して作成することが可
能であるが、連続する文字読取の過程において、照合候
補テーブル17を更新することによって照合対象文字種
の範囲を限定し、パタン照合に要する演算量を削減する
The verification candidate updating means 1 extracts connection relationships between characters in input sentences or words in the character reading device of the present invention during continuous reading processes, and updates the verification candidate table 17.
It is a means of updating. The matching candidate table 17 can be created in advance by analyzing a large amount of Japanese text, etc., but the range of character types to be matched can be limited by updating the matching candidate table 17 in the process of reading successive characters. This reduces the amount of calculation required for pattern matching.

以上、実施例を用いて説明したようにこの発明の文字読
取装置は、従来技術に示した文字読取装置のパタン照合
処理において、先に読み取った文字のコードから次に読
み取る文字として出現する文字を限定する照合候補テー
ブルを設けたことを特徴とする。したがって、照合候補
テーブル17以外の構成要素は、従来技術を用いて容易
に構成することができる。照合候補テーブル17につい
ても、あらかじめ大量の日本語文章等を解析することに
よって容易に作成できる。さらに、この発明の文字読取
glを用いた連続する文字読取の過程において、照合候
補テーブル17を更新することもできる。
As described above using the embodiments, the character reading device of the present invention detects the character that appears as the next character to be read from the code of the previously read character in the pattern matching process of the character reading device shown in the prior art. It is characterized by providing a matching candidate table for limiting. Therefore, components other than the matching candidate table 17 can be easily configured using conventional techniques. The matching candidate table 17 can also be easily created by analyzing a large amount of Japanese sentences and the like in advance. Furthermore, the collation candidate table 17 can be updated in the process of continuous character reading using the character reading gl of the present invention.

〔発明の効果〕〔Effect of the invention〕

この発明の文字読取装置では、読取対象とする文章ある
いは単語を構成する文字相互の接続関係を抽出したテー
ブル(照合候補テーブル17)をあらかじめ用意し、連
続した文字の読取処理の過程において、先に読み取った
文字の文字コードから照合候補テーブルを検索し、次に
読み取るであろう文字の字種を決定し、対応する標準特
徴ベクトルと入力特徴ベクトルとの間でベクトル間距離
を計算する。得られた距離値から、入力文字に対して充
分に一致する文字が検出された場合に、その後の照合処
理を打ち切る。
In the character reading device of the present invention, a table (matching candidate table 17) is prepared in advance that extracts the connection relationships between characters constituting a sentence or word to be read, and in the process of reading consecutive characters, A matching candidate table is searched based on the character code of the read character, the character type of the next character to be read is determined, and an inter-vector distance is calculated between the corresponding standard feature vector and the input feature vector. If a character that sufficiently matches the input character is detected from the obtained distance value, the subsequent matching process is terminated.

したがって、従来の文字読取装置では、入力1文字を読
み取る為に(読取対象とする文字種数)と(特徴ベクト
ルの次元数)との積に比例する計算量が必要であったパ
タン照合における距離計算が、入力文字に対して充分に
一致する文字が検出されて照合処理を打ち切るまでに削
減できる。この為、手書き文字等を対象とした場合に問
題であった、高次元の特徴ベクトルでかつ極めて多数の
標準パタンに対する距離計算であるパタン照合処理量を
削減できる。この結果、文字読取装置におけるパタン照
合処理が全体の読取速度を制約する問題が解決できる。
Therefore, in conventional character reading devices, in order to read one input character, distance calculation in pattern matching is required, which requires a calculation amount proportional to the product of (the number of character types to be read) and (the number of dimensions of the feature vector). However, this can be reduced to the point where characters that sufficiently match the input characters are detected and the matching process is terminated. Therefore, it is possible to reduce the amount of pattern matching processing, which involves distance calculations for an extremely large number of standard patterns with high-dimensional feature vectors, which is a problem when dealing with handwritten characters and the like. As a result, the problem that pattern matching processing in a character reading device limits the overall reading speed can be solved.

さらに、従来行われていた認識対象とする標準特徴ベク
トルと総当たりでパタン照合を行う場合に問題となる、
漢数字の「−」とかなの長音「−」等の類似文字の判別
が、照合候補テーブルを用いて接続頻度の高い字種から
照合処理を進め、入力文字に対する一致度を評価して照
合処理を打ち切ることによって、接続頻度の少ない類似
文字に対する読取誤りを削減することができる。
Furthermore, there is a problem when performing brute force pattern matching with standard feature vectors to be recognized, which has been done in the past.
Distinguishing similar characters such as the kanji numeral "-" and the long kana "-" uses a matching candidate table to proceed with the matching process starting from the most frequently connected characters, and then evaluates the degree of match to the input character and performs the matching process. By terminating the characters, it is possible to reduce reading errors for similar characters that are connected less frequently.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の第1の実施例に係わる文字読取装置
を示すブロック図、第2図は文字読取の手順を示す図、
第3図は照合候補テーブルの構成例を示す図、第4図は
この発明の第2の実施例に係わる文字読取装置を示すブ
ロック図、第5図はこの発明の第3の実施例に係わる文
字読取装置を示すブロック図である。
FIG. 1 is a block diagram showing a character reading device according to a first embodiment of the present invention, FIG. 2 is a diagram showing a character reading procedure,
FIG. 3 is a diagram showing an example of the configuration of a matching candidate table, FIG. 4 is a block diagram showing a character reading device according to a second embodiment of the invention, and FIG. 5 is a diagram showing a third embodiment of the invention. It is a block diagram showing a character reading device.

Claims (3)

【特許請求の範囲】[Claims] (1)入力文字パタンから生成した入力特徴ベクトルと
、文字種別の標準パタンからあらかじめ生成してある標
準特徴ベクトルとの間で距離計算を行うパタン照合手段
と、 そのパタン照合手段により得られる入力特徴ベクトルと
標準特徴ベクトルとの間の距離値を評価して入力文字に
対応する文字コードを出力する読取結果出力手段と、 読取対象とする単語あるいは文章を構成する文字相互の
接続関係と先に読み取った文字の文字コードとから次に
読み取る文字の照合対象文字種を選択して対応する標準
特徴ベクトルを前記パタン照合手段に入力し、その標準
特徴ベクトルと入力特徴ベクトルとの間で選択的にパタ
ン照合を行わしめる照合候補選択手段とを具備する文字
読取装置。
(1) A pattern matching means that calculates the distance between an input feature vector generated from an input character pattern and a standard feature vector generated in advance from a standard pattern of a character type, and an input feature obtained by the pattern matching means. A reading result output means that evaluates the distance value between the vector and the standard feature vector and outputs a character code corresponding to the input character; Select the character type to be matched for the next character to be read from the character code of the character read, input the corresponding standard feature vector to the pattern matching means, and selectively perform pattern matching between the standard feature vector and the input feature vector. A character reading device comprising a verification candidate selection means for performing the following.
(2)前記照合候補選択手段は読取対象とする単語ある
いは文章を構成する文字相互の接続関係と先に読み取っ
た文字の文字コードとから次に読み取る文字の照合対象
文字種を先に読み取った文字に対する接続確立が高い文
字から順次選択して対応する標準特徴ベクトルを前記パ
タン照合手段に入力する照合順序指定手段と、前記パタ
ン照合手段から得られる入力特徴ベクトルと標準特徴ベ
クトルとの間の距離値を評価してそのパタン照合手段に
おける照合処理の打切りあるいは照合処理の継続を判定
する照合結果評価手段とよりなることを特徴とする特許
請求の範囲第1項記載の文字読取装置。
(2) The matching candidate selection means determines the matching target character type of the next read character based on the connection relationship between the characters constituting the word or sentence to be read and the character code of the previously read character. a collation order specifying means for sequentially selecting characters with a high connection probability and inputting corresponding standard feature vectors to the pattern matching means; and a distance value between the input feature vector obtained from the pattern matching means and the standard feature vector. 2. A character reading device according to claim 1, further comprising a verification result evaluation means for evaluating and determining whether to terminate or continue verification processing in the pattern verification means.
(3)前記照合候補選択手段は順次入力される文字パタ
ンに対応する読取結果として得られる文字コード列から
文字相互の接続関係を抽出してあらかじめ備えてある接
続関係情報を更新し、前記パタン照合手段における照合
対象文字種の選択手順を変更する照合候補更新手段を備
えていることを特徴とする特許請求の範囲第1又は第2
項記載の文字読取装置。
(3) The matching candidate selection means extracts connection relationships between characters from character code strings obtained as reading results corresponding to sequentially input character patterns, updates connection relationship information prepared in advance, and matches the pattern. Claim 1 or 2 further comprising a matching candidate updating means for changing the selection procedure of character types to be matched in the means.
Character reading device as described in section.
JP61189245A 1986-08-11 1986-08-11 Character reader Pending JPS6344287A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61189245A JPS6344287A (en) 1986-08-11 1986-08-11 Character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61189245A JPS6344287A (en) 1986-08-11 1986-08-11 Character reader

Publications (1)

Publication Number Publication Date
JPS6344287A true JPS6344287A (en) 1988-02-25

Family

ID=16238052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61189245A Pending JPS6344287A (en) 1986-08-11 1986-08-11 Character reader

Country Status (1)

Country Link
JP (1) JPS6344287A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03212783A (en) * 1990-01-18 1991-09-18 Ricoh Co Ltd Matching system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03212783A (en) * 1990-01-18 1991-09-18 Ricoh Co Ltd Matching system

Similar Documents

Publication Publication Date Title
US5313527A (en) Method and apparatus for recognizing cursive writing from sequential input information
US5267332A (en) Image recognition system
EP0538038B1 (en) Character recognition method & apparatus
KR100297482B1 (en) Method and apparatus for character recognition of hand-written input
EP0564827B1 (en) A post-processing error correction scheme using a dictionary for on-line handwriting recognition
US6738515B1 (en) Pattern string matching apparatus and pattern string matching method
US5659633A (en) Character recognition method utilizing compass directions and torsion points as features
US6175651B1 (en) On line-character recognition method and device
JPS6344287A (en) Character reader
JPH0520794B2 (en)
JPS6262388B2 (en)
JP2671984B2 (en) Information recognition device
EP0519737A2 (en) Image recognition system
JP2671985B2 (en) Information recognition method
JP2923295B2 (en) Pattern identification processing method
KR900005141B1 (en) Handwritter character recognizing device
JP3466903B2 (en) How to create a multi-template dictionary for character recognition
JP2639314B2 (en) Character recognition method
JP3659688B2 (en) Character recognition device
JP2746899B2 (en) Character recognition device
JP3281530B2 (en) Character recognition device
JP2875678B2 (en) Post-processing method of character recognition result
JPS62285189A (en) Character recognition post processing system
JPH06131503A (en) Character recognizing processor
JPS60138689A (en) Character recognizing method