JPS61136181A - Production of dictionary for character recognizer - Google Patents
Production of dictionary for character recognizerInfo
- Publication number
- JPS61136181A JPS61136181A JP59258832A JP25883284A JPS61136181A JP S61136181 A JPS61136181 A JP S61136181A JP 59258832 A JP59258832 A JP 59258832A JP 25883284 A JP25883284 A JP 25883284A JP S61136181 A JPS61136181 A JP S61136181A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- character
- standard
- pattern
- buffer register
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】
〈発明の技術分野〉
この発明は、未知の文字や記号、図形等(以下、「未知
文字」と総称する。)を光学的方法などによって読取り
、この未知文字の幾何学的特徴を抽出した後、辞書手段
中に記憶されている標準パターンとこの特徴とを照合す
ることによって、未知文字を特定して認識する文字認識
装置に関連し、殊にこの発明は、この種文字認識装置に
使用される辞書の新規作成方法に関する。[Detailed Description of the Invention] <Technical Field of the Invention> This invention reads unknown characters, symbols, figures, etc. (hereinafter collectively referred to as "unknown characters") by optical methods, etc., and determines the geometry of the unknown characters. The present invention relates to a character recognition device for identifying and recognizing unknown characters by extracting a scientific feature and then comparing the feature with a standard pattern stored in a dictionary means. The present invention relates to a method for creating a new dictionary used in a type character recognition device.
〈発明の概要〉
この発明の文字認識装置用辞書作成方法は、辞書手段中
に、標準パターンのそれぞれに対応してカウンタ手段を
あらかじめ設けておき、特定用途で多用される文字を文
字認識装置の読取り手段に複数回入力させることによっ
て、大刀文字パターンと一致する標準パターンに対応す
るカウンタ手段のカウント量を一致回数に応じてたとえ
ば1ずつインクリメントさせるとともに、カウント量の
大小に応じて辞書手段中の標準パターンの配列を変更す
るように構成したものであり、これによって、引用頻度
の高い標準パターンがより早く照合されるような文字認
識装置用辞書を容易かつ迅速に作成できるようにしてい
る。<Summary of the Invention> In the dictionary creation method for a character recognition device of the present invention, a counter means is provided in advance in the dictionary means corresponding to each of the standard patterns, and characters frequently used for a specific purpose are stored in the character recognition device. By inputting the input multiple times to the reading means, the count amount of the counter means corresponding to the standard pattern that matches the long sword character pattern is incremented by 1, for example, according to the number of matches, and the count amount in the dictionary means is incremented by 1 according to the number of matches. It is configured to change the arrangement of standard patterns, thereby making it possible to easily and quickly create a dictionary for a character recognition device in which frequently cited standard patterns can be collated more quickly.
〈発明の背景〉
従来の文字認識装置では、第6図に示すように、紙面P
上に記録された未知文字を、たとえば光学的な読取りヘ
ッド1によって読取り、その光学信号をA/D変換器2
によってデジタル的な電気信号に変換するとともに白黒
2値化して、そのパターンを画像メモリ3にいったん格
納する。次に、前処理回路4によって、このパターンの
平滑化、ノイズ除去、細線化処理などのいわゆる前処理
を行なって、後の特徴抽出処理の高精度化・容易化を図
る。その後、特徴抽出回路5か、前処理後のパターンか
ら、文字認識に必要な未知文字の幾何学的特徴、たとえ
ば交点、分岐点、ループ等の有無や数を検出・抽出する
。辞書照合回路6は、抽出された文字特徴と、辞書7中
に所定の順序で記憶されている各文字についての標準パ
ターンとを順次照合し、その一致度によって未知文字を
特定し、その結果出力をたとえば表示手段(図示せず)
へ送出する。<Background of the Invention> In conventional character recognition devices, as shown in FIG.
The unknown characters recorded thereon are read by, for example, an optical reading head 1, and the optical signal is sent to an A/D converter 2.
The pattern is converted into a digital electrical signal and converted into black and white binary data, and the pattern is temporarily stored in the image memory 3. Next, the preprocessing circuit 4 performs so-called preprocessing such as smoothing, noise removal, and thinning processing on this pattern to improve the precision and facilitate the subsequent feature extraction processing. Thereafter, the feature extraction circuit 5 detects and extracts the geometric features of the unknown character necessary for character recognition, such as the presence or absence and number of intersections, branch points, loops, etc., from the preprocessed pattern. The dictionary matching circuit 6 sequentially matches the extracted character features with standard patterns for each character stored in a predetermined order in the dictionary 7, identifies unknown characters based on the degree of matching, and outputs the results. For example, display means (not shown)
Send to.
第7図は上記辞書7の記憶内容を具体的に示したもので
あり、この辞書7中には、複数のサブカテゴリを含む各
文字の標準パターンが、手設計や学習方式による計算機
手法によって、配列されている。FIG. 7 specifically shows the memory contents of the dictionary 7. In this dictionary 7, standard patterns for each character, including multiple subcategories, are arranged by hand or by a computer method using a learning method. has been done.
ところで前記辞書照合回路6における照合処理は、未知
文字特徴を各標準パターンと順次比較することによって
行なうが、この場合、辞書7内における全ての標準パタ
ーンにつきその配列順序に従って逐次照合を実施する場
合には、照合に要する時間が著しく長くなり、その結果
、文字認識の処理速度を極度に低下させる。そこで、現
在の文字認識装置においては、第8図に示すように、ま
ず、ループの有無や文字連結数などの大まかな特徴のみ
をとらえ、これらの特徴に応じてあらかじめグループ分
けされた候補文字群のひとつに大分類する。その後、特
徴の細部と順次取り込んで、文字交点や分岐等による中
分類、さらに詳しい特徴についての小分類、詳細分類を
行ない、候補文字を順次絞り込んで、単数あるいは複数
の候補文字を得る。そして、これらの候補文字のみにつ
いて詳細な照合判定を行ない、その一致度に応じて未知
文字の認識を行なうようにしている。By the way, the matching process in the dictionary matching circuit 6 is performed by sequentially comparing unknown character features with each standard pattern. In this case, the time required for verification becomes extremely long, and as a result, the processing speed of character recognition is extremely reduced. Therefore, in current character recognition devices, as shown in Figure 8, first, only general characteristics such as the presence or absence of loops and the number of connected characters are detected, and candidate characters are then grouped in advance according to these characteristics. It is classified into one of the following. After that, the details of the features are sequentially taken in, medium classification is performed based on character intersections, branches, etc., and small classification and detailed classification are performed based on more detailed features, and candidate characters are sequentially narrowed down to obtain a single or multiple candidate characters. Then, detailed comparison and judgment are performed only on these candidate characters, and unknown characters are recognized according to the degree of matching.
第9図は、この絞り込み処理の詳細を示しており、ステ
ップ11で大まかな特徴がA1 、 A2゜・・・、A
nのいずれのグループに属するかによって大分類され、
たとえばA、で示す特徴に該当するときにはステップ1
2に進む。ステップ12では中分類か行なわれて、BI
+ B2 r・・−、Bnのいずれの特徴に寓するか
が判断され、以下同様に、小分類のステップ13、詳細
分類のステップ14へ移行する。詳細分類のステップ1
4が行なわれると、その詳細分類に属する候補文字のみ
について照合判定が行なわれる。なお第9図には、ステ
ップ11.12.13.14で示す流れのみを詳しく描
いてあり、他の分類への流れを省略しているが、これら
についても同様である。また、各段階の分類において当
該未知文字の特徴に対応する下位グループが存在しない
場合には、未知文字が標準パターン中に準備されていな
いか、または誤記によって文字としての形態をなしてい
ない場合を意味するため、ステップ15でリジェクト(
認識不能)とし、再入力その他の処理へ移行する。FIG. 9 shows the details of this narrowing down process, and in step 11 the general characteristics are A1, A2゜..., A
Broadly classified according to which group of n it belongs to,
For example, if the characteristics indicated by A apply, step 1
Proceed to step 2. In step 12, intermediate classification is performed and the BI
+ B2 r...-, Bn is determined, and the process similarly proceeds to step 13 of minor classification and step 14 of detailed classification. Step 1 of detailed classification
When step 4 is performed, only candidate characters belonging to that detailed classification are compared and determined. Note that although FIG. 9 depicts only the flow shown in steps 11, 12, 13, and 14 in detail, and omits the flow to other classifications, the same applies to these. In addition, if there is no subgroup corresponding to the characteristics of the unknown character in each stage of classification, it is possible that the unknown character is not prepared in the standard pattern or is not in the form of a character due to a typographical error. Therefore, in step 15, reject (
(unrecognized) and proceed to re-input or other processing.
上記方式によれば、未知文字の特徴と木きく異なった特
徴を有する標準パターンは照合対象からはずされるため
、照合速度はかなり向上する。しかしながら、分類その
ものは、文字特徴番ご基いたグループ分けに基づいてお
り、分類にあたっての判断順序は、辞書を作成した際に
配列した順序に固定されたままとなっている。このため
、従来の辞書作成方法にあっては、多大の労力をかけて
文字認識装置用辞書を作成しても、使用頻度の高い分類
につき必ずしも早期に判断・照合されるわけではなく、
使用頻度の低い分類が照合された後に、使用頻度の高い
分類の照合か行なわれる場合がかなり存在し、照合速度
したがって文字認識速度の向上には一定の限界がある。According to the above method, standard patterns having features that are significantly different from those of unknown characters are excluded from matching targets, so that the matching speed is considerably improved. However, the classification itself is based on grouping based on character feature numbers, and the order of judgment in classification remains fixed to the order arranged when the dictionary was created. For this reason, with conventional dictionary creation methods, even if a great deal of effort is put into creating a dictionary for character recognition devices, frequently used classifications are not always determined and collated quickly.
There are many cases in which a frequently used classification is compared after a less frequently used classification is compared, and there is a certain limit to the improvement of the matching speed and therefore the character recognition speed.
特に、漢字入力の場合のように、入力文字の種類が多い
場合に、このような現象が顕著にあられれるという欠点
がある。Particularly, when there are many types of input characters, such as in the case of inputting Chinese characters, this phenomenon is particularly noticeable.
〈発明の目的〉
この発明は、上述の欠点を解消するためのものであり、
照合処理時間を短縮し、それによって文字認識処理が高
速に行なわれるような文字認識装置用辞書の作成方法を
提供することを目的とする。<Object of the invention> This invention is intended to eliminate the above-mentioned drawbacks,
It is an object of the present invention to provide a method for creating a dictionary for a character recognition device, which shortens collation processing time and thereby speeds up character recognition processing.
〈発明の構成および効果〉
上記目的を達成するため、この発明の文字認識装置用辞
書作成方法においては、辞書手段中に、標準パターンの
それぞれに対応してカウンタ手段をあらかじめ設けてお
き、特定用途に多用される文字を文字認識装置の読取り
手段に複数回入力させることによって、入力された文字
パターンの幾何学的特徴と一致する標準パターンを辞書
手段中で検出し、その標準パターンに対応するカウンタ
手段のカウント量を一致回数に応じて所定量変化させる
とともに、カウンタ手段のカウント量を互いに比較し、
カウント量の大小に応じて辞書手段内の標準パターンの
配列順序を変更して再配列するように構成した。<Structure and Effects of the Invention> In order to achieve the above object, in the dictionary creation method for a character recognition device of the present invention, a counter means is provided in advance in the dictionary means corresponding to each of the standard patterns, and a counter means is provided in advance for each standard pattern. By inputting frequently used characters into the reading means of the character recognition device multiple times, a standard pattern that matches the geometrical features of the input character pattern is detected in the dictionary means, and a counter corresponding to the standard pattern is detected. Varying the count amount of the means by a predetermined amount according to the number of matches, and comparing the count amounts of the counter means with each other,
The arrangement is such that the arrangement order of the standard patterns in the dictionary means is changed and rearranged depending on the size of the count amount.
この発明によれば、各カウンタ手段のカウント量は、対
応する標準パターンが引用される頻度の指標となってお
り、これに基いて標準パターンの再配列が自動的に行な
われて、使用頻度の高い文字の標準パターンがより高い
優先順位に配列された辞書を作成することができるため
、この辞書を用いた文字認識装置においては、照合の順
序が、より頻度の高い分類を優先して行なわれ、照合時
間の短縮、したがって文字認識の高速化を図ることがで
きるなどの効果を奏する。According to this invention, the count amount of each counter means is an index of the frequency with which the corresponding standard pattern is cited, and based on this, the standard patterns are automatically rearranged to determine the frequency of use. Since it is possible to create a dictionary in which standard patterns of high-quality characters are arranged in a higher priority order, in a character recognition device using this dictionary, the order of matching is performed with priority given to the classification with higher frequency. , it is possible to shorten the collation time and therefore speed up character recognition.
〈実施例の説明〉
第1図はこの発明の実施に用いる文字認識装置の主要部
を示す。この装置例と第6図に示した従来の装置とは、
辞書再配列回路21を新たに付加した点、辞書23内に
各標準パターンのそれぞれに対応してカウンタ手段とし
てのカウンタ領域を設けた点、辞書内容を記憶しておく
ことのできる外部記憶装置24を設けた点、cpu22
が後述する制御・辞書作成動作をも実行するようプログ
ラムしである点などにおいて相違する。<Description of Embodiments> FIG. 1 shows the main parts of a character recognition device used for carrying out the present invention. This device example and the conventional device shown in Fig. 6 are as follows:
A dictionary rearrangement circuit 21 is newly added, a counter area as a counter means is provided in the dictionary 23 corresponding to each standard pattern, and an external storage device 24 is capable of storing dictionary contents. CPU22
They differ in that they are programmed to also execute control and dictionary creation operations, which will be described later.
このうち辞書再配列回路21と、その周辺回路の構成例
を第2図に示す。第2図において、辞書メモリ31は、
上述した辞書23の要部を形成するメモリであって、メ
モリアドレスレジスタ32は、この辞書メモリ31に対
するり−ド/ライト(R−/W)動作を行なう際のアド
レスを保持するためのものである。この辞書メモリ31
における記憶領域の配列を第3図に示す。An example of the configuration of the dictionary rearrangement circuit 21 and its peripheral circuits is shown in FIG. In FIG. 2, the dictionary memory 31 is
The memory address register 32 is a memory that forms the main part of the dictionary 23 described above, and is used to hold an address when performing a read/write (R-/W) operation to the dictionary memory 31. be. This dictionary memory 31
The arrangement of storage areas in is shown in FIG.
図示例の場合、標準パターンの文字特徴データを記憶さ
せる領域と、後記するカウント量を記憶させるカウンタ
領域とが対をなして所定の順序で配列されており、この
ような配列は大分類、中分類、小分類、詳細分類のそれ
ぞれに対応して設定されている。この配列は、この時点
においては、たとえば手設計や学習方式で作成した辞書
配列を、外部記憶装置24たとえばフロッピーディスク
や磁気テープなどから、辞書メモリ31にロードしたと
きの配列となっている。In the illustrated example, an area for storing standard pattern character feature data and a counter area for storing count amounts (to be described later) are paired and arranged in a predetermined order. It is set corresponding to each classification, minor classification, and detailed classification. At this point, this arrangement is the arrangement when a dictionary arrangement created by hand design or learning method is loaded into the dictionary memory 31 from the external storage device 24, such as a floppy disk or magnetic tape.
つぎにバッファレジスタ34.36は、辞書メモリ31
中の標準パターンの文字特徴に関するデータをそれぞれ
ロードして一時保持するレジスタであり、更に他のバッ
ファレジスタ33.35は、上記バッファレジスタ34
.36にバッファされる標準パターンにそれぞれ対応し
たカウンタ領域の内容すなわちカウント量を、それぞれ
保持するためのものである。メモIJR/Wコントロー
ル回路37は、前記メモリアドレスレジスタ32を用い
て辞書メモリ31に対するり−ド/ライト動作を行なう
際のタイミングを制御する。また大小比較回路38は、
バッファレジスタ33.35にバッファされているそれ
ぞれの量すなわちカウント量を互いに比較し、その大小
関係に応じた出力を発生する回路である。更に一致検出
回路39は、バッファレジスタ34内にバッファされて
いる文字特徴データと、特徴抽出回路5(第2図)つ)
ら入力される未知文字の文字特徴を表わすデータとの一
致・不一致を検出し、その検出出力を、ゲート回路40
およびバッファレジスタ33へ与える。この検出出力は
、一致のときにのみ能動化されるように構成されており
、これによって、バッファレジスタ33中のカウント量
が1だけインクリメントされるとともに、ゲート回路4
0のゲートが開くようになっている。そして、このゲー
ト回路40のゲートが開くと、大小比較回路38からの
比較出力は、メモリR/Wコントロール回路37に出力
されるとともに、C,PU22に対して割込み処理を要
求し、それによって、後述する辞書メモリ31中の再配
列等を行なわせる。Next, the buffer registers 34 and 36 are stored in the dictionary memory 31.
The other buffer registers 33 and 35 are registers that load and temporarily hold data related to the character features of standard patterns in the buffer register 34.
.. This is for holding the contents of the counter area, that is, the count amount, corresponding to each of the standard patterns buffered in 36. The memo IJR/W control circuit 37 uses the memory address register 32 to control the timing of read/write operations to the dictionary memory 31. Further, the magnitude comparison circuit 38 is
This circuit compares the amounts buffered in the buffer registers 33 and 35, that is, the counted amounts, and generates an output according to the magnitude relationship. Furthermore, the match detection circuit 39 extracts the character feature data buffered in the buffer register 34 and the feature extraction circuit 5 (FIG. 2).
A gate circuit 40
and is applied to the buffer register 33. This detection output is configured to be activated only when there is a match, and thereby the count amount in the buffer register 33 is incremented by 1, and the gate circuit 4
Gate 0 is now open. When the gate of this gate circuit 40 opens, the comparison output from the magnitude comparison circuit 38 is output to the memory R/W control circuit 37, and requests interrupt processing to the C, PU 22, thereby The rearrangement in the dictionary memory 31, which will be described later, is performed.
次に、これらの図を参照して、この発明の詳細な説明す
る。まず、特定用途たとえば商用文において比較的多用
される文字を記録した紙面などを準備し、これを読取り
ヘッド1(第1図)によって読早らせる。このようにし
て読取られた文字のパターンは、第6図で説明したと同
様の順序で、A1日変換、白黒2値化、前処理および特
徴抽出の各処理を受けた後、抽出された文字特徴につき
、第8図で説・明した大分類処理が行なわれる。この場
合まず、辞書メモリ31に格納されている大分類用の標
準パターンデータのうち、先頭に位置するものつまり優
先順序が最も高いものをバッファレジスタ34ヘロード
し、またその標準パターンに対応するカウンタ領域絨格
納されているカウント量をバッファレジスタ33ヘロー
ドする。他のバッファレジスタ35.36はこれに先立
ってOにクリアしておくものとし、また、辞書メモリ3
1内のカウンタ領域も初期には0となっているものとす
ると、この時点では、バッファレジスタ33゜35.3
6の内容はすべてOとなっている。この段階での辞書メ
モリ31の配列例を第4図(a)に示す。Next, the present invention will be described in detail with reference to these figures. First, a sheet of paper with characters relatively often used for a specific purpose, such as commercial texts, is prepared, and read quickly by the reading head 1 (FIG. 1). The character pattern read in this way is subjected to A1 day conversion, black and white binarization, preprocessing and feature extraction processing in the same order as explained in FIG. The major classification process explained and illustrated in FIG. 8 is performed for the features. In this case, first, among the standard pattern data for major classification stored in the dictionary memory 31, the first one, that is, the one with the highest priority, is loaded into the buffer register 34, and the counter area corresponding to the standard pattern is loaded. The stored count amount is loaded into the buffer register 33. The other buffer registers 35 and 36 shall be cleared to O before this, and the dictionary memory 3
Assuming that the counter area in 1 is also initially 0, at this point the buffer register 33°35.3
The contents of 6 are all O. An example of the arrangement of the dictionary memory 31 at this stage is shown in FIG. 4(a).
次に、バッファレジスタ33.35のそれぞれのカウン
ト量を大小比較回路38によって比較するとともに、バ
ッファレジスタ34内の標準パターンの特徴と入力文字
の特徴との一致性を、−数構出回路39によって検出す
る。もし一致すると判断されたときには、−i検出回路
39からの出力が能動化されて、バッファレジスタ33
内のカウント量が1だけインクリメントされるとともに
、ゲート回路40のゲートか開かれる。ところが、大小
比較回路38を、バッファレジスタ33のカウント量が
バッファレジスタ35のカウント量よりも大きいときに
のみその出力か能動化されるように構成しておくものと
すると、この例の場合にはバッファレジスタ33.35
のそれぞれののカウント量はともに0であって相等しい
(大小比較回路38の比較動作は、上記インクリメント
動作の前に行なわれている。)ため、その出力は非能動
状態であって、再配列の要求は生じないことになる。こ
のため、CPU22は、バッファレジスタ33のインク
リメント後の内容と、バッファレジスタ34内の標準パ
ターンデータとを、辞書メモリ31内の元のアドレスに
再格納する。一方特徴の一致が見出されなかったときに
は、−数構出回路39の出力は非能動状態であって、上
記インクリメントと再配列とはtbHれも生にない。Next, the counts of each of the buffer registers 33 and 35 are compared by the magnitude comparison circuit 38, and the -number construction circuit 39 checks the consistency between the characteristics of the standard pattern in the buffer register 34 and the characteristics of the input character. To detect. If it is determined that they match, the output from the -i detection circuit 39 is activated and the buffer register 33
The count value in is incremented by 1, and the gate of gate circuit 40 is opened. However, if the magnitude comparison circuit 38 is configured so that its output is activated only when the count amount of the buffer register 33 is larger than the count amount of the buffer register 35, in this example, Buffer register 33.35
Since the count amounts of each of are 0 and are equal (the comparison operation of the magnitude comparison circuit 38 is performed before the above-mentioned increment operation), its output is in an inactive state and is not rearranged. There will be no such requirement. Therefore, the CPU 22 re-stores the incremented contents of the buffer register 33 and the standard pattern data in the buffer register 34 at the original address in the dictionary memory 31. On the other hand, when a match of features is not found, the output of the minus number construction circuit 39 is inactive, and the increment and rearrangement described above are not active.
先頭の標準パターンとの照合が完了し、次の標準パター
ンとの照合を行なうときには、バッファレジスタ33.
34の内容をそれぞれバッファレジスタ3536A−と
転送し、辞書メモリ31中で次の順位となっている標準
パターンの文字特徴データをバッファレジスタ34に、
そのカウント量をバッファレジスタ33に、それぞれロ
ードする。その後、前記と同様の一致検出と大小比較と
が行なわれるが、ここでは、バッファレジスタ34に入
っている標準パターンと入力文字特徴とが一致し、かつ
バッファレジスタ33のカウント量かバッファレジスタ
35のカウント量よりも大きい場合を想定する。すなわ
ち、現時点においてはより低い優先順位を有するバッフ
ァレジスタ34の標準パターンがバッファレジスタ36
の標準パターンよりもより大きな使用(引用)頻度を有
しているということが、過去の文字認識の結果としての
カウント量に表われている場合である。このときには−
数構出によって、バッファレジスタ33のカウント量が
1だけインクリメントされるとともに、大小比較回路3
8の出力が能動状態となり、ゲート回路40を介してメ
モリR/Wコントロール回路37とCPU22とに対し
、再配列要求を行なう。これによりCPU22は、メモ
リアドレスレジスタ32のアドレスのセットと、メモリ
R/Wコントロール回路37の書込みタイミングコント
ロール出力のセットとを通して、バッファレジスタ33
.34の内容とバッファレジスタ35.36の内容とを
、ロード時とは逆の順序となるように辞書メモリ31内
に格納し、これらの2つの標準パターンの順序を変更し
て再配列を行なう。When the comparison with the first standard pattern is completed and the next standard pattern is to be compared, the buffer register 33.
The contents of 34 are transferred to the buffer register 3536A-, and the character feature data of the standard pattern having the next rank in the dictionary memory 31 is transferred to the buffer register 34.
The count amount is loaded into the buffer register 33, respectively. Thereafter, the same match detection and size comparison as described above are performed, but here, the standard pattern stored in the buffer register 34 and the input character feature match, and the count amount of the buffer register 33 is Assume that the value is larger than the count amount. That is, at present, the standard pattern for the buffer register 34 having a lower priority is the buffer register 36.
This is a case where the count amount as a result of past character recognition shows that the word has a higher usage (citation) frequency than the standard pattern. At this time -
Due to the number, the count amount of the buffer register 33 is incremented by 1, and the magnitude comparison circuit 3 is incremented by 1.
8 becomes active, and requests rearrangement to the memory R/W control circuit 37 and CPU 22 via the gate circuit 40. As a result, the CPU 22 controls the buffer register 33 through setting the address of the memory address register 32 and setting the write timing control output of the memory R/W control circuit 37.
.. The contents of 34 and the contents of buffer registers 35 and 36 are stored in the dictionary memory 31 in the reverse order from when they were loaded, and the order of these two standard patterns is changed and rearranged.
このようにして大分類処理とそれに並行して実行される
再配列処理とを完了すると、中分類、小分類、詳細分類
へと順次移行するが、これらにおいても同様の再配列処
理を並行して行なう。When the major classification process and the reordering process executed in parallel are completed in this way, the process moves on to medium classification, small classification, and detailed classification, but the same reordering process is also performed in parallel for these. Let's do it.
また、詳細分類によって候補文字か絞り込まれた後の、
複数の候補文字にわたる照合判定においても、同様の再
配列を行なわせることかできる。In addition, after candidate characters are narrowed down by detailed classification,
A similar rearrangement can also be performed when comparing multiple candidate characters.
このような処理が1回完了すると、次に1、前回入力さ
れた多用文字を再度、読取りヘッド1に入力させる。こ
れによりその文字に対応するカウント量はさらにインク
リメントされ、このような手続を、必要に応じて複数回
繰返すことによって、より大きな使用(引用)頻度を有
する標準パターンがより高い優先順位となるような再配
列が実現できることになる。例として、「イ」、「Z」
、「3」、「0」が多用されるような場合を考えると、
第5図に示すような入力文字の配列を、順次この文字認
識装置に入力させて、第4図(b)に示すような再配列
標準パターンを有する辞書を得る。第4図(b)におい
ては、領域43に示す「3」がカウンタ領域44に示す
ように3回入力され、領域45に示す「0」が、カウン
タ領域45に示すようにやはり3回入力されて、高い優
先順位を有するに至ったことがわかる。なおこの図にお
いて、同一の文字について複数の標準パターンが存在す
るのは、サブカテゴリの存在に起因している。Once such processing is completed, the frequently used characters that were input last time are inputted into the reading head 1 again. This further increments the count corresponding to that character, and by repeating this procedure multiple times as necessary, standard patterns with greater usage (citation) frequency are given higher priority. Rearrangement will be possible. For example, "I", "Z"
, "3", and "0" are frequently used.
The arrangement of input characters as shown in FIG. 5 is sequentially input into this character recognition device to obtain a dictionary having a standard rearrangement pattern as shown in FIG. 4(b). In FIG. 4(b), "3" shown in area 43 is input three times as shown in counter area 44, and "0" shown in area 45 is also input three times as shown in counter area 45. It can be seen that it has come to have a high priority. Note that in this figure, the existence of multiple standard patterns for the same character is due to the existence of subcategories.
このような再配列が完了すると所望の辞書が得られるが
、辞書メモリ31内のみに記憶させておいた場合には、
業務終了後の電源切断などによって、この辞書か消えて
しまう。このため、業務終了時に、作成された辞書内容
を外部記憶装置24へとダンプしておくことか有効であ
る。When such rearrangement is completed, the desired dictionary is obtained, but if it is stored only in the dictionary memory 31,
This dictionary disappears when the power is turned off after work. Therefore, it is effective to dump the created dictionary contents to the external storage device 24 at the end of the business.
このようにすれば、次回の業務開始時において、作成済
の再配列辞書を外部記憶装置から辞書メモリ31にロー
ドしてこの再配列辞書を改めて使用することができる。In this way, when starting the next business, the created rearrangement dictionary can be loaded from the external storage device to the dictionary memory 31 and used again.
また、上記再配列は、多用文字の入力時だけでなく、そ
の後の文字認識動作においても行なうことができるため
、この方法によって作成された辞書は、それ自体有用で
あるばかりでなく、その後の文字認識動作の繰返しによ
って、さらに望ましい配列へと進んで行くという利点も
ある。逆に、辞書作成用に使用したカウンタ領域を、ロ
ード時に付加し、ダンプ時に抹消することによって1.
この方法によって作成された辞書を実際に用いる装置に
搭載するときは、認識処理に影響を与えないようにする
こともできる。In addition, the above rearrangement can be performed not only when inputting frequently used characters, but also during subsequent character recognition operations, so dictionaries created by this method are not only useful in themselves, but also useful for subsequent character recognition. There is also the advantage that a more desirable arrangement can be achieved by repeating the recognition operation. Conversely, by adding the counter area used for dictionary creation at load time and deleting it at dump time, 1.
When a dictionary created by this method is installed in a device that will actually be used, it can be done so that it does not affect recognition processing.
なお、上記実施例では、分類を用いた照合を想定してい
るか、入力文字の種類か少ないなどの状況下で順次照合
を行なう場合においては、分類されていない標準パター
ンについての再配列を行なうこともできる。また、カウ
ンタ手段としてダウンカウンタ型のカウンタ領域を設け
、−数構出があるごとにデクリメントして、カウント量
が小さい順に再配列するなどの変形も、もちろん可能で
ある。さらに、多用文字の入力順序については特に限定
するものではなく、第5図のように同一文字を複数回入
力した後、他の多用文字を複数回入力してもよく、また
、多用文字を1回ずつ順次入力した後、改めて最初から
順次入力することによって複数回入力してもよい。In addition, in the above embodiment, if matching is assumed to be performed using classification, or if sequential matching is performed under circumstances such as the number of types of input characters is small, rearrangement of unclassified standard patterns may be performed. You can also do it. Further, it is of course possible to make modifications such as providing a down-counter type counter area as the counter means, decrementing the count every time a negative number is reached, and rearranging the count in descending order. Furthermore, there is no particular limitation on the input order of frequently used characters; after inputting the same character multiple times as shown in Figure 5, other frequently used characters may be input multiple times. You may enter the information multiple times by sequentially inputting the information each time and then inputting it again from the beginning.
第1図はこの発明の実施例の要部を示すブロック図、第
2図は辞書再配列回路とその周辺回路を示すブロック図
、第3図は標準パターンデータ領域とカウンタ領域との
配列例を示す図、第4図は実施例における再配列例を示
す図、第5図は入力文字の例を示す図、第6図は従来の
文字認識装置を示すブロック図、第7図は標準バタ・−
ン配列の従来例を示す図、第8図は分類照合を示すフロ
ーチャート、第9図は分類照合の詳細を示すフローチャ
ートである。
5・・・特徴抽出回路 6・・・辞書照合回路21・
・・辞書再配列回路 24・・・外部記憶装置31・・
・辞書メモリ 33〜36・・・バッファレジス
タ38・・・大小比較回路 39・・・−数構出回路
特許出願人 立石電機株式会社
”)r2U も′f暑山品C+・1回1kVs尾
辺製示す斗i図FIG. 1 is a block diagram showing the main parts of an embodiment of the present invention, FIG. 2 is a block diagram showing a dictionary reordering circuit and its peripheral circuits, and FIG. 3 is an example of the arrangement of the standard pattern data area and the counter area. 4 is a diagram showing an example of rearrangement in the embodiment, FIG. 5 is a diagram showing an example of input characters, FIG. 6 is a block diagram showing a conventional character recognition device, and FIG. 7 is a diagram showing a standard Bata recognition device. −
FIG. 8 is a flowchart showing classification matching, and FIG. 9 is a flowchart showing details of classification matching. 5... Feature extraction circuit 6... Dictionary matching circuit 21.
...Dictionary rearrangement circuit 24...External storage device 31...
・Dictionary memory 33 to 36...Buffer register 38...Size comparison circuit 39...-Several structure output circuit Patent applicant Tateishi Electric Co., Ltd.") r2U Mo'f Natsuyama product C+/1 kVs once manufactured by Obe Showing doo i diagram
Claims (1)
徴を特徴抽出し、辞書手段中に所定順序で配列された標
準パターンと前記幾何学的特徴とを順次照合し、その照
合結果に基いて前記未知文字を認識する文字認識装置に
おいて、前記辞書手段中に各標準パターンのそれぞれに
対応してカウンタ手段をあらかじめ設けておき、特定用
途で多用される文字を前記文字認識装置の読取り手段に
複数回入力させることによつて、入力された文字パター
ンの幾何学的特徴と一致する標準パターンを辞書手段中
で検出し、その標準パターンに対応するカウンタ手段の
カウント量を一致回数に応じて所定量変化させるととも
に、カウンタ手段のカウント量を互いに比較し、カウン
ト量の大小に応じて、前記辞書手段中における前記標準
パターンの配列順序を変更して再配列するようにしたこ
とを特徴とする文字認識装置用辞書作成方法。The geometric features of the unknown character pattern read by the reading means are extracted, the geometric features are sequentially compared with standard patterns arranged in a predetermined order in the dictionary means, and based on the matching results, the unknown character pattern is extracted. In a character recognition device that recognizes characters, counter means is provided in advance in the dictionary means corresponding to each standard pattern, and characters frequently used for a specific purpose are inputted multiple times to the reading means of the character recognition device. A standard pattern that matches the geometrical feature of the input character pattern is detected in the dictionary means, and the count amount of the counter means corresponding to the standard pattern is changed by a predetermined amount according to the number of matches. and a character recognition device characterized in that the counts of the counter means are compared with each other, and the arrangement order of the standard patterns in the dictionary means is changed and rearranged according to the magnitude of the count amounts. How to create a dictionary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59258832A JPS61136181A (en) | 1984-12-06 | 1984-12-06 | Production of dictionary for character recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59258832A JPS61136181A (en) | 1984-12-06 | 1984-12-06 | Production of dictionary for character recognizer |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61136181A true JPS61136181A (en) | 1986-06-24 |
Family
ID=17325643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59258832A Pending JPS61136181A (en) | 1984-12-06 | 1984-12-06 | Production of dictionary for character recognizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61136181A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0665506A2 (en) * | 1994-01-26 | 1995-08-02 | Canon Kabushiki Kaisha | Method and apparatus for handwritten character recognition |
-
1984
- 1984-12-06 JP JP59258832A patent/JPS61136181A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0665506A2 (en) * | 1994-01-26 | 1995-08-02 | Canon Kabushiki Kaisha | Method and apparatus for handwritten character recognition |
EP0665506A3 (en) * | 1994-01-26 | 1996-02-21 | Canon Kk | Method and apparatus for handwritten character recognition. |
US6208755B1 (en) | 1994-01-26 | 2001-03-27 | Canon Kabushiki Kaisha | Method and apparatus for developing a character recognition dictionary |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2607457B2 (en) | Pattern recognition device | |
JP4308785B2 (en) | Digital ink question retrieval apparatus and method | |
TWI435276B (en) | A method and apparatus for recognition of handwritten symbols | |
WO1985000681A1 (en) | Parallel text matching methods and apparatus | |
CN107608968A (en) | Chinese word cutting method, the device of text-oriented big data | |
JPS61136181A (en) | Production of dictionary for character recognizer | |
JPH07160822A (en) | Pattern recognizing method | |
Ramteke et al. | Tesseract OCR Recognition Based on Arabic Machine-Printed Document | |
JPS61136180A (en) | Character recognizer | |
JPH10302025A (en) | Handwritten character recognizing device and its program recording medium | |
JPS61136179A (en) | Character recognizer | |
JPH024033B2 (en) | ||
JPS5853791B2 (en) | character recognition device | |
JPS63782A (en) | Pattern recognizing device | |
JPS6030993B2 (en) | Real-time handwritten character recognition device | |
JPH08221254A (en) | Method and device for merging sort | |
JPH03212779A (en) | Device for recognizing character | |
JP2746345B2 (en) | Post-processing method for character recognition | |
JP2587447B2 (en) | Sorting device | |
JPH0394325A (en) | Data selector | |
JP2689741B2 (en) | A character recognition device and a post-processing data creation method for determining a recognized character. | |
JP2868770B2 (en) | Structure of pattern dictionary | |
JPS59226399A (en) | Voice recognition processing system | |
KR19990010213A (en) | Character Recognition Method with Improved Matching Speed | |
JPS5851390A (en) | Font character recognizing device |