JPS6327991A - Formation of histogram for input information recognizing device - Google Patents
Formation of histogram for input information recognizing deviceInfo
- Publication number
- JPS6327991A JPS6327991A JP61172515A JP17251586A JPS6327991A JP S6327991 A JPS6327991 A JP S6327991A JP 61172515 A JP61172515 A JP 61172515A JP 17251586 A JP17251586 A JP 17251586A JP S6327991 A JPS6327991 A JP S6327991A
- Authority
- JP
- Japan
- Prior art keywords
- histogram
- dictionary
- input
- input information
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 230000003287 optical effect Effects 0.000 abstract description 3
- 235000016496 Panda oleosa Nutrition 0.000 abstract description 2
- 240000000220 Panda oleosa Species 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】
[技術分野]
本発明は1文字Ly!、識装置における特徴量抽出技術
に関し、特に、文字認識装置用ヒストグラム作成技術に
関するものである。[Detailed Description of the Invention] [Technical Field] The present invention is based on one character Ly! The present invention relates to a feature extraction technique for a character recognition device, and in particular to a histogram creation technique for a character recognition device.
[従来技術]
コンピュータを用いた画像情報処理装置の入力装置、例
えば原稿上の情報を光学的に読取り入力する光学的情報
入力装置(以下、OCRという)においては、一般に、
辞書(テンプレート)マツチング法をベースとした認識
法を用いて入力文字(入力画像情報)の認識を行ってい
る。[Prior Art] In an input device of an image information processing apparatus using a computer, for example, an optical information input device (hereinafter referred to as OCR) that optically reads and inputs information on a document, generally,
Input characters (input image information) are recognized using a recognition method based on a dictionary (template) matching method.
このようなOCR等における文字認識装置においては、
入力文字パターンの輪郭部分に方向コードを付け、前記
入力文字パターンを複数ブロックに分割し、この分割さ
れたブロック毎に、その方向コードのヒストグラムを作
成し、このヒストグラムとあらかじめ用意した辞書とを
比較演算し、その距離により候補文字を決定して1文字
認識を行っている。すなわち、前記分割した領域につい
て、それぞれの方向別にヒストグラムを作成し。In character recognition devices such as OCR,
A direction code is attached to the outline of the input character pattern, the input character pattern is divided into multiple blocks, a histogram of the direction code is created for each divided block, and this histogram is compared with a dictionary prepared in advance. A candidate character is determined based on the calculated distance, and single character recognition is performed. That is, a histogram is created for each direction for the divided regions.
この各ヒストグラムを特徴量として、距離演算を行い、
文字を決定する型の文字認識装置においては、例えば、
領域を4×4に分割すると128(=4x4x8)次元
の特徴量が出現する。この特徴量の中には辞書としての
識別能力の高いものと低いものが混在している。これら
の高いものと低いものを同じレベル(取扱)で距離演算
を行っている。Using each histogram as a feature, distance calculation is performed,
In a character recognition device that determines characters, for example,
When the area is divided into 4×4, 128 (=4×4×8) dimensional features appear. Among these feature quantities, there are a mixture of those with high discrimination ability and those with low discrimination ability as a dictionary. Distance calculations are performed on these high and low values at the same level (handling).
しかしながら、前記の文字認識装置におけるヒストグラ
ム作成方法では、辞書としての識別能力の高い特徴量と
低い特徴量を同じレベル(取扱)で距離演算を取扱って
いるため、認識速度が遅いという問題があった。However, in the above-mentioned method for creating a histogram in a character recognition device, the distance calculation is handled at the same level (handling) for features with high and low discrimination ability as a dictionary, so there is a problem that the recognition speed is slow. .
[目的]
本発明の目的は、入力情報認識装置のL&識速度を速く
することができる技術を提供することにある。[Objective] An object of the present invention is to provide a technique that can increase the L& recognition speed of an input information recognition device.
本発明の他の目的は1文字認識装置用ヒストグラムの作
成を能率的に行うことができる技術を提供することにあ
る。Another object of the present invention is to provide a technique that can efficiently create a histogram for a single character recognition device.
本発明の前記ならびにその他の目的と新規な特徴は1本
明細書の記述及び添付図面によって明らかになるであろ
う。The above and other objects and novel features of the present invention will become apparent from the description of this specification and the accompanying drawings.
[構成コ
本発明は、入力情報パターンの輪郭部分に方向コードを
付け、前記入力情報パターンを辞書の特徴量の識別能力
に応じて複数ブロックに分割し。[Configuration] In the present invention, a direction code is attached to the contour portion of an input information pattern, and the input information pattern is divided into a plurality of blocks according to the discriminating ability of the feature amount of a dictionary.
この分割されたブロック毎に、その方向コードのヒスト
グラムを作成し、このヒストグラムとあらかじめ用意し
た辞書とを比較演算し、その距離により候補文字を決定
する入力情報認識装置用ヒストグラム作成方法であって
、前記辞書の特徴量の識別能力に応じて分割された複数
のブロックの一部を統合してヒストグラムを作成する手
段を備えたことを特徴とするものである。A histogram creation method for an input information recognition device that creates a histogram of the direction code for each divided block, compares this histogram with a dictionary prepared in advance, and determines candidate characters based on the distance, the method comprising: The present invention is characterized by comprising means for creating a histogram by integrating a portion of a plurality of blocks divided according to the discrimination ability of the feature amount of the dictionary.
[実施例コ
以下1本発明の一実施例を図面を用いて具体的に説明す
る。[Example 1] An example of the present invention will be specifically described below with reference to the drawings.
なお、実施例を説明するための全図において。In addition, in all the figures for explaining an example.
同一機能を有するものは同一符号を付け、その繰り返し
の説明は省略する。Components having the same function are given the same reference numerals, and repeated explanations thereof will be omitted.
第1図は1本発明の一実施例の入力情報認識装置用ヒス
トグラム作成方法を実施するためのOCRの概略構成を
示すブロック図、
第2図は、第1図に示すOCRを用いた画像情報処理装
置の概略構成を示すブロック図である。FIG. 1 is a block diagram showing a schematic configuration of an OCR for carrying out a histogram creation method for an input information recognition device according to an embodiment of the present invention, and FIG. 2 shows image information using the OCR shown in FIG. FIG. 1 is a block diagram showing a schematic configuration of a processing device.
第2図において、キーボード1は、文字を入力する他に
各種のモード(仮名漢字変換、漢字仮名変換、OCR文
字認識等)を指定するものに用いられる。OCR入力装
置2は、原稿を光学的に読取り入力する。処理装置3は
、キーボード1や0CR2からの入力情報について指定
されたモードに従った処理を実行し、出力装置4に出力
する。In FIG. 2, a keyboard 1 is used not only to input characters but also to designate various modes (kana-kanji conversion, kanji-kana conversion, OCR character recognition, etc.). The OCR input device 2 optically reads and inputs a document. The processing device 3 executes processing according to the specified mode on the input information from the keyboard 1 and OCR 2, and outputs it to the output device 4.
出力装置4は、ディスプレイ装置、プリンタ等を総称し
て示したものである。処理装置3の処理に必要なプログ
ラムメモリ(ROM)5に格納されるが、キーボード入
力による仮名漢字変換、OCR文字認識の後処理、OC
R入力された文字等の仮名漢字変換や漢字仮名変換につ
いてできるだけ共通のアルゴリズムが利用される。デー
タメモリ(RAM)6は、処理装置3での処理途中のデ
ータやパラメータを格納するのに用いられる。単語辞書
メモリ7には読み表記対応データを付加した単語辞書が
格納されている。The output device 4 is a general term for a display device, a printer, etc. It is stored in the program memory (ROM) 5 that is necessary for the processing of the processing device 3, but it also performs kana-kanji conversion by keyboard input, post-processing of OCR character recognition, OC
R A common algorithm is used as much as possible for kana-kanji conversion and kanji-kana conversion of input characters. A data memory (RAM) 6 is used to store data and parameters that are being processed by the processing device 3. The word dictionary memory 7 stores a word dictionary to which reading orthography correspondence data is added.
前記第2図に示す0CR2は、第1図に示すように、光
源と電荷結合素子(COD)等からなる光学的スキャナ
ー11により、原稿上の文字等の画像情報を読み取って
入力する。この入力された仮名文字列又は仮名漢字混合
文字列、英字列等の画像情報を1文字切出しユニット1
2により、1文字毎に切出され、特徴抽出ユニット13
でその切出された文字の特徴を抽出する。この抽出され
たデータは、特徴マツチングユニット14で特徴辞書メ
モリ(ROM又はRAM)15に格納されている特徴辞
書データとのマツチングがとられる。As shown in FIG. 1, the OCR 2 shown in FIG. 2 reads and inputs image information such as characters on a document using an optical scanner 11 comprising a light source, a charge-coupled device (COD), and the like. Unit 1 extracts one character of image information such as the input kana character string, kana-kanji mixed character string, alphabetic character string, etc.
2, each character is extracted by the feature extraction unit 13.
Extract the features of the extracted characters. This extracted data is matched with feature dictionary data stored in a feature dictionary memory (ROM or RAM) 15 in a feature matching unit 14.
マツチングがとられれば、入力文字がLy!、識され処
理装置3に送られる。If matching is achieved, the input characters are Ly! , and sent to the processing device 3.
次に、本発明の一実施例の入力情報認識装置用ヒストグ
ラム作成方法における前記入力情報パターンを辞書の特
徴量の識別能力に応じて複数のブロック(領域)に分割
する処理プロセスを第3図に示すそのフローチャートに
従って説明する。Next, FIG. 3 shows the process of dividing the input information pattern into a plurality of blocks (regions) according to the discriminating ability of the feature amount of the dictionary in the histogram creation method for an input information recognition device according to an embodiment of the present invention. The explanation will be given according to the flowchart shown below.
段階101で入力情報パターンの輪郭部に方向別コード
(チェインコード)を付ける処理を行い、段階102に
移る。前記方向別コードは、第4図に示す方向ベクトル
を用いて符号化を行うものである。At step 101, a direction code (chain code) is added to the outline of the input information pattern, and the process moves to step 102. The direction-specific code is encoded using the direction vector shown in FIG.
段階102で前記入力情報パターンの輪郭部についた方
向別のコード数をカウントし、その総数Sを求める0次
に、段階103でX方向への最初の分割点(S/n)を
求め、段階104でX方向へのそれ以降の分割点を求め
る。例えば、領域n×mに分割するとしてコードの総数
をSとしたとき1分割点はそれぞれS / n + 2
S / n +・・・。In step 102, the number of codes attached to the outline of the input information pattern in each direction is counted, and the total number S is determined.Next, in step 103, the first dividing point (S/n) in the X direction is determined, and step At step 104, subsequent dividing points in the X direction are determined. For example, if the area is divided into n×m and the total number of codes is S, each division point is S / n + 2
S/n+...
(n−1)S/nとなる座標である1次に、段階105
でX方向への各分割座標を求める。(n-1)S/n coordinates, step 105
Find the coordinates of each division in the X direction.
同様に、段階106でY方向の最初の分割点(S/m)
を求め1段階107でY方向へのそれ以降の分割点を求
める。例えば、S/m、2S/m、・・・、(m−1)
S/mとなる座標である。Similarly, in step 106, the first dividing point in the Y direction (S/m)
In step 107, subsequent division points in the Y direction are determined. For example, S/m, 2S/m,..., (m-1)
The coordinates are S/m.
次に1段階108でY方向への各分割座標を求めて入力
画像の分割処理が終了する。Next, in step 108, each division coordinate in the Y direction is determined, and the input image division processing is completed.
次に、原稿上の情報パターンをX方向、Y方向にスキャ
ンし、それぞれコードの数が各分割点となる座標を求め
る。Next, the information pattern on the document is scanned in the X and Y directions, and the coordinates at which the number of codes corresponds to each dividing point are determined.
第5図は、4×4に領域を分割したときの辞書の各ブロ
ックのヒストグラムの分散を示している。FIG. 5 shows the distribution of the histogram of each block of the dictionary when the area is divided into 4×4.
中央の4ブロツクは周辺の12ブロツクと比較すると、
その数値がかなり小さい(すなわち、識別能力が低い)
。ここで、数値が大きい程分散度が大きい(分散度が大
きい程情報量が多いといわれている)ことを示している
。Comparing the 4 blocks in the center with the 12 blocks around it,
The number is quite small (i.e., the discrimination ability is low)
. Here, the larger the value, the greater the degree of dispersion (it is said that the greater the degree of dispersion, the greater the amount of information).
このヒストグラムの分散度の小さい中央部分に注目して
、この中央部分の複数のブロックを統合してヒストグラ
ムを作成する方法が本発明の最も特徴とする点である。The most distinctive feature of the present invention is a method of creating a histogram by focusing on the central portion of the histogram where the degree of dispersion is small and integrating a plurality of blocks in this central portion.
次に本発明の一実施例におけるヒストグラムの作成の処
理プロセスを第6図に示すフローチャートに従って説明
する。Next, a process for creating a histogram in an embodiment of the present invention will be described with reference to the flowchart shown in FIG.
段階201でブロック毎に方向別にコード数をカウント
してヒストグラムを作成する処理を行い。In step 201, the number of codes is counted in each direction for each block and a histogram is created.
段階202で中央ブロックについてそれぞれの方向のヒ
ストグラム加算してヒストグラム作成処理は終了する。At step 202, histograms in each direction are added for the central block, and the histogram creation process ends.
例えば、第7図に示す入力情報パターンにおいて1周辺
の12ブロツク(第7図の6゜7.10.11を除いた
ブロック)はそれぞれヒストグラムを作成し、中央の4
ブロツク(6,7゜10.11)は、これを1つにまと
めてヒストグラムを作成する。For example, in the input information pattern shown in Figure 7, a histogram is created for each of the 12 blocks around 1 (blocks excluding 6°7, 10, 11 in Figure 7), and the 4 blocks in the center are
Block (6, 7° 10.11) combines these into one to create a histogram.
このようにして作成した12x8+8=104次元の特
徴量と辞書とにより、距離演算を行い候補情報(例えば
文字)を選択する。Using the thus created 12x8+8=104-dimensional features and the dictionary, distance calculations are performed to select candidate information (for example, characters).
以上1本発明を実施例にもとずき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は言うまでもない。The present invention has been specifically explained above based on examples, but
It goes without saying that the present invention is not limited to the embodiments described above, and can be modified in various ways without departing from the spirit thereof.
以上、説明したように5本発明によれば、辞書の特徴量
の識別能力に応じて分割された複数のブロックの一部を
統合してヒストグラムを作成する手段を備えたことによ
り、特徴量の次元数を低減することができるので、il
l速度を向上することができる。As explained above, according to the present invention, by providing a means for creating a histogram by integrating a part of a plurality of blocks divided according to the discriminating ability of the feature amount of the dictionary, it is possible to Since the number of dimensions can be reduced, il
l speed can be improved.
また、前記特徴量の次元数を低減することにより、メモ
リを低減することができる。Further, by reducing the number of dimensions of the feature amount, memory can be reduced.
第1図は1本発明の一実施例の入力情報認識装置用ヒス
トグラム作成方法を実施するためのOCRの概略構成を
示すブロック図、
第2図は、第1図に示すOCRを用いた画像情報処理装
置の概略構成を示すブロック図、第3図は、本発明の一
実施例の入力情報認識装置用ヒストグラム作成方法にお
ける入力情報パターンを辞書の特徴量の識別能力に応じ
て複数のブロック(領域)に分割する処理プロセスのフ
ローチャート。
第4図は、方向別コードと方向ベクトルとの関係を示す
図、
第5図は、4X4に領域を分割した時の辞書の各ブロッ
クのヒストグラムの分散を示す図、第6図は、本発明の
一実施例のヒストグラム作成の処理プロセスのフローチ
ャート、
第7図は、入力情報パターンの分割ブロック例を示す図
である。
図中、3・・・処理装置、11・・・スキャナー、12
・・・文字切出しユニット、13・・・特徴抽出ユニッ
ト、14・・・特徴マツチングユニット、15・・・特
徴辞書メモリである。FIG. 1 is a block diagram showing a schematic configuration of an OCR for implementing a histogram creation method for an input information recognition device according to an embodiment of the present invention, and FIG. 2 shows image information using the OCR shown in FIG. FIG. 3, a block diagram showing a schematic configuration of a processing device, shows an input information pattern in a histogram creation method for an input information recognition device according to an embodiment of the present invention, which is divided into a plurality of blocks (regions) according to the feature quantity discrimination ability of the dictionary. ) Flow chart of the processing process. FIG. 4 is a diagram showing the relationship between direction codes and direction vectors. FIG. 5 is a diagram showing the distribution of the histogram of each block of the dictionary when the area is divided into 4×4 areas. FIG. Flowchart of Process for Creating Histogram in One Embodiment FIG. 7 is a diagram showing an example of divided blocks of an input information pattern. In the figure, 3...processing device, 11...scanner, 12
. . . character cutting unit, 13 . . . feature extraction unit, 14 . . . feature matching unit, 15 . . . feature dictionary memory.
Claims (1)
、前記入力情報パターンを辞書の特徴量の識別能力に応
じて複数ブロックに分割し、この分割されたブロック毎
に、その方向コードのヒストグラムを作成し、このヒス
トグラムとあらかじめ用意した辞書とを比較演算し、そ
の距離により候補情報を決定する入力情報認識装置用ヒ
ストグラム作成方法であって、前記辞書の特徴量の識別
能力に応じて分割された複数のブロックの一部を統合し
てヒストグラムを作成する手段を備えたことを特徴とす
る入力情報認識装置用ヒストグラム作成方法。(1) Attach a direction code to the outline of the input information pattern, divide the input information pattern into multiple blocks according to the feature recognition ability of the dictionary, and create a histogram of the direction code for each divided block. A histogram creation method for an input information recognition device, in which candidate information is determined based on the distance by comparing the histogram with a dictionary prepared in advance, and determining candidate information based on the distance between the histogram and a dictionary prepared in advance. 1. A histogram creation method for an input information recognition device, comprising means for creating a histogram by integrating parts of a plurality of blocks.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61172515A JPS6327991A (en) | 1986-07-22 | 1986-07-22 | Formation of histogram for input information recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61172515A JPS6327991A (en) | 1986-07-22 | 1986-07-22 | Formation of histogram for input information recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6327991A true JPS6327991A (en) | 1988-02-05 |
Family
ID=15943385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61172515A Pending JPS6327991A (en) | 1986-07-22 | 1986-07-22 | Formation of histogram for input information recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6327991A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01321589A (en) * | 1988-06-23 | 1989-12-27 | Nec Corp | Feature extraction system |
-
1986
- 1986-07-22 JP JP61172515A patent/JPS6327991A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01321589A (en) * | 1988-06-23 | 1989-12-27 | Nec Corp | Feature extraction system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0325233B1 (en) | Character string recognition system | |
US5621818A (en) | Document recognition apparatus | |
JPH05225378A (en) | Area dividing system for document image | |
JPS6327991A (en) | Formation of histogram for input information recognizing device | |
JPS62192886A (en) | Feature quantity generating method in character recognizing device | |
JPS60153575A (en) | Character reading system | |
JP3710164B2 (en) | Image processing apparatus and method | |
JPS63118993A (en) | Character recognizing method | |
JPH02242391A (en) | Character recognizing system | |
JP3238776B2 (en) | Large classification dictionary creation method and character recognition device | |
JP2984315B2 (en) | Recognition device | |
JPH05120483A (en) | Character recognizing device | |
JPH03268181A (en) | Document reader | |
JPH11126216A (en) | Automatic drawing input device | |
JP2972443B2 (en) | Character recognition device | |
JPS60110089A (en) | Character recognizer | |
JPS6318483A (en) | Character recognizing method for optical information input device | |
JPH03217993A (en) | Character size recognizer | |
JPS62192887A (en) | Feature quantity generating method in character recognizing device | |
JPH0281189A (en) | Character recognizing method | |
JPH05210759A (en) | Character recognizing device | |
KR19980037632A (en) | Document recognition device and method for improving English contact character separation function | |
JPH01259476A (en) | Character reader | |
JPH0969139A (en) | Optical character reading method and its device | |
JPH09114927A (en) | Method and device for rough classifying input characters in on-line character recognition |