JPS62281091A

JPS62281091A - パタ−ン情報認識方法

Info

Publication number: JPS62281091A
Application number: JP61123705A
Authority: JP
Inventors: Shinko Ishitani; 石谷　新子; Toshiaki Yagasaki; 矢ケ崎　敏明; Yumie Gou; 郷　由美恵; Akihiko Uekusa; 植草　明彦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1986-05-30
Filing date: 1986-05-30
Publication date: 1987-12-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明し産業上の利用分野］本発明は未知の英字、数字等の文字を自動的に読み取っ
て認識するパターン情報認識方法に関する。

［従来の技術］従来この種の文字認識装置の文字認識処理を第１０図に
示す。

原稿用紙Ｐ上の文字をステップＳ８１に示す如く１文字
毎に読込んで光電変換し、これを更にステップＳ８２で
“１”、”Ｏ”の２値データのパターンに変換している
。続くステップＳ８３で、後に説明する処理を効果的に
するための前処理、即ちステップＳ８２で２値化された
パターンに基づき文字が記録されている用紙Ｐ上の黒点
などのノイズ処理や文字図形境界面の平滑化などを含む
一連のＩＡ理がなされる。

次にステップＳ８４で文字認識を行うのに必要ないくつ
かの特徴（交点、分岐点、ループ数、ストロークの長さ
情報など）を抽出する特徴抽出処理が行われる。この抽
出結果に応じて、多数の文字より特徴が共通ずるいくつ
かの文字が選択される。

更に、ステップ５８５以下でその中から唯一の文字の選
択を行うための識別処理としての辞書照合処理、及び認
識処理がなされる。

まずステップＳ８５で抽出された特徴に従って辞書を誘
導（検索）することが可能か否かを調べる。ここで抽出
した特徴が辞書を誘導するに値しないものである場合に
はステップ５８８に進み、認識不能が出力される。一方
、抽出特徴点により辞書誘導可能であればステップＳ８
６で備えっけの辞書を検索し、先に抽出した特徴と順次
照合する。ステップＳ８７で照合の結果一致すると、ス
テップ３８Ｂで当該一致した結果を認識出力として出力
する。一致がとれない場合には認識不能として出力する
。

［発明が解決しようとする問題点］ところが、この従来の認識方法によると、簡易な文字（
認識されやすい文字）、アルファベット、数字だけの場
合などに対しても、前記の複雑なＩＡ理を行うため、処
理時間がかかり過ぎるという欠点があった。

又、上記処理を実現するための構成も複雑であり、コス
トアップや信顆性の点においても種々の問題点を抱えて
いた。

［問題点を解決するための手段］本発明は前記した従来技術の問題点に鑑み成されたもの
で、上述の問題点を解決する一手段として以下の構成を
備える。

即ち、読取面上のパターン情報を光学的に読取る読取手
段と、該手段により読み取ったパターン情報を所定の領
域毎に分割する領域分割手段と、該領域分割手段で分割
された各領域毎の一定範囲内の黒密度の連続を検出する
検出手段と、該検出手段で検出した黒密度の連続を入力
ストロークとして認識する認識手段より成る。

［作用コ以上の構成において、読取手段で読み取ったパターン情
報を分割手段により所定の領域毎に分割し、該分割手段
により分割された各領域毎の一定範囲内の長さを有する
黒密度の連続を検出手段で検出し、認識手段は該検出手
段で検出した一定範囲内の長さの黒密度の′ａ続を入力
ストロークとして認識する。

［実施例］以下、図面を参照して本発明に係る一実施例を詳細に説
明する。

第１図は本発明の一実施例のブロック図であり、図中１
はＯＭＲによるキーワードを含む文書画像情報を読み込
み電気信号に変換するリーダ、２はリーダ１で読み取っ
た画像情報を記憶する光ディスク、３は本実施例全体を
制御するポストコンピュータ、４はキーボード、５は画
像情報やオペレーション情報等を表示するＣＲＴ、６は
画像情報等を印刷出力するプリンタである。また、７は
リーダ１の原稿読み取り面に原稿を１枚毎に自動送りす
るオートフィーダである。

ホストコンピュータ３において、５０はＲＯＭ５１に記
憶された第４図に示す制御プログラムに従って本装置全
体を制御するＣＰＵであり、ＣＰＵ５０は例えばモトロ
ーラ社製のマイクロコンピュータＭＣ６８０００等で構
成することが望ましい。５１はＲＯＭであり、ＲＯＭ５
１には標準特徴パターン記憶領域５１ａが含まれる。５
２はＣＲＴ５とのインタフェースを司どるＣＲＴインタ
フェース、５３はキーボード４とのインタフェースを司
どるキーボードインタフェース、５４は光ディスクとの
インタフェースを司どる光デイスクインタフェースであ
る。また、５５はリーダ１とのインタフェースを司どる
リーダインタフェース、５６はプリンタ６とのインタフ
ェースを司どるプリンタインタフェース、５７は処理経
過や、読み取りマークの認識処理経過等の記憶されるＲ
ＡＭ、６０は各構成間を接続するバスである。

ＲＡＭ５７の詳細記憶領域を第２図に示す。

第２図において、２１はパターンバッファ、２２はライ
ンヒストグラムバッファ、２３は領域ヒストグラムバッ
ファ、２４は読み取りパターンである。

以上の構成を備える本実施例の外観図を第３図に示す。

図中第１図と同様構成については同一番号を付した。８
はリーダ１とホストコンピュータ３とのインタフェース
ケーブル、９はプリンタ６とホストコンピュータ３との
インタフェースケーブルである。

以上の構成を備える本実施例の動作を第４図のフローチ
ャートを参照して以下に説明する。

第４図においても第１０図と同様に、リーダ１にセット
された原稿上のＰに示すパターンを読み取り、認識する
処理を例に説明する。

まず、ステップＳ１でＣＰＵ５０はリーダインタフェー
ス５５を介してリーダ１を起動し、読み取り原稿面を走
査して原稿面の画像データを読み込む。

原稿面は例えば第９図に示すＯＭＲシートの下部に区の
マークを配置し、該マーク上に活字パターンを第８図に
示すように塗る。そして、上記ＯＭＲシートは電子ファ
イルシステムのキーワードの登録、ファクシミリの電話
番号入力、複写機などの画像形成装置のコピ一枚数、縮
率などのモード設定用に使用する。

第８図に示すようなフォーマットを固定し、その上に定
形パターンの文字を書く方法を取ると、その後の処理は
より簡単になる。なお、第８図には°Ａ″〜“Ｚ″及び
′１°°〜“°０°゛の定型パターンが示されている。

第８図のフォーマットの基本パターンはＸ方向３木、ｙ
方向３木のストロークで構成された「田」の字と斜め２
方のストロークｒＸＪを組み合せた形の一部となってい
る。

このようにして書き込まれた原稿面のマーク位置の１文
字、例えば°Ａ”を読み込んだ場合を例に以下説明する
。

ステップＳ１でリーダ１により光電変換されて読み込ま
れた信号は、ステップＳ２に示す如く　−リーダインタ
フェース５５に送られ、リーダインタフェース５５に内
蔵のアナログ−デジタルコンバータにより“１”、０°
“の２値パターンのデジタル信号に変換され、変換され
たデジタル信号はＣＰＵ５０に入力される。

ＣＰＵ５０は、このようにして入力されたデジタルデー
タを順次ＲＡＭ５７のパターンバッファ２１に格納する
。本実施例においては、文字パターンは１文字４８ビツ
ト×４８ビツトの領域に区切られ、“Ａ°゛を読み込ん
だ場合の読み取りデータのパターンバッファ２１への格
納例を第５図に示す。

ＣＰＵ５０はステップＳ３でこのデジタルデータな複数
の所定領域毎に分割する。そしてステップＳ４でこの分
割した各領域のライン毎の所定範囲り内の黒密度の連続
によるストローク入力を検出し、該入力ストローク分布
のヒストグラムを求める。そしてステップＳ５で求めた
ストローク分布のヒストグラムをＲＡＭ５７のラインヒ
ストグラムバッファ２２に格納する。

読取パターンは、例えば第６図（Ａ）の１〜６及びＡ−
Ｄに示す各所定領域に分割される。分割された各領域に
おいて、例えば第６図（Ａ）の領域４は、第６図（Ｂ）
に示すパターンとなり、各ライン毎のストローク分布の
ヒストグラムは５１に示すものとなる。なお、黒密度の
連続の長さが所定範囲りよりも大きい場合にはヒストグ
ラムは°０”となり、黒密度の連続の長さが所定範囲り
よりも小さい場合にはヒストグラムは′１°°となる。

このため、ラインの長さｋはｈより大きいためヒストグ
ラムは“０”となり、見１及び立２はｈより短いためヒ
ストグラムは“°１°゛となる。

同様にして領域Ａにおける各ライン毎のヒストグラムは
第６図（Ｃ）の如くなり、ヒストグラム分布は５２に示
す如きものになる。

続いてステップＳ６で先に求めた所定領域内のライン毎
のヒストグラムの最小値を求め、ＲＡＭ５７の領域ヒス
トグラムバッファ２３に格納する。同様にステップＳ７
で先に求めた所定領域内のライン毎のヒストグラム分布
の黒密度の連続する最大発生ストロータ数を求め、ＲＡ
Ｍ　５７の領域ヒストグラムバッファ２３に格納する。

そしてステップＳ８で各領域毎の代表値を求め、ＲＡＭ
５７の読み取りパターン２４に格納する。ここで、第６
図（Ａ）に示す領域１〜６においてはヒストグラム分布
の最小値を代表値とし、領域Ａ−Ｄにおいては最大発生
ストローク値を代表値とする。第６図（Ｂ）に示す領域
４においては代表値は“Ｏ”となり、第６図（Ｃ）に示
す領域Ａにおいては代表値は２”となる。

読み取りパターン２４への全ての領域における代表値の
格納状態を第６図（Ｄ）に示す。

続くステップＳ１０でＲＯＭ５１の標準特徴パターン５
１ａに記憶の標準パターンと、読み取りパターン２４に
格納されているパターンとのマツヂングな行なう。その
結果、ステップｓ１１でパターンの一致が得られれば、
ステップｓ１２で一致の得られたパターンの入力として
認識し、結果を出力する。一方一致が得られない場合に
はステップＳ１３に進み、認識不能を出力して処理を終
了する。そして再び次のパターンの読み込み処理等を実
行する。

入力標準特徴パターン５１ａの″△″の標準パターンは
第７図に示すパターンであり、読取りパターン２４の格
納パターンと一致し、第６図（Ａ）の人カバターンはＡ
　”の入力であると認識される。

以上説明した様に本実施例によれば、例えば第８図に示
す人カバターンを認識する上で、次のような効果が考え
られる。

■所定範囲内の黒密度の連続においてストロークの検出
を行ない、所定範囲以上の黒密度の連続の場合にはスト
ローク入力として計数しないため、少ないストローク数
（少ないデータ量）の処理でより正確な文字の認識が可
能となる。さらに、照合されるデータ量が少ないため、
処理時間が大幅に削減される。

■所定の領域での最大発生ストローク数を代表値とする
ことにより、領域内の誤読取であるゴミ等の読み取りを
除去するという効果を含んでいる。また、領域内でのヒ
ストグラムが多少変化しても、最大発生ストローク数を
代表値とすることにより、正確な文字認識が可能となる
。

このように、文字認識装置の簡易な文字の認識における
欠点を解消し、簡易な文字の認識に必要な処理時間を短
縮し、高速、かつ、高精度の文字認識が可能となる。

更に、定形パターン（活字型）の数字、もしくはアルフ
ァベットの文字を、高速かつ高精度に認識することがで
きる。

［発明の効果］以上説明した如く、本発明によれば、少ないデータ量の
照合でパターン認識でき、非常に短時間で、かつ正確な
パターン認識処理が行なえる。

【図面の簡単な説明】

第１図は本発明に係る一実施例のブロック図、第２図は
第１図に示すＲＡＭの詳細構成図、第３図は本実施例の
外観図、第４図は本実施例のパターン認識制御フローチャート、第５図は読取パターンの格納例を示す図、第６図も一コ
ー宍→は本実施例によるバターン°Ａ″の認識処理を説
明するための図、第７図は標準特徴パターンにおける′
八“′の格納パターンを示す図、第８図は本実施例で用いる標準人カバターンを示す図、第９図は本実施例で用いられるＯＭＲシートを示す図、第１０図は従来のパターン認識ＩＡ埋を示すフローチャ
ートである。図中、１・・・　リーダ、２・・・光ディスク、３・・
・ホストコンピュータ、４・・・キーボード、５・・・
ＣＲＴ、６・・・プリンタ、７・・・オートフィーダ、
５Ｏ−ＣＰＵ、５１・・・ＲＯＭ、５１　ａ−標準特徴
パターン記憶領域、５２・・・ＣＲＴインタフェース、
５３・・・キーボードインタフェース、５４・・・光デ
ィスクインタフェース、５５・・・リーグインタフェー
ス、５６・・・プリンタインタフェース、５７・・・Ｒ
ＡＭ、６０・・・バスである。

Claims

【特許請求の範囲】

（１）読取面上のパターン情報を光学的に読取る読取工
程と、該工程に続き読み取つたパターン情報を所定の領
域毎に分割する領域分割工程と、該領域分割工程で分割
された各領域毎の一定範囲内の黒密度の連続を検出する
検出工程と、該検出工程で検出した黒密度の連続を入力
ストロークとして認識する認識工程とより成ることを特
徴とするパターン情報認識方法。
（２）認識工程での入力ストロークの認識は各領域内の
黒密度の連続の分布ヒストグラムの最小値を当該領域の
代表値とすることを特徴とする特許請求の範囲第１項記
載パターン情報認識方法。
（３）認識工程での入力ストロークの認識は各領域内の
黒密度の連続の分布ヒストグラムの最大発生値を当該領
域の代表値とすることを特徴とする特許請求の範囲第１
項記載パターン情報認識方法。