JPS62219087A

JPS62219087A - 文字認識装置

Info

Publication number: JPS62219087A
Application number: JP61062138A
Authority: JP
Inventors: Mariko Takenouchi; 磨理子竹之内; Masahiro Shimizu; 正博清水
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-03-19
Filing date: 1986-03-19
Publication date: 1987-09-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、新聞・雑誌等の活字および手書き文字−を認
識し、たとえばＪＩＳコード等の情報量に変換する文字
認識装置に関するものである。

従来の技術従来の文字認識装置では、文字列の傾き・文字列間隔・
文字間隔等の書式が明確な文書を対象に文字認識を行っ
てきた。このことは、文字認識装置が対象とする文書に
制限を与えており、この問題を解決するために、入力画
像から文字列の傾き（回転角θ）を検出し傾き補正を行
うことにより書式が未知の文書に対しても安定した文字
切り出しを行う方法がとられていた。（例えば、長谷・
星野”印刷文字列の周期的特徴″信学論Φ）。

Ｊ８５−Ｄ　、２　、ｐｐ、２９８〜２９９、秋田・増
田６書式指定情報に、よらない紙面構成要素抽出法″信
学論（Ｄ）、Ｊ６６−Ｄ　、１　、ｐｐ　　１１１〜１
１８）発明が解決しようとする問題点しかしながら、入力画像の文字列の傾きを検出し傾き補
正を行うことにより文字切り出しを行う従来の技術では
、傾き補正に多大な計算量を必要とし処理に時間がかか
る。

本発明はかかる点に鑑みてなされたものであり、書式が
未知の文書に対しても、簡易な方法で入力画像の文字列
を検出し、入力画像の傾き補正を行うことなく高速に文
字を切り出すことができる文字認識装置を提供すること
を目的としている。

問題点を解決するための手段本発明は前記問題点を解決するため、入力画像を文字列
の方向に隣接するブロックと重複した部分をもつブロッ
クに区切り、各ブロックを文字列方向に走査して文字部
を形成する画素のヒストグラムを求め、ヒストグラムか
ら求めた各ブロック毎の文字列部の連結状態を調べるこ
とにより、容易に文字列を抽出して認識対象文字を切沙
出し、認識候補文字を抽出するものである。

作用本発明は前記の技術的手段により、書式が未知の文書に
対して、傾き補正を行うことなく高速に文字列を抽出し
て認識対象文字を切り出し認識を行うことが可能となる
。

実施例以下、本発明の実施例について図面を参照しながら説明
する。

第１図は、本発明による文字認識装置の一実施例の構成
図である。１は画像入力部であシ、認識対象文字を含む
画像を走査し２値信号で画像を入力し画像メモリ２に格
納する。３は文字列方向設定部であり、入力画像の縦書
き・横書きをオペレータが設定する０４は文字列抽出部
であり、文字列方向設定部３で設定した文字列方向を用
いて画像メモリ２を走査し文字列を抽出する。６は文字
切り出し部であシ、文字列方向設定部３で設定した文字
列方向を用いて文字列抽出部４で抽出した文字列から認
識対象文字を切り出す。６は認識部であり、文字切り出
し部５で切り出した認識対象文字の特徴量を求め、あら
かじめ辞書７に登録されている文字の特徴量と照合し、
最も似た文字を認識候補文字とし、表示部８に表示する
。

以上のように構成された文字認識装置の動作について、
第２図に示す入力画像Ｐを例に説明する。

画像入力部１から入力された画像Ｐは文字部１、白部０
の２値データで画像メモリ２に蓄えられる。

文字列抽出部４では画像メモリ２を走査して文字列を抽
出する。人力画像Ｐを文字列方向設定部３で設定された
文字列方向の横方向に隣のブロックと４画素重複したｍ
画素ずつのブロックに分けると、Ｂ１．Ｂ２，８３の３
ブロツクとなる。ブロックＢ１を文字列方向である横方
向に走査して、文字部を形成する画素のヒストグラムＨ
ｂを求めると第３図に示す様になる。ヒストグラムＨｂ
から、１画素以上の値をもつ文字列部の開始アドレス３
１．８２・・・・・・Ｓｉ・・・・・・及び文字列部の
終了アドレス６１．１！１２・・・・・・６１・・・・
・・を求める。同様にしてブロックＢ２　、Ｂ３につい
ても、文字部を形成する画素のヒストグラムを求め文字
列部の開始アドレス及び終了アドレスを求めると第４図
に示す様になる。図中の隆は文字列部の出現順序を表わ
す。これらの文字列部の開始アドレス及び終了アドレス
から、ブロック毎に求めた文字列部の連結状態を調べる
。式（１）且つ式（２）が成立すれば、隣合うブロック
の文字列が連結状態であることを示す０Ｂ（ｉ−１）Ｓｋ≧Ｂｉｅ／　　　　−−−（１）Ｂ　
（ｉ−１）　ｅｋ≦Ｂ　ｉｓ　ｌＩ−−（２）ここでＢ
ｉはブロック、５ｋｓｓｌは文字列開始アドレス、ｅｋ
・Ｏｌは文字列終了アドレスを示す。

全てのｉ−に−］について式（１）且つ式（２）の条件
を調ベブロック間の文字列の連結状態を求めると第５図
に示す様になシ、図中のＬｌ、Ｌ２・・・・・・Ｌｉ・
・・・・・の文字列番号で表される文字列が抽出される
。

文字切り出し部６には抽出された文字列が順次入力され
る。第６図に抽出された第１番目の文字列Ｌ１を示す。

文字列Ｌ１は、文字列抽出部４で求めた文字列開始アド
レスＢ　１　Ｓ　＋　＋　Ｂ２　Ｂ１＋　Ｂ５５１及び
文字列終了アドレスＢ１６１　＋　Ｂ２６１　、８３６
１で囲まれている。隣接するブロックの重複部分につい
ては、ブロック番号の若い方のアドレスを用いた。抽出
した文字列Ｌ１を射影してヒストグラムＨ１を求めると
第６図に示す様になる。ヒストグラムＨβから１字１字
の横方向のアドレス（Ｃｓ＋　＋　Ｃａ１）・・・・・
・（Ｃｓｉ　ｒ　Ｃｅ１）　−を求め、認識対象文字を
１字ずつ切り出す。

認識部６には切り出された認識対象文字の矩形Ｒが順次
入力される。第７１乙に切り出された認識対象文字「松
」を示す。切り出した「松」の各画素について、第７図
すの矢印が示す方向に着目画素を含んでｑ個以上（ｑは
あらかじめ設定）連っているか否かを調べ方向コードを
設定する。方向コード毎に各画素の連結性を調べてスト
ロークを抽出し、ストロークの数・位置・長さ等の特徴
量を抽出する。第７図ａに「松」のストローク抽出結果
を示す。抽出した特徴量を辞書７にあらかじめ登録され
ている文字の特徴量と照合し、最も似た文字「松」を認
識候補文字として表示部８に表示する。

尚、本実施例では全ブロック（Ｂ１．Ｂ２．Ｂ３）ｍ画
素であったが、入力画像のサイズによっては必ずしも全
ブロックｍ画素にならない場合があることはいうまでも
ない。

発明の効果本発明によれば、入力画像を文字列の方向に隣接するブ
ロックとＤ画素の重複を含むＭ画素単位のブロックに区
切り、各ブロックを文字列方向に走査して文字部を形成
する画素のヒストグラムを求め、ヒストグラムから求め
た文字列部の開始アドレスと終了アドレスを用いて、各
ブロックの文字列部の連結状態を調べるという簡単な方
法で高速に入力画像の文字列を抽出することにより、書
式が未知の文書に対して、入力画像の角度補正等の多大
な計算処理を行うことなく認識対象文字を切り出し認識
を行うことが可能となる。

【図面の簡単な説明】

第１図は本発明における一実施例による文字認識装置の
構成図、第２図は入力画像及び入力画像のブロック分割
説明図、第３図はブロックにおける文字列部抽出方法の
説明図、第４図は各ブロックの文字列部の開始アドレス
と終了アドレスの抽出結果を示す説明図、第５図は文字
列の抽出結果を示す説明図、第６図は文字列から認識対
象文字を切り出す方法の説明図、第７図は文字認識方法
の説明図である。１・・・・・・画像入力部、２・・・・・・画像メモリ
、３・・・・・・文字列方向設定部、４・・・・・・文
字列抽出部、５・・・・・・文字切り出し部、６・・・
・・・認識部、７・・・・・・辞書、８・・・・・・表
示部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第２図 −Ｂ２→ 第３図８１　　　　　　　　　　　　）（ｂ ′７７を面木第４図第５図第６図第７図（幻尺Ｃｓｒ　　　　Ｃｅ１

Claims

【特許請求の範囲】

認識対象文字を含む画像を入力する画像入力部と、前記
画像入力部で入力された画像を、縦書き文書の場合は縦
、横書き文書の場合は横である文字列方向に、隣接する
ブロックとＤ画素の重複を含むＭ画素単位のブロックに
区切り、各ブロックを文字列方向に走査して文字部を形
成する画素のヒストグラムを求め、ヒストグラムの値が
Ｎ画素以上である文字列部の開始位置と終了位置を検出
し、各ブロック間の文字列部の連結状態を調べることに
より文字列を抽出する文字列抽出部と、文字列から認識
対象文字を切り出す文字切り出し部と、認識対象文字を
辞書と照合することにより認識候補文字を抽出する認識
部を有することを特徴とする文字認識装置。