JPS62219087A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPS62219087A JPS62219087A JP61062138A JP6213886A JPS62219087A JP S62219087 A JPS62219087 A JP S62219087A JP 61062138 A JP61062138 A JP 61062138A JP 6213886 A JP6213886 A JP 6213886A JP S62219087 A JPS62219087 A JP S62219087A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- characters
- pixels
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、新聞・雑誌等の活字および手書き文字−を認
識し、たとえばJISコード等の情報量に変換する文字
認識装置に関するものである。
識し、たとえばJISコード等の情報量に変換する文字
認識装置に関するものである。
従来の技術
従来の文字認識装置では、文字列の傾き・文字列間隔・
文字間隔等の書式が明確な文書を対象に文字認識を行っ
てきた。このことは、文字認識装置が対象とする文書に
制限を与えており、この問題を解決するために、入力画
像から文字列の傾き(回転角θ)を検出し傾き補正を行
うことにより書式が未知の文書に対しても安定した文字
切り出しを行う方法がとられていた。(例えば、長谷・
星野”印刷文字列の周期的特徴″信学論Φ)。
文字間隔等の書式が明確な文書を対象に文字認識を行っ
てきた。このことは、文字認識装置が対象とする文書に
制限を与えており、この問題を解決するために、入力画
像から文字列の傾き(回転角θ)を検出し傾き補正を行
うことにより書式が未知の文書に対しても安定した文字
切り出しを行う方法がとられていた。(例えば、長谷・
星野”印刷文字列の周期的特徴″信学論Φ)。
J85−D 、2 、pp、298〜299、秋田・増
田6書式指定情報に、よらない紙面構成要素抽出法″信
学論(D)、J66−D 、1 、pp 111〜1
18)発明が解決しようとする問題点 しかしながら、入力画像の文字列の傾きを検出し傾き補
正を行うことにより文字切り出しを行う従来の技術では
、傾き補正に多大な計算量を必要とし処理に時間がかか
る。
田6書式指定情報に、よらない紙面構成要素抽出法″信
学論(D)、J66−D 、1 、pp 111〜1
18)発明が解決しようとする問題点 しかしながら、入力画像の文字列の傾きを検出し傾き補
正を行うことにより文字切り出しを行う従来の技術では
、傾き補正に多大な計算量を必要とし処理に時間がかか
る。
本発明はかかる点に鑑みてなされたものであり、書式が
未知の文書に対しても、簡易な方法で入力画像の文字列
を検出し、入力画像の傾き補正を行うことなく高速に文
字を切り出すことができる文字認識装置を提供すること
を目的としている。
未知の文書に対しても、簡易な方法で入力画像の文字列
を検出し、入力画像の傾き補正を行うことなく高速に文
字を切り出すことができる文字認識装置を提供すること
を目的としている。
問題点を解決するための手段
本発明は前記問題点を解決するため、入力画像を文字列
の方向に隣接するブロックと重複した部分をもつブロッ
クに区切り、各ブロックを文字列方向に走査して文字部
を形成する画素のヒストグラムを求め、ヒストグラムか
ら求めた各ブロック毎の文字列部の連結状態を調べるこ
とにより、容易に文字列を抽出して認識対象文字を切沙
出し、認識候補文字を抽出するものである。
の方向に隣接するブロックと重複した部分をもつブロッ
クに区切り、各ブロックを文字列方向に走査して文字部
を形成する画素のヒストグラムを求め、ヒストグラムか
ら求めた各ブロック毎の文字列部の連結状態を調べるこ
とにより、容易に文字列を抽出して認識対象文字を切沙
出し、認識候補文字を抽出するものである。
作用
本発明は前記の技術的手段により、書式が未知の文書に
対して、傾き補正を行うことなく高速に文字列を抽出し
て認識対象文字を切り出し認識を行うことが可能となる
。
対して、傾き補正を行うことなく高速に文字列を抽出し
て認識対象文字を切り出し認識を行うことが可能となる
。
実施例
以下、本発明の実施例について図面を参照しながら説明
する。
する。
第1図は、本発明による文字認識装置の一実施例の構成
図である。1は画像入力部であシ、認識対象文字を含む
画像を走査し2値信号で画像を入力し画像メモリ2に格
納する。3は文字列方向設定部であり、入力画像の縦書
き・横書きをオペレータが設定する04は文字列抽出部
であり、文字列方向設定部3で設定した文字列方向を用
いて画像メモリ2を走査し文字列を抽出する。6は文字
切り出し部であシ、文字列方向設定部3で設定した文字
列方向を用いて文字列抽出部4で抽出した文字列から認
識対象文字を切り出す。6は認識部であり、文字切り出
し部5で切り出した認識対象文字の特徴量を求め、あら
かじめ辞書7に登録されている文字の特徴量と照合し、
最も似た文字を認識候補文字とし、表示部8に表示する
。
図である。1は画像入力部であシ、認識対象文字を含む
画像を走査し2値信号で画像を入力し画像メモリ2に格
納する。3は文字列方向設定部であり、入力画像の縦書
き・横書きをオペレータが設定する04は文字列抽出部
であり、文字列方向設定部3で設定した文字列方向を用
いて画像メモリ2を走査し文字列を抽出する。6は文字
切り出し部であシ、文字列方向設定部3で設定した文字
列方向を用いて文字列抽出部4で抽出した文字列から認
識対象文字を切り出す。6は認識部であり、文字切り出
し部5で切り出した認識対象文字の特徴量を求め、あら
かじめ辞書7に登録されている文字の特徴量と照合し、
最も似た文字を認識候補文字とし、表示部8に表示する
。
以上のように構成された文字認識装置の動作について、
第2図に示す入力画像Pを例に説明する。
第2図に示す入力画像Pを例に説明する。
画像入力部1から入力された画像Pは文字部1、白部0
の2値データで画像メモリ2に蓄えられる。
の2値データで画像メモリ2に蓄えられる。
文字列抽出部4では画像メモリ2を走査して文字列を抽
出する。人力画像Pを文字列方向設定部3で設定された
文字列方向の横方向に隣のブロックと4画素重複したm
画素ずつのブロックに分けると、B1.B2,83の3
ブロツクとなる。ブロックB1を文字列方向である横方
向に走査して、文字部を形成する画素のヒストグラムH
bを求めると第3図に示す様になる。ヒストグラムHb
から、1画素以上の値をもつ文字列部の開始アドレス3
1.82・・・・・・Si・・・・・・及び文字列部の
終了アドレス61.1!12・・・・・・61・・・・
・・を求める。同様にしてブロックB2 、B3につい
ても、文字部を形成する画素のヒストグラムを求め文字
列部の開始アドレス及び終了アドレスを求めると第4図
に示す様になる。図中の隆は文字列部の出現順序を表わ
す。これらの文字列部の開始アドレス及び終了アドレス
から、ブロック毎に求めた文字列部の連結状態を調べる
。式(1)且つ式(2)が成立すれば、隣合うブロック
の文字列が連結状態であることを示す0 B(i−1)Sk≧Bie/ −−−(1)B
(i−1) ek≦B is lI−−(2)ここでB
iはブロック、5ksslは文字列開始アドレス、ek
・Olは文字列終了アドレスを示す。
出する。人力画像Pを文字列方向設定部3で設定された
文字列方向の横方向に隣のブロックと4画素重複したm
画素ずつのブロックに分けると、B1.B2,83の3
ブロツクとなる。ブロックB1を文字列方向である横方
向に走査して、文字部を形成する画素のヒストグラムH
bを求めると第3図に示す様になる。ヒストグラムHb
から、1画素以上の値をもつ文字列部の開始アドレス3
1.82・・・・・・Si・・・・・・及び文字列部の
終了アドレス61.1!12・・・・・・61・・・・
・・を求める。同様にしてブロックB2 、B3につい
ても、文字部を形成する画素のヒストグラムを求め文字
列部の開始アドレス及び終了アドレスを求めると第4図
に示す様になる。図中の隆は文字列部の出現順序を表わ
す。これらの文字列部の開始アドレス及び終了アドレス
から、ブロック毎に求めた文字列部の連結状態を調べる
。式(1)且つ式(2)が成立すれば、隣合うブロック
の文字列が連結状態であることを示す0 B(i−1)Sk≧Bie/ −−−(1)B
(i−1) ek≦B is lI−−(2)ここでB
iはブロック、5ksslは文字列開始アドレス、ek
・Olは文字列終了アドレスを示す。
全てのi−に−]について式(1)且つ式(2)の条件
を調ベブロック間の文字列の連結状態を求めると第5図
に示す様になシ、図中のLl、L2・・・・・・Li・
・・・・・の文字列番号で表される文字列が抽出される
。
を調ベブロック間の文字列の連結状態を求めると第5図
に示す様になシ、図中のLl、L2・・・・・・Li・
・・・・・の文字列番号で表される文字列が抽出される
。
文字切り出し部6には抽出された文字列が順次入力され
る。第6図に抽出された第1番目の文字列L1を示す。
る。第6図に抽出された第1番目の文字列L1を示す。
文字列L1は、文字列抽出部4で求めた文字列開始アド
レスB 1 S + + B2 B1+ B551及び
文字列終了アドレスB161 + B261 、836
1で囲まれている。隣接するブロックの重複部分につい
ては、ブロック番号の若い方のアドレスを用いた。抽出
した文字列L1を射影してヒストグラムH1を求めると
第6図に示す様になる。ヒストグラムHβから1字1字
の横方向のアドレス(Cs+ + Ca1)・・・・・
・(Csi r Ce1) −を求め、認識対象文字を
1字ずつ切り出す。
レスB 1 S + + B2 B1+ B551及び
文字列終了アドレスB161 + B261 、836
1で囲まれている。隣接するブロックの重複部分につい
ては、ブロック番号の若い方のアドレスを用いた。抽出
した文字列L1を射影してヒストグラムH1を求めると
第6図に示す様になる。ヒストグラムHβから1字1字
の横方向のアドレス(Cs+ + Ca1)・・・・・
・(Csi r Ce1) −を求め、認識対象文字を
1字ずつ切り出す。
認識部6には切り出された認識対象文字の矩形Rが順次
入力される。第71乙に切り出された認識対象文字「松
」を示す。切り出した「松」の各画素について、第7図
すの矢印が示す方向に着目画素を含んでq個以上(qは
あらかじめ設定)連っているか否かを調べ方向コードを
設定する。方向コード毎に各画素の連結性を調べてスト
ロークを抽出し、ストロークの数・位置・長さ等の特徴
量を抽出する。第7図aに「松」のストローク抽出結果
を示す。抽出した特徴量を辞書7にあらかじめ登録され
ている文字の特徴量と照合し、最も似た文字「松」を認
識候補文字として表示部8に表示する。
入力される。第71乙に切り出された認識対象文字「松
」を示す。切り出した「松」の各画素について、第7図
すの矢印が示す方向に着目画素を含んでq個以上(qは
あらかじめ設定)連っているか否かを調べ方向コードを
設定する。方向コード毎に各画素の連結性を調べてスト
ロークを抽出し、ストロークの数・位置・長さ等の特徴
量を抽出する。第7図aに「松」のストローク抽出結果
を示す。抽出した特徴量を辞書7にあらかじめ登録され
ている文字の特徴量と照合し、最も似た文字「松」を認
識候補文字として表示部8に表示する。
尚、本実施例では全ブロック(B1.B2.B3)m画
素であったが、入力画像のサイズによっては必ずしも全
ブロックm画素にならない場合があることはいうまでも
ない。
素であったが、入力画像のサイズによっては必ずしも全
ブロックm画素にならない場合があることはいうまでも
ない。
発明の効果
本発明によれば、入力画像を文字列の方向に隣接するブ
ロックとD画素の重複を含むM画素単位のブロックに区
切り、各ブロックを文字列方向に走査して文字部を形成
する画素のヒストグラムを求め、ヒストグラムから求め
た文字列部の開始アドレスと終了アドレスを用いて、各
ブロックの文字列部の連結状態を調べるという簡単な方
法で高速に入力画像の文字列を抽出することにより、書
式が未知の文書に対して、入力画像の角度補正等の多大
な計算処理を行うことなく認識対象文字を切り出し認識
を行うことが可能となる。
ロックとD画素の重複を含むM画素単位のブロックに区
切り、各ブロックを文字列方向に走査して文字部を形成
する画素のヒストグラムを求め、ヒストグラムから求め
た文字列部の開始アドレスと終了アドレスを用いて、各
ブロックの文字列部の連結状態を調べるという簡単な方
法で高速に入力画像の文字列を抽出することにより、書
式が未知の文書に対して、入力画像の角度補正等の多大
な計算処理を行うことなく認識対象文字を切り出し認識
を行うことが可能となる。
第1図は本発明における一実施例による文字認識装置の
構成図、第2図は入力画像及び入力画像のブロック分割
説明図、第3図はブロックにおける文字列部抽出方法の
説明図、第4図は各ブロックの文字列部の開始アドレス
と終了アドレスの抽出結果を示す説明図、第5図は文字
列の抽出結果を示す説明図、第6図は文字列から認識対
象文字を切り出す方法の説明図、第7図は文字認識方法
の説明図である。 1・・・・・・画像入力部、2・・・・・・画像メモリ
、3・・・・・・文字列方向設定部、4・・・・・・文
字列抽出部、5・・・・・・文字切り出し部、6・・・
・・・認識部、7・・・・・・辞書、8・・・・・・表
示部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 −B2→ 第3図 81 )(b ′77を面木 第4図 第5図 第6図 第7図 (幻尺 Csr Ce1
構成図、第2図は入力画像及び入力画像のブロック分割
説明図、第3図はブロックにおける文字列部抽出方法の
説明図、第4図は各ブロックの文字列部の開始アドレス
と終了アドレスの抽出結果を示す説明図、第5図は文字
列の抽出結果を示す説明図、第6図は文字列から認識対
象文字を切り出す方法の説明図、第7図は文字認識方法
の説明図である。 1・・・・・・画像入力部、2・・・・・・画像メモリ
、3・・・・・・文字列方向設定部、4・・・・・・文
字列抽出部、5・・・・・・文字切り出し部、6・・・
・・・認識部、7・・・・・・辞書、8・・・・・・表
示部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 −B2→ 第3図 81 )(b ′77を面木 第4図 第5図 第6図 第7図 (幻尺 Csr Ce1
Claims (1)
- 認識対象文字を含む画像を入力する画像入力部と、前記
画像入力部で入力された画像を、縦書き文書の場合は縦
、横書き文書の場合は横である文字列方向に、隣接する
ブロックとD画素の重複を含むM画素単位のブロックに
区切り、各ブロックを文字列方向に走査して文字部を形
成する画素のヒストグラムを求め、ヒストグラムの値が
N画素以上である文字列部の開始位置と終了位置を検出
し、各ブロック間の文字列部の連結状態を調べることに
より文字列を抽出する文字列抽出部と、文字列から認識
対象文字を切り出す文字切り出し部と、認識対象文字を
辞書と照合することにより認識候補文字を抽出する認識
部を有することを特徴とする文字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61062138A JPS62219087A (ja) | 1986-03-19 | 1986-03-19 | 文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61062138A JPS62219087A (ja) | 1986-03-19 | 1986-03-19 | 文字認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS62219087A true JPS62219087A (ja) | 1987-09-26 |
Family
ID=13191425
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61062138A Pending JPS62219087A (ja) | 1986-03-19 | 1986-03-19 | 文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62219087A (ja) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58146973A (ja) * | 1982-02-25 | 1983-09-01 | Ricoh Co Ltd | 文字行および文字の切出し方法 |
-
1986
- 1986-03-19 JP JP61062138A patent/JPS62219087A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58146973A (ja) * | 1982-02-25 | 1983-09-01 | Ricoh Co Ltd | 文字行および文字の切出し方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6640010B2 (en) | Word-to-word selection on images | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| JP2713622B2 (ja) | 表形式文書読取装置 | |
| JP3259993B2 (ja) | 語形測定方法及び画像信号処理方法 | |
| JPH05242292A (ja) | 分離方法 | |
| JPH05282495A (ja) | 比較方法 | |
| JPH0772905B2 (ja) | 記号列の認識方法 | |
| JPH01253077A (ja) | 文字列検出方法 | |
| JP2000067164A (ja) | パターン認識方法及び装置並びにテンプレート作成プログラムを記録した記録媒体 | |
| US5854860A (en) | Image filing apparatus having a character recognition function | |
| JPS62219087A (ja) | 文字認識装置 | |
| JPH0721817B2 (ja) | 文書画像処理方法 | |
| JP2661898B2 (ja) | 文字認識装置 | |
| JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
| JPH0797390B2 (ja) | 文字認識装置 | |
| JP2537973B2 (ja) | 文字認識装置 | |
| JP2000082110A (ja) | 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体 | |
| JPS61262984A (ja) | 文字認識装置 | |
| JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| JPH1166230A (ja) | 文書認識装置、文書認識方法及び媒体 | |
| JPS61235990A (ja) | 文字認識装置 | |
| JPH11250179A (ja) | 文字認識装置および文字認識方法 | |
| JP2963474B2 (ja) | 類似文字識別方法 | |
| JPH0714000A (ja) | 表認識装置 |