JPS61235990A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS61235990A
JPS61235990A JP60077633A JP7763385A JPS61235990A JP S61235990 A JPS61235990 A JP S61235990A JP 60077633 A JP60077633 A JP 60077633A JP 7763385 A JP7763385 A JP 7763385A JP S61235990 A JPS61235990 A JP S61235990A
Authority
JP
Japan
Prior art keywords
character
recognition
section
histogram
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60077633A
Other languages
English (en)
Other versions
JPH0578068B2 (ja
Inventor
Mariko Takenouchi
磨理子 竹之内
Masahiro Shimizu
正博 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60077633A priority Critical patent/JPS61235990A/ja
Publication of JPS61235990A publication Critical patent/JPS61235990A/ja
Publication of JPH0578068B2 publication Critical patent/JPH0578068B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、新聞・雑誌等の活字および手書き文字を認識
し、たとえばJISコード等の情報量に変換する文字認
識装置に関するものである。
従来の技術 従来の文字認識装置では、縦書き・横書きおよび行間隔
・文字間隔等の書式が明確な文書、つまり読み取る文字
の用紙上の絶対的な位置があらかじめ判明している文書
を対象に文字認識を行ってきた。こあことは、文字認識
装置が対象とする文書に制限を与えており、この問題を
解決するために、入力画像の2次元フーリエ変換を用い
て行間を検出して縦書き・横書き等の行方向を抽出し、
書式が未知の文書に対しても、文章の意味が理解できる
ように認識候補文字の順序を決定する方法がとられてい
た。(例えば、長谷・星野“印刷文字列の周期的特徴”
信学論(D) 、 J as −D 、 2゜PP、2
98〜299) 発明が解決しようとする問題点 しかしながら、入力画像の2次元フーリエ変換により入
力文書の行方向を検出する従来の技術では、2次フーリ
エ変換という多大な計算量を必要とする方歩を用いてい
るために処理に時間がかかる。
本発明はかかる点に鑑みてなされたものであり、簡易な
方法で入力画像の行方向を検出し、書式が未知の文書に
対しても、文章の意味が理解できるように認識候補文字
を編集することができる文字認識装置を提供することを
目的としている。
問題点を解決するだめの手段 本発明は前記問題点を解決するため、入力画像を縦方向
・横方向に走査して文字部を形成する画素のヒストグラ
ムを求め、ヒストグラムから求めた縦方向・横方向それ
ぞれの文字間隔長の平均値を比較することにより、簡易
に文書の行方向を抽出し、認識候補文字を編集するもの
である。
作  用 本発明は前記した技術的手段により、書式が未知の文書
に対して、高速に行方向を抽出して認識候補文字を文章
の意味が理解できるように編集することが可能となる。
実施例 以下、本発明の実施例について図面を参照しながら説明
する。
第1図は、本発明による文字認識装置の一実施例の構成
図である。1は画像入力部であり、認識対象文字を含む
画像を走査し2値信号で画像を入力し画像メモリ2に格
納する。3は行方向判定部であり、画像メモリ2を走査
して入力画像の縦書き・横書き判定を行い、同時に行ア
ドレスを検出する。4は文字切り出し部であり、行方向
判定部3で検出した行方向及び行アドレスを用いて画像
メモリ2を行単位で一走査し、行単位の画像の射影を用
いて1字ずつ認識対象文字画像を切り出し、各文字の入
力画像上の文字アドレスを検出する。
5は認識部であり、文字切り出し部4で切り出した認識
対象文字のストローク等の特微量を求め、あらかじめ辞
書6に登録されている文字の特微量と照合し、最も似た
文字を認識候補文字とする。
7は編集部であり、行方向判定部3で求めた行方向と行
アドレス及び文字切り出し部4で求めた文字アドレスを
用いて、認識部5で抽出した認識候補文字を文章の意味
が理解できる順序に編集し、文章メモリ8に文字コード
で格納する。
以上のように構成された文字認識装置について、第2図
に示す入力画像Pを例に説明する。
画像入力部1から入力された画像Pは文字部1、白部0
の2値データで画像メモリ2に蓄えられる。
まず行方向判定部3で画像メモリ2に蓄えられている入
力画像Pを走査して、入力画像全体における文字部を形
成する画素の縦方向ヒストグラムHvと横方向ヒストグ
ラムHhを求めると第2図に示す様になる。文字部と文
字間部を分けるために、ヒストグラムHvとHhそれぞ
れに対してヒストグラムの値が0画素以下である文字間
部分と0画素より太い画素数の文字部分に分け、各部分
の先頭アドレスを求める。第2図中の’s1・7g2・
・・・・・y□・・・・・・及び”81・”s2・・・
”” ” s i ・・・・・・は文字部分の先頭アド
レスであり、yol・ye2・・・・・・yoi及び!
。1・”e2・・・・・・xl・−・・・・は文字間部
分の先頭アドレスである。このアドレスから縦方向の文
字間隔長(y□+1 7ei)の平均値(ysi+1−
y、i)と横方向の文字間隔長(”gt+1”ei)の
平均値(”si+1  ”ei)とを比較すると縦方向
の値が横方向の値に対して犬となり、入力画像Pの行方
向は横書きであることがわかる。さらに入力画像Pの行
方向が横書きと決定したことから、ヒストグラムHvの
文字部分及び文字間部分の先頭アドレスys1・’a1
・・・・・・ysi・y□・・・・・・は入力画像Pの
行アドレスになる。
次に文字切り出し部4では、行アドレスを用いて画像メ
モリ2から第3図に示す行画像りを抽出する。抽出した
行画像りを射影してヒストグラムH1を求めると第3図
に示す様になる。ヒストグムH1から1字イ字の横方向
のアドレス(zEll +za1) ””” (zsi
 +zei) ”””を求め、認識対象文字画像を1字
ずつ切り出し、さらに、行アドレスと組合せて文字アド
レスを決定する。
認識部6には切り出された認識対象文字の矩形Rが順次
入力される。第4図aに切り出された認識対象文字「松
」を示す。切り出した「松」の各画素について、第4図
すの矢印が示す方向に着目画素を含んでM個以上(Mは
あらかじめ設定)連っているか否かを調べ方向コードを
設定する。方向コード毎に各画素の連結性を調べてスト
ロークを抽出し、ストロークの数・位置・長さ等の特徴
量を抽出する。第4図aに認識対象文字「松」のストロ
ーク抽出結果を示す。抽出した特徴量を辞書6に登録さ
れている文字の特徴量と照合し、最も似た文字「松」を
認識候補文字とする。
認識部6から願文抽出される入力画像Pから切り出され
た認識対象文字の認識候補文字は、入力画像Pが横書き
であること及びそれぞれの文字アドレスから、編集部7
で「松」「下」「電」「器」・・・・・・と横方向に左
上から右下へ文字をならべて、文章の意味が理解できる
ように編集され文章メモリ8に文字コードで蓄えられる
以上のように構成された文字認識装置では、簡易な方法
で求めた行方向及び行アドレスを用いて、認識対象文字
の切り出し、さらに認識候補文字の編集を行うことによ
り、文章の意味が理解できる文字列を作成することがで
きる。さらに、文章メモリを文書処理装置等に接続する
ことにより、新たな文書編集が可能となる。
尚、行方向判定を行う際のヒストグラムを、本実施例で
は入力画像全体について求めたが、行の傾き等に対処す
るために、入力画像をブロックに分割してブロック毎の
ヒストグラムを求めることにより、行方向を決定するこ
とができる。
発明の効果 本発明によれば、入力画像を縦方向・横方向に走査して
文字部を形成する画素のヒストグラムを求め、ヒストグ
ラムから求めた縦方向・横方向の文字間隔長の平均値を
比較するという簡易な方法で高速に入力画像の行方向を
抽出することにより、書式が未知の文書に対して文書の
意味が理解できるように認識候補文字を編集することが
可能となる。
【図面の簡単な説明】
第1図は本発明における一実施例による文字認識装置の
構成図、第2図は入力画像及び入力画像の行方向と行ア
ドレスの判定方法の説明図、第3図は入力画像内の認識
対象文字切り出し方法の説明図、第4図は文字認識方法
の説明図である。 1・・・・・・画像入力部、2・・・・・・画像メモリ
、3・・・・・・行方向判定部、4・・・・・・文字切
り出し部、6・・・・・・認識部、6・・・・・・辞書
、7・・・・・・編集部、8・・・・・・文章メモリ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 P 第3図       L tet  tez            ke第4図

Claims (1)

    【特許請求の範囲】
  1. 認識対象文字を含む画像を入力する画像入力部と、前記
    画像入力部で入力された画像を縦方向・横方向に走査し
    て文字部を形成する画素のヒストグラムを求め、このヒ
    ストグラムの値がN画素以下である文字間隔の連続する
    走査線の数で定義される文字間隔長の平均値を縦方向と
    横方向で比較することにより縦書き・横書きを判定する
    行方向判定部と、入力画像から認識対象文字を切り出す
    文字切り出し部と、前記認識対象文字を辞書と照合する
    ことにより認識候補文字を抽出する認識部と、前記認識
    候補文字群を編集する編集部を有することを特徴とする
    文字認識装置。
JP60077633A 1985-04-12 1985-04-12 文字認識装置 Granted JPS61235990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60077633A JPS61235990A (ja) 1985-04-12 1985-04-12 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60077633A JPS61235990A (ja) 1985-04-12 1985-04-12 文字認識装置

Publications (2)

Publication Number Publication Date
JPS61235990A true JPS61235990A (ja) 1986-10-21
JPH0578068B2 JPH0578068B2 (ja) 1993-10-28

Family

ID=13639301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60077633A Granted JPS61235990A (ja) 1985-04-12 1985-04-12 文字認識装置

Country Status (1)

Country Link
JP (1) JPS61235990A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0541299A2 (en) * 1991-11-04 1993-05-12 Canon Kabushiki Kaisha Apparatus and method for optical character recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0541299A2 (en) * 1991-11-04 1993-05-12 Canon Kabushiki Kaisha Apparatus and method for optical character recognition
EP0854435A2 (en) * 1991-11-04 1998-07-22 Canon Kabushiki Kaisha Apparatus and method for optical character recognition
EP0854435A3 (en) * 1991-11-04 1998-12-09 Canon Kabushiki Kaisha Apparatus and method for optical character recognition

Also Published As

Publication number Publication date
JPH0578068B2 (ja) 1993-10-28

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP2713622B2 (ja) 表形式文書読取装置
JPH01253077A (ja) 文字列検出方法
JPS63158678A (ja) 単語間スペ−ス検出方法
US5854860A (en) Image filing apparatus having a character recognition function
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JPS61235990A (ja) 文字認識装置
JPH0797390B2 (ja) 文字認識装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2939985B2 (ja) 画像処理装置
JPH0991371A (ja) 文字表示装置
JPH0548510B2 (ja)
JPH0564396B2 (ja)
JP2537973B2 (ja) 文字認識装置
JPS62121589A (ja) 文字切出し方法
JPS6227887A (ja) 文字種分離方式
JPS63129484A (ja) 文字認識装置
JPS63101983A (ja) 文字列抽出方式
JPS6343788B2 (ja)
JP2746345B2 (ja) 文字認識の後処理方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
CN117649670A (zh) 文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质
JPS61262984A (ja) 文字認識装置
JPH04119487A (ja) 文字認識装置