JPS6227887A - 文字種分離方式 - Google Patents

文字種分離方式

Info

Publication number
JPS6227887A
JPS6227887A JP60168267A JP16826785A JPS6227887A JP S6227887 A JPS6227887 A JP S6227887A JP 60168267 A JP60168267 A JP 60168267A JP 16826785 A JP16826785 A JP 16826785A JP S6227887 A JPS6227887 A JP S6227887A
Authority
JP
Japan
Prior art keywords
character
distribution
pattern
area
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60168267A
Other languages
English (en)
Inventor
Michiaki Nakanishi
道明 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60168267A priority Critical patent/JPS6227887A/ja
Publication of JPS6227887A publication Critical patent/JPS6227887A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 2値化画像を複数のモザイク・パターンでスキャンし、
各モザイク・パターンに一致した部分図形の分布によっ
て、文字領域や図形領域等を見つけるようにしたもので
ある。
(産業上の利用分野〕 本発明は、ノンフォーマット帳票(斜めに並んだものを
除()から文字を切り出す際に、その並びの規則性と形
状モザイク・パターンによる画面統計処理により印刷部
分と手書き部分またその中での漢字比率や平仮名比率等
の把握によって識別効率を向上できるようにした文字種
分離方式に関する。
〔従来技術と問題点〕
従来の光学文字認識装置では、文字の用紙上の存在位置
と含まれる文字種を示すフォーマット定義があり、光学
文字認識装置はそれに従って画面から一文字を切り出し
、文字をその含まれている辞書の中から探す。或いは、
新聞紙面という前提を文字部(写真や図、見出しを除外
して)を切り出し認識するノンフォーマット技術が開発
されている。前者ではそのフォーマットに合わないもの
は読めず、後者でも複数の文字種(手書きと印字)が混
在したもの或いは数字のみかの区別はしていないので全
ての可能性を前提に識別しなければならず、事前設定が
繁雑か、識別が複雑かの選択になる。
〔発明の目的〕
本発明は、上記の考察に基づくものであって、画面中を
モザイク・パターンでテストし、用意されたサブパター
ンが当てはまるものの分布を調べると共に画面中のパタ
ーンの並びを列1桁の順に調べることにより、ノンフォ
ーマットの手書き。
印刷、漢字仮名混じり文等の文字種の識別を可能とする
方式を提供することを目的としている。
〔目的を達成するための手段〕
そしてそのため本発明の文字種分離方式は、紙面から光
電変換により文字パターンの2値化情報を取り込む手段
を備えた光学文字読取装置において、予め紙面のフォー
マットが定まっていない読取対象について図形エリアと
文字エリアの分割がなされた後、文字エリアについてそ
の並びの規則性の他に文字を構成する線分の分類統計に
より、手書き文字部分と印刷文字部分を分割する手段を
設け、その文字種に合った認識方式を適用することを可
能にすることを特徴としている。
〔発明の実施例〕
まず、本発明の概要について述べる。紙面より光電変換
によって2値化パターンとして取り込まれた画像につい
て第1図に示すようなモザイク・パターン(部分マスク
・パターン)に合致するものの数を領域対応にカウント
する。このとき、列方向1桁方向の並びについても同時
に検索し、対応モザイク・パターンの分布と合わせて一
文字単位の分離補助情報を得る。モザイク・パターンと
一致する部分図形の分布により文字エリアを分割し、文
字列の規則性に合わせて文字種を判定する。
なお、ここで言う文字種とは、漢字仮名混じり文のよう
な全混在のものから片仮名のみ或いは数字のみ或いは簡
単な漢字(小学校程度)と平仮名。
片仮名のものと言った範囲を示すものである。これによ
り、前取って紙面の何処にどういう文字種が存在するか
を指定しないで任意の文書を読むことが可能になり、単
にフォーマットの切り出しを行うだけでなくモザイク・
パターンと一致する部分図形の分布によってフィードバ
ックをかけ、より正確なエリア分割と一文字分離を可能
にする。
「ソ」、「ツ」、「ハ」、「す」、「ル」等の分離文字
を含む場合でも、手書きか印刷かの判定があることによ
り、その最適な処理が可能になる。
モザイク・パターンの他に第4図に示すようなスリット
を用いて直線9曲線を調べる方法もある。
第1図はモザイク・パターンの例を示すものである。第
1図(al、 (b)、 (C)は3×3のものであり
、第1図(d)、 (e)は5×5のものである。
第2図は2値化パターンをモザイク・パターンでスキャ
ンした時に得られる対応モザイク・パターンと一致する
部分図形の分布の例を示す図である。第2図(a)のよ
うな2値化パターンを第1図(a)。
(b)のモザイク・パターンでスキャンすると第2図(
blの分布が得られ、第2図(a)の2値化パターンを
カーブ形状を持つモザイク・パターンでスキャンすると
第2図(C)の分布が得られる。
第3図は分割エリアと判定文字種の例を示す図である。
第3図において、A1は日本語文の印刷部分、A2は日
本語文の手書き部分をそれぞれ示している。日本語文の
印刷部分には、漢字を含むので、縦線分及び横線分が数
多(分布しており、その分布の横方向の投影をとると、
行間に対応する値の小さい部分が等間隔に現れ、その分
布の縦方向の投影をとると、文字間に対応する値の小さ
い部分が等間隔に現れる。日本語文の手書き部分にも縦
線分及び横線分が数多く分布しており、その分布の横方
向の投影をとると、行間に対応する値の小さい部分が等
間隔に現れるが、その分布の縦方向の投影をとると、そ
の投影図における値の分布は略ぼ一様になる。
第5図は本発明を実施するためのハードウェア構成の1
例を示す図である。第5図において、1はマイクロプロ
セッサ、2はスキャナ、3はメモリ、4は分布チェック
・メモリ、5は専用処理装置、6は光ディスクをそれぞ
れ示している。スキャナ2によって用紙上の画像は読み
取られ、読み取られた画像はメモリ3に格納される。メ
モリ3に格納されている多値画像の内、写真と思われる
部分を除き他の部分は2値化画像に変換される。
2値化画像は分布チェック・メモリ4に移される。
専用処理装置5は、分布チェック・メモリ4の2値化画
像をモザイク・パターンでスキャンし、モザイク・パタ
ーンと一致する部分図形の分布を求める処理を行うため
のものである。モザイク・パターンと一致するものの分
布及び縦横の投影図の状態によって、2値化画像の何れ
の部分が印刷文字の部分か、手書き文字の部分か、ベク
トル北回の部分か、2値イメージで記憶する部分かを調
べる。そして、印刷文字の部分については、それに適合
した文字認識方式を適用して文字認識を行い、その結果
を光ディスク6に格納する0手書き文字の部分について
も同様な処理を行う、光ディスク6には、多値のイメー
ジ・データ、2値のイメージ・データ、コード化された
文字認識結果、ベクトル情報等が格納される。
第6図は本発明の実施例による処理の流れを示す図であ
る。
■ 用紙上からの光信号を多値の電気信号に変換する。
■ 多値画像をメモリに格納する。
■ 多値画像の濃淡分布を調べ、2値化できる領域と、
2値化できない領域(各レベルが一様に分布している領
域)を見つける。
■ 2値化できる領域について、2値化後にモザイク・
パターンでその分布を調べる。
■ 分布状態に基づいて、文字が書かれている領域、ベ
クトル北回の領域を見つける。文字が書かれている領域
における並びの規則性を調べ、印刷文字の部分か手書き
文字の部分かを調べる。連続している直線がある領域(
例えば棒グラフの書かれている領域)については直線を
ベクトルで表現出来る。残りの領域については2値イメ
ージで記憶する部分とする。
■ 印刷文字の部分及び手書き文字の部分については文
字認識を行い、文字認識の結果を光ディスクに格納し、
ベクトル北回の部分についてはベクトル化処理を行って
その結果を光ディスクに格納し、多値イメージの部分(
2値化出来ない部分)については多値イメージのままで
光ディスクに格納し、2値イメージの部分も2値イメー
ジのままで格納する。
〔発明の効果〕
ノンフォーマットからの一文字切り出しだけでは識別段
階で手書きか、印刷か、漢字を含むか。
アラビヤ数字だけかの前提がなく、全てを含んだ形で処
理することになり、−文字単位にその複雑度や丸み等で
対象を絞り込むこととなるが、本発明によれば、一つの
傾向を持つゾーン単位に判定を行うことにより、処理の
効率化と正確さく全体を眺めることによる)を確保する
ことが出来る。
【図面の簡単な説明】
第1図はモザイク・パターンの例を示す図、第2図は2
値化パターンをモザイク・パターンでスキャンした時に
得られる対応モザイク・パターンと一致するものの分布
の例を示す図、第3図は分割エリアと判定文字種の例を
示す図、第4図はスリットの例を示す図、第5図は本発
明を実施するためのハードウェア構成の1例を示す図、
第6図は本発明の実施例による処理の流れを示す図であ
る。 l・・・マイクロプロセッサ、2・・・スキャナ、3・
・・メモリ、4・・・分布チェック・メモリ、5・・・
専用処理装置、6・・・光ディスク。

Claims (1)

    【特許請求の範囲】
  1. 紙面から光電変換により文字パターンの2値化情報を取
    り込む手段を備えた光学文字読取装置において、予め紙
    面のフォーマットが定まっていない読取対象について図
    形エリアと文字エリアの分割がなされた後、文字エリア
    についてその並びの規則性の他に文字を構成する線分の
    分類統計により、手書き文字部分と印刷文字部分を分割
    する手段を設け、その文字種に合った認識方式を適用す
    ることを可能にすることを特徴とする文字種分離方式。
JP60168267A 1985-07-30 1985-07-30 文字種分離方式 Pending JPS6227887A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60168267A JPS6227887A (ja) 1985-07-30 1985-07-30 文字種分離方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60168267A JPS6227887A (ja) 1985-07-30 1985-07-30 文字種分離方式

Publications (1)

Publication Number Publication Date
JPS6227887A true JPS6227887A (ja) 1987-02-05

Family

ID=15864845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60168267A Pending JPS6227887A (ja) 1985-07-30 1985-07-30 文字種分離方式

Country Status (1)

Country Link
JP (1) JPS6227887A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01113887A (ja) * 1987-10-28 1989-05-02 Agency Of Ind Science & Technol 文字切り出し及び認識方式
JPH01118026U (ja) * 1988-01-30 1989-08-09
JPH07114618A (ja) * 1990-12-13 1995-05-02 Xerox Corp 手書き及びマシン印字テキストの区分化方法
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01113887A (ja) * 1987-10-28 1989-05-02 Agency Of Ind Science & Technol 文字切り出し及び認識方式
JPH01118026U (ja) * 1988-01-30 1989-08-09
JPH07114618A (ja) * 1990-12-13 1995-05-02 Xerox Corp 手書き及びマシン印字テキストの区分化方法
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体

Similar Documents

Publication Publication Date Title
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
Aradhye A generic method for determining up/down orientation of text in roman and non-roman scripts
Namboodiri et al. Document structure and layout analysis
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
JP2627928B2 (ja) 画像認識装置
JP3018949B2 (ja) 文字読取装置およびその方法
IL98293A (en) A method for distinguishing between text and graphics
JPS6227887A (ja) 文字種分離方式
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP6310155B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP2861860B2 (ja) 宛名行抽出装置
JPH02116987A (ja) 文字認識装置
Lehal et al. A complete OCR system for Gurmukhi script
Okun et al. Robust text detection from binarized document images
JPS6254380A (ja) 文字認識装置
JP3100825B2 (ja) 線認識方法
JPH02230484A (ja) 文字認識装置
JP2813600B2 (ja) 表形式文書読取装置
JPH04139593A (ja) 郵便番号認識装置
JPH08297718A (ja) 文字切り出し装置及び文字認識装置
JP2943682B2 (ja) 印刷行検出装置及び印刷行検出方法
JPH05282487A (ja) 文字認識装置
JPH11134439A (ja) 単語認識方法
Reddy et al. An edge-based text region extraction from document images using connected component analysis