JPS63157287A - 文字パタ−ン抽出方法 - Google Patents

文字パタ−ン抽出方法

Info

Publication number
JPS63157287A
JPS63157287A JP61305931A JP30593186A JPS63157287A JP S63157287 A JPS63157287 A JP S63157287A JP 61305931 A JP61305931 A JP 61305931A JP 30593186 A JP30593186 A JP 30593186A JP S63157287 A JPS63157287 A JP S63157287A
Authority
JP
Japan
Prior art keywords
run
runs
boundary
interpolation
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61305931A
Other languages
English (en)
Other versions
JP2558668B2 (ja
Inventor
Akira Sakurai
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61305931A priority Critical patent/JP2558668B2/ja
Publication of JPS63157287A publication Critical patent/JPS63157287A/ja
Application granted granted Critical
Publication of JP2558668B2 publication Critical patent/JP2558668B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [技術分野〕 本発明は、罫線などの長い線分と交差した文字のパター
ンを、線分と分離して抽出する方法に関する。
〔従来技術〕
ラインプリンタの出力帳票のように、罫線の印刷された
用紙に印刷された文書では、罫線に文字が交差してしま
うことがある。
このような文書を光学的文字!g識表装置読み取らせた
場合、罫線と文字とを分離できないため、正常な文字認
識は期待できない。
このような文書の文字認識を可能にするためには、文字
のパターンを罫線と分離して抽出する前処理を膚す必要
がある。しかし、このような分離抽出を適切に行う技術
は知られていない。
なお、パターンの分離抽出に関連する文献として、昭和
58年度電子通信学会総合全国大会予稿集、第5−30
1頁に掲載の論文[自山手書き論理回路図の認識」(安
居院猛、他2名)がある。
この論文に述べられている技術を文書画像に適用し、ま
とまった広さを持つ黒領域を文字部分として抽出させる
ことも考えられるが、文字と交差した罫線を適切に分離
することは無理である。
〔口 的〕
したがって、本発明の目的は1文字と罫線が交差したよ
うな文書から、良好な文字パターンを抽出するための文
字パターン抽出方法を提供することにある。
〔構 成〕
この目的を達成するために1本発明においては、文書の
2値画像の黒のランを抽出し、抽出したランをその長さ
によって類ランと長ランとに分類する。そして、特定の
連結条件を’a’a足して長ランと連結する類ランを境
界ランとし、接近した境界ラン相互の間を埋める補間ラ
ンを生成し、この補間ランおよび類ランを文字パターン
として抽出する。
〔実施例〕
以下図面を参照し1本発明の一実施例について詳細に説
明する。
第1図は、本発明の文字パターン抽出方法によって文字
パターンの抽出処理を行う装置の概略ブロック図である
。この図において、10は中央処理装置、12は抽出処
理プログラムやデータなどが格納されるメモリである。
14は図示しないスキャナによって読み取られた文書の
2値画像が書き込まれる画像メモリである。16は各部
を接続するためのバスである。抽出処理は、抽出処理プ
ログラムに従って中央処理装置10により実行される。
第2図および第3図は抽出処理の概略フローチャートで
あり、また第4図から第6図は抽出処理の説明図である
。以下、これらの図面を用い1本発明による文字パター
ン抽出処理を説明する。
ステップ1において1画像メモリ14内の2値画像のラ
スタースキャンが行われ、白から黒への変化点と黒から
白への変化点が順次検出され、黒のラン(黒画前述)が
抽出される。そして、抽出された各ランの始点と終点の
位置情報がメモリ12上のテーブル16に格納される。
第4図の18は抽出されたランであり、その始点(左端
)と終点(右端)のX方向(主走査方向、文字の水平方
向)の位置XS (i)とXF (i)、およびY方向
(垂直方向)の位[YP(i)がテーブル16に格納さ
れる。
このようなランの抽出が終わると、ステップ2において
、テーブル16から一つのランのXS(i)、XE (
i)が読み出される。そして、ステップ4において、そ
のランの長さく=XE (i)−XS (i))と閾値
LTHとの比較判定が行われる。二\で、閾値L T 
Hは文字幅の2倍程度に選ばれる。
ランの長さが閾値L T Hより大きい場合は長ラン(
罫線)であり、ステップ5に処理が進む。長さが閾値L
T)1以下のランは類ラン(文字部分のラン、またはノ
イズ)であり、ステップ8の処理に進む。ランの短長の
情報はテーブル16に格納される。
長ランの場合、ステップ5において、前(上)の走査線
に連結条件を満足するランがあるか調べられる。この連
結条件は、現在のランの始点位置をXS (i)、終点
位置をXE (i)、垂直位置をYP (i) 、前の
走査線のランを始点位置をXS (j) 、終点位置を
XE (j)、その垂直位置をYP(j)とし、 XS (i)≦XS (j)≦XE (i)または XS (i)≦XE (j)≦XE (i)であって、
かつ YP (j)−YP (i)≦1 の条件を満足するランを、連結したランと判定する。こ
のランが存在しない場合は、ステップ2に戻り次のラン
の処理に進む。
連結したランが存在する場合、ステップ6において、そ
の連結ランが類ランであるか調べられる。
連結ランが長ランの場合はステップ2に戻るが。
類ランの場合はステップ7において、その類ランを境界
ランとし、境界ランのラベルが付けられ(ラベルはテー
ブル16に格納される)、ステップ2に戻る。
現在のランが類ランの場合、ステップ8において前の走
査線に連結しているランがあるか調べられる。この連結
条件はステップ5と同じである。
連結ランがない場合、ステップ10において現在のラン
にラベルが付けられ、ステップ2に戻る。
連結条件を満足するランがあれば、ステップ9において
、その連結ランが類ランであるか調べられる。長ランの
場合はステップ7に進むが、短うンの場合は、ステップ
11において、その連結ランと同じラベルが現在のラン
に付けられステップ2に戻る。
第5図は、二Nまでの処理結果の一例を示している。こ
の図において5数字1と数字3はそれぞれ類ラン20に
付られたラベルであり、符号■。
■、■、■は境界ラン21につけられたラベルである。
22は長ランであり、ラベルは付けられない。
以上のような処理が最終ランまで終了すると、ステップ
3の判定条件が成立し、第3図に示すステップ12の処
理に進む。
ステップ12において、テーブル16を参照して同一ラ
ベルの付けられた領域が1つ選択され、その高さh(同
一ラベルの付けられたランの垂直位置の最大値と最小値
の差)が求められる。
ステップ14においては、その高さhと閾値HTHとの
比較判定が行われる。HTHは2に選ばれる。h<HT
Hの場合、現在の同一ラベル付きランの領域はノイズ(
罫線のエツジの凹凸)と判断されるので、ステップ15
においてラベルが削除され、ステップ12に戻る。h≧
HTHの場合、文字部分の領域と判断されてラベルは保
存され、ステップ12に戻る。
このような処理がすべてのラベルに関してなされろと、
ステップ13において終了判定が成立しステップ16の
処理に進む。
ステップ16において、ラベルを削除されずに残ってい
る境界ランが一つ取り出される。ステップ18において
は、この境界ランの近傍に一定の条件を満足する境界ラ
ン(ラベルが付いているもの)があるか調べられる。こ
の判定の条件は、現在の境界ランの始点位置をXS (
i) 、終点位置をXF (i) 、垂直位置をYP 
(i) 、近傍の境界ランの始点位置をXS (j)、
終点位置をXE(j)、垂直位置をYP (j)として
、XS (i)≦XS (j)≦XE (i)または XS (i)≦XE (j)≦XE (j)であって、
かつ IYP (j)−YP (i)l≦WTHである。
二Nで、WTHは線分(罫線)の幅に1を加えた程度の
値に選ばれる。
この判定条件を満足しない場合は、ステップ16に戻る
上記の判定条件を満足した場合、現在の境界ランと近傍
の境界ランとの間で文字が罫線により分断さ九ていると
判断される。この場合、ステップ19において、(XS
 (i)、YP (i+1))。
(XE (i)、YP (i+1))、(XS (j)
YP(j−1))、(XE (j)、YP (i−1)
)の4点で囲まれた領域を埋める補間ランが生成され、
現在の境界ランと同じラベルが、その近傍の境界ランと
補間ランに付けられ、ステップ20において、現在の境
界ラン、近傍の境界ランおよび補間ランは類ランに分類
が変更される。
ラベル付きの境界ランがなくなるとステップ17におい
て終了判定がなされ1文字パターンの抽出処理は終了す
る。
第5図に説明したような画像の最終的な処理結果を第6
図に示す。この図において、文字のパターンを構成する
類ランは同一のラベル1が付けられ、同一ラベルが付け
られた補間ラン(斜線部分)23により接続されている
。この同一のラベル1がつけられたランの集合が、一つ
の文字のパターンとして抽出される。また、第5図にお
いてラベル物または■がつけられた境界ランはラベルが
削除され、ノイズとして除去されている。
このように、この実施例によれば、′s線(その他の長
い線分)と交差した文字のパターンを、罫線から分前し
良好なパターンとして抽出することができる。
なお、この実施例の場合、一つの文字を構成するランに
は同一のラベルが付けられるので、その1、IJ出しが
容易である。
しかし文字部分のランへのラベル付けが必要でない場合
、境界ランのラベル付けを省き、境界ランのヒまたは下
に類ランが存在するか判定し、存在しない境界ランを除
去するように、処理を変(することができろ。
〔効 果〕
以上の説明から明らかなように1本発明によれば、罫線
などの長い線分と交差した文字のパターンを、罫線など
から分離し良好なパターンとして抽出することができる
ため、罫線などと交差した文字の認識も可能となる。
【図面の簡単な説明】
第1図は本発明を実施するための装置構成の一例を示す
概略ブロック図、第2図は文字パターン抽出処理の前半
を示すフローチャート、第3図は文字パターン抽出処理
の後半を示すフローチャート、第4図はラン抽出を説明
するための図、第5図は文字パターン抽出処理の途中結
果の一例を示す図、第6図は文字パターン抽出処理の結
果の一例を示す図である。 10・・・中央処理装置、  12・・・メモリ。 14・・・画像メモリ、  16・・・テーブル、20
・・・短ラン、  2°1・・・境界ラン、22・・・
長ラン、  23・・・補間ラン。 第1図

Claims (1)

    【特許請求の範囲】
  1. (1)文書の2値画像の黒のランを抽出し、抽出したラ
    ンをその長さによって短ランと長ランとに分類し、特定
    の連結条件を満足して長ランと連結する短ランを境界ラ
    ンとして、接近した境界ラン相互の間を埋める補間ラン
    を生成し、前記短ランおよび前記補間ランを文字パター
    ンとして抽出することを特徴とする文字パターン抽出方
    法。
JP61305931A 1986-12-20 1986-12-20 文字パタ−ン抽出方法 Expired - Lifetime JP2558668B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61305931A JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61305931A JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Publications (2)

Publication Number Publication Date
JPS63157287A true JPS63157287A (ja) 1988-06-30
JP2558668B2 JP2558668B2 (ja) 1996-11-27

Family

ID=17951020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61305931A Expired - Lifetime JP2558668B2 (ja) 1986-12-20 1986-12-20 文字パタ−ン抽出方法

Country Status (1)

Country Link
JP (1) JP2558668B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JP2007241397A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN115457038A (zh) * 2022-11-11 2022-12-09 北京鹰瞳科技发展股份有限公司 分级预测模型的训练方法、分级预测的方法及相关产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55162176A (en) * 1979-05-31 1980-12-17 Matsushita Electric Ind Co Ltd Picture extraction system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55162176A (en) * 1979-05-31 1980-12-17 Matsushita Electric Ind Co Ltd Picture extraction system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JP2007241397A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 画像処理装置及びプログラム
CN115457038A (zh) * 2022-11-11 2022-12-09 北京鹰瞳科技发展股份有限公司 分级预测模型的训练方法、分级预测的方法及相关产品
CN115457038B (zh) * 2022-11-11 2023-08-22 北京鹰瞳科技发展股份有限公司 分级预测模型的训练方法、分级预测的方法及相关产品

Also Published As

Publication number Publication date
JP2558668B2 (ja) 1996-11-27

Similar Documents

Publication Publication Date Title
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
CA2401065C (en) Document matching and annotation lifting
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
US20020051574A1 (en) Character recognition method, program and recording medium
Strouthopoulos et al. Identification of text-only areas in mixed-type documents
JPS63157287A (ja) 文字パタ−ン抽出方法
Normand et al. A background based adaptive page segmentation algorithm
JP4543675B2 (ja) 文字・図形の認識方法
JP3858559B2 (ja) 画像処理装置、画像処理方法及び記録媒体
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
Ye et al. Document image matching and annotation lifting
KR100259804B1 (ko) 도표형태의문서인식방법
JPH0452783A (ja) 図面読取装置
JP2789622B2 (ja) 文字/図形領域判定装置
JP4763113B2 (ja) 高速ラベリング方式
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JPH03142691A (ja) 表形式文書認識方式
JPH0728933A (ja) 文字認識装置
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JP2964980B2 (ja) 光学的文字認識における直線成分検出方法及び装置
JPH08171609A (ja) 文字列高速抽出装置
JP2002015323A (ja) 文書画像レイアウト識別方法および装置
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JPH0660220A (ja) 文書画像の領域抽出方法
JPH0271379A (ja) 画像処理装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term