JPS63101983A - 文字列抽出方式 - Google Patents

文字列抽出方式

Info

Publication number
JPS63101983A
JPS63101983A JP61248024A JP24802486A JPS63101983A JP S63101983 A JPS63101983 A JP S63101983A JP 61248024 A JP61248024 A JP 61248024A JP 24802486 A JP24802486 A JP 24802486A JP S63101983 A JPS63101983 A JP S63101983A
Authority
JP
Japan
Prior art keywords
character string
character
width
partial
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61248024A
Other languages
English (en)
Inventor
Akira Inoue
彰 井上
Kiyoshi Iwata
清 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61248024A priority Critical patent/JPS63101983A/ja
Publication of JPS63101983A publication Critical patent/JPS63101983A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文字読取装置で読み取ったイメージデータの文字列抽出
方式であって、イメージデータの文字の最大高さまたは
最大行間幅を推定し、推定値に基いてデータ領域分割幅
を設定する分割幅設定手段を設けることにより、異なる
文字サイズが含まれている場合でも安定した文字列抽出
が可能となる。
〔卒業上の利用分野〕
本発明はドラムスキャナ、或いはファクシミリ等の画像
入力装置で読み取ったイメージデータの文字列抽出方式
に係り、特に異なる文字サイズが含まれている場合でも
安定した文字列抽出を行うことができる文字列抽出方式
の改良に関するものである。
文書画像から文字列を抽出する場合、個々の文書によっ
て書かれている文字サイズが大きく異なるものを対象と
した時は、抽出の精度にバラツキが生じるので、安定し
た文字抽出ができるように文字サイズに応じた処理精度
の設定方法が望まれている。
〔従来の技術と発明が解決しようとする問題点〕第5図
において、1は画像入力装置、2は画像メモリ、3aは
部分投影処理部+4aは文字列ボトム検出部、 5aは
文字列抽出部、6はアドレス制御部、7は制御部を示す
従って画像入力装置1で読み取った文書のイメージデー
タが2値化されて画像メモリ2に格納されると、部分投
影処理部3aによってミ文字行を予め決められた部分領
域に分割し、各部分領域に黒画素の文字列方向の投影処
理を行う。文字列ボトム検出部4aはその投影処理され
た部分領域毎の文字列を捉える。
そこで文字列抽出部5aは各部分領域で検出された文字
列のボトムを結ぶ線分の傾きに従って各部分領域の文字
列を抽出する。抽出された文字列は出力して、図示省略
した一文字切出し部へ送られて一文字の切り出しが行わ
れ、認識部へ送られて認識される。
以上説明したように従来方法によると、文字列抽出に個
々の文書画像の文字サイズが大幅に異なっていても、予
め決められた部分領域で分割しており、同一の精度の処
理が行われている。
このために個々の文書画像に対して最適な処理精度とな
っておらず、また用紙に対して文書の行が斜行している
時、或いは複写文書等で複写した行に曲がりがある場合
等、文字列の誤抽出が発生することが多いという問題点
がある。
〔問題点を解決するための手段〕
第1図は本発明の原理ブロック図である。
図において、3は部分投影処理手段、4は文字列ボトム
検出手段、5は文字列抽出手段、8は読み取られたイメ
ージデータの文字の最大高さ若しくは最大行間幅を推定
し、推定した最大高さ若しくは最大行間幅に基いて部分
領域分割幅を設定する分割幅設定手段である。
従って分割幅設定手段8によって設定された分割幅に応
じて部分投影処理手段3により部分領域に分割して投影
処理を行うように構成されている。
〔作用〕
文字列抽出の前処理として、分割幅設定手段8は読み取
られたイメージデータの行を部分的に投影処理し、その
文字の最大高さ若しくは最大行間幅を推定2例えばその
最大高さの度数分布から文書の文字の高さを推定して部
分領域分割幅を設定する。
部分投影処理手段3は設定された分割幅に応じて部分領
域に分割し、各部分領域に黒画素の文字列方向の投影処
理を行う。
投影処理の結果に基いて文字列ボトム検出手段4は文字
列を捉え、各部分領域で検出されたボトムから文字列抽
出手段5により文字列を抽出する。
このようにして分割幅設定手段8でその文書のイメージ
データの部分領域分割幅を設定するので、以後の処理精
度が決定され、安定した文字列抽出を行うことができる
〔実施例〕
以下本発明の一実施例を第2図〜第4図を参照して説明
する。企図を通じて同一符号は同一対象物を示す。第2
図で第1図に対応するものは1点鎖線で囲んで示してい
る。
第2図において、分割幅設定部8aは、第3図(a)及
び(′b)に示すように、読み取られたイメージデータ
の文字の高さの度数分布より、最大高さ若しくは最大行
間幅を推定し、推定した最大高さ若しくは最大行間幅に
基いて自動的に部分領域の分割幅Bを設定する機能を有
する。即ち、第3図(alは画像メモリ2の例えば左端
の一部分の投影処理を行って夫々の行の文字の高さの度
数分布を求め、これらの分布の投影幅’ l + W 
2 + ’−−−−−−−を、第3図(b)に示すよう
に度数分布に取り、この分布の幅のN倍を部分領域の分
割幅Bとする。
部分投影処理部3bは、分割幅設定部8aによって設定
された分割幅Bに従って文字行を部分領域に分割し、各
部分領域に黒画素の文字列方法の投影処理を行う機能を
有する。
また6aはアドレス制御部、 7aは制御部を示す。
このような構成及び機能を有するので、第4図のフロー
チャートにより作用を説明すると、0画像入力装置1で
読み取った文書のイメージデータが2値化されて画像メ
モリ2に格納される。
■分割幅設定部8aは文字列抽出の前処理として、画像
メモリ2に格納されたイメージデータの一部分に投影処
理を行い、その部分のイメージデータの文字の行毎の高
さの度数分布をとり、更に度数分布の投影幅の分布をと
って、その最大高さのN倍の部分領域の分割幅Bを設定
する。
■そこで第3図(C)に示すように、部分投影処理部3
bは文字行を設定された分割幅Bの部分領域に分割し、
第3図(d)に示すように、各部分領域に黒画素の文字
列方向の投影処理を行う。
■文字列ボトム検出部4aはその投影処理された部分領
域毎の文字列を捉える。
■そこで文字列抽出部5aは各部分領域で検出された文
字列のボトムを結ぶ線分の傾きに従って各部分領域の文
字列を抽出する。
■抽出された文字列は出力して、−文字切出し部へ送ら
れて一文字の切出しが行われて認識部で認識される。
このようにして、読み取ったイメージデータの文字高さ
等の分布から部分領域分割幅Bを設定して文字列を抽出
するので、文字サイズ、或いは文字の斜行や行の曲がり
に対応した処理精度で安定した文字列抽出を行うことが
できる。
〔発明の効果〕
以上説明したように本発明によれば、文書中の文字サイ
ズが異なる場合、或いは文字の斜行1行の曲がりがある
場合に対応して、文書のイメージデータの部分領域分割
幅を設定するので、以後の処理精度が決定され、安定し
た文字列抽出を行うことができるという効果がある。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明による実施例を示すブロック図、第3図
は第2図の説明図、 第4図は第2図のフローチャート、 第5図は従来例を示すブロック図である。 図において、 1は画像入力装置、   2は画像メモリ、3は部分投
影処理手段、3a、3bは部分投影処理部、4は文字列
ボトム検出手段、 4aは文字列ボトム検出部、 5は文字列抽出手段、 5aは文字列抽出部、6.6a
はアドレス制御部、7,7aは制御部、8は分割幅設定
手段、 8aは分割幅設定部を示す。 (α)卸示vJ投影汽理 (b) −1&影巾のか手

Claims (3)

    【特許請求の範囲】
  1. (1)媒体上に記された文字を読取手段によって読み取
    り、該読み取ったイメージデータを所定の部分領域に分
    割し、各部分領域に黒画素の文字列方向の投影処理を行
    う部分投影処理手段(3)と、該部分投影処理手段(3
    )によって投影処理された該部分領域の文字列を検出す
    る文字列ボトム検出手段(4)と、 文字列ボトム検出手段(4)により検出された文字ボト
    ムより文字列を抽出する文字列抽出手段(5)とから成
    り、文字列抽出手段(5)によって文字列を抽出した後
    文字切出しを行って文字認識を行う文字読取装置の文字
    列抽出方式であって、 前記読み取られたイメージデータの文字の最大高さ若し
    くは最大行間幅を推定し、該推定した最大高さ若しくは
    最大行間幅に基いて部分領域分割幅を設定する分割幅設
    定手段(8)を備え、該分割幅設定手段(8)に設定さ
    れた分割幅に応じて前記部分投影処理手段(3)によっ
    て部分領域に分割することを特徴とする文字列抽出方式
  2. (2)前記分割幅設定手段(8)は、前記イメージデー
    タの文字の高さ若しくは行間幅の度数分布より文字の最
    大高さ若しくは最大行間幅を推定することを特徴とする
    特許請求の範囲第1項に記載の文字列抽出方式。
  3. (3)前記分割幅設定手段(8)は、前記推定した最大
    高さ若しくは最大行間幅を整数倍した部分領域分割幅を
    設定することを特徴とする特許請求の範囲第1項に記載
    の文字列抽出方式。
JP61248024A 1986-10-17 1986-10-17 文字列抽出方式 Pending JPS63101983A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61248024A JPS63101983A (ja) 1986-10-17 1986-10-17 文字列抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61248024A JPS63101983A (ja) 1986-10-17 1986-10-17 文字列抽出方式

Publications (1)

Publication Number Publication Date
JPS63101983A true JPS63101983A (ja) 1988-05-06

Family

ID=17172068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61248024A Pending JPS63101983A (ja) 1986-10-17 1986-10-17 文字列抽出方式

Country Status (1)

Country Link
JP (1) JPS63101983A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH03142691A (ja) * 1989-10-30 1991-06-18 Fuji Facom Corp 表形式文書認識方式
US5093868A (en) * 1989-04-18 1992-03-03 Sharp Kabushiki Kaisha Method for determining lines of character images for use in an optical reader

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
US5093868A (en) * 1989-04-18 1992-03-03 Sharp Kabushiki Kaisha Method for determining lines of character images for use in an optical reader
JPH03142691A (ja) * 1989-10-30 1991-06-18 Fuji Facom Corp 表形式文書認識方式

Similar Documents

Publication Publication Date Title
US7054485B2 (en) Image processing method, apparatus and system
US5613016A (en) Area discrimination system for text image
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
JPH05233873A (ja) 領域分割方法
JP4323606B2 (ja) 文書画像傾き検出装置
US5923782A (en) System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings
US11430235B2 (en) Image processing apparatus, image processing method, and storage medium
JPS63101983A (ja) 文字列抽出方式
JPH0410087A (ja) 基本ライン抽出方法
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2009048499A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP3585143B2 (ja) 文字列抽出方法および装置
JP3000480B2 (ja) 文字領域区切り検出方法
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP3400154B2 (ja) 文書画像の領域抽出方法および装置
JP2859307B2 (ja) 文字切出し装置
JPH07111738B2 (ja) 文書中の領域境界抽出方式
JPH04154368A (ja) 文書画像の領域分割方式
JPH0528260A (ja) 輪郭ベクトル抽出方式
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JPH03250387A (ja) 文字切出し方式
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置
JPH0524555B2 (ja)
JP2005208979A (ja) 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置