JPS62165275A - 文書画像フアイル装置 - Google Patents

文書画像フアイル装置

Info

Publication number
JPS62165275A
JPS62165275A JP61006413A JP641386A JPS62165275A JP S62165275 A JPS62165275 A JP S62165275A JP 61006413 A JP61006413 A JP 61006413A JP 641386 A JP641386 A JP 641386A JP S62165275 A JPS62165275 A JP S62165275A
Authority
JP
Japan
Prior art keywords
line
character
character line
continuous
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61006413A
Other languages
English (en)
Inventor
Koji Fukuda
浩至 福田
Masatoshi Hino
樋野 匡利
Kuniaki Tabata
邦晃 田畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61006413A priority Critical patent/JPS62165275A/ja
Publication of JPS62165275A publication Critical patent/JPS62165275A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書画像ファイル装置に関する。
〔従来の技術〕
従来、文書画像中の桁長変換の処理方式に関して、例え
ば゛トランス・メディア・マシンの基本アルゴリズム”
:情報処理学会第29回(昭和59年後期)全国大会予
稿算のp、1611〜1612において、行および単語
を抽出することで単語の途中で改行が生じても対応でき
ると論じられている。この文献の中では、前処理として
段落の抽出、ハイフンの認識が必要であると示されてい
るが、段落の具体的な抽出方式lこついては述べられて
いない。
また、文字領域の分割についても”記事の形状に着目し
た英字新聞の領域分割“:情報処理学会第26回(昭和
58年前期)全国大会予稿集のp、885〜886にお
いて、文字列の揃い方などを利用して記事ごとに領域を
分割することが論じているが、段落の抽出に関する検討
はなされていない0 〔発明が解決しようとする問題点〕 上記の従来技術は、文書画像の文字領域を分類する際に
、段組の構成を定義し、それにあてはまるように文字行
の開始位置、終了位置を設定しているため、汎用性の点
で問題を残しており、また、黒画素の分布により開始位
置、終了位置を求めるようにしているため、データ量が
多くなり、多くのメモリ容量を必要としている。
本発明の目的は、一般の文書画像を対象として、その中
の文字領域より段落を抽出できる画像ファイル装置を提
供することにある。
〔問題点を解決するための手段〕
上記目的は、文書画像より文字領域を抽出し、その中か
ら抽出した複数の文字列を互いに連続する行群に統合す
ることにより段落の開始行、および終了行を抽出するこ
とで達成される。この場合、連続する行群とは、次の条
件を満足する行の集合を言う。
(1)互いに隣接しあっていること。
(11)文字行のピッチが等しいこと。
曲)文字のピッチが等しいこさ〇 従って複数の段落が一つの連続行群に存在し、連続行群
に含まれる文字列の開始位置は横書文書ならば左側に1
縦書書文書ならば上側に揃っている0 また、一般に段落の開始行では、同一の連続行群の中で
開始位置の前に一文字分程度の空白があり、段落の終了
行では、開始位置は他の行と揃っているが終了位置が他
の行と不揃いで空白が空くことが多い。
本発明ではこれらの特徴を利用して、一連の文字行より
連続行群を抽出して、連続行群内で段落の開始行・終了
行を求める。
〔作用〕
連続行群ごとに開始行、終了行を判定する閾値を設定で
きるので、文書中に複数の異なる文字ピッチが存在して
いても段落を抽出できる。
〔実施例〕
以下、本発明の一実施例を説明する。
第1図は本実施例のハード構成図を示す。入力画像は、
第2図の手順に従って、スキャナ、カメラなどの画像入
力装置5により取り込まれ、画像メモリ6に画像データ
として格納され、CPUI、メインメモリ2、画像処理
装置7により処理される。処理結果はファイル装置3に
格納したり、CRT4や、画像出力装置9に表示される
以下、第2図の処理フローについて説明する。
処理100:文書画像を画像入力装置5より画像メモリ
6に画像データとして入力する。
処理200:図形や写真等の混在する文書画像より文字
領域を抽出する。この処理には、文書画像のラン・レン
グスの特徴、黒連結の特徴、近接線密度の特徴など利用
する従来公知の手法を適用できる。
〔処理300):処理200で抽出された文字領域から
文字行を抽出する。この処理には、黒連結の特徴あるい
は周期性を利用した公知の手法、例えば“二次元フリエ
変換を用いた文字列抽出法の検討”、情報処理学会第2
2回(昭和56年前期)全国大会予稿集p、667〜6
68に記載の手法が適用できる。本実施例では、文字列
の表現として、文字列を構成する黒画素の外接矩形の対
角点座標を用いるものとする。
処理400:文字行の矩形より段落を抽出する。
以下、横書の場合について説明するが、考え方は縦書の
場合も同様である。
第3図は、段落抽出処理400の1実施例を示す詳細フ
ローであり、本実施例では、まず連続していると思われ
る行群を抽出して、行群内より文節を抽出する。
処理410:連続した行群を抽出するために、各行の矩
形に対して上側、下側に隣接している行を検索する。検
索した矩形の番号を示すラベルをUp rect 、 
Down r6ct  に記憶する。
処理420:第4図のように文字行が抽出されている場
合、処理410で上下の隣接矩形がUprect 、 
Down rectに記憶されているため、例えば、文
字行jの上側の隣接矩形は1、下側はkということが解
る。ここで、文字行から上側、下側の隣接している文字
行までの距離U p L e n g t h(UL 
) 、 Down Length (DL )を求メル
。図に示すように文字行の矩形の対角点座標は、(Xv
oz l yWax ) l (Xm1n l ymi
n )で表現されている。これより文字行間の距離UL
、DLは、次式で表現できる。
ULj = y、n、ni −y、n、、 j  −=
−(1)DLj=ymInJ−yInlnk  ・・・
・・・(2)各矩形についてUL、DLを求め第5図に
示す文字行テーブル50を作成する。
処理430:文字行と隣接した文字行が連続しているか
判定するラベルI、up 、 Ldownを設ける0ラ
ベルの値は第6図に示す如く連続していると推測される
場合”O“、不可能な場合“X”、どちらとも決定でき
ない場合“Δ”とする。文字列mに着目して、行矩形テ
ーブル50を参照しながら、上側、下側に隣接する行矩
形までの距離ULm 。
DLmと高さH(Up rectm ) 、 H(Do
wn rectm)を求める。ここで H(Up  rectm)==yI!l、、(Up r
ectm)−ymln (Uprect m ) H(Down rect m ) = y、、、 (D
own rect m)−yIllln(Down r
ectm)である。
これらを用いてラベリングをする方法を説明する。連続
している行群とは等しい行ピッチ、文字ピッチで隣接し
合っている行矩形の集合を示す0行ピッチは、行矩形間
の距離であり、文字ピッチは、行高さに比例するので、
以下の条件の下でラベル付けをする。
(1)文字ピッチの条件: 文字ピッチの比りを求め、その値が許容範囲内(1/α
くしくα、α〉1)であれば、類似しているとする。許
容範囲外ならば Lengthup(Up rectm)を無限大とする
。αは、許容範囲を示すパラメータであり、本実施例で
は2.0とした。
(11)行ピッチの条件: 行ピッチの比を求め、その値により初期ラベルを次の様
に設定する。
UL m / DL m (1/βのときLupm=”
Δ’、Ldown=”x”1/β<ULm/DLmくβ
のとき Lupm=”O’ 、Ldown=@O″β(UL/D
Lmのとき Lup m = 1x ” 、 Ldown = 1Δ
”尚、β〉1であり、本実施例では1.25を用いた0 第6図(a)は、上記のラベル付けをした後の状態を示
している。これかられかるように、一つの行間には上側
と下側の双方向からラベル付けされる。
処理440:第6図(−)から図(b)のようにラベル
を書き変え、1つの行間に対する双方向のラベルを等し
くして、内容が“0”の行間で隣接している矩形を統合
する。ラベルの書き変えのルールを第7図に示す。双方
向のラベルが“O”と°△”または°Δ”と1Δ”の場
合はΔ”→“0”に変換し、“Δ”と”X”、°o”と
“×”の場合は1△”→“ד、@○′→“×”にする
このルールに従って第6図(−)の文字行矩形を統合す
ると、図(b)の点線で囲まれたn、o、pの矩形が連
続行群として抽出される。
処理450:第8図(a)に連続行群の統合結果を示す
。図中、C1〜C11までの文字行が連続しており、全
速続行を含む最小矩形が破線の連続行群矩形であり、対
角点座標(Seq−min x’Seq−miny)l
(Sx、s    y)は、6q−ml!L!    
  eq−mlL!S、、−I、ll、nx=min(
x−,1nC1,x−[Lll、C2゜x−win C
3+ ”・+ Xwin” 1 )S、、、m1ny=
ntin (y−min” 、 y−minC21y−
,1nC3,・、 y−Win”)S eq−ma!x
=max(x−mIL3cC1、x−mlLxC2。
X−l11a工C31・・・’ X−maz C11)
S、、−1!la、y=max (y−、、ICI 、
 y−!1m、、C2゜y−、、、C3,−、y−m、
xCll)で表現できる。
これより同図(b)のように文節を抽出する。各文字行
が含まれている連続行群矩形から文字行開始位置までの
距離Dh、&d81を求める。文節の開始行では、1文
字分遅れて文字行が始まることに注目して、ある閾値h
1よりDh、adが大ならば、その行を文節の開始行候
補として定義する。本実施例では、 h1=0.5h 
(h :連続行群中の文字行高さの平均)とする。
処理460 : Dh、、、と同様にして文字行の終了
位置と、それを含む連続行群までの距離D t e r
 mを求める。Dterm が、ある閾値h2以上の場
合にはその文字行を終了行候補とする。
以上の開始、終了行候補を記憶するためのラベルS t
−h。adlS’−t。、を各行について設ける。
内容がTru+5(T)ならば開始行、終了行候補であ
ることを示し% Faxs。CF)ならばそうでないこ
とを示すことにする。
処理470:開始行候補と終了行候補より矛盾する組合
せを修正する。
(I)  ””−h*ad=TでありStイ。、、(U
p−、。。、)=Fの場合、5t−h□4をFlつまり
開始行候補を非開始行とみなす。
(fl)  S’−to、;TでありSt−、、、、(
down −rect)=F’の場合、S’−term
をF1ツまり終了行候補を非終了行とみなす。
m(+r)とも連続行群内の矩形同志の比較である。
しかし、(I)では連続行群内の最も下の矩形より評価
してゆ<、(li)では最も上の矩形より評価価してゆ
く。その開始行よりり。。−r。atをたどり終了行ま
で統合してゆく。これを全行矩形について処理すること
で節の抽出が可能である。
第9図に処理例を示す。(a)は原画像であり、(b)
は文字行を外接矩形で表示したもの、(C)は連続行群
の外接矩形を表示したもの、(d)は段落を外接矩形で
表示したものである。
〔発明の効果〕
本発明によれば、連続行群を抽出してから閾値を連続行
群単位に設定できるため、異なる文字ピッチの文字領域
を持った文書に対しても段落の抽出が可能である。また
、文字切出し処理と組合せることで、桁長変換が可能で
あり、使用するデータは、文字行抽出後、外接矩形の対
角点の座標のみであるので必要とするメモリの記憶容量
が少なくて済む。
【図面の簡単な説明】
第1図は本発明の1実施例を示すハード構成図、第2図
は処理フローチャート、第3図は段落抽出処理の詳細フ
ローチャート、第4図は文字行間のラベリングについて
の説明図、第5図は行矩形テーブルを示す図、第6図は
連続行群の抽出処理を説明するための図、第7図は連続
行群のラベルの更新テーブルを示す図、第8図は段落抽
出についての説明図、第9図は本発明による画像処理の
1例を示す図である。 1・・・CPU、2・・・メインメモリ、3・・・ファ
イル装置、4・・・CRT、5・・・画像入力装置、6
・・・画像メモリ、7・・・画像入力装置、8・・・キ
ーボード、9・・・画像出力装置、50・・・行矩形テ
ーブル、70・・・ラベル更新テーブル、80・・・連
続行群の外接矩形、81・・・文字行開始位置と連続行
群の外接矩形までの距離、82・・・文字行終了位置と
連続行群の外接矩形までの距離。 狛 2 凹 ■]D 鳩  4 閉 め  5 口 第      乙     看ろ i′ (o−)                     
         Cbノ冶  7  望 躬 3  巴 (b)

Claims (1)

    【特許請求の範囲】
  1. 画像を一時的に記憶するメモリと、画像メモリに画像を
    画像データとして入力する入力部と画像メモリ上の画像
    データを処理する画像処理部、文書画像データを蓄積す
    る画像ファイルからなる文書画像ファイル装置において
    、前記画像メモリに入力された文書画像の文字領域より
    文節を抽出する機能を設けたことを特徴とする文書画像
    ファイル装置。
JP61006413A 1986-01-17 1986-01-17 文書画像フアイル装置 Pending JPS62165275A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61006413A JPS62165275A (ja) 1986-01-17 1986-01-17 文書画像フアイル装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61006413A JPS62165275A (ja) 1986-01-17 1986-01-17 文書画像フアイル装置

Publications (1)

Publication Number Publication Date
JPS62165275A true JPS62165275A (ja) 1987-07-21

Family

ID=11637679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61006413A Pending JPS62165275A (ja) 1986-01-17 1986-01-17 文書画像フアイル装置

Country Status (1)

Country Link
JP (1) JPS62165275A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
JP2007307414A (ja) * 2002-02-14 2007-11-29 Otsuka Pharmaceut Factory Inc 薬剤の排出方法
JP2008033393A (ja) * 2006-07-26 2008-02-14 Hitachi Software Eng Co Ltd ダイジェスト作成装置、ダイジェスト作成方法、およびプログラム
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2019125353A (ja) * 2017-12-29 2019-07-25 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書中の文字列塊を推測する方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007307414A (ja) * 2002-02-14 2007-11-29 Otsuka Pharmaceut Factory Inc 薬剤の排出方法
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
JP4646300B2 (ja) * 2005-04-28 2011-03-09 キヤノンマーケティングジャパン株式会社 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体
JP2008033393A (ja) * 2006-07-26 2008-02-14 Hitachi Software Eng Co Ltd ダイジェスト作成装置、ダイジェスト作成方法、およびプログラム
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2019125353A (ja) * 2017-12-29 2019-07-25 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書中の文字列塊を推測する方法

Similar Documents

Publication Publication Date Title
JP4170441B2 (ja) 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US20110043869A1 (en) Information processing system, its method and program
JPH07114618A (ja) 手書き及びマシン印字テキストの区分化方法
JPH11250041A (ja) 文書処理装置および文書処理方法
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
JPH05500874A (ja) ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法
JPH10260993A (ja) 書類の走査画像からのタイトル、見出しおよび写真抽出
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
JPS62165275A (ja) 文書画像フアイル装置
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
US20020085755A1 (en) Method for region analysis of document image
CN115203474A (zh) 一种数据库自动分类提取技术
JPH11232439A (ja) 文書画像構造解析方法
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
Gupta et al. Table detection and metadata extraction in document images
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
CN113095239A (zh) 一种关键帧提取方法、终端及计算机可读存储介质
CN110889401A (zh) 一种基于opencv库的文本版面识别方法
JP2781150B2 (ja) 文字分割方法
JPS6154569A (ja) 文書画像処理方式
JPS62197881A (ja) 文書画像縦書・横書判定方式