JPS63293687A - 文書画像の領域分割及び識別方式 - Google Patents

文書画像の領域分割及び識別方式

Info

Publication number
JPS63293687A
JPS63293687A JP62130869A JP13086987A JPS63293687A JP S63293687 A JPS63293687 A JP S63293687A JP 62130869 A JP62130869 A JP 62130869A JP 13086987 A JP13086987 A JP 13086987A JP S63293687 A JPS63293687 A JP S63293687A
Authority
JP
Japan
Prior art keywords
area
category
region
image
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62130869A
Other languages
English (en)
Inventor
Jiichi Igarashi
五十嵐 治一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62130869A priority Critical patent/JPS63293687A/ja
Publication of JPS63293687A publication Critical patent/JPS63293687A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Storing Facsimile Image Data (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 且翌公互 本発明は、文書画像の領域の分割と認識に関する。
従】0月1 文書画像を“理解する″(「その文書画像に関する構造
上・意味上の、いかなる質問にも答えられるだけの情報
を獲得する」)ためには、その文書の構造(「本文、標
題、図、表などの構成」)を理解することがまず第一歩
である。また、本出願人が提案した文書画像理解システ
ムにおいては、抽象化された。いわゆる上位レベルでの
画像処理操作を定義して、より高度な画像処理操作の表
現を可能とすることが要求される。これらの観点から、
領域分割(識別)操作は非常に重要な画像処理操作の一
つであるといえる。
以下、従来の領域分割についてまとめると(ただし、書
式定義との照合方式のシステムは除く)、前出、松浦、
南部(三菱):“手書き文書の構造解析″電子通信学会
総合全国大会(昭和61年)1.517では、横長の小
矩形領域の濃度特徴を用いて、文字行、ブロックを合成
している。樋野、幅用、田畑(日立):“マルチメディ
ア処理によるオフィスワークスティジョン(その2)−
文書構造の分離抽出方式−″情報処理学会全国大会(昭
和61年前期)3に−2,及び、岩城、本田。
荒川(NTT): “機能分散形文書認識システム″P
RU86−32では、黒連結成分の外接矩形の隣接状態
から文字行を抽出してゆく。また、罫線と空白部分を利
用しておおよその分割を行い、周辺分布の周期性、線密
度などの特徴を基に領域の識別を行う方式が秋田、蔵出
、増田(NTT):パ書式未知文書の自動読み取りPR
U86−33で示されている。これらの方式では、次の
3つの特徴量が領域のカテゴリーを識別するために用い
られている: (1)周辺分布特徴・・・黒画素の位置的な広がりと周
期性を表す。
(2)線密度特徴・・・・・・図形的な複雑さを表す(
3)外接矩形特徴・・・個々の要素の大きさを表すしか
し、こうした特徴量をどう利用するかという知識は、処
理手続きとしてプログラム中に組み込まれてしまってお
り、処理方式の変更・追加に柔軟に対応出来ないという
欠点がある。
これに対し、AI技法であるプロダクションルールで処
理手続きを表現したシステムも提案されている岩城、久
保田、遠域、荒川(NTT):“文字・図形分離処理に
おけるプロダクションシステムの導入の一検討”PRL
83−63.そこでは、一つの特徴量を計算する度に、
一連のルールセットが起動し、その結果がブラックボー
ドに書き込まれていくという方式を採っている。しがし
、このシステムでも分割処理方法、領域識別方法の大枠
が固定されてしまっている。
マルチメディアデータを処理するには、文書画像理解に
よりメディア分離をシステムが自動的に行なわれること
が望ましい、入力した文書画像を領域に分割し、そのカ
テゴリーを識別することは、文書画像の構造を理解する
上で重要である0本出願人は、この領域分割・識別を正
確かつ高速に行な、う方式について提案したが、その方
式は、イメージピラミッドからの°白領域抽出による大
局的構造の把握、分割処理と識別処理とを分離した柔軟
な判定方式、特徴量に対する確信度の導入とその合成方
法の工夫にある。而して、前記確信度の合成方法におい
て、−次多項式(重みつき平均をとる)による方式(方
式1)とDempster−Shaferの基本確率の
結合側による方式(方式2)とがあるが、前記方式1に
より確信度を計算した場合、カテゴリーαに対してそれ
ぞれ確信度f(α)が得られる。この時、最終判定結果
として(f(α))(α=1.・・・・・・m)のうち
で最大値を与えるガテゴリーαを選択するのが普通であ
った。しかし、領域識別の判定に不確定な要素が強い場
合、例えば、文字列と表などのように複数のカテゴリー
に属する画像が1つの領域に混存している時には、領域
分割、識別の精度が悪かった。
目     的 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、重みつき平均をとる確信度合成方式を用いる文書
画像の領域分割、識別方式において、領域識別の最終判
定結果がどの程度確定的なものであるかを表す尺度を提
供することを目的としてなされたものである。
構   成 本発明は、上記目的を達成するために、イメージピラミ
ッドを利用した大域分割を行い、各領域から複数個の特
徴量を抽出し、各特徴量に割当てられた確信度を合成す
ることにより、その領域のカテゴリーを識別する文書画
像の領域分割及び識別方式において、前記各特徴量の値
により対象領域が各カテゴリーに属することの確からし
さを確信度で表わし、その確信度を各特徴量について重
みつき平均をとることにより各カテゴリーに対する確信
度とする場合に、領域識別の最終判定結果がどの程度確
定的なものであるかの確定度を算出し、その算出値があ
る値以下である時に詳細解析を行うことを特徴としたも
のである。以下、本発明の実施例に基づいて説明する。
本発明による文書画像の領域分割及び識別方式は、次の
2つの特徴を持つ: (1)イメージピラミッドを利用した大局的な情報によ
る領域分割。
(2)特徴量の抽出処理と領域識別処理との完全分離。
特に、(2)では、領域のカテゴリーの判定に確信度を
持込み、重み付き平均や、 Dempstar−3ha
fer理論に基づく計算方式を採用し最終的な判定を下
している。また、確実な判定ができなかったときのバッ
クトラックや重みの変更などの詳細解析手段も持たせる
ことができる。
第1図は、本発明の全体の処理フローを説明するための
図、第2図は、イメージピラミッドを説明するための図
、第3図は、変換ルールを説明するための図で5図中、
1は原画像であり、文字行、表1図、写真などが混在し
た文書画像を対象としている。これをスキャナーから入
力(2)し、スキュー補正などの前処理を行なう(3)
、大功画像は0(白)と1(黒)の2値データの集まり
と表現される。このデータからイメージピラミッドを作
成する(4)、イメージピラミッドとは一種のスケール
変換であり、第2図に示すように、画像を遠くから見る
ことすなわちPlからP2を見、P2゜からP3を見る
こと(組視化)に対応する。
これにより、1ペ一ジ全体の画像の構造が把握しやすく
なる。第3図は、イメージピラミッドにおけるルール変
換を説明するための図で1図示のように、隣接する4つ
の画素を見て(第3図(a))、ある条件を満たす場合
に、4つの画素を黒1に置換し、この4つの黒(又は白
)画素分を新たに一つの黒画素とみなす(第3図(b)
)、本例では、4つのうちどれか1つが黒であれば黒に
変換することにしている。このようなイメージピラミッ
ドを使って原画像から矩形の白領域(空白部分)を抽出
する(5)。上記の作成方法から、上の層で白画素であ
る部分はそれ以下のすべての層で、対応する領域は完全
に白領域である(黒画素を含まない)ことが言える0本
例では、最上層からあるレベルの層までを使い、上の層
から順に白い矩形領域を抽出していく方法をとっている
。白領域が抽出された画像は、いくつかの領域(内部に
黒画素を含んでいる)に分割されるが、この領域の境界
を抽出する(6)、白領域を抽出するために。
どのレベルの層までを使用するかによりイメージピラミ
ッドの層の数と同じ数の領域分割の仕方がある。ある条
件により最初にどの分割された層(以下1分割層と称す
)に対して領域識別(カテゴリーに分類すること)を行
うかを決定する0本例では、ある値以上の大きさをもっ
た領域が一定数以上である分割層のうちで、最も下の層
を使った分割層を最初に解析することとしている。こう
して最初に処理すべき分割層が決定されると、その層内
の各領域に対応する原画像領域を切り出し、切り出され
た各領域に対していくつかの特徴量を計算する(7)0
本例では、下記の12種類の特徴量を計算している。
特徴量・・・領域(本文、標題、表9図、罫線・外枠。
その他)を識別するために以下に示゛す12個の画像特
徴を利用する。
1、黒連結成分の外接矩形のサイズ分布: [サイズ;
矩形の対角線の長さコ ・最大値 ・平均値 ・変異率(%)・・・(標準偏差/平均値) X 10
0・面積比が最大のサイズ・・・矩形のサイズごとに面
積を加算した 結果、最大の面積 割合を持つサイズ 値。
・文字密度(%)・・・あるサイズ(1〜70に設定し
である)の黒連結を文字と みなしたときの面積比。
2、黒画素の周辺分布 ・文字行間スペースによる周期性の存在・コラムの存在
・・・縦方向または横方向の字揃え 3、直線の存在 ・水平直線の本数 ・垂直直線の本数 4、フレーム(枠)の存在 5、平均線密度・・・X、Y軸の各点から垂線を下した
とき゛のストロークとの交点数 を領域の外接矩形面積Sで正規 化(X100/S) した値。
6.伸張度・・・A/W” [A ;多角形領域の面積
]W;多角形が縮退操作(こ こでは、8連結近傍に白画 素が存在する黒画素を消去 する操作)により完全に消 滅するのに要するステップ 数を2倍した値(2幅)] 上述のごとき各特徴量に対して、その特徴量の値がどれ
だけであれば、その領域が各カテゴリーに属することの
確からしさく確信度)が与えられており、ステップ8の
確信度の割当てで割り当てる。確信度の割り当て方は、
経験的に例えば下記のようにして決められる。
確信度の設定・・・各特徴量の値diに対し、各領域カ
テゴリーαへの確信度(0〜100)を与える関数[g
 t (d i *α)]をヒ亙−リスティックに表1
−表4 のように定めた。
表1 表2 表3 表4 ただし1区間の端点は、表中に先に出現した方の区間に
含まれるものとする。
黒画素の周辺分布 ZIEROPHRIOD(label poly、 d
irection)−周期性のあるゼロ(白)領域の存
在有無(表5)表5 direction  本文 標題 表 図 罫線・枠
 その他directionニ ー1・・・周辺分布の谷による周期性なし0・・・周辺
分布の谷による周期性があり、かつ。
1〜3以外の場合 1・・・Y方向にゼロ領域による周期性あり2・・・X
方向にゼロ領域による周期性あり3・・・X−Y方向に
ゼロ領域による周期性あり。
直線の存在・・・水平・垂直直線の本数(表6)表6 本数二〇・・・0本、少数・・・1〜4本、多数・・・
5本以上。
フレーム(枠)の存在(表7) 表7 コラムの存在(表8)・・・横書きの場合:縦方向の文
字揃え(コ ラム)の有 無 縦書きの場合:横方向の文 字揃え(コ ラム)の有 無 COLUMN(label poly、 1ntens
ity) (表8)表8 intensity  本文 標題 表 図 罫線・枠
 その他1    008QQ、QO intsnsity: O・・・コラムなし、1〜3・
・・コラムあり。
例えば、横書きの場合、コラムあり1を第4図(a)、
コラムあり2を第4図(b)、コラムあり3を第4図(
c)又は(d)に示す。
文字の密度(表9) 表9 文字密度(%)・・・ある範囲のサイズ(1〜70)の
黒連結を文字とみなしたときの面 積比。
平均線密度(表10) 表10 伸長度 REDUCE(label poly、 al
ongatednass) (表11)表11 elongatedness:A/W”A・・・多角形
の面積 W・・・多角形が縮退操作により完全に消滅するのに要
する最少縮退ステッ プ数x2(=r幅」) カテゴリーについては、本例では本文、標題、表1図、
罫線・枠、その他の6種類を考えているが、写真などの
濃淡画像を考えることも可能である。記号で表現すれば
、特徴量iに対して、特徴量iの値d、に応じてその領
域がカテゴリーαに属することの確信度g 、(d 、
)  [05g、(d、)≦100、i=1+ ・=、
n/a=1t ・・・p mとする]がステップ8で割
り当てられる。この確信度をn個全体の特徴量について
合成することにより、その領域がカテゴリーαに属する
ことの確からしさを見積もることができる(ステップ9
)、この合成方法について、次の2つの方式がある。
[方式1] 重みつき平均による計算方法 ・対象領域がカテゴリーαに属することの確信度f(α
)(0〜100%): f(α)=J a ;(α)”g+(ci +、 a>
0≦a+(α)≦1 0≦g i(d Lα)≦100 Σai(α)=1・・・重み係数 1;特徴量の種類 di;特徴量の値 n;特徴量の個数 g i(d Lα);特徴量iの値がdlであるときに
カテゴリーαに属する確信度 このようにして確信度を計算した場合、カテゴリーαに
対してそれぞれf(α)が得られ、このとき、最終判定
結果として(f(α))(α=1.・・・m)のうちで
最大値を与えるカテゴリーαを選択するのが普通である
が1本発明においては、次に示す確定塵Hがある閾値以
下であれば、この判定は不確定要素が強いと考え、例え
ば、重みをかえたり、より下位の分割層を使うなどして
詳細解析を行う。
確定塵の定義:H(0〜100(%))H”= [ma
x(f(α)) −100/ml X 100/(10
0−1007Ia)α ただし、 wax(f(cz))は、(f(α))のう
ちの最大値α である。また、〒(α)はf(α)を全カテゴリーで正
規化した値f(α)は、 f(α)=100xf(α)/ ff5fα)t’意味
スル。
この確定塵Hの意味は第5図から明らかで、もっとも不
確定なときの〒(α)の最大値100/+o(m:カテ
ゴリー数)とf(α)の最大値の差を、もっとも確定的
なときの1(α)の値と前出の値1007諺との差で正
規化したものである。〒(α)の最大値が他の値よりど
れだけとびぬけて高いかを表わしたもので、最も不確定
な場合では 兎、7(α)=100/+sとなり、H=
Oであり、最も確定的な場合では、 3α。
f(α)=100トなり、H=100である。
[方式2コ DeII!5terと5haferの基 確率の ムリ
による −1塾・ この方式では、最終判定結果は、上界確率と下界確率の
値により次の3つ場合に分類される=[判定結果の分類
] i)領域は単一のカテゴリーからなり、そのカテゴリー
が特定できる。
ii)領域は複数のカテゴリーからなり、その候補カテ
ゴリーが特定できる。
■)領域を識別で台なかったが、ある程度の信頼性のあ
る候補カテゴリーを提示できる。
上に述べた3つの場合分けは1次の3つの判定ルールに
それぞれ基づいている。
[判定ルール] 領域カテゴリーαの上界確率(%)をPL(α)、下界
確率をCr(α)とし、適当なしきい値γいγ2[ただ
し、0くγ、<SO<γ1<100(%)]を設定する
i ) PL(α)) y、and Cr(cz))5
0 (第6図(a)参照) なるカテゴリーαが存在すれば、対象領域は単一カテゴ
リーαからなる。
ii ) maxPl(α)≦γ1 (第6図(b)参
照)α ならば、PI(β)〉γ2を満たすカテゴリー集合(β
)全部が混在している。
in ) PI(α)> y tで、[α;PIのwa
xを与える]Cr(a)≦50(第6図(c)参照)な
らば、PL(β)〉γ2を満たすカテゴリー集合(β)
全部を有力候補カテゴリーとする。
以下、これらのルールについてそれぞれ説明を加えてお
く。
[判定ルールの説明] i) Cr(α)〉50をみたすカテゴリーqが存在す
れば、β≠αなる任意のカテゴリーβに対して、PI(
(り≧Cr(a )>50>100−Cr(cz )=
P1(−rx )≧PI(β)≧Cr(β) (’−I’1(a)>PI(−a>かつCr(α)>C
r(−a ))[−α;カテゴリーαであることを否定
する命題]が成立するので、そのようなカテゴリーαは
一意に定まり、CrとPlはともにカテゴリーαで(真
)の最大値をとる。なお、PL(α)>PL(−Ia 
)とCr(a))Cr(−α)は、(特に後者は、)対
象領域がカテゴリーαに属していることを肯定する証拠
の方が、否定する証拠よりも有力であることを意味して
いる。
PL(α)〉γ1なる基準は、ii)の場合を除外する
ために設けたものであるが、これも同時に成立するとき
はCr(α) −Cr(−Ia )= (100−PI
(−Ia )) −(100−Pl(α))=P1(α
) −pi(、α)〉γ1−50となるから、対象領域
がカテゴリーαに属していることを背定する証拠の強さ
とそれを否定する証拠の強さの間にはγ1−50よりも
大きな差があることになる。
ji) PL((E)=(100−Cr(−Ia)より
、PLがある程度(γ、)以上のカテゴリーが存在しな
いということは、他のカテゴリーを支持する証拠も少な
くはないということを意味している。これは、いくつか
のカテゴリーに属する画像が混在しており、それぞれの
特徴が抽出されたためであると考えられる。
1ii)この前提条件が成り立っている状態は、情報の
不足を表しており、カテゴリーαに属することを支持す
る証拠が十分増えれば、i)の状態に移行するものと考
えられる。また、Plの情報だけからカテゴリーを特定
するのは危険であるという考えから、やや緩めの基準[
γ、=io(%)]を用いて実験した(但し、この実験
ではiu)に分類される場合は生じなかった@)。なお
、もう一つのしきい値は、γ1=70(%)と設定しで
ある。
上記2つの方式により各領域がどのカテゴリーに属する
かが判定されるが、判定できない場合(方式1で確信度
がある値より低い場合/方式2でケース■)の場合)か
、方式2で2つ以上のカテゴリーが混在していると判定
された領域に対しては重みのっけかえや一つ下の分割層
を使うなどの詳細解析をほどこす(11)。さらに、1
2では小領域を隣接する大領域にあるルールに従って結
合する0例えば、6図領域に囲まれている小面積の文字
領域は図中文字と見なし図領域に結合する″などである
効   果 以上の説明から明らかなように、本発明によると、領域
識別の判定に不確定な要素が強い場合、例えば文字列と
表などのように複数のカテゴリーに属する画像が、一つ
の領域に混在しているときには、それを本発明は確定度
から判断でき、詳細解析を行なう判断が可能となる。し
たがって、領域分割、識別の精度が向上する。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するための全体フロ
ー図、第2−は、イメージピラミッドの一例を説明する
ための図、第3図は、変換ルールの一例を説明するため
の図、第4図は、横書きの場合のコラムありの場合の例
を説明するための図、第5図は、本発明において使用す
る領域識別の確定度を説明するための図、第6図は、判
定ルールの例を説明するための図である。 特許出願人   株式会社 リコー 第1図 1!&2図 第3図

Claims (1)

    【特許請求の範囲】
  1. イメージピラミッドを利用した大域分割を行い、各領域
    から複数個の特徴量を抽出し、各特徴量に割当てられた
    確信度を合成することにより、その領域のカテゴリーを
    識別する文書画像の領域分割及び識別方式において、前
    記各特徴量の値により対象領域が各カテゴリーに属する
    ことの確からしさを確信度で表わし、その確信度を各特
    徴量について重みつき平均をとることにより各カテゴリ
    ーに対する確信度とする場合に、領域識別の最終判定結
    果がどの程度確定的なものであるかの確定度を算出し、
    その算出値がある値以下である時に詳細解析を行うこと
    を特徴とする文書画像の領域分割及び識別方式。
JP62130869A 1987-05-27 1987-05-27 文書画像の領域分割及び識別方式 Pending JPS63293687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62130869A JPS63293687A (ja) 1987-05-27 1987-05-27 文書画像の領域分割及び識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62130869A JPS63293687A (ja) 1987-05-27 1987-05-27 文書画像の領域分割及び識別方式

Publications (1)

Publication Number Publication Date
JPS63293687A true JPS63293687A (ja) 1988-11-30

Family

ID=15044600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62130869A Pending JPS63293687A (ja) 1987-05-27 1987-05-27 文書画像の領域分割及び識別方式

Country Status (1)

Country Link
JP (1) JPS63293687A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH041745A (ja) * 1990-04-19 1992-01-07 Fuji Photo Film Co Ltd 画像記録位置認識装置
JP2010165379A (ja) * 2010-04-26 2010-07-29 Seiko Epson Corp 画像評価方法、画像評価プログラムを記録した媒体および画像評価装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH041745A (ja) * 1990-04-19 1992-01-07 Fuji Photo Film Co Ltd 画像記録位置認識装置
JP2010165379A (ja) * 2010-04-26 2010-07-29 Seiko Epson Corp 画像評価方法、画像評価プログラムを記録した媒体および画像評価装置

Similar Documents

Publication Publication Date Title
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US6006240A (en) Cell identification in table analysis
EP1361544B1 (en) System and method for editing electronic images
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CA2113751C (en) Method for image segmentation and classification of image elements for document processing
EP0490687B1 (en) Method and apparatus for image processing
JP3253356B2 (ja) 文書画像の領域識別方法
US5995659A (en) Method of searching and extracting text information from drawings
Tamilselvi et al. A Novel Text Recognition Scheme using Classification Assisted Digital Image Processing Strategy
WO1997015026A1 (en) Processor based method for extracting tables from printed documents
Hori et al. Robust table-form structure analysis based on box-driven reasoning
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
CN110276351B (zh) 多语言场景文本检测与识别方法
CN105825216A (zh) 一种复杂背景图像中的文本定位方法
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
JPS63293687A (ja) 文書画像の領域分割及び識別方式
JPH08320914A (ja) 表認識方法および装置
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
Nicolas et al. Handwritten document segmentation using hidden Markov random fields
JP2000090194A (ja) 画像処理方法および画像処理装置
Chi et al. Hierarchical content classification and script determination for automatic document image processing
Bhujade et al. A technique for segmentation of handwritten Hindi text
JPS63298487A (ja) 文書画像の領域分割及び識別方式