JPS6126149A - 文書画像フアイル登録検索装置 - Google Patents

文書画像フアイル登録検索装置

Info

Publication number
JPS6126149A
JPS6126149A JP14813684A JP14813684A JPS6126149A JP S6126149 A JPS6126149 A JP S6126149A JP 14813684 A JP14813684 A JP 14813684A JP 14813684 A JP14813684 A JP 14813684A JP S6126149 A JPS6126149 A JP S6126149A
Authority
JP
Japan
Prior art keywords
image
heading
picture
document
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP14813684A
Other languages
English (en)
Other versions
JPH0521266B2 (ja
Inventor
Ryuichi Ogawa
隆一 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP14813684A priority Critical patent/JPS6126149A/ja
Publication of JPS6126149A publication Critical patent/JPS6126149A/ja
Publication of JPH0521266B2 publication Critical patent/JPH0521266B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書画像ファイル検索において画像を用いた検
索が行なえる文書画像ファイル登録検索装置に関する。
(従来技術とその問題点) 近年1文書画像ファイル装置が実用化され、その検索方
式が種々検討されている。このうち1画像自身をインデ
ックス(見出)として検索する方法は、冗長性を持つ画
像データを検索するうえで非常に有効である。このとき
、複数の画像を同時に表示し、その中から希望する画1
象を選べることが望ましいが、個々の見出画像が見やす
いものであることが必要である。しかし、従来装置では
これは不十分であった。例えば、昭和56年11月20
日では前記文献1に詳述されているので、以下では簡単
な説明を行なうにとどめる。
画像入力装置101から入力された画像は画壇戚メモI
J−102に蓄えられ、モニター105に表示される。
操作卓107から現在モニター175に表示されている
画像をファイルに登録するというコマンドを入力すると
、コマンド処理装置ttt 108でそのコマンドを受
けつけ中央処理装置109でコマンドの意味を解釈する
。中央処理装置109は登録コマンドが入力されたこと
を知ると画像メモIJ−102内にあるuli+i象デ
ータを磁気ディスクインターフェイス103を介して磁
気ディスク装置104に書込む、また1画像メモIJ 
−102内にある画像データは縮小装置106 aによ
って縮小され、その縮小画像データも磁気ディスク装置
104に書込まれる。ここでは例えば1画素おきのまび
きと4点ORを用いてz×%に縮小する。
登録画像とその縮小画像との対応は1対1であり、両者
のディスク上でのアドレスを登録順にディスク上のアド
レス領域に書込んで8く。つまりアドレス領域には2つ
のアドレスが書込まれていて、それぞれが縮小画像と登
録画像のアドレスをさす0次に操作卓107から縮小目
次というコマンドを入力するとコマンド処理装置108
でそのコマンドを受けつけ中央処理装置109でその意
味を解釈する。中央処理装置109は縮小画像目次コマ
ンドが入力されたことを知ると、磁気ディスク装置10
4からディスク上のアドレス領域に書込まれているアド
レス順に縮小画像を読出す。また、この時最初に読出さ
れる画像は中央処理装置109が現時点で、どの画1象
をさしているかを記憶していて。
その画像を最初に表示する。この例では%×%lこ縮小
しているので16枚の縮小画像を胱出し1合成装置76
bにおいて16枚の縮小画像を合成して縮小画像目次を
画数メモl −102に書込み、モニター15に表示す
る。
以上従来例について説明したが、上記従来例においては
画像の縮小処理が画一的であるため画浄によっては縮小
画1象がつぶれて非常に見つらくなるという欠点を有し
ていた。特に−1投文書などのように、見出しと本文の
文字の大きさがほとんどかわらないような画像では1文
書の表題自体が最悪の場合には読めなくなり、縮小画像
による検索が困難となることもあった。
(発明の目的) 本発明は、このような従来の見出画像による検索装置の
欠点を除去し、見やすく、検索に有効な見出画像を備え
た画1象ファイル登録・検索装置を提供することにある
(発明の構成) 本発明によれば1文書画像を入力する手段と、入力画像
を一時的に記憶する手段と、画像データ上の位置を指定
する手段と、登録及び検索命令を入力する手段と5命令
を解読し、登録処理、検索処理を後記ファイル管理情報
記憶手段2画像記憶手段に行わせる手段と、登録処理時
に登録画像をブロック単位に走査し、少なくとも黒画素
数及び黒ラン同士の連結を調べ、少なくとも背景、黒。
太線、細線、網点て代表される文書画像に特徴的な画像
パターンのうち、前記ブロックがどれに該当するかによ
ってブロックを分類する手段と1分類結果を記憶する手
段と1分類結果を利用し1文書中の本文と見出とにおけ
る、前記特徴的な画像パターンの出現頻度の相異と、見
出の大きさ、形状2位置に関する統計的特徴、及び文書
の一般的書式規則に基づき、原画像中の見出文字列を自
動的に抽出する手段と、原画像と見出画像とを記憶する
画像記憶手段と、原画像と見出画像のファイル管理情報
を記憶するファイル管理情報記憶手段と、原画像あるい
は複数の見出画像を表示する手段とから構成されること
を特徴とする文書画像ファイル登録検索装置が実現でき
る。
(発明の概要) 本発明は、上述の構成をとることにより、従来技術の問
題を解決した6文書画像登録時ζζCよ、利用者はまず
画像人力手段から画像を入力し、ノクツファメモリに一
時的に記憶する0次に、コマンド入力手段から登録コマ
ンドを入力することにより。
入力画像を記憶手段に記録する。この後、見出抽出手段
ζこより、入力画像を微少プロ、ツク単位に走査し、ブ
ロック内の黒画素数と黒ラン同士の連結を調べ、該当ブ
ロックが文書画像に特徴的な画像パターン、例えば背景
、黒、太文字、細文字、網点のいずれにあたるか分類す
る。この結果は、補助メモリに記憶される。続いて見出
抽出手段は。
先の分類結果を利用し1文査中の不文と見出部とで、先
の画像パターンが統計的にどのような頻度で現われるか
に基づき、見出と予想される領域を抽出し、領域情報を
別の補助メモリに記録する。
さらに、見出抽出手段は記録した見出候補領域について
、見出部が統計的にどのような大きさ、形状であるか、
また、どのような位置にあるかtこ基づいて取捨選択を
行ない、原画像にもどってその画像の見出となる文字列
を抽出する。この後、見出画像作成手段が、抽出された
見出文字列を含む領域を一定の枠に納まるように拡大ま
たは縮小し。
見出画像として原画像とは別個に記憶手段に記録する。
同時ζこ、原画像ファイルと見出画像ファイルとの対応
、及び他の見出画像ファイルとの関係を記述したファイ
ル管理テーブルを作成または更新し、記憶手段に記録す
る。
画家検索時には、検索コマンドを入力することにより、
記憶しているファイル管理テーブルをε照して、テーブ
ル内で関係づけられている複数の見出1歇が表示手段に
表示される6表示された見出画像中に希望の画像がなけ
れば、利用者は池の見出画像の検索を要求する。利用者
が希望する見出画像を見出した時点で、コマンド入力手
段または位置指定手段からその画像のアクセス要求を入
力することにより、表示装置に該当画像の全体が表示さ
れる。
本発明により5文書画像登録時に、その画像の見出とな
る文字列を高速なアルコ゛リス゛ムで抽出することがで
き、これを別“個に記憶することにより、重要な情報を
見やすく表示する見出画像かえられ。
有効な文書画像検索が行なえる。
(実施例) 以下、本発明の実施例について1図面を参照して詳細に
説明する。第1図に本発明による文書画像ファイル登録
検索装置の具体例を示す0図において、11が画像入力
装置、12が画像メモリ、13が画像メモリ内の画像デ
ータを表示する画像表示装置で1本装置の画面上にはカ
ー゛ハレまたはポインターが表示され、16の画面指示
装置によってこれを移動させることができる。14のコ
マンド入力装置、15のコマンド処理装置は1例えばパ
ーソナルコンピュータにより構成する。 16の指示装
置は、ジョイスティックあるいはマウスで構成する。指
示装置は、座標データ、または付随するファンクション
キーの入力によるキー人力データを送信する。 17の
中央処理装置は、マイクロプロセッサ。
ROM、RAM  により構成されるが、コマンドを解
読し、第2五4〒字≧奪図を用いて後に説明するアルゴ
リズムにより、登録処理、検索処理を制御する。ts−
iは、登録画像の見出文字列を抽出する見出抽出装置、
18−2は見出抽出処理の中間結果を記録する属性メモ
IJ、18−3は見出文字列の候補となる領域を記録す
る見出候補メモリ。
18−4は見出画像作成に用いる画像処理装置、1ノー
1はファイル管理テーブル記憶用の磁気ディスク装置、
19−2.19−3は各々画像データ記憶用の光デイス
クインタフェース装置及び光デイスクリズムを示す、登
録コマンドを解読した中央処理装置17は光デイスクイ
ンタフェース装置19−2に原画像畳込信号(ディスク
側を書込モードにする)。
画像データ転送開始信号を送出する。データ転送後、光
デイスクインタフェース装置19−2のステータスワー
ドを読み、光ディスク19−3の書込アドレスを記憶す
る。続いて、見出抽出装置18−1に起動信号を送って
抽出処理を行なわせる。抽出処理終了後、見出抽出装置
18−1から見出領域情報をうけとり、見出領域を記憶
する。続いて、画像処理装置18−4に起動信号を送っ
て起動させ。
見出領域情報を通知して見出画像作成を行なわせる。見
出画像作成が終わると、光デイスクインタフェース装置
19−2に見出画像書込信号と画像データ転送信号を送
信し、データ転送後、ステータスワードを読んで書きこ
みアドレスを記憶する。
最後に、磁気ディスク装置19−1上めファイル管理テ
ーブルを参照し、新しい欄に、今回登録した画像の登録
番号、アドレスを沓きこむ。また、rでに登録した見出
画像と今回登録した見出画像を関連づけるため1例えば
直前に登録した見出画像のアドレスを書きこむ、同時に
、直前に登録した見出画像の欄に、今回登録した見出画
像のアドレスを、「直後に登録されたもの」として書き
こみ。
リズムを示す、検索コマンドを解読した中央処理装置1
7は、光デイスクインタフェース装置119−2に見出
画像読出信号を送出して読出しモードにし、現在記憶し
ている見出画像読出しアドレス、画像メモリ書込アドレ
スを通知する。続いてデータ転送信号を送出し、転送終
了後、ファイル管理テーブルを参照して1例えば読み出
した見出画像の直後に登録したとして関係づけた見出画
像のアドレスを新しい読み出しアドレスとする0画像メ
モリの一画面分がすべて書きこまれるまで、画像メモリ
の書きこみアドレスを順次変化させ、この処理をくり返
す、一画面分の見出画像が書きこまれると、中央処理装
置17はコマンド処理装置15からの入力待ち状態とな
る。見出画面変更コマンドをうけつけると、ファイル管
理テーブルを参照し、見出画像続出アドレスを変更して
、先程の処理にもどる。指示装置16からの座標データ
をうけつけると、画像データ上□のカーソル/ポインタ
C図ではポインタと表示している)の現在位置を更新し
、画面上でカーソル/ポインタを移動させる。指示装置
16からのファンクションキー人力(図ではキー人力と
している)をうけつけると、カーソル/ポインタの現在
位置の座標を参照し1表示している何番目の見出画像に
対応しているかを判断し、ファイル管理テーブルを参照
して該当見出画像に対応する原画像のアドレスを読み出
す、さらに。
光デイスクインタフェース装置19−2に原画像読出信
号と読出アドレスを送出し1画像データ転送信号を送出
することにより、原自1象を表示させ。
一連の検索処理を終わる。見出画像選択に指示装置16
を利用するのは1画面から目を離さすに操作ができ、し
かも選択する画像が何番目のものかいちいち意識する必
要がないためである。
文書画像登録時には、利用者は談ず画像人力装置11か
ら画像を入力する。入力された画像は画像メモIJ 1
.2に蓄えられ1表示装置13に表示される。
コマンド入力装置14から画像登録コマンドを入力する
と、コマンド処理部15を通じて中央処理装置17がこ
れを解読する。中央処理装置17は画像メモリ12内の
画像データを光デイスクインタフェース装置19−2を
介して元ディスク装置19−3に書きこむ。
この後、中央処理装置17は見出抽出装置18−1(マ
イクロプロセッサ、ROM、RAM  を用いてず、こ
れは、画像データの特徴抽出と見出領域推定をブロック
単位に行ない、必要に応じて画素を参照するトップダウ
ン的なアルゴリズムで、ノイズにつよく、高速で、かつ
書式不定の文書画像に柔軟に対応できる。まず画像メモ
リ12内の画像データを矩形のブロック単位で読み出す
。このブロックの大きさは1例えば8本/關の解像度の
入力データに対し、16画素X16画素(2Nsx2顛
)とする、読み出したブロックデータ内の特徴音として
、黒画素数と黒ラン連結数を測定する。黒ラン連結数は
、本文中の文字のように細いストロークで構成される領
域と他の領域とを簡便に識別するための評価値で、ブロ
ック内の黒画素領域が短いランの連結で構成されるとみ
て、黒画素を横方向のラン単位に抽出し、このランの連
結を評価するものである。第4図(alは、黒画素連結
領域(図の斜線部分)を横方向のラン単位に分離した様
子を模式的に示している、具体的lこは、本実施例のブ
ロックの大きさの場合1例えば次のように黒ラン連結数
を定める。
(1)横方向の一つの黒ランに対し、そのラン長に応じ
てたとえば次のようにライン内連結数を定める。
ラン長2以下のランは、短かすぎるランとして連結数を
与えない、ラン長3以上lO以下のものについては基本
単位として連結数を1とする。ラン長11以上のものは
、上記の連結数1を与えるランが二つ連結したものとみ
なし、連結数を2とする。
以上の数値をブロック内のすべての黒ランについて与え
、ライン内連結数の総和をもって横方向の黒ラン連結数
とrる。
(2)次に、(1)においてライン内連結数1または2
とされた黒ランについて、1ライン前におけるライン内
連結数1または2の黒ランと連結しているか否かを調べ
る。これは1例えば前ラインと現ラインの論理積をとり
、注目しているランの中で1画素でも前ラインのランと
連結していれば、ライン間でラン同士の連結があるとみ
なす、これをライン間連結とする。ライン間連結を検出
するごとに得られた横方向の黒ラン連結数に1ずつ加え
る。
以上の手続きにより1例えば第4図(a)の黒画素パタ
ーンの黒ラン連結数は17と求められる。
なお、黒ラン連結数はブロック内の連結のみでなく、ブ
ロック間の連結を評価することも可能である0例えば、
第4図(b)のように、二つのレジスタA、Bにそれぞ
れ注目しているブロックの左と上で接するブロックの境
界の情報を格納しておく。
レジスタAには、左側で接するブロックの各ラインにお
けるライン内連結数1または2のランが注目するブロッ
ク境界に接していれば1.いなければOをビット単位に
記憶する。もし注目ブロックのあるラインにおいて、ラ
イン内連結数1または2のランが左側のブロック境界に
接し、かつ、レジスタAの同一ラインに対応するビット
が1ならば、ブロック間で黒ランが連結するとみなし、
黒ラン連結数を1つまず。一方、レジスタBには上側で
接するブロックの1番下のライン、すなわちブロック境
界で現ブロックの1番上のラインと接するラインの画素
パターンを記憶しておく。図で0が白画素、1が黒画素
を示す。現ブロックの第1ラインとのライン間連結を調
べ、連結を検出する毎に連結数を1つまず。ブロックの
右INI+と下側の境界での連結を調べてもよいが、4
方向すべての連結を各ブロックごとに調べると、境界で
の連結を二重に調べることになり、むだである。
以上によって求めた黒ラン連結数は、黒画素数お正の相
関を持つが、ラン長の短いランの連結を無視することに
より、黒画素が集中したパターンと分散したパターンと
で、相関性が変化する。これにより、細いストロークで
構成される文字領域では黒ラン連結数が黒画素数に比べ
て低く押さえられ、太いストロークで構成される文字領
域との識別が容易になる。また、網点写真lこおいては
ラン長の短いパターンが連続し、黒ラン連結数が細文字
よりも低く押さえられる領域が多く存在することから、
写真領域の識別にもこの評価値は有効である。
本実施例に示した黒ラン連結数の評価方法は最も簡単な
一例であり、他ζζもたて方向の走査による評価、ラン
長のしきい値の変更、連結数加算方法の変更など1種々
の応用が可能である。
特徴音が得られた後、見出抽出装fL8−1は。
それらをもとに各ブロックが文書画像に特徴的な画像パ
ターンのどれに属するかを決定する。対象とする文書画
像を新聞記事とした場合の決定例を第5図を参照して説
明する。
黒画素数をS、黒ラン連結数をgとして。
・s(s、のとき、背景に近いパターンとみて「背景」
とする。(S、は定数) ・S≧S、のとき、真黒に近いパターンとみて「黒」と
する。(s2は定数) o 3.≦s(s、かつ1g≧r1・Sのとき、黒画素
数に対して黒ラン連結数が大きいことから「太文字」と
する。(rlは定数) ・51≦s (s、かつ、r、・s>g≧r+’sgt
  のとき、黒画素数に対して黒ラン連結数がやや小さ
いことから「細文字」とする。(glは定数)a S1
≦s (s、かつ、  rs・Sgs>Hのとき、黒画
素数に対して黒ラン連結数が非常に小さいことから、黒
ランの短い代表的パターン[網点]とする。
各定数は、ブロックの大きさ、黒ラン連結数のしきい値
のとり方によるが1本実施例のブロックの大きさく16
X16画素)、しきい値(ラン長2゜10)を用いると
き、例えばS+ = 10 、32 = 128 。
rl = 0.3 、 g+ = 6  とする、「黒
」と判定する黒画素数のしきい値S、をブロック内画素
数(256)の半分にとるのは、これより黒画素数の多
いブロックのパターン分類があまり意味を持たないこと
このしきい値により記事部と見出、写真部での「黒」ブ
ロックの出現頻度が大きく異なることlこよる。新聞画
像においては、統計的に記事部は「細線」と1網点」、
見出部は「太線」「黒」「細線」、写真部は「網点」 
「黒」1図表部は「太線」「細線」「背景」の各ブロッ
クで主として構成される。もちろん、上記分類項目(以
下属性という)は一般文書にも適用できる。
この他、プリッタ内の最長ランとその隣接関係を記憶し
て「罫線」という属性を与えることもできる。網点写真
は、ピッチを持つことから、これを調べて「網点」属性
を決定してもよい。
得られた属性は、属性メモ1J18−2に二次元的に記
憶される。見出抽出装置18−1はこの属性画像を走査
し、背景ブロックに囲まれた非背景ブロック塊を矩形状
に切り出す。(−回の走査でできる。)これは、見出文
字列が新聞に限らず、一般に周囲にかなりの空白領域を
もち、矩形で囲めることから、効率のよい方法である、
先に示したブロックの大きさく2xxX2ysx)では
、新聞の記事部は行間で分離されることなく、一群の非
背景領域となる。
切り出し時には、ブロック化による切りすて誤差を防ぐ
ため、周囲の背景ブロックも含めて切り出しを行なう。
なお、属性決定時に1太線」あるいは「黒」の出現頻度
から見出の大きさを推定しそれに対応する周囲の空白領
域を想定して、周囲の背景ブロック幅をしきい値として
切り出しに使うことができる。また、「罫線」を属性番
こ含める場合、記事部の罫線が一定のピッチを持つこと
から、属性決定時にピッチを検出し、記事部を推定する
こともできる。上記の方法は高速であるが。
他の領域と近接する見出、複雑な形状の見出の切り出し
はむすかしい、これを補なうため、切り残した領域の「
太線」 「黒」ブロックの連結を追跡し、ある大きさ以
上のものを切り出す。必要に応じ1画素単位の走査を行
なって境界を決定する。
切り出された矩形領域は見出候補メモIJ18−3に見
出候補として記載する。見出抽出装置18−1はこれら
の位置2面積、形状、領域内の属性値を評価して見出と
して不適当なものを除外する。属性値は各属性ブロック
数の比などにより統計的評価を行なう。基本的には「細
線」が多く「黒」の少ないものは記事として除外し、写
真と見出の区別は「網点」と矩形の形状の総合評価によ
る。配置規則からみて見出となりにくい位置にあるもの
特に正方形に近いものは除外する。矩形が入れ子状態に
なって切り出された場合、大きさ、@性等により不要な
方を除外する。1つの見出が複数の矩形に分割されてい
ると考えられる場合、これらの矩形を統一して再結合す
る。結合の判断は、矩形の中心線または外接線が一致す
るか、距離が2ブロック以内か、矩形内の最多属性が一
致するかなどで行なう。さらに1画像処理装置■8−4
を起動させてノイズを除去する1例えば、たて見出が要
約文と分離せずに切り出される場合があるが、画素単位
のプロジェクションにより要約文を除去する。また、地
紋を持つ見出はこれを除去する。
再構成された見出候補領域には、配置規則、大きさ等か
ら優先1@位をつける。新聞の場合、大きい見出、右上
にある見出はど優先度が高い、これらの優先度は見出候
補領域の配置パターンを調べて決定する。配置パターン
はたて見出のみ、横見出のみ、かぎ型(たてと横の併用
)など+ 108f程度に分類できる。最後に一つある
いは複数の見出候補領域を優先度の高いものから選び、
これらを見出領域とする。
これまでの切り出し処理は新聞を対象として述べたが、
これを一般の文書に適用することは容易にできる。例え
ば、一般文書画像の見出となる文字列の抽出規則をかき
こんだに′LOMを用意しておき、利用者が「一般文書
」コ÷ンドをコマンド入力端末14から入力することに
より、中央処理装置17は見出抽出装置18−1が参照
するROMをきりかえる。見出領域の抽出アルゴリズム
は新聞の場合と同じように属性画像を用いて行なう。連
結数評価、属性決定、矩形切り出しのしきい値は一般文
會に適合するように変更する。切り出しにおいては5本
文と同等の細いストロークをもつ文字列が見出となるこ
ともあるので、このような文字列を抽出した場合にも除
外しない。大きい見出では文字間隔も大きい場合がある
ので、再結合の距離条件などを変更する1行間が広く1
文中の各行が切り出される場合は1行間のピッチをもつ
矩形を除外する0行ピッチの検出、または切り出した矩
形のプロジェクションにより、横書き、たて書を判定し
、それぞれに応じた優先順位決定規則を用いる。最も簡
単には1周囲に1ブロック以上の空白をもち、横書きな
ら他より左上にある横長の矩形、たて書きなら右上ζこ
あるたて長の矩形を優先する。該当する矩形が切り出さ
れない場合は、見出領域がないと判定し、文書画像の冒
頭部(横書きなら左上、たて書きなら右上)を強制的に
切り出し見出し画像とする。横書き、たて誓が判明した
時点で走査する領域を上半分、右半分のように限定し、
ここに見出がない場合には強制切り出しを行なうことも
、検索上さしつかえなければ処理効率の向上の点で有効
である。
見出領域が決定すると、中央処理装置17は画像処理装
置18−4を起動し、該当領域が見出画像の枠内に納ま
るように正規化する。見出画像の大きさは1例えば原画
像の%X%とする。見出領域がこの枠をこえる場合は縮
小処理が、こえない場合は拡大処理がなされる。ここで
、見出が見出画像の中央にくるようにする、処理された
データは光デイスクインタフェース19−2を介して光
デイスク装置19−3の見出画像領域に記憶される。見
出抽出装置18−1は見出領域を表示装置13上に枠で
示す。
これら一連の処理に対話処理を加えることも可能である
。例えば、見出領域決定結果が利用者にとって不満な場
合、利用者はコマンド入力装置14から1変更」コマン
ドを入力する。これによって中央処理装置17が見出候
補メモ1J18−3の候補領域を表示装置13に枠で表
示し、利用者が指示装置16(あるいはコマンド入力装
置17)によって見出画像とする領域を選択する。ある
いは指示装置16により、利用者が自ら領域を設定する
。以後の処理は全く同様である。
光ディスク19−3上での原画像と見出画1象のアドレ
スは磁気ディスク19−1上のファイル管理テーブルに
書きこまれる。ファイル管理テーブルの構造を第6図に
示す、n−1、n、n−)−1は登録順にわりあてられ
る番号で、aが原画像アドレス、bが見出画像アドレス
、c、dは見出画像と論理的lこ隣接する前後の見出画
像のアドレスである。
この隣接関係は1例えば登録の順番とする。この状況を
第7図に示す1画像Aの見出画像がBであり、その直前
に登録された見出画像がC1直後に登録されたものがD
であるm  a e b m Ct dはそれぞれアド
レスである。利用者が画像を検索する場合、コマンド入
力装置14から「検索」コマンドを入力する。これを受
は付けた中央処理装置17は現在記憶している見出画像
読み出しアドレスを基準に、磁気ディスク19−1上の
ファイル管理テーブルを参照しながら16枚の見出画像
を順次読み出し1画像メモリ12への書きこみアドレス
を順次変化させて書きこみ、表示装置13に表示する。
これを第8図に示す。表示する順番はA、B、C,D、
E。
F、G、H,I、J、に、L、M、N、0.P  とな
る。この後、見出画像読み出しアドレスは見出画像Pの
次の画像をさす、希望の画像が表示された16枚の中に
なければ、利用者は「前」または「後」コマンドをコマ
ンド入力装置14から入力する。「前」コマンドをうけ
た中央処理装置17は1表示されている16枚のうち先
頭の見出画像(第8図のA)の16枚前にある見出画像
のアドレスを読み出しアドレスとして、そこから16枚
を読み出し、表示する。
「前」で指定された部分に16枚見出画像がなければ、
ファイル管理テーブルの先頭の見出画像から16枚が表
示される。「後」コマンドをうけた中央処理装置17は
、その時の見出画像読み出しアドレス(第8図のPの次
の画諌をさす)をもとに、そこから16枚を読み出し1
表示する。「後」で指定された部分に16枚画像がなけ
れば、最後の画像を表示した時点で処理を終わる。
「検索」「前」 「後」コマンドにより検索を続け、希
望の見出画像が得られた時点で利用者は指示装置16を
移動し1表示装置13上でカーソル/ポインターを該当
する見出画像の枠内に納める。ここで指示装置16のフ
ァンクションキーを押下することにより、中央処理装置
17は現在カーソル/ポインターの位置している見出画
像に検索要求があることを知り、対応する原画像データ
を光ディスク装[19−3より読み出し、表示装置13
に表示する。
本実施例では、見出画像を原画像の%×%としたが別な
形状の見出画像を採用してもよい。例えば、横書きの見
出文字列を、第9図のような短棚状の見出画像とするこ
とが考えられる。
以上は本発明の単なる一例であり、特許請求の範囲を実
施例の構成に限定するものではない。
(発明の効果) 以上に述べた文書画像ファイル登録検索装置を用いれば
、文書画像登録時にその画像の見出となる文字列を高速
なアルゴリズムで抽出し、これを別個に記憶することζ
こより、重要な情報を見やすく表示する見出画像が得ら
れ、有効な文書画像検索が行なえる。
【図面の簡単な説明】
第1図は本発明による画像ファイル登録検索装置のブロ
ック図、第2図(a)、第2図(b)はそれぞれ中央処
理装置の登録処理アルゴリズム、検索処理アルゴリズム
を示す図、第3図は見出領域決定アルゴリズムを示す図
、第4図+alは黒画素連結領域を横方向のラン単位に
抽出した様子を示す図、第4図(blはブロックの境界
における連結情報をレジスタA、Hに格納したことを模
式的に示す図、第5図は属性決定アルゴリズムをボす図
、第6図はファイル管理テーブルの構造を示す図、第7
図は第6図に示した見出画像及び原画像の関係を示す図
、第8図、第9図は検索用見出画面を示す図、第1O図
は従来発明による画像ファイル登録検索装置例を示すブ
ロック図である。 図において、11は画像入力装置、 12は画像メモリ
、13は画像表示装置、14はコマンド入力装置、15
はコマンド処理装置、16は画面指示装置、17は中央
処理装L18−1は見出抽出装置18−2は属性メモl
J、18−3は見出候補メモリ、18−4は画像処理装
置、19−1は磁気ディスク装置、19−2は光デイス
クインタフェース装置、19−3は光デイスク装置、 
 101は画像入力装置、102は画像メモリ、103
は磁気ディスクインタフェース装置、104は磁気ディ
スク装置、1o5は画像モニター。 106aは画像縮小装置=106’bは画像合成装置。 107は操作車、108はコマンド処理装置、  10
9は中央処理装置である。 オ 4 図(b) レジスタB(上鏡界)

Claims (1)

    【特許請求の範囲】
  1. 文書画像を入力する手段と、前記入力画像を記憶する手
    段と、画像データ上の位置を指定する手段と、登録及び
    検索命令を入力する手段と、前記命令を解読し、登録処
    理、検索処理を後記ファイル管理情報記憶手段、画像記
    憶手段に行わせる手段と、前記登録処理時に、登録画像
    をブロック単位に走査し、少なくとも黒画素数、及び黒
    ラン同士の連結を調べ、少なくとも背景、黒、太線、細
    線、網点で代表される文書画像に特徴的な画像パターン
    のうち、前記ブロックがどれに該当するかによってブロ
    ックを分類する手段と、前記分類結果を記憶する手段と
    、前記分類結果を利用し、文書中の本文と見出とにおけ
    る前記特徴的な画像パターンの出現頻度の相異と、見出
    の大きさ、形状、位置に関する統計的特徴に基づき、前
    記原画像中の見出文字列を抽出する手段と、前記抽出し
    た文字列を含む領域から見出画像を作成する手段と、前
    記原画像と見出画像とを記憶する画像記憶手段と、前記
    原画像と見出画像のファイル管理情報を記憶するファイ
    ル管理情報記憶手段と、前記原画像、あるいは複数の見
    出画像を表示する手段とから構成されることを特徴とす
    る文書画像ファイル登録検索装置。
JP14813684A 1984-07-17 1984-07-17 文書画像フアイル登録検索装置 Granted JPS6126149A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14813684A JPS6126149A (ja) 1984-07-17 1984-07-17 文書画像フアイル登録検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14813684A JPS6126149A (ja) 1984-07-17 1984-07-17 文書画像フアイル登録検索装置

Publications (2)

Publication Number Publication Date
JPS6126149A true JPS6126149A (ja) 1986-02-05
JPH0521266B2 JPH0521266B2 (ja) 1993-03-23

Family

ID=15446071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14813684A Granted JPS6126149A (ja) 1984-07-17 1984-07-17 文書画像フアイル登録検索装置

Country Status (1)

Country Link
JP (1) JPS6126149A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472270A (en) * 1987-09-14 1989-03-17 Toshiba Corp Electrinic filling device
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
US7167281B1 (en) 1999-11-26 2007-01-23 Fujitsu Limited Image processing apparatus and method for binarizing a multilevel image
JP2009145963A (ja) * 2007-12-11 2009-07-02 Konica Minolta Business Technologies Inc 文書処理装置および文書処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472270A (en) * 1987-09-14 1989-03-17 Toshiba Corp Electrinic filling device
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
US7167281B1 (en) 1999-11-26 2007-01-23 Fujitsu Limited Image processing apparatus and method for binarizing a multilevel image
JP2009145963A (ja) * 2007-12-11 2009-07-02 Konica Minolta Business Technologies Inc 文書処理装置および文書処理方法

Also Published As

Publication number Publication date
JPH0521266B2 (ja) 1993-03-23

Similar Documents

Publication Publication Date Title
US5860075A (en) Document data filing apparatus for generating visual attribute values of document data to be filed
JP4890851B2 (ja) 意味論的文書スマートネール
JP5376795B2 (ja) 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
US6002798A (en) Method and apparatus for creating, indexing and viewing abstracted documents
US6720965B1 (en) Image display device
EP0539106A2 (en) Electronic information delivery system
JPH0451363A (ja) 画像情報検索装置
US5617115A (en) Word processing unit with document display function
US20080244384A1 (en) Image retrieval apparatus, method for retrieving image, and control program for image retrieval apparatus
JPH08147446A (ja) 電子ファイリング装置
JP2010123002A (ja) 文書画像レイアウト装置
JPH05342326A (ja) 文書処理装置
JPH0521267B2 (ja)
JP2006065477A (ja) 文字認識装置
JP5020698B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム
JPS6126149A (ja) 文書画像フアイル登録検索装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
US20070002339A1 (en) Image processing apparatus and image processing method
JPS63228874A (ja) 画像フアイル方式とその装置
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JPH07262207A (ja) イメージデータファイリング方法,イメージデータ登録方法,イメージデータ検索方法及びその装置
CN1362657A (zh) 掌上型数据处理装置的手写输入方法
JP4101345B2 (ja) 文字認識装置
JP2002366135A (ja) 画像表示装置
JPH03127169A (ja) マルチメディア文書構造化方式