JPS6132712B2

JPS6132712B2 -

Info

Publication number: JPS6132712B2
Application number: JP56084589A
Authority: JP
Inventors: Toshuki Sakai; Kosaku Inagaki
Original assignee: Individual
Current assignee: Individual
Priority date: 1981-06-02
Filing date: 1981-06-02
Publication date: 1986-07-29
Also published as: JPS57199066A

Description

【発明の詳細な説明】本発明は新聞や雑誌等から所望とする記事内容
を効果的に切抜き抽出し、これをそのまままたは
再編集して表示またはフアイルすることのできる
実用性の高い新聞・雑誌等の切抜きフアイル作成
システムに関する。

新聞や雑誌等には数多くの記事が予め定められ
た枠組み構成規則に従つてレイアウトして載せら
れている。そして、最近では、これらの中から所
望とする記事を人間が切抜きフアイルし、再構成
して計算機システムにフアイリングすることが試
みられている。

この場合、新聞・雑誌等の紙画サイズが決めら
れているものの、各種記事は上記紙面サイズを有
効に利用すべく、或る領域に割付けがなされて組
込まれているので、単に紙面上の単純な位置を特
定するだけでは所望とする記事のみを切抜き抽出
することができない不具合がある。また表のよう
に枠の見出しである属性名を指定することによつ
て記事内容を切抜き抽出することもできない。

つまり、１枚の紙面上で表示あるいはフアイル
化の対象となる記事は多数存在し、その中で種々
の形状に割付けがなされた或る一つの記事だけが
一つの単位記事となるので、例えば１紙面をペー
ジ等とする固定的な単位のみで取扱うことができ
ない。またコード化された文字情報を扱うものと
異なり、文書画像として入力される情報を取扱う
ので、必然的に文書内容の理解と云う処理が伴
う。この結果、例えば所望とする記事が紙面上で
どのようにレイアウト（段組；割付け）されてい
るかを認識する等の、所謂パターン理解的な情報
処理が必要となつてくる。更には新聞・雑誌等の
一つの記事は記事本文のみによつて構成されるも
のではなく、それに関連した見出しや写真・表等
の情報も含まれるから、これらを統一的に扱つて
効果的な切抜きフアイルを作成したり表示するこ
とが要求される。

本発明はこのような事情に鑑みてなされたもの
で、その目的とするところは、新聞や雑誌等の中
から所望とする記事内容を新聞製作の割付作業の
逆処理として効果的に切抜き抽出して、割付領域
を抽出表示したり、その内部を再構成して表示あ
るいはフアイルすることのできる実用性の高い新
聞・雑誌等の切抜きフアイル作成システムを提供
することにある。

本発明は文書画像として入力される新聞や雑誌
等に記載された一つの記事の境界を記事区画線ま
たは行間や段間スペースから検出すると共に、所
定の規則に従つた文章構造のつながりの関係から
所望とする記事本文を抽出し、またこの記事本文
と関連する見出しや写真等の付随情報を上記記事
本文とは独立に抽出し、これらの抽出された一つ
の記事情報を統一的に再構成処理して表示あるい
はフアイルすることによつて、所望とする記事内
容のフアイル化情報を人為的な判断処理を必ずし
も即時的に要することなしにパターン理解的手法
により、効果的に得るようにした実用性の高い新
聞・雑誌等の切抜きフアイル作成システムを提供
するものである。

以下、図面を適宜参照して本発明の詳細を説明
する。尚、ここでは新聞を例にして説明するが、
一般的な雑誌や書籍等も対象となることは云うま
でもない。

さて、新聞は第１図に模式的に示すように、そ
の紙面に見出し１、写真２、記事本文３を所定の
割付け規則に従つて多段に亘つて割付けして構成
され、従つて１枚の紙面中には複数の記事内容が
混在したものとなつている。また記事本文３の境
界は縦横に付された区画線４や段間あるいは行間
スペースによつて示されるようになつている。し
かし一つの記事においては上記見出し１、写真
２、記事本文３は隣接関係を保つてまとまるよう
になつている。そして、記事本文は、上記区画さ
れた境界内において、例えば縦書き日本語文章の
場合、右から左へと行を移動し、最終行からはそ
の下段の欄に移つて同様に右から左へと行を移動
して記載されるようになつており、１つの記事本
文３は、一般に或る領域内にまとめられるように
なつている。しかして表示あるいはフアイル化の
対象は、このような紙画中の或る記事内容となる
から、そのレイアウト形状は一定化せず、他の記
事内容との兼合いにおいて種々の形状となる。従
つて、表示あるいはフアイル化の対象を紙面の中
での単純な領域として固定化した単位として扱う
ことは到底望めない。しかも画像として文書を処
理するので、従来の文字コード化された文書を扱
うものとは異なり、あらゆる形態の文書情報に対
処しなければならない。この為、文書内容の理解
が必要となつてくるので、ここに前述したような
記事のレイアウトがどのように施されているかを
認識する、所謂パターン理解的な情報処理手法の
導入が必要となつてくる。

そこで本システムでは次のようにして画像入力
される新聞・雑誌等の文書情報から所望とする記
事内容の切抜きフアイルを行つている。

本システムにおける処理は、基本的には入力された文書画像の中から記事に対する区
画線や段間・行間スペースを検出して記事の境
界を検出する処理、文字列で示される記事本文、見出しや写真等
をそれぞれ別個に検出する処理、所定の規則に従い上記境界に沿つて段組され
ている文章構造の繋り関係から、所望とする記
事本文を抽出する処理、抽出された記事本文が割付けられている紙面
上の割付け領域を表示する処理、抽出された記事本文のレイアウトを再構成処
理して表示またはフアイルする処理に大別される。

新聞中の記事の境界は、一般的には隣接する記
事を区別する区画線や記事本文を構成する文字列
の段間・行間スペースによつて表現される。従つ
て入力文書画像中から後述するようにして区画線
や段間・行間スペースを検出することにより記事
の境界を検出することができる。

一方、新聞の記事は見出し１、写真２、記事本
文３等によつて構成される。そこで本システムで
は次のようにしてその特徴からこれらを識別する
ようにしている。

新聞中の記事をフアイル化したり、検索したり
するとき、その見出し１を重要な索引情報とする
ことができる。特に見出し１はその記事内容に関
連して周到に検討されているので、索引として極
めて有用である。然し乍ら、見出し１は第２図
ａ，ｂ，ｃにそれぞれ示すように、白抜き文字化
や各種の地紋を付けたりしてデザイン化されるこ
とが多い。しかも、その文字数に比して画像とし
て占める面積割合が大きい。そこで本システムで
は、入力文書画像を画像認識処理することによ
り、上記見出し１の特徴を持つ領域を入力文書画
像中から抽出し、これを見出し１の部分であると
して検出している。そしてその見出しの部分画像
から地紋成分を除去し、且つ見出し文字に対する
種々のデザイン化処理に対してはその逆処理操作
を行うことによりその文字パターンの基本成分を
検出している。これによつて、例えば第２図ｄに
示すように見出し画像中から見出し文字を抜き出
すことが可能となる。従つて、このようにして見
出し１を抜き出せば、これをフアイル化において
情報圧縮することが可能であり、またその文字を
パターンのままでマツチング処理の対象として索
引情報に用いたり、更には文字認識して文字コー
ド化して索引情報とすることが可能となる。

尚、この見出しからの文字情報の抽出は、例え
ば画像縮退（Shrinking）処理や画像融合
（fusion）処理を用いたり、画像の白黒反転処理
を適宜用いることによつて実施できる。特に文字
抽出された見出しの文字パターンのサイズを縮小
すれば、容易に情報圧縮ができ、その効果は非常
に大きい。ところで、前述した区画線等に沿つて
段組され、その長さに応じてレイアウトされる記
事本文３の切抜きは次のようにして行われる。こ
の記事本文３の抽出には、その記事を作成するに
際して用いられた領域地割りの為の区画線や行間
および段間スペース、また紙面の組み方に関する
先験知識、先に抽出された見出しの情報等が利用
される。特に地割りの為の区画線は記事の境界を
定める上で重要な役割りを果している。従つて、
この区画線の線分を抽出してこれを理解すれば、
記事本文の境界を示す重要な要素として採用する
ことができる。尚、上記区画線は、例えば入力文
章画像中の線分を構成する黒画素の連続長を調
べ、これを閾値処理して短い線分を区画線以外の
線分であるとして除去し、残された線分だけを抽
出することによつて検出できる。

さて、記事本文が複数の段に亘つて組まれてい
る場合、文書画像をより詳細に認識することが必
要となる。この場合には、記事の先験知識を持つ
て、基本的には、上から下へ、また右から左へと
云う検索を順次行えばよい。また段の異なる文章
の継続性の判定は、或る段における縦の区画線や
スペース、見出し等によつて検出される文章の左
端行の最後尾が句点相当の少量黒画素で終つてい
るか否かを判定し、句点で終つていないとき、必
ず次の段に記事の続きが存在すると認識すること
ができる。この際、次段の文章の縦の区画線で区
切られた文章の中で、右端の行の１マス目が空白
でないものを、その上段の記事文章のつながりで
あると認識すればよい。

尚、より一般的には、左端行が句点で終了して
いる場合もあり得る。従つて、記事の後側より逆
向きに記事の継続性を判定していけば、文章のつ
ながりの有無を的確に認識することが可能とな
る。例えば或る段の記事内容が見出し頭部からの
続きでなければ、記事の途中であると判定され
る。このとき、その１つ上の段における最も確か
らしい継続部を選んで文章をつないでゆけばよ
い。また或る記事の文章の先頭に到達したことの
判定は、例えば見出し１の位置情報との関係を利
用して行うことができる。

尚、このようにして見出しや記事本文を理解し
て切抜く場合には、その前処理として見出し部・
記事本文部・図・表・写真等の画素配列の異質な
領域を個別に認識し、これを切り分けておく必要
がある。この構造情報の抽出には、例えば村尾充洋、坂井利之 “文書画像の構造情報抽出” 情報処理学会第21回全国大会 7H−１（1980年５月）に示される処理を用いるようにすればよい。つま
り、画素配列のマルコフモデルにおけるランレン
グスによる統計的知識を利用して写真、図等を解
折して抽出し、しかるのち前記した個々の処理を
実行すれば、見出し、記事本文の効果的な切抜き
抽出が可能となる。この処理は後述するヒストグ
ラム情報を用いた処理の一部で代替できる。

尚、囲み記事の場合には、見出しが記事本文を
分断する形で入つてくるので、記事切出しの手順
は少し異なつてくる。しかしながら、囲み記事は
必ず矩形領域の形状をとり、かつ見出しはその中
央付近にあるので、そのような枠組み構成に関す
る知識を用いることにより、切出しが可能であ
り、ここで述べた手法から拡張すべき点は少な
く、容易である。その他の特殊な形式の記事も、
適宜それらの枠組み構成に関する知識を導入する
ことにより、同様に切り出せる。

第３図は、上述した画像処理を行つて記事内容
の切抜きフアイルを作成するシステムの一実施例
構成図である。

処理対象となる文書情報は、入力文書画像１１
としてフアクシミリ等から入力される。この入力
文書画像１１は、文書構造情報抽出部１２に導か
れ、その構造的情報が調べられたのち、情報区分
部１３に与えられて、記事区画線、文章、表、見
出し、図、写真等にそれぞれ分けられる。即ち、
文書構造抽出部１２は、後で第４図を参照して更
に詳しく説明するように、先ず入力文書画像１１
から一定長以上の縦線を検出し、これを細線化し
て文書割付け領域の縦区画線を抽出している。そ
の後、一定長以上の横線を検出し、且つその中で
所定の線幅以上のもの、および一定間隔以外のも
のを消去し、残された横線を細線化してこれを前
記文書割付け領域の横区画線として抽出してい
る。

そしてこれらの区画線の構造を文書の割付け構
造として認識し、上記区画線を基準として区分さ
れる領域毎にその領域内の濃度ヒストグラムを求
め、そのヒストグラムの特徴から見出し１や写真
２等を抽出し、それ以外の部分を記事本文３とし
て検出している。

このようにして検出される区画線や記事本文
３、見出し１、写真２等の情報が情報区分部１３
にそれぞれ格納される。

記事切出し部１４は、この情報区分部１３から
入力文書画像中で、例えば見出し１と写真２、お
よびそれに対する記事本文３によつて構成される
ひとまとまり１つの記事を前記区画線の情報に基
づいて切出し、これをフアイル目的とする１つの
記事として抽出している。

この１つの記事の抽出は、後述するように記事
切出し部１４と構造認識部２２との協働作用によ
り、段組された記事本文の繋り関係を判定しなが
ら行われ、これによつて１つの連続した記事本文
３が抽出される。そして抽出された１つの記事本
文３は、再構成部２３にて適宜その文書構造が再
構成され（記事本文３のレイアウトのし直し）、
編集部２４を介して画像フアイル２５に登録され
るようになつている。

ここで上記入力文書画像中の見出し情報は、構
造知識抽出部１５にて統計的構造知識を利用して
形態判定され、これによつて、例えばどのように
デザイン化されているかが認識される。文字情報
抽出部１６は、このようにして認識された見出し
に関する構造的情報を得て、これに適したアルゴ
リズムを用いて、見出しの文字情報を抽出してい
る。また文書画像中の図、写真等については、特
徴抽出部１７にてその概略形状情報等の特徴が抽
出されている。そして、このようにして特徴抽出
された図、写真の情報、および前記見出しの文字
情報は、情報圧縮部１８に導かれ、サイズの縮小
や文字コード化等の個々の圧縮アルゴリズムに従
つてデータ圧縮される。

また見出しや、図、写真、表等の特徴情報は索
引データとして索引作成部１９に与えられる。ま
た見出し及び表中に示される文字情報は、文字認
識部２０にて属性名を示す文字情報として、同様
に索引データとして上記索引作成部１９に与えら
れる。この索引作成部１９はこれらのデータに基
づいて、一つの記事内容を示す索引情報、例えば
キーワード等を作成するものであり、これによつ
て作成された上記索引情報は前述した如く抽出さ
れた記事本文３に対応して索引フアイル２１に登
録されるようになつている。尚、この索引情報
は、画像であつてもよく、あるいは画像に関する
数値的な量であつても良く、更には文字認識され
た文字コード等であつても良い。

ところで、前記記事切出し部１４に得られた１
まとまりの記事本文は、構造認識部２２にて行の
抽出、文の接続関係等が判定される。この認識部
２２は記事切出し部１４と協働して作用するもの
で、これによつて、不定形に組まれた或る１つの
記事本文が抽出されることになる。そして、この
ようにして抽出された記事本文は、再構成部２３
にて、出力画像として適した取扱いの容易な形式
に再構成される。このようにして再構成された記
事本文に対して、編集部２４では、この文章に関
連する前記見出しや図、表、写真等を付加して編
集し、これを出力文書画像フアイル２５に登録す
る如く構成される。勿論、原紙面はそのまま画像
フアイルとして登録し、それに加えて原紙面での
この記事に対する紙面割付けの領域情報としても
登録できる。また計算機システムでは通常出力装
置もフアイルとみなせるので、その場合には出力
文書画像フアイル２５は表示出力となる。

第４図はこのように構成された本システムの全
体的な処理の流れ更に詳しくはを示すものであ
り、第５図ａ〜ｌはその処理形態を模式的に示し
たものである。第５図ａは入力文書画像（原画）
の一例を示すものである。しかしてこの入力文書
画像は、先ず第５図ｂに示すように、一定長さ以
上の縦線（区画線）検出がなされたのち、これを
同図ｃに示すように細線表示して縦区画線位置が
認識される。認識したこれらの細線は計算機内部
では端点の座標としての数値情報として保持され
る。しかるのち、入力文書画像は第５図ｄに示す
ように一定長さ以上の横線検出に供される。この
場合、たとえば見出し文字中の横線分も多く検出
されることがある。しかしながら、このような見
出し中の線分は区画線としては不要なものであ
り、従つて、一定の段間隔以外の横線消去や区画
線の太さ以上の横線消去等の処理により、第５図
ｅに示すように不要な横線分を除去する。写真領
域でもそのような横線分が出ることがあり、また
縦区画線抽出においても同様のことが起こるが、
その除去は同様にできる。しかるのち残された横
線を細線表示して横区画線位置が認識される。こ
れらの細線も縦方向の細線と同様、計算機内部で
は線の端点の座標情報として保持される。第５図
ｆは上記の処理によつて認識された縦横の区画線
を重ねて表示したもので、これによつて記事文章
の区画が示される。

しかるのち、このようにして検出認識された区
画線（区切り線）を構造情報とし、且つこれを基
準として文書中の黒画素数のヒストグラムを求
め、このヒストグラムに従つて第５図ｇに示すよ
うに見出しを検出する。そして同様に上記ヒスト
グラムから第５図ｈに示すように写真を検出す
る。このヒストグラムによる見出しと写真との判
別は、例えば見出し文字全体の枠組、写真領域の
縦横の比や、濃度分布の異なり等がヒストグラム
情報のみからでも判別できるので、それを利用し
て行えばよい。その後、このようにして検出され
た見出しに従つて第５図ｉに示すように１つの記
事を切抜き抽出し、また同図ｊに示すように見出
しを再構成処理して地紋を消去する。そして、次
に第５図ｋに示すように前記した文章構造のつな
がりの関係から見出しに関連する記事本文のみを
抽出し、必要な場合には同図ｌに示すように例え
ば２段組に再編集する。この編集された記事本文
に対してデータ圧縮された見出しや符号による索
引用の情報等を付加して情報フアイルにすること
もできる。

かくしてこのような処理を実行することによつ
て、所望とするある一つの記事内容のみまたは紙
面中の指定領域のみを新聞紙面中から的確に切出
し、且つデータ圧縮してフアイル化することが可
能となる。しかもこのフアイル化処理に際して即
時的な人為的判断の必要がないので、システムを
実現するのが容易である。

ところで、本システムでは情報検索して表示出
力することも容易である。第６図は、その実施例
のシステム構成を示すものである。

新聞・雑誌等の画像は光デイスク等の大容量の
文書画像フアイル装置３０に蓄積される。この蓄
積画像は、元の紙面そのものの画像であつてもよ
く、また先に説明したシステムにおいて編集され
たものであつてもよい。一方、画像に関する検索
索引情報や不定形式の該当記事の割付領域を示す
領域構造情報、更には見出し位置等の構造情報は
磁気デイスク等によつて構成されるフアイル装置
３１にそれぞれフアイルされる。

しかして今、入力部３２に検索質問文や会話的
な指示情報が与えられると、これに対してマツチ
ング部３３が応答する。このマツチング部３３
は、上記検索質問文を前記索引フアイル装置３１
上の文字コードで示される検索索引とマツチング
処理したり、あるいは入力データを画像内領域切
出しパターンとして、あるいは画像パターンとし
て前記画像フアイル装置３０に蓄えられた画像と
のマツチング処理を行い、更には画像の特徴パラ
メータを抽出してマツチング処理等を行う。この
マツチング処理の結果、検索質問に該当する記事
の件数等の統計的情報が計算部３４にて求められ
て前記入力部３２に与えられる。この応答を受け
て、入力部３２を介して会話的に検索の実行が進
められる。

この検索情報の入力とこれに対する応答から所
望とする記事が見出されたとき、上記検索情報が
画像検索部３５に与えられる。画像検索部３５
は、文章、見出し、図、写真等が入り混つて構成
される文書画像を蓄積した画像フアイル３０を検
索して上記検索情報に該当するデータを抽出す
る。そして、この抽出された文書画像は、会話的
に制御され乍ら、前記第３図に示す如く構成され
る記事切出し編集システム３６に導かれ、記事構
造フアイル装置３１にフアイルされた構造情報に
従つて必要な記事の切出し編集が行われる。また
このとき、検索索引としてフアイルされた書誌情
報等の付帯的情報が付加され、出力文書画像３７
として出力される。

フアイル装置３１中に紙面内の割付領域を示す
記事構造情報フアイルを持つているときには、文
書画像フアイル３０には、全紙面をそのまま記憶
しておいてよいのは勿論である。紙面の中の一つ
の記事については、該当領域の指示情報により、
既知の画像技術によつて紙面の画像とその指定領
域情報とを重ね合わせて該当記事のみを取出し、
デイスプレイ装置に表示したり、その部分のみを
例えばフアクシミリに出力印字させるなどのこと
が可能となる。そのときの記事の形状は、もとの
紙面中の形状のままでも、再構成した形状でもよ
い。

ところで、画像情報の検索効率向上を図る為に
は、学習機能を導入することが望ましい。即ち、
学習機能３８を設け、検索質問、マツチング処理
の結果、および原画像との対応関係を分析して、
学習を行わしめるようにすればよい。このように
すれば、学習結果によつて検索索引フアイルに個
人的な情報が追加されたりして、そのフアイルが
学習の進行に従つて再構成され、整理されていく
ので、その後の検索の処理効率の向上が期待でき
る。またこのとき、記事構造情報フアイルも同時
に再構成するように制御する。つまり個人用に記
事同士のマージ（併合）処理を行つたり、あるい
は記事の一部分のみを分離したりして、情報を整
理していくようにすれば検索効率の向上が期待で
きる。具体的には、例えば一度検索した記事に対
しては、そのアクセス情報を要約した形式でフア
イル化して登録するようにしておけば、以後の検
索が極めて容易となる。また関連する記事同士を
連鎖させ、これを以後の検索に利用したり、記事
の一部の切抜きにあたる抽出に利用するようにす
ればよい。

またシステムにおける学習に際しては、シソー
ラス部３９を設けて、その検索シソーラスを作成
したり、索引情報の間での連想情報を構築するよ
うにしてもよい。このようにシソーラスを組立て
ることによつて関連記事の検索が容易となると云
う効果が奏せられる。

このような情報検索システムは第３図のフアイ
ル作成システムと一体化したものであつてよい。
またそれぞれ専用化して分離したものであつて
も、本発明の効果を十分発揮できることは云うま
でもない。

ところで、画像の為の電子フアイルとして光デ
イスクを用いれば、その大容量なメモリを用い
て、例えば新聞記事を画像のまま蓄積するとして
も、かなりの量のフアイル化が可能である。従つ
てこれを新聞の縮刷版として利用することがで
き、また電子フアイルとして画像記憶するので、
全デイジタル的に効率良く信号処理することがで
き、検索のシステム設計が容易で実用性が高い。
尚、検索情報や記事構造情報は、見出しなどのキ
ーワードを圧縮した情報とすることができるの
で、磁気デイスク装置程度で十分にその目的が達
せられるが、メモリ装置として特に限定されるも
のではない。

以上、本システムにつき説明したように、本シ
ステムによれば不定形式の文書であつて、且つ文
字コード化がなされてなく、しかも図表や写真等
を含む新聞や雑誌等の文書であつても、会話的な
環境で略々自動的に所望とする記事を切出してフ
アイル化したり、また検索の対象として出力する
ことができる。従つて従来のように、記事の切出
しや索引情報の付加に人手を煩らわすことがな
く、大幅な省力化を図り得る。勿論前述したパタ
ーン認識的な手法を用いて、記事のレイアウトを
認識するパターン理解的な処理は100パーセント
確実に正しい結果を与えるようにはできない。し
かしながら本システムでは、機械的な切出しが不
確かな部分は、一応最も確からしい切出しを行つ
ておき、その上にその不確かな部分についての警
告を記述するフラグを立てると共に、テーブルに
まとめておけば、後でオペレータが一括してその
部分についての処理を再検討するというパターン
認識処理におけるポストエデイツトの手法を用い
ることができる。このような不確かな記事は定位
置に本登録せずに仮のメモリに入れ、人間に対し
て検討を求めるための警告情報の内容は、例えば
新聞の場合には上部欄外のページ、日付等の情報
と、そのページ内での該当個所の概略位置とでよ
い。切出しが不確かな部分は少ないので、このよ
うにすれば、人手の介入を非常に少なくしておき
ながら、実用的なシステムが構築できる。

また対象となる文書としては、新聞、雑誌、書
籍のみならず、辞書や百科事典等を含ませること
ができ、これらの情報の畜積、検索を始めとして
古文書のデータベース等が可能となる。また特に
日本語文章の場合、タイプライタによるコード化
に非常に手間がかかることから、日本語情報処理
に本システムを適用した場合、多大な貢献をなし
得、実用的利点が絶大である。

尚、本発明は上記実施例に限定されるものでは
ない。例えば記事内容の境界検出を行間、段間ス
ペースから検出して行うようにしてもよく、また
見出しや写真等の検出を文字枠の大きさ等によつ
て行うようにしてもよい。要するに本発明はその
要旨を逸脱しない範囲で種々変形して実施するこ
とができる。

【図面の簡単な説明】

第１図は新聞記事の一例を示す図、第２図ａ〜
ｄは見出しとその文字抽出形態を示す図、第３図
は本発明に係る実施例システムの概略的な構成
図、第４図は本システムにおける処理フローの一
例を示す図、第５図ａ〜ｌは新聞記事の切抜きフ
アイル化を示す図、第６図は本システムを用いた
検索システムの概略的な構成図である。１……見出し、２……写真、３……記事本文、
４……区画線、１１……入力文書画像、１２……
文書構造情報抽出部、１３……情報区分部、１４
……記事切出し部、１５……構造知識抽出部、１
６……文字情報抽出部、１７……特徴抽出部、１
８……情報圧縮部、１９……索引作成部、２０…
…文字認識部、２１……索引フアイル、２２……
構造認識部、２３……再構成部、２４……編集
部、２５……出力文書画像フアイル、３０……文
書画像フアイル装置、３１……フアイル装置、３
２……入力部、３３……マツチング部、３４……
計算部、３５……画像検索部、３６……編集シス
テム、３７……出力文書画像、３８……学習機
能、３９……シソーラス部。

Claims

【特許請求の範囲】

１新聞や雑誌等の紙面に記載された情報を文書
画像情報として入力する手段と、この入力された
文書画像情報の中から記事に対する区画線や段間
および行間スペースをそれぞれ検出する手段と、
これらの区画線や段間および行間スペースの検出
情報に従つて前記新聞や雑誌等の紙面に記載され
た記事群に対する境界を検出する手段と、所定の
規則に従い上記境界に沿つて段組される文章構造
の繋り関係から前記新聞や雑誌等の紙面に段組さ
れて記載された所望とする記事本文を抽出する手
段と、この抽出された記事本文が記載された前記
新聞や雑誌等の紙面における割付け領域を表示
し、或いは上記抽出された記事本文を再構成処理
して表示またはフアイルする手段とを具備したこ
とを特徴とする新聞・雑誌等の切抜きフアイル作
成システム。