JPS6132712B2 - - Google Patents

Info

Publication number
JPS6132712B2
JPS6132712B2 JP56084589A JP8458981A JPS6132712B2 JP S6132712 B2 JPS6132712 B2 JP S6132712B2 JP 56084589 A JP56084589 A JP 56084589A JP 8458981 A JP8458981 A JP 8458981A JP S6132712 B2 JPS6132712 B2 JP S6132712B2
Authority
JP
Japan
Prior art keywords
article
information
image
file
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56084589A
Other languages
English (en)
Other versions
JPS57199066A (en
Inventor
Toshuki Sakai
Kosaku Inagaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP56084589A priority Critical patent/JPS57199066A/ja
Publication of JPS57199066A publication Critical patent/JPS57199066A/ja
Publication of JPS6132712B2 publication Critical patent/JPS6132712B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】 本発明は新聞や雑誌等から所望とする記事内容
を効果的に切抜き抽出し、これをそのまままたは
再編集して表示またはフアイルすることのできる
実用性の高い新聞・雑誌等の切抜きフアイル作成
システムに関する。
新聞や雑誌等には数多くの記事が予め定められ
た枠組み構成規則に従つてレイアウトして載せら
れている。そして、最近では、これらの中から所
望とする記事を人間が切抜きフアイルし、再構成
して計算機システムにフアイリングすることが試
みられている。
この場合、新聞・雑誌等の紙画サイズが決めら
れているものの、各種記事は上記紙面サイズを有
効に利用すべく、或る領域に割付けがなされて組
込まれているので、単に紙面上の単純な位置を特
定するだけでは所望とする記事のみを切抜き抽出
することができない不具合がある。また表のよう
に枠の見出しである属性名を指定することによつ
て記事内容を切抜き抽出することもできない。
つまり、1枚の紙面上で表示あるいはフアイル
化の対象となる記事は多数存在し、その中で種々
の形状に割付けがなされた或る一つの記事だけが
一つの単位記事となるので、例えば1紙面をペー
ジ等とする固定的な単位のみで取扱うことができ
ない。またコード化された文字情報を扱うものと
異なり、文書画像として入力される情報を取扱う
ので、必然的に文書内容の理解と云う処理が伴
う。この結果、例えば所望とする記事が紙面上で
どのようにレイアウト(段組;割付け)されてい
るかを認識する等の、所謂パターン理解的な情報
処理が必要となつてくる。更には新聞・雑誌等の
一つの記事は記事本文のみによつて構成されるも
のではなく、それに関連した見出しや写真・表等
の情報も含まれるから、これらを統一的に扱つて
効果的な切抜きフアイルを作成したり表示するこ
とが要求される。
本発明はこのような事情に鑑みてなされたもの
で、その目的とするところは、新聞や雑誌等の中
から所望とする記事内容を新聞製作の割付作業の
逆処理として効果的に切抜き抽出して、割付領域
を抽出表示したり、その内部を再構成して表示あ
るいはフアイルすることのできる実用性の高い新
聞・雑誌等の切抜きフアイル作成システムを提供
することにある。
本発明は文書画像として入力される新聞や雑誌
等に記載された一つの記事の境界を記事区画線ま
たは行間や段間スペースから検出すると共に、所
定の規則に従つた文章構造のつながりの関係から
所望とする記事本文を抽出し、またこの記事本文
と関連する見出しや写真等の付随情報を上記記事
本文とは独立に抽出し、これらの抽出された一つ
の記事情報を統一的に再構成処理して表示あるい
はフアイルすることによつて、所望とする記事内
容のフアイル化情報を人為的な判断処理を必ずし
も即時的に要することなしにパターン理解的手法
により、効果的に得るようにした実用性の高い新
聞・雑誌等の切抜きフアイル作成システムを提供
するものである。
以下、図面を適宜参照して本発明の詳細を説明
する。尚、ここでは新聞を例にして説明するが、
一般的な雑誌や書籍等も対象となることは云うま
でもない。
さて、新聞は第1図に模式的に示すように、そ
の紙面に見出し1、写真2、記事本文3を所定の
割付け規則に従つて多段に亘つて割付けして構成
され、従つて1枚の紙面中には複数の記事内容が
混在したものとなつている。また記事本文3の境
界は縦横に付された区画線4や段間あるいは行間
スペースによつて示されるようになつている。し
かし一つの記事においては上記見出し1、写真
2、記事本文3は隣接関係を保つてまとまるよう
になつている。そして、記事本文は、上記区画さ
れた境界内において、例えば縦書き日本語文章の
場合、右から左へと行を移動し、最終行からはそ
の下段の欄に移つて同様に右から左へと行を移動
して記載されるようになつており、1つの記事本
文3は、一般に或る領域内にまとめられるように
なつている。しかして表示あるいはフアイル化の
対象は、このような紙画中の或る記事内容となる
から、そのレイアウト形状は一定化せず、他の記
事内容との兼合いにおいて種々の形状となる。従
つて、表示あるいはフアイル化の対象を紙面の中
での単純な領域として固定化した単位として扱う
ことは到底望めない。しかも画像として文書を処
理するので、従来の文字コード化された文書を扱
うものとは異なり、あらゆる形態の文書情報に対
処しなければならない。この為、文書内容の理解
が必要となつてくるので、ここに前述したような
記事のレイアウトがどのように施されているかを
認識する、所謂パターン理解的な情報処理手法の
導入が必要となつてくる。
そこで本システムでは次のようにして画像入力
される新聞・雑誌等の文書情報から所望とする記
事内容の切抜きフアイルを行つている。
本システムにおける処理は、基本的には 入力された文書画像の中から記事に対する区
画線や段間・行間スペースを検出して記事の境
界を検出する処理、 文字列で示される記事本文、見出しや写真等
をそれぞれ別個に検出する処理、 所定の規則に従い上記境界に沿つて段組され
ている文章構造の繋り関係から、所望とする記
事本文を抽出する処理、 抽出された記事本文が割付けられている紙面
上の割付け領域を表示する処理、 抽出された記事本文のレイアウトを再構成処
理して表示またはフアイルする処理 に大別される。
新聞中の記事の境界は、一般的には隣接する記
事を区別する区画線や記事本文を構成する文字列
の段間・行間スペースによつて表現される。従つ
て入力文書画像中から後述するようにして区画線
や段間・行間スペースを検出することにより記事
の境界を検出することができる。
一方、新聞の記事は見出し1、写真2、記事本
文3等によつて構成される。そこで本システムで
は次のようにしてその特徴からこれらを識別する
ようにしている。
新聞中の記事をフアイル化したり、検索したり
するとき、その見出し1を重要な索引情報とする
ことができる。特に見出し1はその記事内容に関
連して周到に検討されているので、索引として極
めて有用である。然し乍ら、見出し1は第2図
a,b,cにそれぞれ示すように、白抜き文字化
や各種の地紋を付けたりしてデザイン化されるこ
とが多い。しかも、その文字数に比して画像とし
て占める面積割合が大きい。そこで本システムで
は、入力文書画像を画像認識処理することによ
り、上記見出し1の特徴を持つ領域を入力文書画
像中から抽出し、これを見出し1の部分であると
して検出している。そしてその見出しの部分画像
から地紋成分を除去し、且つ見出し文字に対する
種々のデザイン化処理に対してはその逆処理操作
を行うことによりその文字パターンの基本成分を
検出している。これによつて、例えば第2図dに
示すように見出し画像中から見出し文字を抜き出
すことが可能となる。従つて、このようにして見
出し1を抜き出せば、これをフアイル化において
情報圧縮することが可能であり、またその文字を
パターンのままでマツチング処理の対象として索
引情報に用いたり、更には文字認識して文字コー
ド化して索引情報とすることが可能となる。
尚、この見出しからの文字情報の抽出は、例え
ば画像縮退(Shrinking)処理や画像融合
(fusion)処理を用いたり、画像の白黒反転処理
を適宜用いることによつて実施できる。特に文字
抽出された見出しの文字パターンのサイズを縮小
すれば、容易に情報圧縮ができ、その効果は非常
に大きい。ところで、前述した区画線等に沿つて
段組され、その長さに応じてレイアウトされる記
事本文3の切抜きは次のようにして行われる。こ
の記事本文3の抽出には、その記事を作成するに
際して用いられた領域地割りの為の区画線や行間
および段間スペース、また紙面の組み方に関する
先験知識、先に抽出された見出しの情報等が利用
される。特に地割りの為の区画線は記事の境界を
定める上で重要な役割りを果している。従つて、
この区画線の線分を抽出してこれを理解すれば、
記事本文の境界を示す重要な要素として採用する
ことができる。尚、上記区画線は、例えば入力文
章画像中の線分を構成する黒画素の連続長を調
べ、これを閾値処理して短い線分を区画線以外の
線分であるとして除去し、残された線分だけを抽
出することによつて検出できる。
さて、記事本文が複数の段に亘つて組まれてい
る場合、文書画像をより詳細に認識することが必
要となる。この場合には、記事の先験知識を持つ
て、基本的には、上から下へ、また右から左へと
云う検索を順次行えばよい。また段の異なる文章
の継続性の判定は、或る段における縦の区画線や
スペース、見出し等によつて検出される文章の左
端行の最後尾が句点相当の少量黒画素で終つてい
るか否かを判定し、句点で終つていないとき、必
ず次の段に記事の続きが存在すると認識すること
ができる。この際、次段の文章の縦の区画線で区
切られた文章の中で、右端の行の1マス目が空白
でないものを、その上段の記事文章のつながりで
あると認識すればよい。
尚、より一般的には、左端行が句点で終了して
いる場合もあり得る。従つて、記事の後側より逆
向きに記事の継続性を判定していけば、文章のつ
ながりの有無を的確に認識することが可能とな
る。例えば或る段の記事内容が見出し頭部からの
続きでなければ、記事の途中であると判定され
る。このとき、その1つ上の段における最も確か
らしい継続部を選んで文章をつないでゆけばよ
い。また或る記事の文章の先頭に到達したことの
判定は、例えば見出し1の位置情報との関係を利
用して行うことができる。
尚、このようにして見出しや記事本文を理解し
て切抜く場合には、その前処理として見出し部・
記事本文部・図・表・写真等の画素配列の異質な
領域を個別に認識し、これを切り分けておく必要
がある。この構造情報の抽出には、例えば 村尾充洋、坂井利之 “文書画像の構造情報抽出” 情報処理学会第21回全国大会 7H−1(1980年5月) に示される処理を用いるようにすればよい。つま
り、画素配列のマルコフモデルにおけるランレン
グスによる統計的知識を利用して写真、図等を解
折して抽出し、しかるのち前記した個々の処理を
実行すれば、見出し、記事本文の効果的な切抜き
抽出が可能となる。この処理は後述するヒストグ
ラム情報を用いた処理の一部で代替できる。
尚、囲み記事の場合には、見出しが記事本文を
分断する形で入つてくるので、記事切出しの手順
は少し異なつてくる。しかしながら、囲み記事は
必ず矩形領域の形状をとり、かつ見出しはその中
央付近にあるので、そのような枠組み構成に関す
る知識を用いることにより、切出しが可能であ
り、ここで述べた手法から拡張すべき点は少な
く、容易である。その他の特殊な形式の記事も、
適宜それらの枠組み構成に関する知識を導入する
ことにより、同様に切り出せる。
第3図は、上述した画像処理を行つて記事内容
の切抜きフアイルを作成するシステムの一実施例
構成図である。
処理対象となる文書情報は、入力文書画像11
としてフアクシミリ等から入力される。この入力
文書画像11は、文書構造情報抽出部12に導か
れ、その構造的情報が調べられたのち、情報区分
部13に与えられて、記事区画線、文章、表、見
出し、図、写真等にそれぞれ分けられる。即ち、
文書構造抽出部12は、後で第4図を参照して更
に詳しく説明するように、先ず入力文書画像11
から一定長以上の縦線を検出し、これを細線化し
て文書割付け領域の縦区画線を抽出している。そ
の後、一定長以上の横線を検出し、且つその中で
所定の線幅以上のもの、および一定間隔以外のも
のを消去し、残された横線を細線化してこれを前
記文書割付け領域の横区画線として抽出してい
る。
そしてこれらの区画線の構造を文書の割付け構
造として認識し、上記区画線を基準として区分さ
れる領域毎にその領域内の濃度ヒストグラムを求
め、そのヒストグラムの特徴から見出し1や写真
2等を抽出し、それ以外の部分を記事本文3とし
て検出している。
このようにして検出される区画線や記事本文
3、見出し1、写真2等の情報が情報区分部13
にそれぞれ格納される。
記事切出し部14は、この情報区分部13から
入力文書画像中で、例えば見出し1と写真2、お
よびそれに対する記事本文3によつて構成される
ひとまとまり1つの記事を前記区画線の情報に基
づいて切出し、これをフアイル目的とする1つの
記事として抽出している。
この1つの記事の抽出は、後述するように記事
切出し部14と構造認識部22との協働作用によ
り、段組された記事本文の繋り関係を判定しなが
ら行われ、これによつて1つの連続した記事本文
3が抽出される。そして抽出された1つの記事本
文3は、再構成部23にて適宜その文書構造が再
構成され(記事本文3のレイアウトのし直し)、
編集部24を介して画像フアイル25に登録され
るようになつている。
ここで上記入力文書画像中の見出し情報は、構
造知識抽出部15にて統計的構造知識を利用して
形態判定され、これによつて、例えばどのように
デザイン化されているかが認識される。文字情報
抽出部16は、このようにして認識された見出し
に関する構造的情報を得て、これに適したアルゴ
リズムを用いて、見出しの文字情報を抽出してい
る。また文書画像中の図、写真等については、特
徴抽出部17にてその概略形状情報等の特徴が抽
出されている。そして、このようにして特徴抽出
された図、写真の情報、および前記見出しの文字
情報は、情報圧縮部18に導かれ、サイズの縮小
や文字コード化等の個々の圧縮アルゴリズムに従
つてデータ圧縮される。
また見出しや、図、写真、表等の特徴情報は索
引データとして索引作成部19に与えられる。ま
た見出し及び表中に示される文字情報は、文字認
識部20にて属性名を示す文字情報として、同様
に索引データとして上記索引作成部19に与えら
れる。この索引作成部19はこれらのデータに基
づいて、一つの記事内容を示す索引情報、例えば
キーワード等を作成するものであり、これによつ
て作成された上記索引情報は前述した如く抽出さ
れた記事本文3に対応して索引フアイル21に登
録されるようになつている。尚、この索引情報
は、画像であつてもよく、あるいは画像に関する
数値的な量であつても良く、更には文字認識され
た文字コード等であつても良い。
ところで、前記記事切出し部14に得られた1
まとまりの記事本文は、構造認識部22にて行の
抽出、文の接続関係等が判定される。この認識部
22は記事切出し部14と協働して作用するもの
で、これによつて、不定形に組まれた或る1つの
記事本文が抽出されることになる。そして、この
ようにして抽出された記事本文は、再構成部23
にて、出力画像として適した取扱いの容易な形式
に再構成される。このようにして再構成された記
事本文に対して、編集部24では、この文章に関
連する前記見出しや図、表、写真等を付加して編
集し、これを出力文書画像フアイル25に登録す
る如く構成される。勿論、原紙面はそのまま画像
フアイルとして登録し、それに加えて原紙面での
この記事に対する紙面割付けの領域情報としても
登録できる。また計算機システムでは通常出力装
置もフアイルとみなせるので、その場合には出力
文書画像フアイル25は表示出力となる。
第4図はこのように構成された本システムの全
体的な処理の流れ更に詳しくはを示すものであ
り、第5図a〜lはその処理形態を模式的に示し
たものである。第5図aは入力文書画像(原画)
の一例を示すものである。しかしてこの入力文書
画像は、先ず第5図bに示すように、一定長さ以
上の縦線(区画線)検出がなされたのち、これを
同図cに示すように細線表示して縦区画線位置が
認識される。認識したこれらの細線は計算機内部
では端点の座標としての数値情報として保持され
る。しかるのち、入力文書画像は第5図dに示す
ように一定長さ以上の横線検出に供される。この
場合、たとえば見出し文字中の横線分も多く検出
されることがある。しかしながら、このような見
出し中の線分は区画線としては不要なものであ
り、従つて、一定の段間隔以外の横線消去や区画
線の太さ以上の横線消去等の処理により、第5図
eに示すように不要な横線分を除去する。写真領
域でもそのような横線分が出ることがあり、また
縦区画線抽出においても同様のことが起こるが、
その除去は同様にできる。しかるのち残された横
線を細線表示して横区画線位置が認識される。こ
れらの細線も縦方向の細線と同様、計算機内部で
は線の端点の座標情報として保持される。第5図
fは上記の処理によつて認識された縦横の区画線
を重ねて表示したもので、これによつて記事文章
の区画が示される。
しかるのち、このようにして検出認識された区
画線(区切り線)を構造情報とし、且つこれを基
準として文書中の黒画素数のヒストグラムを求
め、このヒストグラムに従つて第5図gに示すよ
うに見出しを検出する。そして同様に上記ヒスト
グラムから第5図hに示すように写真を検出す
る。このヒストグラムによる見出しと写真との判
別は、例えば見出し文字全体の枠組、写真領域の
縦横の比や、濃度分布の異なり等がヒストグラム
情報のみからでも判別できるので、それを利用し
て行えばよい。その後、このようにして検出され
た見出しに従つて第5図iに示すように1つの記
事を切抜き抽出し、また同図jに示すように見出
しを再構成処理して地紋を消去する。そして、次
に第5図kに示すように前記した文章構造のつな
がりの関係から見出しに関連する記事本文のみを
抽出し、必要な場合には同図lに示すように例え
ば2段組に再編集する。この編集された記事本文
に対してデータ圧縮された見出しや符号による索
引用の情報等を付加して情報フアイルにすること
もできる。
かくしてこのような処理を実行することによつ
て、所望とするある一つの記事内容のみまたは紙
面中の指定領域のみを新聞紙面中から的確に切出
し、且つデータ圧縮してフアイル化することが可
能となる。しかもこのフアイル化処理に際して即
時的な人為的判断の必要がないので、システムを
実現するのが容易である。
ところで、本システムでは情報検索して表示出
力することも容易である。第6図は、その実施例
のシステム構成を示すものである。
新聞・雑誌等の画像は光デイスク等の大容量の
文書画像フアイル装置30に蓄積される。この蓄
積画像は、元の紙面そのものの画像であつてもよ
く、また先に説明したシステムにおいて編集され
たものであつてもよい。一方、画像に関する検索
索引情報や不定形式の該当記事の割付領域を示す
領域構造情報、更には見出し位置等の構造情報は
磁気デイスク等によつて構成されるフアイル装置
31にそれぞれフアイルされる。
しかして今、入力部32に検索質問文や会話的
な指示情報が与えられると、これに対してマツチ
ング部33が応答する。このマツチング部33
は、上記検索質問文を前記索引フアイル装置31
上の文字コードで示される検索索引とマツチング
処理したり、あるいは入力データを画像内領域切
出しパターンとして、あるいは画像パターンとし
て前記画像フアイル装置30に蓄えられた画像と
のマツチング処理を行い、更には画像の特徴パラ
メータを抽出してマツチング処理等を行う。この
マツチング処理の結果、検索質問に該当する記事
の件数等の統計的情報が計算部34にて求められ
て前記入力部32に与えられる。この応答を受け
て、入力部32を介して会話的に検索の実行が進
められる。
この検索情報の入力とこれに対する応答から所
望とする記事が見出されたとき、上記検索情報が
画像検索部35に与えられる。画像検索部35
は、文章、見出し、図、写真等が入り混つて構成
される文書画像を蓄積した画像フアイル30を検
索して上記検索情報に該当するデータを抽出す
る。そして、この抽出された文書画像は、会話的
に制御され乍ら、前記第3図に示す如く構成され
る記事切出し編集システム36に導かれ、記事構
造フアイル装置31にフアイルされた構造情報に
従つて必要な記事の切出し編集が行われる。また
このとき、検索索引としてフアイルされた書誌情
報等の付帯的情報が付加され、出力文書画像37
として出力される。
フアイル装置31中に紙面内の割付領域を示す
記事構造情報フアイルを持つているときには、文
書画像フアイル30には、全紙面をそのまま記憶
しておいてよいのは勿論である。紙面の中の一つ
の記事については、該当領域の指示情報により、
既知の画像技術によつて紙面の画像とその指定領
域情報とを重ね合わせて該当記事のみを取出し、
デイスプレイ装置に表示したり、その部分のみを
例えばフアクシミリに出力印字させるなどのこと
が可能となる。そのときの記事の形状は、もとの
紙面中の形状のままでも、再構成した形状でもよ
い。
ところで、画像情報の検索効率向上を図る為に
は、学習機能を導入することが望ましい。即ち、
学習機能38を設け、検索質問、マツチング処理
の結果、および原画像との対応関係を分析して、
学習を行わしめるようにすればよい。このように
すれば、学習結果によつて検索索引フアイルに個
人的な情報が追加されたりして、そのフアイルが
学習の進行に従つて再構成され、整理されていく
ので、その後の検索の処理効率の向上が期待でき
る。またこのとき、記事構造情報フアイルも同時
に再構成するように制御する。つまり個人用に記
事同士のマージ(併合)処理を行つたり、あるい
は記事の一部分のみを分離したりして、情報を整
理していくようにすれば検索効率の向上が期待で
きる。具体的には、例えば一度検索した記事に対
しては、そのアクセス情報を要約した形式でフア
イル化して登録するようにしておけば、以後の検
索が極めて容易となる。また関連する記事同士を
連鎖させ、これを以後の検索に利用したり、記事
の一部の切抜きにあたる抽出に利用するようにす
ればよい。
またシステムにおける学習に際しては、シソー
ラス部39を設けて、その検索シソーラスを作成
したり、索引情報の間での連想情報を構築するよ
うにしてもよい。このようにシソーラスを組立て
ることによつて関連記事の検索が容易となると云
う効果が奏せられる。
このような情報検索システムは第3図のフアイ
ル作成システムと一体化したものであつてよい。
またそれぞれ専用化して分離したものであつて
も、本発明の効果を十分発揮できることは云うま
でもない。
ところで、画像の為の電子フアイルとして光デ
イスクを用いれば、その大容量なメモリを用い
て、例えば新聞記事を画像のまま蓄積するとして
も、かなりの量のフアイル化が可能である。従つ
てこれを新聞の縮刷版として利用することがで
き、また電子フアイルとして画像記憶するので、
全デイジタル的に効率良く信号処理することがで
き、検索のシステム設計が容易で実用性が高い。
尚、検索情報や記事構造情報は、見出しなどのキ
ーワードを圧縮した情報とすることができるの
で、磁気デイスク装置程度で十分にその目的が達
せられるが、メモリ装置として特に限定されるも
のではない。
以上、本システムにつき説明したように、本シ
ステムによれば不定形式の文書であつて、且つ文
字コード化がなされてなく、しかも図表や写真等
を含む新聞や雑誌等の文書であつても、会話的な
環境で略々自動的に所望とする記事を切出してフ
アイル化したり、また検索の対象として出力する
ことができる。従つて従来のように、記事の切出
しや索引情報の付加に人手を煩らわすことがな
く、大幅な省力化を図り得る。勿論前述したパタ
ーン認識的な手法を用いて、記事のレイアウトを
認識するパターン理解的な処理は100パーセント
確実に正しい結果を与えるようにはできない。し
かしながら本システムでは、機械的な切出しが不
確かな部分は、一応最も確からしい切出しを行つ
ておき、その上にその不確かな部分についての警
告を記述するフラグを立てると共に、テーブルに
まとめておけば、後でオペレータが一括してその
部分についての処理を再検討するというパターン
認識処理におけるポストエデイツトの手法を用い
ることができる。このような不確かな記事は定位
置に本登録せずに仮のメモリに入れ、人間に対し
て検討を求めるための警告情報の内容は、例えば
新聞の場合には上部欄外のページ、日付等の情報
と、そのページ内での該当個所の概略位置とでよ
い。切出しが不確かな部分は少ないので、このよ
うにすれば、人手の介入を非常に少なくしておき
ながら、実用的なシステムが構築できる。
また対象となる文書としては、新聞、雑誌、書
籍のみならず、辞書や百科事典等を含ませること
ができ、これらの情報の畜積、検索を始めとして
古文書のデータベース等が可能となる。また特に
日本語文章の場合、タイプライタによるコード化
に非常に手間がかかることから、日本語情報処理
に本システムを適用した場合、多大な貢献をなし
得、実用的利点が絶大である。
尚、本発明は上記実施例に限定されるものでは
ない。例えば記事内容の境界検出を行間、段間ス
ペースから検出して行うようにしてもよく、また
見出しや写真等の検出を文字枠の大きさ等によつ
て行うようにしてもよい。要するに本発明はその
要旨を逸脱しない範囲で種々変形して実施するこ
とができる。
【図面の簡単な説明】
第1図は新聞記事の一例を示す図、第2図a〜
dは見出しとその文字抽出形態を示す図、第3図
は本発明に係る実施例システムの概略的な構成
図、第4図は本システムにおける処理フローの一
例を示す図、第5図a〜lは新聞記事の切抜きフ
アイル化を示す図、第6図は本システムを用いた
検索システムの概略的な構成図である。 1……見出し、2……写真、3……記事本文、
4……区画線、11……入力文書画像、12……
文書構造情報抽出部、13……情報区分部、14
……記事切出し部、15……構造知識抽出部、1
6……文字情報抽出部、17……特徴抽出部、1
8……情報圧縮部、19……索引作成部、20…
…文字認識部、21……索引フアイル、22……
構造認識部、23……再構成部、24……編集
部、25……出力文書画像フアイル、30……文
書画像フアイル装置、31……フアイル装置、3
2……入力部、33……マツチング部、34……
計算部、35……画像検索部、36……編集シス
テム、37……出力文書画像、38……学習機
能、39……シソーラス部。

Claims (1)

    【特許請求の範囲】
  1. 1 新聞や雑誌等の紙面に記載された情報を文書
    画像情報として入力する手段と、この入力された
    文書画像情報の中から記事に対する区画線や段間
    および行間スペースをそれぞれ検出する手段と、
    これらの区画線や段間および行間スペースの検出
    情報に従つて前記新聞や雑誌等の紙面に記載され
    た記事群に対する境界を検出する手段と、所定の
    規則に従い上記境界に沿つて段組される文章構造
    の繋り関係から前記新聞や雑誌等の紙面に段組さ
    れて記載された所望とする記事本文を抽出する手
    段と、この抽出された記事本文が記載された前記
    新聞や雑誌等の紙面における割付け領域を表示
    し、或いは上記抽出された記事本文を再構成処理
    して表示またはフアイルする手段とを具備したこ
    とを特徴とする新聞・雑誌等の切抜きフアイル作
    成システム。
JP56084589A 1981-06-02 1981-06-02 File forming system for cutting of newspaper and magazine Granted JPS57199066A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56084589A JPS57199066A (en) 1981-06-02 1981-06-02 File forming system for cutting of newspaper and magazine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56084589A JPS57199066A (en) 1981-06-02 1981-06-02 File forming system for cutting of newspaper and magazine

Publications (2)

Publication Number Publication Date
JPS57199066A JPS57199066A (en) 1982-12-06
JPS6132712B2 true JPS6132712B2 (ja) 1986-07-29

Family

ID=13834854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56084589A Granted JPS57199066A (en) 1981-06-02 1981-06-02 File forming system for cutting of newspaper and magazine

Country Status (1)

Country Link
JP (1) JPS57199066A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03230288A (ja) * 1990-02-06 1991-10-14 Oki Electric Ind Co Ltd 情報処理装置
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
JP3178483B2 (ja) * 1992-06-09 2001-06-18 富士ゼロックス株式会社 文書処理装置
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
NL1000701C2 (nl) * 1995-06-30 1996-12-31 Oce Nederland Bv Inrichting en werkwijze voor het extraheren van artikelen uit een document.
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
JPH10247237A (ja) * 1996-12-30 1998-09-14 Ricoh Co Ltd 文書画像処理装置および文書画像処理方法および情報記録媒体
JPH11316828A (ja) * 1998-05-01 1999-11-16 Nec Corp 静止画像自動一括登録方法及び方式
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP3854030B2 (ja) * 2000-03-06 2006-12-06 日本電信電話株式会社 情報閲覧装置及び情報閲覧プログラムを記憶した媒体
JP2002150306A (ja) 2000-09-04 2002-05-24 Minolta Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録したコンピュータ読取可能な記録媒体
JP2002229972A (ja) * 2001-02-01 2002-08-16 Toshiba Corp 新聞紙面の制作システムおよび目次作成方法
JP2002279307A (ja) * 2001-03-19 2002-09-27 Ricoh Co Ltd 課金装置、課金方法及び該方法を実行するためのプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP4959073B2 (ja) * 2001-07-16 2012-06-20 旭サナック株式会社 塗装ガン
JP6790712B2 (ja) * 2016-10-19 2020-11-25 富士通株式会社 形状抽出プログラム、形状抽出方法及び形状抽出装置
JP6353893B2 (ja) * 2016-12-13 2018-07-04 株式会社アイエスピー 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置
JP7243981B2 (ja) * 2019-03-08 2023-03-22 国立大学法人秋田大学 紙面領域分類装置及びそのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PATTERN RECOGNITION IN PRACTICE=1980 *

Also Published As

Publication number Publication date
JPS57199066A (en) 1982-12-06

Similar Documents

Publication Publication Date Title
JPS6132712B2 (ja)
US5848184A (en) Document page analyzer and method
CA2078423C (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
EP0543598B1 (en) Method and apparatus for document image processing
EP0544432A2 (en) Method and apparatus for document processing
US20070002054A1 (en) Method of identifying semantic units in an electronic document
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
JP2003288334A (ja) 文書処理装置及び文書処理方法
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN111814425A (zh) 一种基于图书文字信息的图书自动排版实现方法
FI20176151A1 (en) A heuristic method for analyzing the contents of an electronic document
JPH0314184A (ja) 文書画像再配置ファイリング装置
Ramel et al. AGORA: the interactive document image analysis tool of the BVH project
US9049400B2 (en) Image processing apparatus, and image processing method and program
JPH0821057B2 (ja) 文書画像解析方式
JP3922396B2 (ja) レイアウト装置および表示装置
CN116341489A (zh) 一种文本信息读取方法、装置及终端
JP2559356B2 (ja) 文書画像処理方法
JPH03127169A (ja) マルチメディア文書構造化方式
CN110727820B (zh) 一种为图片获得标签的方法和系统
CN115146203A (zh) 一种基于网页页面显示的族谱信息录入排版输出方法