JPS6272073A - 画像情報のスクラツプ処理方式 - Google Patents
画像情報のスクラツプ処理方式Info
- Publication number
- JPS6272073A JPS6272073A JP60211550A JP21155085A JPS6272073A JP S6272073 A JPS6272073 A JP S6272073A JP 60211550 A JP60211550 A JP 60211550A JP 21155085 A JP21155085 A JP 21155085A JP S6272073 A JPS6272073 A JP S6272073A
- Authority
- JP
- Japan
- Prior art keywords
- area
- article
- title
- section
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の属する技術分野
本発明は、新聞または雑誌等の印刷物等の記事を切り出
し、高速度でデータヘース化を行う画像情報のスクラッ
プ処理方式に関するものである。
し、高速度でデータヘース化を行う画像情報のスクラッ
プ処理方式に関するものである。
(2)従来の技術
ファクシミリはパターン画像を送受信する通信装置とし
て広く普及している。ファクシミリにおけるパターン画
像入力の節易性と出力の高精細性とを生かし、ファクシ
ミリを画像データベースの入出力端末として用いること
が考えられる。この場合、新聞、雑誌等の印刷物から関
連する記事を切り出し、高速に画像データベース化する
必要がある。
て広く普及している。ファクシミリにおけるパターン画
像入力の節易性と出力の高精細性とを生かし、ファクシ
ミリを画像データベースの入出力端末として用いること
が考えられる。この場合、新聞、雑誌等の印刷物から関
連する記事を切り出し、高速に画像データベース化する
必要がある。
一般に、新聞、雑誌等は、内容の異なる複数の記事、広
告等から構成される。また、各記事は。
告等から構成される。また、各記事は。
標題、あらまし2本文、写真1図表等から構成されてお
り、これらの記事をデータベース化するには、以下の方
法がある。
り、これらの記事をデータベース化するには、以下の方
法がある。
(ア)人手により記事を切り貼りし、ファクシミリ等の
入力装置から読み込み、イメージのレベルでファイル化
する。
入力装置から読み込み、イメージのレベルでファイル化
する。
(イ)人手により1文字と写真・図表部と規格外の文字
部とを分離し、OCR等により文字部を文字データ列に
変換する。写真・図表部等は別途、ファクシミリ等の装
置から入力し、前記文字データ列と結合する。
部とを分離し、OCR等により文字部を文字データ列に
変換する。写真・図表部等は別途、ファクシミリ等の装
置から入力し、前記文字データ列と結合する。
(つ)(イ)の方法でOCRの代わりに文字部を人手に
より日本語文書処理装置(ワードプロセッサ)で文字デ
ータ列に変換し、写真・図表部と別途結合する。
より日本語文書処理装置(ワードプロセッサ)で文字デ
ータ列に変換し、写真・図表部と別途結合する。
(イ)、(つ)の方法は2人手作業の人件費。
OCRの装置費が高いこと1人手によるため画像データ
ベース化で必要な高速化に適さないことなどの欠点があ
る。一方、 (ア)の方法は高速入力には適するものの
、単純なビット列として扱っているため、出力端末の表
示形式に合わせたり、出力時に見易くするレイアウト処
理を行ったり、あるいは検索用のキーワードやキーイメ
ージ等の抽出などが出来ないという欠点がある。
ベース化で必要な高速化に適さないことなどの欠点があ
る。一方、 (ア)の方法は高速入力には適するものの
、単純なビット列として扱っているため、出力端末の表
示形式に合わせたり、出力時に見易くするレイアウト処
理を行ったり、あるいは検索用のキーワードやキーイメ
ージ等の抽出などが出来ないという欠点がある。
(3)発明の目的
本発明の目的は1手提作等による新聞や雑誌等の印刷物
の記事切り出しや再レイアウト処理の非効率さを改善し
、自動的に切り出し処理や再レイアウト処理を行い、高
速度処理可能な画像データベース入力装置を提供するこ
とにある。
の記事切り出しや再レイアウト処理の非効率さを改善し
、自動的に切り出し処理や再レイアウト処理を行い、高
速度処理可能な画像データベース入力装置を提供するこ
とにある。
(4)発明の構成
(4−1)発明の特徴と従来の技術との差異本発明は、
新聞または雑誌等の印刷物等のデータベース化に対し2 ■記事部領域を切り出し。
新聞または雑誌等の印刷物等のデータベース化に対し2 ■記事部領域を切り出し。
■抽出した領域から標題部2文学部、写真部1図表部を
分離し。
分離し。
■文字部は1文字車位の領域で切り出し。
■出力時の見易さを達成し、イメージレベルでの検索を
可能とするための再レイアウト処理する。
可能とするための再レイアウト処理する。
等を自動的に行うことを主な特徴とし、従来上記処理を
手作業で行っていたのに対し、自動的に処理する点が異
なる。
手作業で行っていたのに対し、自動的に処理する点が異
なる。
(4−2)実施例
第1図は本発明の装置構成例である。図中、1は新開・
雑誌等をページ単位で入力しパターン画像データに変換
する読取り部、2は原画等を格納する画像メモiハ 3
はページ中の必要な記事領域を抽出する領域抽出部を表
している。また4は記事領域から文字部、写真部5図表
部、標題部の分離を行い1文字部に対しては一文字単位
の領域を抽出する文字抽出部である。更に5は文字抽出
部4で抽出した領域情報を用いてレイアウト処理を行う
レイアウト処理部、6はレイアウト処理結果と標題、ア
ブストラクト等の検索用イメージを蓄積する出力部であ
る。
雑誌等をページ単位で入力しパターン画像データに変換
する読取り部、2は原画等を格納する画像メモiハ 3
はページ中の必要な記事領域を抽出する領域抽出部を表
している。また4は記事領域から文字部、写真部5図表
部、標題部の分離を行い1文字部に対しては一文字単位
の領域を抽出する文字抽出部である。更に5は文字抽出
部4で抽出した領域情報を用いてレイアウト処理を行う
レイアウト処理部、6はレイアウト処理結果と標題、ア
ブストラクト等の検索用イメージを蓄積する出力部であ
る。
21は原画データ、22は原画データより抽出した記事
領域データ523は文字部、写真部1図表部等それ以上
分割できない領域からなる要素画データ、24は抽出し
た要素画データを用い5図形の移動や文字の流し込み処
理等の処理を行い。
領域データ523は文字部、写真部1図表部等それ以上
分割できない領域からなる要素画データ、24は抽出し
た要素画データを用い5図形の移動や文字の流し込み処
理等の処理を行い。
その結果に対応する処理画データである。
第1図の装置動作を、第2図に示すスクラッピング処理
例を用いて説明する。第2図においてマは文書の始まり
、一■は文書の続きが一〇へ続くことを示すもの、■は
文書の終りを示す。
例を用いて説明する。第2図においてマは文書の始まり
、一■は文書の続きが一〇へ続くことを示すもの、■は
文書の終りを示す。
(11第2図(ア)は新聞紙面等のレイアウト例であり
、新聞紙面は、記事1,2.3.4及び広告により構成
されている。記事1をデータベース化するため第2図(
ア)に示す原稿を読取り部1より画像メモリ2に入力し
原画21とする。
、新聞紙面は、記事1,2.3.4及び広告により構成
されている。記事1をデータベース化するため第2図(
ア)に示す原稿を読取り部1より画像メモリ2に入力し
原画21とする。
(2)領域抽出部3は、(1)で得られた原画21をビ
ットマツプ表示し、切り出す記事の領域をマウス等で指
定し、第2図(イ)に示す記事領域22を抽出し格納す
る。
ットマツプ表示し、切り出す記事の領域をマウス等で指
定し、第2図(イ)に示す記事領域22を抽出し格納す
る。
(3)データベース化する記事領域の指定後、記事l内
の標B1.標題2及び文字部の分離を文字抽出部4で行
う。文字部は、1文字部単位で切り出しを行い、これら
を画像メモリ2に要素側23として格納する。
の標B1.標題2及び文字部の分離を文字抽出部4で行
う。文字部は、1文字部単位で切り出しを行い、これら
を画像メモリ2に要素側23として格納する。
(4)要素側23は第2図(つ)に示すように、標題l
、標題21本文1 (あらまし)、本文2 (詳細)に
分離され2文字部は1文字車位で切り出している。そこ
で、レイアウト処理部5は要素側23を用い、標題1.
標題21本文1 (あらまし)1本文2(詳細)の順で
ならびかえ等のレイアウト処理を行う。これにより、デ
ータベースの検索結果を見易い形式とすることや、パー
ソナル・コンピュータ等1ラインのビット数がファクシ
ミリと比ベロ40ビットと少ない表示デバイスに出力で
きる形式等に再レイアウトする。また、標題2は原画で
は縦書きであるのに対し1文字領域の回転を用いて横書
きに変形する。本文1.2は縦書き、横書き変換ととも
に表示又は印刷画面幅に合わせて1文字領域の連結を行
う。
、標題21本文1 (あらまし)、本文2 (詳細)に
分離され2文字部は1文字車位で切り出している。そこ
で、レイアウト処理部5は要素側23を用い、標題1.
標題21本文1 (あらまし)1本文2(詳細)の順で
ならびかえ等のレイアウト処理を行う。これにより、デ
ータベースの検索結果を見易い形式とすることや、パー
ソナル・コンピュータ等1ラインのビット数がファクシ
ミリと比ベロ40ビットと少ない表示デバイスに出力で
きる形式等に再レイアウトする。また、標題2は原画で
は縦書きであるのに対し1文字領域の回転を用いて横書
きに変形する。本文1.2は縦書き、横書き変換ととも
に表示又は印刷画面幅に合わせて1文字領域の連結を行
う。
(5)出力部6では、標題やあらましを検索用のインデ
ックスとするとともに、再レイアウト処理を行った処理
部24を入力してデータベース化する。
ックスとするとともに、再レイアウト処理を行った処理
部24を入力してデータベース化する。
以上をまとめると2本発明の一実施例においては1次の
如き機能をもつように構成されている。
如き機能をもつように構成されている。
即ち。
■新聞、雑誌等の印刷物をパターン画像として入力し。
■必要な記事領域を切り出し。
■切り出した領域に対し、標題部2文字部、写真部5図
表部等を分離し。
表部等を分離し。
■文字部に対しては、1文字領域単位で切り出し。
■データベース検索端末の表示または出力形式に適する
ように再レイアウト処理を行い。
ように再レイアウト処理を行い。
■■で得られた標題部、写真部等を検索キーとする。
(5)発明の詳細
な説明した如く1本発明によれば
■人手によるまたはOCRを用いた文字データへの変換
が不要であり、安価で高速な画像データベース化が可能
。
が不要であり、安価で高速な画像データベース化が可能
。
■データベース検索端末の表示または印字形式に合わせ
て再レイアウト処理が可能である利点がある。
て再レイアウト処理が可能である利点がある。
第1図は本発明の一実施例装置構成例、第2図(ア)
(イ) (つ)は新聞記事のスクラッピングを行う態様
例を示す。 図中、1は読取り部、2は画像メモリ、3は領域抽出部
、4は文字抽出部、5はレイアウト処理部、6は出力部
を表す。
(イ) (つ)は新聞記事のスクラッピングを行う態様
例を示す。 図中、1は読取り部、2は画像メモリ、3は領域抽出部
、4は文字抽出部、5はレイアウト処理部、6は出力部
を表す。
Claims (1)
- 【特許請求の範囲】 新聞または雑誌を含む印刷物およびその類似物を走査し
て入力する読取り部と、 当該印刷物上での記事部を含む領域を抽出する領域抽出
部と、 抽出した領域から存在する限り少なくとも標題部、文字
部、写真部、図表部を分離する領域分離部と、 一文字単位の領域抽出を行う文字抽出部と、文字そろえ
、縦書き横書き変換を含む処理を行うレイアウト処理部
と、 レイアウト結果とともに上記標題部、文字部、写真部、
図表部を記事の検索キーとして蓄積する出力部とを有し
、 印刷物を記事単位で編集するようにした ことを特徴とする画像情報のスクラップ処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60211550A JPS6272073A (ja) | 1985-09-25 | 1985-09-25 | 画像情報のスクラツプ処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60211550A JPS6272073A (ja) | 1985-09-25 | 1985-09-25 | 画像情報のスクラツプ処理方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6272073A true JPS6272073A (ja) | 1987-04-02 |
Family
ID=16607669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60211550A Pending JPS6272073A (ja) | 1985-09-25 | 1985-09-25 | 画像情報のスクラツプ処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6272073A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01245637A (ja) * | 1988-03-26 | 1989-09-29 | Hamada Insatsuki Seizosho:Kk | 新聞記事情報配信方法 |
JP2006092048A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 画像処理装置 |
-
1985
- 1985-09-25 JP JP60211550A patent/JPS6272073A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01245637A (ja) * | 1988-03-26 | 1989-09-29 | Hamada Insatsuki Seizosho:Kk | 新聞記事情報配信方法 |
JP2006092048A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 画像処理装置 |
JP4548062B2 (ja) * | 2004-09-22 | 2010-09-22 | 富士ゼロックス株式会社 | 画像処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
JP4181892B2 (ja) | 画像処理方法 | |
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
US20040139391A1 (en) | Integration of handwritten annotations into an electronic original | |
JP2008022159A (ja) | 文書処理装置及び文書処理方法 | |
KR20060001392A (ko) | 문자 인식을 이용한 내용검색 기반의 문서 이미지 저장 방법 | |
JPS6272073A (ja) | 画像情報のスクラツプ処理方式 | |
CN2896374Y (zh) | 便携式数码照相文字辨认翻译器 | |
US9135517B1 (en) | Image based document identification based on obtained and stored document characteristics | |
JPH05303619A (ja) | 電子スクラップブック | |
JPS60114967A (ja) | 画像フアイル装置 | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JP4278134B2 (ja) | 情報検索装置及びプログラム並びに記録媒体 | |
JP2004348467A (ja) | 画像検索装置及びその制御方法、プログラム | |
JPH08153110A (ja) | 文書ファイリング装置及び方法 | |
JP2004078672A (ja) | 検索可能な文書フォーマットでのスキャン装置 | |
JP2005149210A (ja) | 画像処理装置及びその制御方法、プログラム | |
JPH06274551A (ja) | 画像ファイリング装置 | |
JP2006251864A (ja) | ファイル管理方法及びその装置並びにファイル管理用プログラム | |
JPH0922442A (ja) | イメージ・ドキュメント資料の電子管理システム | |
JP2904849B2 (ja) | 文字認識装置 | |
JP2004288015A (ja) | 文書ファイリング装置および文書区切り方法 | |
JP2006253995A (ja) | 画像処理装置 | |
JPH03127169A (ja) | マルチメディア文書構造化方式 | |
JPH07262317A (ja) | 文書処理装置 |