JPS61153756A

JPS61153756A - 文書処理方式

Info

Publication number: JPS61153756A
Application number: JP59278148A
Authority: JP
Inventors: Koichi Ejiri; 公一江尻
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-12-26
Filing date: 1984-12-26
Publication date: 1986-07-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔技術分野〕本発明は１文字の他に１図形画像や中間調画像などが混
在した文字の処理に関し、さらに詳しくは、そのような
文字の情報をファイル化し、その後、ファイルの情報に
基づき文書を再生する場合に適用される文書処理方式に
関する。

〔従来技術〕

第２図（ａ）に示すような文書を考える。小さな四角形
１は文字、ハツチングを施した四角形２は写真などの中
間調画像、大きな四角形３はグラフのような図形画像で
ある。

このような文字・画像混在文字の文字領域、中間調画像
領域１図形画像領域を判別抽出し、また文字領域の各文
字を切り出す認識する技術は既に存在している。各領域
の判別抽出に関する技術としては、特願昭５５−０３８
５３１号の「画像特性の識別方法」、特願昭５６−２３
９４０号の「画像領域領域抽出方法ｊ、特願昭５６−３
０９７５号の「中間調領域識別方法」などがある。最初
の技術は、ランレングス構造に基づいて文字。

図形、写真などを判別する方法である。２番目の技術は
、連結画素領域の大きさと相対距離を考慮して連結画素
領域を統合して画像領域を抽出する方法である。３番目
の技術は、ディザ処理において、特定の閾値により白（
または黒）と判定された画素数と、大きさの順に分けら
れた閾値群ごとに、それにより黒（または白）と判定さ
れた画素数とを、所定領域毎にカウントし、そのカウン
ト値に基づき所定領域が中間調画像領域であるか否かを
判定する方法である。

文字の切出技術としては、射影法、または、それを変形
した方法など、多くの方法が知られている。文字の認識
についても種々の方法が知られている。

さて、文書の文字１画像などの領域を分けて読み取りフ
ァイル化した後、文書を再生する場合。

再生文字サイズは原稿上の文字サイズと同一とは限らな
い。その結果、従来はつどのような問題があった。再生
文字サイズが小さい場合、第２図（ａ）の文書の再生画
像は同図（ｂ）に示すようになり、図形や写真の領域の
周囲に不必要な空白部が生じてしまう。逆に再生文字サ
イズが大きい場合、図形や写真と文字列の一部がオーバ
ラップし１文字情報を破壊してしまう。

〔目　的〕

本発明の目的は、上述のような不都合を解消できる文書
処理方式を提供することにある。

〔構　成〕

本発明の文書処理方式にあっては１文字の情報をファイ
ル化する時に１文書の文字領域と、それ以外の画像領域
とに分けてそれぞれファイルを作成し１文字領域のファ
イルに当該文字領域に含まれる。または隣接する画像領
域の範囲を示す特定のコードも含めておき１文書を再生
する場合、最初に文字領域ファイルの情報にしたがって
文字を再生し、その時に文字領域ファイルに特定コード
が含まれている場合は、その特定コードの位置に基づき
画像領域の位置と大きさを認識は、その後。

画像領域のファイルの情報にしたがって画像を。

文字再生の際に認識された画像領域内に再生する。

以上１図面を参照し、本発明の一実施例について説明す
る。

第１図は本発明の一実施例を示す概略ブロック図である
。この図において、ＩＯは文書原稿を光学的に走査し１
文書画像を光電変換し、２値の文書画像信号を８力する
読取部である。この読取部は、一般的なＯＣＲの対応部
と同様でよい、１２は認識部であり、読取部１０から文
書画像信号を入力され、その文書の文字領域、中間調画
像領域。

図形画像領域を抽出し、また文字領域の個々の文字を切
り出し認識する。このような各処理は前述したような公
知の技術で行うことができるので。

それらの詳細は説明しない。文書の情報は１文字領域、
中間調画像領域、図形画像領域別にファイル装置１１４
に格納される。それぞれのファイルの形式について第３
図により説明する。

中間調画像領域のファイルＡは第３図（ａ）に示すよう
な構造であり＋　　ＩＤＩ　ｒｉＤ２ｐ・・・は中間調
画像領域の識別名、ＸＬ、、ＸＬ、、・・・は文書上に
おける中間調画像領域の始点のＸ座標値とＸ方向の長さ
、ＹＬ、、ＹＬ、は中間調画像領域の始点のＹ座標値と
Ｙ方向の長さ、ＢＭ、、ＢＭ２゜・・・は中間調画像の
ビットマツプ表現である。図形画像領域のファイルＢは
第３図（ｂ）に示す構造であり、　　ｉ　Ｄｎ　ｔ　　
ｌ　Ｄｎ＋＋　ｒ・・・は領域の識別名。

ＸＬ＋１．ＸＬｌｌ□、・・・は領域の始点のＸ座とＸ
方向の長さ、ＹＬｎ、ＹＬ、＋、、・・・は領域の始点
のＹ座標値とＹ方向の長さ、ＲＬ、、ＲＬｎや５．・・
・は図形画像のランレングス表現である６文字領域のフ
ァイル、つまりテキストファイルＣは第３図（ｃ）に示
すような構造であり、　　ｉ　０ｓ　＊　　ｉＤａ＋＋
　＊・・・は領域の識別名＋　Ｎ　Ｉ　＃　Ｎ　ｓ＋＋
　ｔ・・・は文字数、Ｆは文字フォント、ＣＦｓ　、Ｃ
Ｆ＊＋＋　、・・・は文字コード群である。ここで、中
間調または図形画像領域が存在する部分を示す特別のコ
ード（文字または記号コード）も、ＣＦ部に含まれる。

具体的には、第４図に示すように、文字領域（矩形領域
）に含まれる図形領域（破線枠内）の２つの対角頂点を
示すコード”［Ｇ［”と゛コＧ］″が、ＣＦ部の対応位
置に記憶される。例えば第４図の文字列ｒｉｎｄｉｃａ
ｔｅＪの行では、第５図に示すように、スペースに続い
てコード゛’］Ｇ］”が格納される。中間調画像領域の
場合も同様であるが、対角頂点を示すコードとして、　
”　［Ｈ［”と″コＨ］″が用いられる。

次に文書の再生について説明する。文書再生は。

最初に文字（ファイルＣ）が再生され、次に図形（ファ
イルＢ）が再生され、最後に中間調（ファイルＡが再生
される。再生画像（ビットパターン）はメモリ２０に格
納され、出力装置２４により適宜出力される。

文字部の再生は、ファイルＣの情報にしたがって文字再
生部１８によって行われる。その再生処理の際に、第６
図のフローチャートに示すように。

頂点のコードが存在するか調べる（ステップ３２）。

頂点コードが検出された場合、それ頂点の位置（ＬＸ、
Ｌｙ）を次式により求める（ステップ３３）。

ＬＸ＝ＮＸ−Ｓ。

Ｌ、＝Ｎｙ−Ｓ。

ここで、ＮＸ、Ｎ、は、頂点コードの行、列位置であり
、ステップ３１で求められる。ＳＸ、Ｓ２は文字のＸ、
Ｙ方向のサイズである。

このようにして一対の頂点位置がわかれば、画像領域を
認識でき、また頂点コードから図形画像領域か中間調画
像領域かがわかる。一対の頂点の位ｒｌ　（ＬＸ、Ｌ、
）は、その頂点コードが図形画像領域の頂点のものなら
ば図形再生部２１へ供給され、中間調画像領域の頂点の
ものならば中間調画像再生部２２へ送られる。

文字部の再生が終了すると１図形再生部２１がファイル
Ｂの情報にしたがって図形を再生する。

その際、ファイルＢから読み出された情報によって示さ
れる領域サイズと１文字再生の際に認識された対応領域
のサイズとを比較し１両サイズの大小関係に応じて１画
像を伸縮して再生し、それを対応領域にはめ込む。

最後に、中間調再生部２２によって同様に中間調画像が
再生され、対応領域にはめ込まれる。

したがって１文字の再生サイズの大小に関係なく１文字
と図形または中間調画像がオーバラップしたり、図形ま
たは中間調画像の周囲な不必要な空白部が生じたりする
ことがなくなる。

なお、画像の伸縮処理は公知の方法で行ってよいので、
詳細は説明しない。

〔効　果〕

以上の説明から明らかなように１本発明によれば１図形
や写真の混在した文書の再生において。

文字の再生サイズに関係なく１文字と図形や写真などの
オーバラップを防止でき、また図形や写真の周囲の不必
要な空白部の発生を防止できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す概略ブロック図、第２
図は図形や写真などが混在した文書の再生に関する問題
点を説明するための図、第３図はファイル構成の説明図
、第４図は図形画像領域の対角頂点に関する説明図、第
５図は頂点コードに関する説明図、第６図は文学部再生
処理における画像領域の認識手順を示すフローチャート
である。１０・・・読取部、　　　１２・・・認識部、　　１４
・・・ファイル装置、　　１８・・・文字再生部、　　
２０・・・メモリ、　　２１・・・図形再生部、　　２
２・・・中間調再生部、　２４・・・出力装置。第　　３　　図（σ、）　　　　　　　　　　　　　　　　　　　　　
　　　　　（１）ノ　　　　　　　　　　　　　　　　
　　　　　（Ｃ２）第　　４　　図ｔｈｅ　ｔｗｏ　ｄｉａｙｏｎｄ　ｃｏｒｎｅｒ　、ｗ
ｈｅｒｅ　ｔｈｅｐｈｏｔｏ１ｒ久ｐｈ　ｉ５　ｄｉｓ
ｐム１ｒｅｄ。第　　５　　図

Claims

【特許請求の範囲】

（１）文書の情報をファイル化する時に、文書の文字領
域と、それ以外の画像領域とに分けてそれぞれファイル
を作成し、文字領域のファイルに当該文字領域に含まれ
る、または隣接する画像領域の範囲を示す特定のコード
も含めておき、文書を再生する場合、最初の文字領域フ
ァイルの情報にしたがって文字を再生し、その時に文字
領域ファイルに特定コードが含まれている場合は、その
特定コードの位置に基づき画像領域の位置と大きさを認
識し、その後、画像領域のファイルの情報にしたがって
画像を、文字再生の際に認識された画像領域内に再生す
ることを特徴とする文書処理方式。