JPS61153756A - 文書処理方式 - Google Patents
文書処理方式Info
- Publication number
- JPS61153756A JPS61153756A JP59278148A JP27814884A JPS61153756A JP S61153756 A JPS61153756 A JP S61153756A JP 59278148 A JP59278148 A JP 59278148A JP 27814884 A JP27814884 A JP 27814884A JP S61153756 A JPS61153756 A JP S61153756A
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- image
- file
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔技術分野〕
本発明は1文字の他に1図形画像や中間調画像などが混
在した文字の処理に関し、さらに詳しくは、そのような
文字の情報をファイル化し、その後、ファイルの情報に
基づき文書を再生する場合に適用される文書処理方式に
関する。
在した文字の処理に関し、さらに詳しくは、そのような
文字の情報をファイル化し、その後、ファイルの情報に
基づき文書を再生する場合に適用される文書処理方式に
関する。
第2図(a)に示すような文書を考える。小さな四角形
1は文字、ハツチングを施した四角形2は写真などの中
間調画像、大きな四角形3はグラフのような図形画像で
ある。
1は文字、ハツチングを施した四角形2は写真などの中
間調画像、大きな四角形3はグラフのような図形画像で
ある。
このような文字・画像混在文字の文字領域、中間調画像
領域1図形画像領域を判別抽出し、また文字領域の各文
字を切り出す認識する技術は既に存在している。各領域
の判別抽出に関する技術としては、特願昭55−038
531号の「画像特性の識別方法」、特願昭56−23
940号の「画像領域領域抽出方法j、特願昭56−3
0975号の「中間調領域識別方法」などがある。最初
の技術は、ランレングス構造に基づいて文字。
領域1図形画像領域を判別抽出し、また文字領域の各文
字を切り出す認識する技術は既に存在している。各領域
の判別抽出に関する技術としては、特願昭55−038
531号の「画像特性の識別方法」、特願昭56−23
940号の「画像領域領域抽出方法j、特願昭56−3
0975号の「中間調領域識別方法」などがある。最初
の技術は、ランレングス構造に基づいて文字。
図形、写真などを判別する方法である。2番目の技術は
、連結画素領域の大きさと相対距離を考慮して連結画素
領域を統合して画像領域を抽出する方法である。3番目
の技術は、ディザ処理において、特定の閾値により白(
または黒)と判定された画素数と、大きさの順に分けら
れた閾値群ごとに、それにより黒(または白)と判定さ
れた画素数とを、所定領域毎にカウントし、そのカウン
ト値に基づき所定領域が中間調画像領域であるか否かを
判定する方法である。
、連結画素領域の大きさと相対距離を考慮して連結画素
領域を統合して画像領域を抽出する方法である。3番目
の技術は、ディザ処理において、特定の閾値により白(
または黒)と判定された画素数と、大きさの順に分けら
れた閾値群ごとに、それにより黒(または白)と判定さ
れた画素数とを、所定領域毎にカウントし、そのカウン
ト値に基づき所定領域が中間調画像領域であるか否かを
判定する方法である。
文字の切出技術としては、射影法、または、それを変形
した方法など、多くの方法が知られている。文字の認識
についても種々の方法が知られている。
した方法など、多くの方法が知られている。文字の認識
についても種々の方法が知られている。
さて、文書の文字1画像などの領域を分けて読み取りフ
ァイル化した後、文書を再生する場合。
ァイル化した後、文書を再生する場合。
再生文字サイズは原稿上の文字サイズと同一とは限らな
い。その結果、従来はつどのような問題があった。再生
文字サイズが小さい場合、第2図(a)の文書の再生画
像は同図(b)に示すようになり、図形や写真の領域の
周囲に不必要な空白部が生じてしまう。逆に再生文字サ
イズが大きい場合、図形や写真と文字列の一部がオーバ
ラップし1文字情報を破壊してしまう。
い。その結果、従来はつどのような問題があった。再生
文字サイズが小さい場合、第2図(a)の文書の再生画
像は同図(b)に示すようになり、図形や写真の領域の
周囲に不必要な空白部が生じてしまう。逆に再生文字サ
イズが大きい場合、図形や写真と文字列の一部がオーバ
ラップし1文字情報を破壊してしまう。
本発明の目的は、上述のような不都合を解消できる文書
処理方式を提供することにある。
処理方式を提供することにある。
本発明の文書処理方式にあっては1文字の情報をファイ
ル化する時に1文書の文字領域と、それ以外の画像領域
とに分けてそれぞれファイルを作成し1文字領域のファ
イルに当該文字領域に含まれる。または隣接する画像領
域の範囲を示す特定のコードも含めておき1文書を再生
する場合、最初に文字領域ファイルの情報にしたがって
文字を再生し、その時に文字領域ファイルに特定コード
が含まれている場合は、その特定コードの位置に基づき
画像領域の位置と大きさを認識は、その後。
ル化する時に1文書の文字領域と、それ以外の画像領域
とに分けてそれぞれファイルを作成し1文字領域のファ
イルに当該文字領域に含まれる。または隣接する画像領
域の範囲を示す特定のコードも含めておき1文書を再生
する場合、最初に文字領域ファイルの情報にしたがって
文字を再生し、その時に文字領域ファイルに特定コード
が含まれている場合は、その特定コードの位置に基づき
画像領域の位置と大きさを認識は、その後。
画像領域のファイルの情報にしたがって画像を。
文字再生の際に認識された画像領域内に再生する。
以上1図面を参照し、本発明の一実施例について説明す
る。
る。
第1図は本発明の一実施例を示す概略ブロック図である
。この図において、IOは文書原稿を光学的に走査し1
文書画像を光電変換し、2値の文書画像信号を8力する
読取部である。この読取部は、一般的なOCRの対応部
と同様でよい、12は認識部であり、読取部10から文
書画像信号を入力され、その文書の文字領域、中間調画
像領域。
。この図において、IOは文書原稿を光学的に走査し1
文書画像を光電変換し、2値の文書画像信号を8力する
読取部である。この読取部は、一般的なOCRの対応部
と同様でよい、12は認識部であり、読取部10から文
書画像信号を入力され、その文書の文字領域、中間調画
像領域。
図形画像領域を抽出し、また文字領域の個々の文字を切
り出し認識する。このような各処理は前述したような公
知の技術で行うことができるので。
り出し認識する。このような各処理は前述したような公
知の技術で行うことができるので。
それらの詳細は説明しない。文書の情報は1文字領域、
中間調画像領域、図形画像領域別にファイル装置114
に格納される。それぞれのファイルの形式について第3
図により説明する。
中間調画像領域、図形画像領域別にファイル装置114
に格納される。それぞれのファイルの形式について第3
図により説明する。
中間調画像領域のファイルAは第3図(a)に示すよう
な構造であり+ IDI riD2p・・・は中間調
画像領域の識別名、XL、、XL、、・・・は文書上に
おける中間調画像領域の始点のX座標値とX方向の長さ
、YL、、YL、は中間調画像領域の始点のY座標値と
Y方向の長さ、BM、、BM2゜・・・は中間調画像の
ビットマツプ表現である。図形画像領域のファイルBは
第3図(b)に示す構造であり、 i Dn t
l Dn++ r・・・は領域の識別名。
な構造であり+ IDI riD2p・・・は中間調
画像領域の識別名、XL、、XL、、・・・は文書上に
おける中間調画像領域の始点のX座標値とX方向の長さ
、YL、、YL、は中間調画像領域の始点のY座標値と
Y方向の長さ、BM、、BM2゜・・・は中間調画像の
ビットマツプ表現である。図形画像領域のファイルBは
第3図(b)に示す構造であり、 i Dn t
l Dn++ r・・・は領域の識別名。
XL+1.XLll□、・・・は領域の始点のX座とX
方向の長さ、YLn、YL、+、、・・・は領域の始点
のY座標値とY方向の長さ、RL、、RLnや5.・・
・は図形画像のランレングス表現である6文字領域のフ
ァイル、つまりテキストファイルCは第3図(c)に示
すような構造であり、 i 0s * iDa++
*・・・は領域の識別名+ N I # N s++
t・・・は文字数、Fは文字フォント、CFs 、C
F*++ 、・・・は文字コード群である。ここで、中
間調または図形画像領域が存在する部分を示す特別のコ
ード(文字または記号コード)も、CF部に含まれる。
方向の長さ、YLn、YL、+、、・・・は領域の始点
のY座標値とY方向の長さ、RL、、RLnや5.・・
・は図形画像のランレングス表現である6文字領域のフ
ァイル、つまりテキストファイルCは第3図(c)に示
すような構造であり、 i 0s * iDa++
*・・・は領域の識別名+ N I # N s++
t・・・は文字数、Fは文字フォント、CFs 、C
F*++ 、・・・は文字コード群である。ここで、中
間調または図形画像領域が存在する部分を示す特別のコ
ード(文字または記号コード)も、CF部に含まれる。
具体的には、第4図に示すように、文字領域(矩形領域
)に含まれる図形領域(破線枠内)の2つの対角頂点を
示すコード”[G[”と゛コG]″が、CF部の対応位
置に記憶される。例えば第4図の文字列rindica
teJの行では、第5図に示すように、スペースに続い
てコード゛’]G]”が格納される。中間調画像領域の
場合も同様であるが、対角頂点を示すコードとして、
” [H[”と″コH]″が用いられる。
)に含まれる図形領域(破線枠内)の2つの対角頂点を
示すコード”[G[”と゛コG]″が、CF部の対応位
置に記憶される。例えば第4図の文字列rindica
teJの行では、第5図に示すように、スペースに続い
てコード゛’]G]”が格納される。中間調画像領域の
場合も同様であるが、対角頂点を示すコードとして、
” [H[”と″コH]″が用いられる。
次に文書の再生について説明する。文書再生は。
最初に文字(ファイルC)が再生され、次に図形(ファ
イルB)が再生され、最後に中間調(ファイルAが再生
される。再生画像(ビットパターン)はメモリ20に格
納され、出力装置24により適宜出力される。
イルB)が再生され、最後に中間調(ファイルAが再生
される。再生画像(ビットパターン)はメモリ20に格
納され、出力装置24により適宜出力される。
文字部の再生は、ファイルCの情報にしたがって文字再
生部18によって行われる。その再生処理の際に、第6
図のフローチャートに示すように。
生部18によって行われる。その再生処理の際に、第6
図のフローチャートに示すように。
頂点のコードが存在するか調べる(ステップ32)。
頂点コードが検出された場合、それ頂点の位置(LX、
Ly)を次式により求める(ステップ33)。
Ly)を次式により求める(ステップ33)。
LX=NX−S。
L、=Ny−S。
ここで、NX、N、は、頂点コードの行、列位置であり
、ステップ31で求められる。SX、S2は文字のX、
Y方向のサイズである。
、ステップ31で求められる。SX、S2は文字のX、
Y方向のサイズである。
このようにして一対の頂点位置がわかれば、画像領域を
認識でき、また頂点コードから図形画像領域か中間調画
像領域かがわかる。一対の頂点の位rl (LX、L、
)は、その頂点コードが図形画像領域の頂点のものなら
ば図形再生部21へ供給され、中間調画像領域の頂点の
ものならば中間調画像再生部22へ送られる。
認識でき、また頂点コードから図形画像領域か中間調画
像領域かがわかる。一対の頂点の位rl (LX、L、
)は、その頂点コードが図形画像領域の頂点のものなら
ば図形再生部21へ供給され、中間調画像領域の頂点の
ものならば中間調画像再生部22へ送られる。
文字部の再生が終了すると1図形再生部21がファイル
Bの情報にしたがって図形を再生する。
Bの情報にしたがって図形を再生する。
その際、ファイルBから読み出された情報によって示さ
れる領域サイズと1文字再生の際に認識された対応領域
のサイズとを比較し1両サイズの大小関係に応じて1画
像を伸縮して再生し、それを対応領域にはめ込む。
れる領域サイズと1文字再生の際に認識された対応領域
のサイズとを比較し1両サイズの大小関係に応じて1画
像を伸縮して再生し、それを対応領域にはめ込む。
最後に、中間調再生部22によって同様に中間調画像が
再生され、対応領域にはめ込まれる。
再生され、対応領域にはめ込まれる。
したがって1文字の再生サイズの大小に関係なく1文字
と図形または中間調画像がオーバラップしたり、図形ま
たは中間調画像の周囲な不必要な空白部が生じたりする
ことがなくなる。
と図形または中間調画像がオーバラップしたり、図形ま
たは中間調画像の周囲な不必要な空白部が生じたりする
ことがなくなる。
なお、画像の伸縮処理は公知の方法で行ってよいので、
詳細は説明しない。
詳細は説明しない。
以上の説明から明らかなように1本発明によれば1図形
や写真の混在した文書の再生において。
や写真の混在した文書の再生において。
文字の再生サイズに関係なく1文字と図形や写真などの
オーバラップを防止でき、また図形や写真の周囲の不必
要な空白部の発生を防止できる。
オーバラップを防止でき、また図形や写真の周囲の不必
要な空白部の発生を防止できる。
第1図は本発明の一実施例を示す概略ブロック図、第2
図は図形や写真などが混在した文書の再生に関する問題
点を説明するための図、第3図はファイル構成の説明図
、第4図は図形画像領域の対角頂点に関する説明図、第
5図は頂点コードに関する説明図、第6図は文学部再生
処理における画像領域の認識手順を示すフローチャート
である。 10・・・読取部、 12・・・認識部、 14
・・・ファイル装置、 18・・・文字再生部、
20・・・メモリ、 21・・・図形再生部、 2
2・・・中間調再生部、 24・・・出力装置。 第 3 図 (σ、)
(1)ノ
(C2)第 4 図 the two diayond corner 、w
here thephoto1r久ph i5 dis
pム1red。 第 5 図
図は図形や写真などが混在した文書の再生に関する問題
点を説明するための図、第3図はファイル構成の説明図
、第4図は図形画像領域の対角頂点に関する説明図、第
5図は頂点コードに関する説明図、第6図は文学部再生
処理における画像領域の認識手順を示すフローチャート
である。 10・・・読取部、 12・・・認識部、 14
・・・ファイル装置、 18・・・文字再生部、
20・・・メモリ、 21・・・図形再生部、 2
2・・・中間調再生部、 24・・・出力装置。 第 3 図 (σ、)
(1)ノ
(C2)第 4 図 the two diayond corner 、w
here thephoto1r久ph i5 dis
pム1red。 第 5 図
Claims (1)
- (1)文書の情報をファイル化する時に、文書の文字領
域と、それ以外の画像領域とに分けてそれぞれファイル
を作成し、文字領域のファイルに当該文字領域に含まれ
る、または隣接する画像領域の範囲を示す特定のコード
も含めておき、文書を再生する場合、最初の文字領域フ
ァイルの情報にしたがって文字を再生し、その時に文字
領域ファイルに特定コードが含まれている場合は、その
特定コードの位置に基づき画像領域の位置と大きさを認
識し、その後、画像領域のファイルの情報にしたがって
画像を、文字再生の際に認識された画像領域内に再生す
ることを特徴とする文書処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59278148A JPS61153756A (ja) | 1984-12-26 | 1984-12-26 | 文書処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59278148A JPS61153756A (ja) | 1984-12-26 | 1984-12-26 | 文書処理方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61153756A true JPS61153756A (ja) | 1986-07-12 |
Family
ID=17593257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59278148A Pending JPS61153756A (ja) | 1984-12-26 | 1984-12-26 | 文書処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61153756A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0262678A (ja) * | 1988-08-30 | 1990-03-02 | Nec Corp | 図面管理装置 |
JPH0587191A (ja) * | 1991-03-15 | 1993-04-06 | Carl Freudenberg:Fa | 支承とねじり止めを統合した弾性継手 |
-
1984
- 1984-12-26 JP JP59278148A patent/JPS61153756A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0262678A (ja) * | 1988-08-30 | 1990-03-02 | Nec Corp | 図面管理装置 |
JPH0587191A (ja) * | 1991-03-15 | 1993-04-06 | Carl Freudenberg:Fa | 支承とねじり止めを統合した弾性継手 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7454060B2 (en) | Image processor for character recognition | |
JP3139521B2 (ja) | 自動言語決定装置 | |
JP3335009B2 (ja) | 画像処理方法及び画像処理装置 | |
JPH04275772A (ja) | 画像読み取り装置 | |
JPS61153756A (ja) | 文書処理方式 | |
JPH08331362A (ja) | 画像形成装置 | |
JP2644477B2 (ja) | 画像処理方法 | |
JP2000181988A (ja) | 光学文字読取装置 | |
JPS59135576A (ja) | ドキユメント情報登録検索装置 | |
JPS61285578A (ja) | 画像処理装置及び文書ファイリング装置 | |
JPH0656618B2 (ja) | 画像情報の文字・図形分離方法 | |
JP2505402B2 (ja) | 画像処理装置 | |
JP2505401B2 (ja) | 画像処理装置 | |
JPH1097588A (ja) | 罫線認識方法、表処理方法および記録媒体 | |
JP3756660B2 (ja) | 画像認識方法、装置および記録媒体 | |
JPS6063679A (ja) | 図面情報フアイル化方式 | |
JPH08202824A (ja) | 文書画像認識装置 | |
JP2000331117A (ja) | 文書読取システム | |
JPH03142691A (ja) | 表形式文書認識方式 | |
JP4027016B2 (ja) | 画像処理装置、画像処理方法及び記憶媒体 | |
JPH0660220A (ja) | 文書画像の領域抽出方法 | |
JPS60110091A (ja) | 文字認識方式 | |
JP3157534B2 (ja) | 表認識方法 | |
JPH01106279A (ja) | 画像情報処理装置 | |
JPS6331825B2 (ja) |