JPS6113377A - 画像処理システム - Google Patents

画像処理システム

Info

Publication number
JPS6113377A
JPS6113377A JP59133913A JP13391384A JPS6113377A JP S6113377 A JPS6113377 A JP S6113377A JP 59133913 A JP59133913 A JP 59133913A JP 13391384 A JP13391384 A JP 13391384A JP S6113377 A JPS6113377 A JP S6113377A
Authority
JP
Japan
Prior art keywords
word
image
line
document
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59133913A
Other languages
English (en)
Inventor
Yuzuru Tanaka
譲 田中
Eisaku Tatsumi
栄作 巽
Hiroshi Tanioka
宏 谷岡
Yoshinori Katou
加藤 慶徳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP59133913A priority Critical patent/JPS6113377A/ja
Priority to DE19853523042 priority patent/DE3523042A1/de
Priority to GB8516458A priority patent/GB2162350B/en
Publication of JPS6113377A publication Critical patent/JPS6113377A/ja
Priority to US07/408,429 priority patent/US5003614A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • H04N1/411Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は画像処理機能を有する画像処理システムに関す
る。
〔従来技術〕
画像処理装置例えばワードプロセッサーは現在、様々な
処理能力を有しており、文書の作成、編集に欠かせない
ものとなっている。文書の入力方法には、主にキーボー
ド(keyboad )あるいけ、OCR等が使用され
ており、文字は使用システムの内部コード(ASCII
、EBCDIC。
JIS 等)に対応した符号(code data )
に変換された後、保存あるいは書き換え、検索、編集等
の処理を受ける。また、文書には通常、文字以外忙も表
、グラフ、絵、写真等が含まれており、これらと文章を
融合して、文書を作成。
編集するワードプロセッサーも考えられている。
゛この場合、文字9表、グラフ、絵、写真等は各々異る
ーデータ形式で保存される。例えば、文字は文字コード
で、表・グラフはそれを記述するのに適当なデータで、
絵はグラフィックデータあるいは画像で、写真は画像で
、等といった具合である。
新たな文書を作成する時は別として、既に活字となって
いる文書を大量に入力し、データベース化して利用する
場合には、キーボードを叩いて一次情報を入力するのに
は特に多大な時間と面倒さが伴う。
一方、文書を入力・出力する機能を持つ事務器としては
他にも複写機やファクシミリがある。
複写機は速やかな入力が可能であるが、入力した文書を
その一!ま、あるいけ拡大、縮少して出カスるにすぎず
、ワードプロセッシングのように文書を加工する処理能
力や1文書を保存し検索する機能は有してはいない。
〔目 的〕
以上の点に鑑み本願発明は上記欠点を除去することを目
的としている。
以上の点に鑑み本願発明は、画像として入力された文書
に対して書き換え、編集、検索等が可能な画像処理シス
テムを提供することにある。
以上の点に鑑み本願発明は画像内の段落、ハイフンを認
識することが可能な画像処理システムを提供することに
ある。
又、任意の長さに桁長変換ならびに右合わせすることが
可能な画像処理システムを提供することにある。
〔実施例〕
以下、図面を参照し本願発明について詳細に説明する。
第1図は、本願発明の適用が可能なり−ダとプリンタを
有した画像処理装置の構造図である。
1は原稿の画像情報を読み取り、及びその処理を行うだ
めの読み取り部(リーダ)、2は原稿を押さえるための
原稿カバー、3は原稿を載置するためのプラテン台、4
は原稿を照射するための露光ランプ、5〜7は光学バス
を導くため′のミラー、8は原稿画像を結像させるため
の結像レンズ、9は画像情報をデジタル的に読み取るた
めの受光素子(ラインセンナ)、lOは受光素子9で読
み取った情報を本願発明による画像処理等を行うだめの
画像処理部である。11は読み取9部1で得られた画像
情報を出力するだめの出力装置(プリンタ)で、本実施
例ではレーザービームプリンタを用いている。12はリ
ーダ1で読み取った画像情報をレーザ光線に変換するた
めのレーザースキャナ、13はレーザ光線を反射させ、
感光体ドラム14へ導くためのミラー、15は感光体ド
ラム14上の潜像を現像するだめの現像器、17は給紙
カセット16からの紙を搬送するだめの搬送ベルト、1
8は紙を排出するための排紙ローラである。
上記構成で、原稿カバー1を上げ、透明なプラテン台に
原稿をセットし、光学系4〜9がスキャンして受光素子
であるラインセンサ9によって画像情報が逐次読み込ま
れていく。読み込まれた画像情報は画像処理部10で後
述の処理を行う。出力装置ll内では画像処理部10か
らの信号に基いてレーザ光線を変調し、レーザースキャ
ナ12で走査され、一様に帯電された感光体ドラム14
上に結像露光される。そして現像、転写等の動作を行い
、出力される。なお画像処理装置はこの構成に限るもの
ではなくワードプロセッサと同様のものでもよい。
第2図は以上の構成の画像処理装置を有する画像処理シ
ステムの1例を示すブロック図である。リーダ1は、原
画像を読み取り、シリアルデータとして出力する。この
画像データは画像メモリ20のアクセスタイムよりも高
速なので、シリアル−パラレル変換器21を通して、例
えば16 batにデータ幅を広げておく。次忙、画像
メモリ20のリフレッシュサイクルを考慮してFIFO
(ファーストインファーストアウト)バッファ22を通
して、画像メモリ20に格納する様にしている。
また画像データは、ホストプロセッサ23により、電子
ファイルや、マイクロフィルムや、マグネティックテー
プ24等に保管される。また画像データはディスプレイ
25によって表示される。そしてキーボード26からの
入力により、専用プロセッサ27にたとえば行間に新し
“い行を挿入するなどの処理内容を指示することが可能
である。この指示釦より専用プロセッサ27は画像認識
および画像処理を行なう。そして処理された画像データ
は入力時とは逆K FIP028およびパラレル−シリ
アル変換器29を通りプリンタ11により記録される。
更に通信回線を利用して、遠方の端末機器に伝送するよ
うに構成して奄よい。
次に以上の構成の画像処理システムについて更に詳細に
説明する。なお、画像データは、コードに変換してもよ
いことは言うまでもない。
処理過程は、段落の検出、ハイフンの認識。
行長変換後の単語の位置計算、そしてデータコピーによ
る新しいテキストの作成に分けられる。
1)段落検出(paragraph extracti
on )段落検出は2つのステップから成る。5TEP
■では1画像テキストのレフト・エツジ(lef te
dge) L Hを求める。
5TEP■では、このレフト・エツジからの距離の大小
により、段落の最初の単語を求めている。段落の頭には
空白部分があるため、各行の最初の単語の左端L EF
 Tがレフト・エツジからどれだけ離れているかを比較
すると、段落最初の単語に対する距離は他に比べ大きく
現れる。距離にあるしきい値を設け、判断すれば、段落
が抽出できる。第3図に示す原稿画像を使って説明する
と図中LEは。
画備中最も左に位置する黒メツシユのX座標であり、P
RGは、段落最初の単語番号、1) RS Pは段落冒
頭のスペースの長さく通常1文字分)である。段落を検
出するためこれらの量を求めるフローチャートを第4−
1図。
第4−2図に示す。なお図中Iは実行中の行数、W I
 D T Hは画像の幅、L F W (I)は工行目
の最初の単語のレフトエツジ、Jは変数、NW(I)は
工行目の単語数、LSPは単語間スペースの幅の平均、
PRG(J)は段落最初のt語番号、PR8P(J)は
段落冒頭のスペースの長さである。まず第4−1図のス
テップ■について説明する。ステップ2である行におけ
るLHが■行目の最初の単語のレフトエツジよシも大き
いとステップ3により、その行のレフトエツジがLEと
なる。この動作をステップ1により工が1から行数にな
るまで続ける。そして最終的にはLEは画像の左端と等
しくなる。
次に第4−2図におりてステップ■を説明するとステッ
プ5においてレフトエツジLEから最初の単語までの距
離が単語間スペースの幅の平均LSP(これをしきい値
に用いている)を超えれば、その行の最初を段落と判断
し、ステップ6のごとく段落最初の単語の番号PRGと
、その冒頭のスペースの長さがわかる。この処理をステ
ップ4により工が1から行数になるまで続ける。ここで
、段落の個数はJ−1で表される。
2)ハイフン認識 単語の抽出については種々の方法が考えられるが、例え
ば画素行中の白ドツトラン長のヒストグラムによシ単語
スペース位置を認識することができる。ここでは既に抽
出されてbるものとする。第5図に示した単語リスト中
、第3行目から第4行目にかけての5ectionsと
いう単語は、このような抽出を行なうと異なる単語とし
て抽出される。このような単語に対して、例えば桁長変
換を行う場合に、このようなハイフンを持つ単語が行の
最後以外に来ることが考えられる。本来sec −とt
ionsは1つの単語であるから、桁長変換をする前に
、・ハイフンを認識し、変換の際にはこれを除去しなけ
ればならない。
認識方法は色々考えられるが、ハイフンは形状が単純な
ので、テキスト各行の最終文字忙対して、適当な大きさ
の長方形を適当な位置忙想定し、長方形のフレーム外の
領域(第6図斜線部)に黒メツシユが存在しないという
条件から判断ができる。フレームはLTOPから基線ま
でを8等分した目盛のうち図の位置に設定した。第6図
中の名称を説明するとそれぞれ LTOP(Line Top)・・・・・・−行におけ
る黒メツシユ(2値化画像信号中、黒と判定 された画素集合を以下黒メツシユと 称す)の内、最上部に存在するメツ シュのX座標。
LBTM(Line Bottom )−−−−・・−
行におffる黒メツシユの内、最下部に存在するメ ツシュのX座標。
BSLN(Base Line ) ・・・−・基線、
7 ルア 7ベツト大文字の最下部のy座標と一致 する線である。
3)単語の位置検出 桁長変換は、テキストの横幅を任意に指定し、その範囲
を越えないように単語を並べ変える操作である。第7−
1図、第7−2図は変換後の単語の位置を計算して求め
るアルゴリズムである。図中WIDTHは画像のライン
長、I、Jは単語番号、Nはラインに入る単語数、GY
Oはライン番号、NGYOは桁長変換後のライン番号、
ALNWは全単語数、PNOは段落番号、HNOはハイ
フン(出現順)数、I(W(HNO)はハイフンを持つ
単語番号、CHは除去したハイフンa、D8は基線間距
離、NW(GYO)ライン中の単語数、LENlは単語
幅にSPを加えたものを連ねティく和、L E N 2
 ハ単M幅ニSP、!: ADDSPとR8TSPを加
えたものを連ねていく和、ADDSPは各単語間スペー
スSPに必ず付は加える長さ、R8T8Pは一部のSP
に付は加える長さ、DLW(J)tj:各単語の左端、
DRW(J)は各単語の右端、DBL(J)は各単語の
基線、Wはテキスト幅(行の長さ)で、段落ではWID
TH−PR8Pでそれ以外ではWIDTHと等しい。
テキスト幅をWIDTHに設定し、単語の新しい位置は
、左端がDLWに、右端がDRWに、基線がDBLに得
られる。基本的には以下の処理をしている。
(a)  L E N 1 O計算(第8図参照)ここ
では、新しく設定したテキスト幅に何個の単語が入り得
るかを各行について計算している。
単語間隔に礪小限必要と思われる長さのスペース8P(
プログラムでは、単語白文字間スペースの平均幅の3倍
を用いている。)を各単語の長さに加え、順次、その長
さの和をLENIとする。第8図ではNは、単語の数を
示している。
LENI←LEN1+(単語の長さ〕+5PLENIが
設定された長さWを越えたならば、最後につなげた単語
(図ではN+1番目の単語)を除去する。ここでWは、
段落の最初の行以外はW=WIDTHであるが、段落最
初の行の場合は、冒頭に空白を設はナケレハナラナイノ
テ、W = WIDTH−PR8Pに設定する。なおP
R8Pは段落冒頭のスペースの長さである。
(b)  ADDSPとR8TSPの計算#==≠嘱#
とこでは行にN個の単語が入ると判明したならばN番目
の単語の右端からWIDTHまでの距離rを計算する。
γを各単語間の距離に分配することによシ文章の右合わ
せが成立する。
ADDSPは各単語間スペースSPに必ず付は加える長
さであり、R・8TSPは一部のSPに付は加えられる
長さの総和である。
γとの関係は、 γ=ADDSP x (N−1) +R8T8Pである
LEN2の計算(第9図参照) ここでは、SP、ADDSP、R8T8Fで定まる長さ
を単語間に持たせ、各単語の新しい位置を決定する。行
の最初の単語からN個目の単語まで次に示す計算をし、
DLW。
DRWを求める。
I )DLWk+n −t ←LEN2 +11)  
LEN2 ←LEN2 +(k+n−1番目の単語の長
さ)if):DRWk+n−14−LEN2y)  i
f几5TEP〆Q  then R8TSP4−几8T
SP−ILEN2の初期値は、段落の最初の行ではPR
OPでそれ以外の行では0である。
第7−1図によシ上記(a) L B N 1 F)計
算について説明する。ステップ1および2により、処理
中の単語番号工が段落の最初の単語番号PRG(PNO
)であればWけ設定された長さから段落冒頭の空白PR
8Pを引いたものにする。次にステップ3,4.5によ
り、ハイフンの次の単語であればLENIの計算からノ
・イフンの幅を取り除く。次にステップ6においてLE
NIが設定された値を超えない時、ステップ7に進み、
ノ1イフンであればステップ8でハイフンの数を増やし
ておく。
第7−2図により上記(b)ADD8PとR8TSPの
計算について説明する。
第7−1図において、ステップ6でオーバフローした時
に第7−2図のフローチャートに来る。そしてステップ
11で単語をそのライン内の最後の卓抜になるまで以下
の動作を繰り返す。ステップ12.13でそれぞれ単語
の左端、右端を決めてゆく、ステップ14で余剰がある
かどうかを判断し、余剰があれば(ステップ14でYE
S)ステップ15はステップ16より1多くなっている
。又FLST8Pは1減らしておく、ステップ1,7は
それぞれの単語にそのラインの基線を与えている。以上
の動作を繰り返して、ステップ11を抜は出せば、再度
初期設定を行ない■に向かう。
以上(a)、 (b)の計算は、段落の最終行と、ハイ
フンを含む単語の次の単語(第5図ではtionsにあ
たる。)が現れる行では多少異る。段落の最終行では右
合わせが必要ないJので第10図に示すように各単語間
は8Pだけの距離をとる。従って(b)のADD8F。
几5T8Pの計算は必要なく、(b)におけるLEN2
の計算も、第7−2図のステップ16は LEN2←LEN2+SP となる。
ハイフンを含む単語の次の単語が現れ、る行では、出力
時に見かけ上、ハイフンを除去した1つの単語になるよ
うにするため、ハイフンを含む単語のRIGHTがノ1
イフンの前にあると考え、かつ、ノ・イフンを含む単語
の後にはスペースを設けない。従ってLENI、LBN
2の変化は第11図の矢印のようになる。
4)桁長変換後の画像テキストの作成 光のテキスト中の単語の画像データをテキストの新しい
位置ヘコピーする。各単語のソース領域の位置はLEF
T、BSLN及びL器ω■で定める。コピー先の領域の
位置はDLW。
DRW及びDBLで定める(第12図参照)。
LENGTHは、LENGTH=DRW−DLW+1か
ら求まる。LENGTHをコピー先の単語の両端の位置
から定めると、ノ・イ7ンを含む単語の場合、ハイフン
はコピーされない。
以上、説明したように、第5図に示した原稿画像は例え
ば、第13−1図、第13−2図に示すように正確に行
長変換される。
なお、上記実施例は、主として、英文字Ωワードプロセ
シングについて記したが日本語文においても、同様であ
り、基本的には、本実施例で示した処理と同等の認識処
理が可能である。
〔効 果〕
本願発明により、文書の段落が認識出来るので、例えば
、文書の一部だけを抜き出して、新しb文書を作製した
り段落の順番を並べかえたり段落間に新しい段落を挟入
することができる。
ス、不必要な段の削除が可能となった。また新聞などの
不定形文書を整理し直す事が出来る。
更に゛本発明によシ文書を画像として入力しながら段落
を認識する事によシ通常のワードプロセッサに比べて既
存の活字文書に対するワードプロセッサグは極めて高度
にかっ、操作性の高い書き換え、編集、検索等が可能と
なった。
【図面の簡単な説明】
第1図は画像処理装置の構造図。 第2図は画像処理システムのブロック図、第3図は原稿
画像の1例を示す図、 第4−1図は原偉テキストのレフトエツジを求めるフロ
ーチャート、 第4−2図は画像テキストのレフトエツジからの距離に
より段落の最初の単語を求めるフローチャート、 第5図は原稿画像の1例を示す図、 第6図はハイフンを認識するだめの説明図、第7−1図
、第7−2図は単語の位置検出のためのアルゴリズム、 第8図はLENIの計算の説明図、 第9図はLEN2の計算の説明図、 第10図は段落の最終行における各単語間の位置の説明
図、 第11図はハイフンを含む単語の次の単語が現われる行
におけるLENI、 IIJ3N2の計算の説明図、 第12図は行長変換後の画像テキストの作成の説明図、 第13−1図、第13−2図は第5図に示した原稿画像
について、行長変換を行った場合の説明図。 1はリーダ、10は画像処理部、LJ(はレフトエツジ
、PRGは段落最初の単語番号、PROPは段落冒頭の
スペースの長さ、DLWは各単語の左端、DRWは各単
語の右端。

Claims (1)

    【特許請求の範囲】
  1.  文書原稿を画像情報として入力する入力手段、上記入
    力手段によつて、入力された画像情報内の段落及び/又
    はハイフンを認識する認識手段と、上記認識手段による
    認識結果に基づいて、行長変換又は、各行の終り位置を
    そろえる画像情報処理手段を有したことを特徴とする画
    像処理システム。
JP59133913A 1984-06-28 1984-06-28 画像処理システム Pending JPS6113377A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP59133913A JPS6113377A (ja) 1984-06-28 1984-06-28 画像処理システム
DE19853523042 DE3523042A1 (de) 1984-06-28 1985-06-27 Bildverarbeitungssystem
GB8516458A GB2162350B (en) 1984-06-28 1985-06-28 Image processing system
US07/408,429 US5003614A (en) 1984-06-28 1989-09-15 Image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59133913A JPS6113377A (ja) 1984-06-28 1984-06-28 画像処理システム

Publications (1)

Publication Number Publication Date
JPS6113377A true JPS6113377A (ja) 1986-01-21

Family

ID=15116018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59133913A Pending JPS6113377A (ja) 1984-06-28 1984-06-28 画像処理システム

Country Status (1)

Country Link
JP (1) JPS6113377A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01149162A (ja) * 1987-12-07 1989-06-12 Fujitsu Ltd シラブルハイフン表示・非表示制御方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01149162A (ja) * 1987-12-07 1989-06-12 Fujitsu Ltd シラブルハイフン表示・非表示制御方式

Similar Documents

Publication Publication Date Title
US5003614A (en) Image processing system
JP4181892B2 (ja) 画像処理方法
US5734761A (en) Editing scanned document images using simple interpretations
US5528732A (en) Reprographic device for making copies with multi-spaced lines
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
US5257074A (en) Image forming apparatus
JP2022066321A (ja) 情報処理装置及びプログラム
JP4227432B2 (ja) 画像処理方法
US7983485B2 (en) System and method for identifying symbols for processing images
EP0585074A2 (en) Automatic image creation by merging text image and form image
JPS58208865A (ja) 文書作成装置
JPS6113377A (ja) 画像処理システム
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JP3309084B2 (ja) 図形の電子化方法
JPS6245581B2 (ja)
JPH05292294A (ja) デジタル複写機
JPS6113378A (ja) 画像処理方法
JPS6113376A (ja) 画像処理システム
JPS6113375A (ja) 画像処理システム
JP4230671B2 (ja) 画像生成装置および記録媒体
JP2017069826A (ja) 画像形成装置、及びプログラム
JPH07262317A (ja) 文書処理装置
JP2003044466A (ja) 文字列配置方法および装置並びにプログラム
JPS63187870A (ja) 清書用複写機