JPS6111888A - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JPS6111888A
JPS6111888A JP59132027A JP13202784A JPS6111888A JP S6111888 A JPS6111888 A JP S6111888A JP 59132027 A JP59132027 A JP 59132027A JP 13202784 A JP13202784 A JP 13202784A JP S6111888 A JPS6111888 A JP S6111888A
Authority
JP
Japan
Prior art keywords
area
character
graphic
characters
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59132027A
Other languages
English (en)
Inventor
Fumio Yoda
依田 文夫
Masataka Yamamoto
山本 勝敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP59132027A priority Critical patent/JPS6111888A/ja
Publication of JPS6111888A publication Critical patent/JPS6111888A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は1文字および図形が混在して記入された文書
を読み取る文書読取装置に関するものである。
〔従来技術〕
従来のこの種の文書読取装置としては、用紙を読み取ら
せる前にオペレータが用紙のフォーマット指定を行い1
文字情報として読み取り認識して計算機に入力する文字
領域とイメージ情報として入力する図形領域との位置及
び大きさを事前に指定するものがあった。
第1図は文字と図形とが混在して記入された文書lの例
を示す。第1図のコは文字領域、3は図形領域を示す。
この文書上の格報を計f4機に入力する場合、まずオペ
レータがキーボード等の入力装置を用いて文書/上にお
ける文字領域コと図形領域30座榛をあらかじめ指定し
1次に文字領域−に記入された文字を文字認識装f11
′(図示せず)で認識して計算機に入力し1図形領域3
に記入された図形は認識処理を行わずそのイメージ情報
計算機に直接入力する方法が用いられていた。
しかし、一般文書の情報を計賛機に入゛力する場合、入
力する用紙毎に文字領域と図形領域の位置や大きさが変
わることが多く斯る方法では用紙を入力する毎に事前に
オペレータが文字領域と図形領域の座標を指定しなげれ
ばならず装置の操作性が著しく低下するという欠点があ
り、更に入力に際し常にオペレータが介在しなければな
らないため情報入力の自動化ができないという欠点があ
った。
〔発明の概要〕
この発明は、上記の如き従来の装置の欠点を除去するた
めなされたもので1文字および図形の混在した文書の情
報を簡単かつ高速に計算機等へ入力する装置を提供する
ことを目的としている。
この目的を達成するためにこの発明で採用された技術手
段は1文字及び図形から成る文書を光学2的に走査し光
電変換する走査手段と、光電変換された1!11気信号
に基づき文字と図形のイメージ情報を記憶するイメージ
メモリと、上記イメージメモリに記憶されたイメージ情
報を入力として1文字毎に切り出して認識する文字認識
手段と1文書の全域を文字領域とみなして上記文字認識
手段で/文字毎に切出した各文字を画素と見なしたとき
の画素間の連結情報で領域分割を行い、かつ、上記文字
認識結果の認識成功の割合から該領域を文字領域又は図
形領域と判別する領域分割手段と、上記領域分割手段か
ら求めた図形領域に対応ず右上記イメージメモリ内のイ
メージ情報と文字領域内の認識結果とを編集して出力す
る編集手段と、を備えたことを特徴とする構成に在る。
〔発明の実施例〕
以下、添付図面を用いて本発明の好ましい実施例を説明
する。
第二図は、この発明は一実施例を示すブロック図である
。第2図においてlはドロップアウトカラー等で基盤状
に文字記入枠が印刷された用紙上に文字および図形が記
入された第1図に示されたのと同じ文書である。弘は文
書を光学的に走査し光電変換を行う機能を有する走査手
段、jは走査手段弘によって光電変換された電気信号に
基づき文字と図形のイメージ情報を記憶するイメージメ
モリである。6は上記イメージメモリ5に格納されたイ
メージ情報を入力とし1文字と図形を区別することなく
強制的に文字とし℃1文字毎に切出し1丁でに知られて
いるパターン認識技術を用いて認識し、その認關結釆と
し工文字名が認識不能(以後「棄却」と呼ぶ)かを得る
文字認識手段6で切出した各文字な画素と見なした場合
の画素間の連結性を調べ文字あるいは図形の記入されて
いる文字記入枠を最小単位とする連続した領域を検出す
る機能と文字g臓手段6で得られた認識結果の棄却数か
ら各領域が文字の記入され℃いる文字領域であるか、あ
るいは図形が記、入された図形領域であるかを決定する
機能を有する領域分割手段である。ざは領域分割手段7
で求めた領域が文字領域ならばこの文字領域に属する文
字認識手段6での認識結果を制御手段デに文字情報とし
て送り。
また図形領域ならばこの領域に対応するイメージ情報を
上記イメージメモリ!から読み出して制卸手段りにイメ
ージ情報とし℃送る機能を有する編集手段である。
次に本発明の実施例の動作を文字と図形が混在している
文書の読み取りを例にとって説明する。
第3図は、ドロップアウトカラー等で基盤状に文字記入
用の棒が印刷された用紙に文字である日本文と図形であ
る絵が混在して記入された文書/θの例であり1文字領
域と図形領域の分離を容易にするため文字領域と図形領
域の境界は、1個以上の文字記入枠分だけ空けて文字と
図形を記入する規則が適用されている。この文書loは
走査手段ダで光電変換され、゛イメージ情報とし℃イメ
ージメモリ5に格納される。
第V図は、上記文書IOを走査手段弘で光電変換し、イ
メージメモリ5に格納したイメージ情報//の例を示す
。なお、第V図では、以後の説明を判り易くするために
便宜上文字記入枠を図示しているが、文字記入枠はドロ
ップアウトカラー等で印刷されているため実際に光電変
換してイメージメモリ5に格納したイメージ情報IOに
は文字記入枠に相当するイメージ情報は含まれない。
次にイメージメモIJ j内の情報は文字認識手段基に
渡される。文字認識手段6ではイメージ情報l/を文字
と図形に区別をすることなく所定の文字記入枠のフォー
マットに基づき強制的に文字として!文字毎に切り出し
て認識する。
第3図は認識結果/λの例を示した妃のである。
第5図中1個の文字記入枠に相当する部分の記号は、棄
却を意味し空白枠は1文字認識手段6での認識結果/l
が空白文字であることを意味するものである。
文字認識手段6で文字認識の処理が完了すると。
領域分割手段りの処理へ進む。
領域分割手段7では1文字領域と図形領域を分割し、該
領域が文字領域であるか図形領域であるかの認識を行う
。先づ領域の分割は次の方法で実現される。即ち文字認
識手段6の認識結果7.2を。
空白文字ならば値r(7Jの画素、空白文字以外ならば
値「/」の画素と見なし、このコ値)くターンにおける
値「l」をもつ画素と隣接する画素との上下左右及び斜
めの計gつの連結性を調べ1g連結で結ばれた値r/J
をもつ画素群を1つの領域とすることにより文字領域と
図形領域とを分割することが出来る。
第6図は文字認識結果lλに基づいて領域分割した例を
示す。これはA領域13とB領域/’Iの一つの領域に
分割され℃いる。次に、上記領域分割手段りでは、各領
域が文字の記入された文字領域であるか、あるいは図形
の記入された図形領域であるかを決定する。
この決定は次の方法で行われる。一般に1文字は個々に
独立した小さな図形であり文字の大きさに合わせて区切
った文字記入枠内で1つの意味をもつが、一般文書に記
入される図形は、比較的広い区域で定義されるため文字
の大きさに合わせて区切った文字記入枠で図形を分割し
た場合、この狭い文字記入枠内ではまとまった意味をも
たず、したがってこの文字記入枠内のイメージ情報に対
する文字認識手段基の認識結果の多くは棄却される。そ
こで、1つの領域1が文字領域か図形領域かを判定する
評価関数fを領域り内における認識結果の棄却数にもと
づいて定義する。具体的には、評価関数fLを下記の式
(1)で定義し、fLの値が実験によって最も妥当な値
としてあらかじめ定めた閾値THよりも大きい場合、領
域りは図形が記入された図形領域であると判定し、そう
でない場合。
領域りは文字が記入された文字領域であると判定する。
本実施例の場合、第6図よりA領域lJ内の空白文字を
除く文字記入枠の数は30個であり、その中で棄却した
数は7個である。従って、A領域/Jの評価関数f/の
値は。
ft=/÷jθ=θ、0.2  となる。また同様にし
”(B領域/弘の評価関数fλ=−〇÷37=(7,、
tFとなる。これらの値と実験によりあらかじめ定めた
最も妥当な閾値T H= 0.コとを比較することによ
りA領域13は、文字領域、B領域/IIは図形領域で
あると判定できる。なお、この実施例で評価関数の閾値
T)I=θ、λとしたが、この値は、文字認識手段乙の
特性に依存するので実験的に最適値が求められるもので
TH=O,コに限定されるものではない。
次に編集手段ざでは、上記領域分割手段70分割結果に
基づき、又字領域であるA領域13に属する文字の認識
結果lコを上記制御手段デに送り。
また図形領域であるB領域l弘に属するイメージ情報1
0を上記イメージメモリSから読み出し℃制御手段デに
送る。制御手段りでは1編集手段gから受取った文字情
報やイメージ情報を印刷装置、外部記憶装置あるいは計
算機等に送出する機構を含んであり1文書作成は制御手
段9を介して行われる。
第7図は1本発明による方法で文字と図形の混在した第
3図に示す文書から自動的に文字領域と図形領域を抽出
し1文字領域の文字を上記文字認識手段6で認識した結
果に図形領域のイメージ情報を合成し℃作成した文書の
例である。なお、第7図では本発明の効果を判り易くす
るため文字領域において棄却した文字をそのまま印刷し
たが。
これは従来の文字読取装置で用いられている文字修正方
法を用いることにより印刷する前に簡単に修正できる。
あるいは、上記文字認識手段乙において、その鰺識結果
を棄却するか否かの判定条件を緩和し、上記gA域分割
手段りによって決定された文字領域内における文字のみ
を文字認識手段6によって再度認識することによっても
文字領域における棄却文字数を低下させることができる
なお、以上は図形が記入された領域が7つの図形領域で
表現される場合について説明したが図形が記入された1
つの領域が空白文字によって2個以上の図形領域に分割
されても分割に使用された空白文字領域にはイメージと
しての情報が存在しないため領域の分割又は文字若しく
は図形の紹識罠少しも影響を与えない。また1以上は文
書の行列のa次元平面における連結性を調べ領域の分割
を行ったが、この発明はこれに限らず同一行あるいは同
一列内の文字においてのみ連結性を陶べて行あるいは列
単位に領域の分割を行ってもよい。
〔発明の効果〕
以上のように本発明では、文字認識手段で得られる認r
a結果と各文字を画素と見なした場合の画素間の連結情
報から自動的に文字領域と図、影領域とな分割し1文′
I−領域のデータに対しては1文字認識手段で得られた
bぶ識結果を出力し1図形vA域のデータに対してはイ
メージ1け報を出力する構成になっているので、文書中
の文字領域と図形領域とを前もつ゛(人間が座標を圀っ
て指定する必要がなく、文字と図形の混在した文書情報
を自動的に読み取り、計算機に入力出来るため装置の操
作性が著しく向上しまた入力の処理速度が非常に速くな
るという利点かある。
【図面の簡単な説明】
第1図は、従来の文字読取装置で読み取る用紙の例を示
す図、第2図は発明の実施例を示すプロモリに格納した
イメージ情報の例を示す図、第り図は認識結果の例を示
す図、第6図は分割した領域の例を示す図、第7図は認
識結果とイメージ情報を合成して作成した文書の例を示
す図、である。 l・・文書、コ・・文字領域、3・・図形領域。 ダ・・走査手段、5健φイメージメモリ、6・−文字認
識手段、7・・領域分割手段、ざ・・編集手段、り・・
制御手段である。 なお図中、同一あるいは相当部分には同一符号を付して
表示しである。 帛1図 姑7図 手続補正書「自発」 昭和5撹12!!10日

Claims (1)

    【特許請求の範囲】
  1. 文字及び図形から成る文書を光学的に走査し光電変換す
    る走査手段と、光電変換された電気信号に基づき文字と
    図形のイメージ情報を記憶するイメージメモリと、上記
    イメージメモリに記憶されたイメージ情報を入力として
    1文字毎に切り出して認識する文字認識手段と、文書の
    全域を文字領域とみなして上記文字認識手段で1文字毎
    に切出した各文字を画素と見なしたときの画素間の連結
    情報で領域分割を行い、かつ、上記文字認識結果の認識
    成功の割合から該領域を文字領域又は図形領域と判別す
    る領域分割手段と、上記領域分割手段から求めた図形領
    域に対応する上記イメージメモリ内のイメージ情報と文
    字領域内の認識結果とを編集して出力する編集手段と、
    を備えたことを特徴とする文書読取装置。
JP59132027A 1984-06-28 1984-06-28 文書読取装置 Pending JPS6111888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59132027A JPS6111888A (ja) 1984-06-28 1984-06-28 文書読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59132027A JPS6111888A (ja) 1984-06-28 1984-06-28 文書読取装置

Publications (1)

Publication Number Publication Date
JPS6111888A true JPS6111888A (ja) 1986-01-20

Family

ID=15071785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59132027A Pending JPS6111888A (ja) 1984-06-28 1984-06-28 文書読取装置

Country Status (1)

Country Link
JP (1) JPS6111888A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63298487A (ja) * 1987-05-28 1988-12-06 Ricoh Co Ltd 文書画像の領域分割及び識別方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63298487A (ja) * 1987-05-28 1988-12-06 Ricoh Co Ltd 文書画像の領域分割及び識別方式

Similar Documents

Publication Publication Date Title
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
US6937762B2 (en) Image processing device and program product
US20120250048A1 (en) Image processing apparatus and image processing method
US20100054587A1 (en) Image processing apparatus and image processing method
JPS6111888A (ja) 文書読取装置
JPH0373914B2 (ja)
RU2260208C2 (ru) Способ факсимильного распознавания и воспроизведения текста печатной продукции
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
US20240062567A1 (en) Learning Image Generation Apparatus, Learning Image Generation Method, And Non-Transitory Computer-Readable Recording Medium
JP2000331117A (ja) 文書読取システム
JPH07262317A (ja) 文書処理装置
JP2708604B2 (ja) 文字認識方法
JPH01245376A (ja) 文字読取装置の文字切出し装置
JPH0498586A (ja) 画像生成装置
JP3221969B2 (ja) 文字認識装置
JPH01144181A (ja) 光学的文字読取装置
JPH06251192A (ja) 光学的文字読み取り装置
JPS6115285A (ja) 光学的文字読取装置
JPH06243285A (ja) 文字認識方法
GB2278705A (en) Facsimile machine
JPH0981672A (ja) 文書読取装置
JPH0459668B2 (ja)
JPH02240789A (ja) 文字列切り出し方式
JPH02253258A (ja) レイアウトスキャナ用文字画像合成装置
JPS6166464A (ja) フアクシミリ送信装置