JPS63155386A - 帳票デ−タ読取装置 - Google Patents

帳票デ−タ読取装置

Info

Publication number
JPS63155386A
JPS63155386A JP61302898A JP30289886A JPS63155386A JP S63155386 A JPS63155386 A JP S63155386A JP 61302898 A JP61302898 A JP 61302898A JP 30289886 A JP30289886 A JP 30289886A JP S63155386 A JPS63155386 A JP S63155386A
Authority
JP
Japan
Prior art keywords
reading
data
information
area
frame line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61302898A
Other languages
English (en)
Inventor
Akiko Suzuki
明子 鈴木
Yoshikazu Sato
義和 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61302898A priority Critical patent/JPS63155386A/ja
Priority to US07/133,623 priority patent/US4933979A/en
Publication of JPS63155386A publication Critical patent/JPS63155386A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 1漿宏艷 この発明は、一般に「○CRJと略称される光学文字読
取装置を応用した帳票データ読取装置に関する。
灸来皮4 紙に文字を含む画情報が印刷あるいは手書きされた原稿
をイメージスキャナでスキャンして、原稿の画情報をイ
メージデータとして取り込み、そのイメージデータから
文字を認識して文字コードデータに変換する光学文字読
取装置が種々開発されている。
この光学文字読取装置をワードプロセッサや自動翻訳装
置、あるいは帳票集計装置や検索用データフアイル作成
装置などの文字を扱う処理システムや文字データを伝送
するデータ通信などの通信システムへの文字情報の入力
手段として使用すれば、キーボード入力に比べて入力効
率を大幅に向上させることが可能である。
この光学文字読取置には5文字フォントのイメージデー
タが基準画情報としてあらかじめ登録された文字認識用
辞書が設けられており1文字認識・ 手段がその文字認
識用辞書を参照して、入力された文字のイメージデータ
を辞書のイメージデータと比較してパターンマツチング
をとることによって、これを特定の文字として認識して
それに対応する文字コードデータを発生する。
一般に使用される活字等の文字種のデザイン、すなわち
フォントには様々な種類のものがある。
そのため、通常用いられる複数の文字種についてそのセ
ットごとに文字認識用辞書を備えている。
しかし、このような光学文字読取装置によって原稿の文
書を読み取る場合、同−原稿内に文字(キャラクタ)と
それ以外の画情報(イメージ)とが混在している場合、
あるいは異なる書体の文字が混在している場合や書体が
フォーマット化されていない場合には認識できなかった
また、同−原稿内に必要なデータと不要なデータとがあ
った時、不要なデータまで認識してしまうため、無駄な
処理に時間を費して読取速度が上がらないという問題も
あった。
特に、このような光学文字読取装置を用いて。
伝票や請求書、各種瀾査票、その他室形の枠と項目等が
印刷されていて、記入箇所が指定されている用紙(この
明細書中ではこれを「帳票」という)に記入された文字
等を読み取って集計等の処理をする場合、従来の装置で
は帳票全体の定形情報まで読み取ってしまうため読取時
間が長くなり、しかも、読み取った情報の処理も煩雑に
なるという問題があった。
目   的 この発明は、このような従来の光学文字読取装置におけ
る問題点を解消し、帳票内の必要な部分のデータのみを
迅速にL”p 識して読み取れる帳票データ読取装置を
提供することを目的とする。
1−腹 この発明は上記の目的を達成するため、スキャナによっ
て帳票をスキャンしてイメージデータを取り込み、その
イメージデータから帳票内の文字を認識して文字コード
データに変換する帳票データ読取装置において、 帳票のモデルをスキャナによってスキャンして取り込ん
だイメージデータから枠線を認識する枠線認識手段と、
該手段によって認識された枠線を基準にして読取エリア
を指定する読取エリア指定手段と、該手段によって指定
された各読取エリアごとに読取条件を指定する読取条件
指定手段と、上記枠線認識手段によって認識された枠線
の情報と読取エリア指定手段及び読取条件指定手段によ
って指定された各情報を帳票のフオーム情報として登録
するフオーム情報登録手段とを設け。
帳票データ読み取り時に、読み取る帳票のイメージデー
タから枠線を認識して上記フオーム情報中の枠線の情報
と比較し、帳票のフオームを識別してその帳票に対する
フオーム情報により指定された読取エリアごとの読取条
件で文字等のデータを読み取るようにしたものである。
以下、この発明の一実施例に基づいて具体的に説明する
第2図は、この発明による帳票データ読取装置の機能を
備えたデータ処理システムの一例を示す外観斜視図であ
る。
このデータ処理システムは、入力装置として。
英数字キー、カナキーなどの文字キー及びカーソル移動
キーや各種ファンクションキー等を有し、操作者の指示
を入力するキーボード1と、原稿を光電的にスキャンし
て文字を含む画情報をイメージデータとして入力するイ
メージスキャナ2とを備えている。
また、出力装置として、操作者に対するガイダンスを含
む各種文字及び画情報を表示するための表示装置である
CRTディスプレイ装置(以下単にrcRTJという)
3と、このシステムで処理した各種情報をプリントアウ
トするためのレーザプリンタ等のプリンタ4とを備えて
いる。
さらに1本体S内には第3図に示すように、イメージス
キャナ2で読み取ったイメージデータの前処理及び文字
認識を行なって、文字のイメージデータを文字コードデ
ータに変換するOCR前処理・認識部6と、データ記憶
装置であるハードディスク装置 (HDD)7と、この
システム全体の動作を統括制御するマイクロコンピユー
、夕等からなる制御部(CPU)10と1画面メモリ(
VRAM)11及び表示制御装置であるCRTコントロ
ーラ12等が設けら九でいる。
OCR前処理・認識部6には、イメージスキャナ2から
入力するイメージデータを一時格納するバッファメモリ
や、前述の文字認識用辞書を格納する辞書メモリ等も備
えている。
制御部10は、キーボード1からコード変換指示を受け
るまでは、イメージスキャナ2が読取った原稿画像のイ
メージデータをOCR前処理・認識部6を介してそのま
ま入力してHDD7に格納する。
キーボード1からコード変換指示を受けた後は。
OCR前処理・認識部6を制御してイメージスキャナ2
から入力する文字のイメージデータをコードデータに変
換して、それをHDD7に格納する。
また、このようにしてHDD7に格納したイメージデー
タあるいは文字コードデータをHDD7から読み出して
、ビデオ信号発生用メモリであるVRAMIIに転送す
る。
それにより、CRTコントローラ12がVRAM1lに
よってドツトデータの形で展開されたビデオ信号を順次
CRT3へ送って表示させる。
次に、この発明の基礎となる前処理、すなわち読取エリ
アの指定及びそのエリアごとの読取条件の指定について
、第4図以降も参照して説明する。
第4図は、第3図におけるOCR前処理・認識部6のプ
リプロセッサによる前処理機能を示すブロック図である
この図に示すように、前処理機能としては、スキャナに
よる原稿読取り及びそのイメージデータに対して読取エ
リア及びそのエリア内の読取条件の指定等を行なう「編
集」と、その指定された各情報を表示するrファイル一
覧」と、この機能を終了する「終了」がある。
そのうち最も重要な編集機能には、[原稿読取り」 「
作成」 「修正」 「追加」 「削除」 「内容表示」
 「終了」がある。
このうち原稿読取り2作成、内容表示の機能によって、
読取りエリア及び読取条件の措定を行ない、その指定内
容を修正、追加、あるいは削除する場合に、それぞれ修
正、追加、削除の各機能を用いる。
第5図にこの装置による処理のフローチャートを示すが
、そのうちステップ■〜■がこの前処理の編集機能に相
当する6 すなわち、ステップのでイメージスキャナ2を動作させ
て原稿の文字を含む画情報を読み取らせ。
そのイメージデータを取り込む、この場合はイメージス
キャナの読取密度を粗くして、読取速度を速めるように
する。
ステップ■では、取り込んだイメージデータにより原稿
の画情報をCRT3に表示させる。
そして、ステップ■で表示画面上に枠を作成することに
よる読取エリアの指定、及びキーボード1からの入力に
より各エリア毎の読取条件の指定を行なう。
その読取条件には、活字か手書きかのモード指定、活字
モードの場合の活字種類(フォント)の指定1手書きモ
ードの場合の文字の種類の指定、読取密度及び濃度の指
定等があるが、その詳細は第6図によって後述する。
このステップ■で指定された読取エリア及び読取条件の
情報を、ステップ■でHDD7のファイルに書き込んで
記憶する。
次に、この第5回のステップ■〜■は文字認識処理の動
作を示し、ステップ■でメモリのファイルから先に書き
込んだ読取エリア及び読取条件の情報を読み出す。
ステップ■で再びイメージスキャナ2を動作させ、指定
された読取密度で原稿の少なくとも指定されたエリア内
の画情報を読取る。
そして、その読み取ったイメージデータがOCRデータ
(文字LE aをすべきデータ)かどうかをステップ■
で判定し、OCRデータであればステ。
ツブ■へ進み、指定された各種の読取条件にしたがって
文字認識用辞書の選択等を行なって、公知のパターンマ
ツチング方式等によって各文字を認識して文字コードデ
ータに変換し、その後ステップ■へ進む。
OCRデータでなければ、ステップ■を飛ばしてステッ
プヴ)へ進む。ステップ・′Φでは他の指定データがあ
るか否かを判断して、あればステップ■へ戻って文字t
=識のための上述の動作を繰り返えし、指定されたエリ
ア内の全てのOCRデータの文字認識を完了すると、ス
テップ(3)でアプリケーションプログラムの処理を行
なって終了する。
なお、ステップ■で文字認識を行なって文字コードに変
換したデータ、及び指定されたエリア内にOCRデータ
でないイメージデータがあればそのデータも1例えば第
3図のHDD7に格納する。
アプリケーションプログラムは、この読取データを使用
して必要な処理を行なうプログラムであり、この場合は
表計算、データ集計等の帳票処理プログラムである。
次に、前処理機能による読取エリア及び各種読取条件指
定の具体例を、第6図のフローチャートによって説明す
る。
この図には示していないが、まず前処理のシステムメニ
ュー(1,ファイル一覧2.[集 9.終了)をCRT
の画面に表示し、数字キーの「2」によって「編集」が
選択されると、第4図の右側に示した編集機能を選択す
るための編集メニューを表示する。
そして、イメージスキャナによる原稿読取りが終って、
「作成」が選択されると第6図の処理がスタートする。
まず終了か否かを判断をするが、終了キーが押されなけ
れば終了ではないので、(A)で読取エリアの指定を行
なう。
それは、スキャナによって読み取った原稿の画情報をイ
メージデータによりCRTの表示画面に表示し、必要な
エリアの始点(左上の角)と終点(右下の角)が指定さ
れると、X方向に平行な2辺とY方向に平行な2辺から
なる方形の枠を作成し、その枠内を読取エリアとして指
定する。
例えば、CRTの画面に第7図に示すような絵と文章を
含む原稿の画情報が表示されているとき。
その文章の部分だけを読取エリアとして指定したければ
、始点と終点としてa点と5点を指定すると、長方形の
枠F1が形成されて読取エリアA。
を指定できる。同様に、始点と終点としてC点とd点を
指定すると、長方形の枠F2が形成されて読取エリアA
2を指定できる。
この始点と終点を指定する方法としては、キーボードか
らその各点の座標値(−、、!W)を入力したり、カー
ソルを始点に合わせて実行キーを押した後終点に合わせ
て実行キーを押す方法、あるいはライI−ペンで画面上
の始点と終点の位置をタッチする方法など種々の方法が
ある。
また、カーソルを移動させる場合、キーボードのカーソ
ル移動キーを用いる方法の他にマウスを用いる方法など
もある。
このように、始点と終点の2点を指定するだけで1つの
方形エリアを読取エリアとして簡単に指定できる。この
読取エリアは何箇所でも指定することができる。
次に、(B)の「活字モード指定」に進むが、ここでは
「16活字 22手書き 3.イメージ」を表示して、
1〜3の数字キーでそのいずれかを指定できるようにし
、どのキーが押されたかによって「活字」と「手書き」
と「イメージ」の判別を行なう。
そして、「活字」が指定されると(C)の「活字モード
設定」の処理に入る。
まず、活字種類指定のために[1,マルチフォント2.
書体指定]を表示して、いずれが指定されたかを判断し
、「マルチフォント」が指定されるとそれを活字モード
として設定する。
マルチフォントに設定すると、大体が判らなくても、比
較的使用頻度の高い予め定めた6種類の書体のいずれか
であれば、それを自動的に判別して辞書を選択して文字
認識を行なう7 「書体指定」であれば、例えば第8図に示すように18
種類の書体(フォント)のいずれかを数字キーによって
指定できるような書体指定の表示を行ない、指定された
書体を活字モードとして設定する。
また、「手書きJが指定さ九るとCD>のF手書モード
設定」の処理に入る。
ここでは、まず手書き文字の種類を指定するために「1
.アルファベット 2.数字 3.記号 4.カタカナ
 5.漢字 60手書活字 9.終了」を表示し、数字
キーによって指定された文字の種類をそれぞれ設定する
この場合は、同一エリア内に複数の文字の種類、例えば
アルファベットと数字と記号等が混在しているときには
、それを全部指定することができる。
なお、「手書き活字」とは、活字のように決められたフ
オームで書かれた手書き文字である。
さらに、「イメージ」が指定されたときは1文字認識の
ための条件指定は不要であるが、(E)のrイメージモ
ード設定ノの処理を行なう。
すなわち、読取モードとして「2値」 「多値」「ハー
フトーン」のいずれかを数字キーによって選択できるよ
うに表示し1選択されたモードを設定する。
ここで、「2値」とはイメージデータをその信号レベル
がある閾値以上か未満かで白か黒が(1か0)の2値デ
ータとして読取るモード、「多値」とは例えば64階調
のような多階調のデータとして読取るモード、「ハーフ
トーン」は例えばディザマトリックスを用いて2値化し
て疑似ハーフトーンのデータとして読取るモードである
前述の活字モード及び手書きモードの設定を行なった場
合には、読取モードを自動的に「2値」に設定する。
これらの各設定処理後、(F)の「読取密度設定」に進
む。
ここでは、読取密度として300dpi (dat/1
nch) p240dpi、 200dpi、 180
dpiのいずれがを数字キーによって選択できるように
表示し1選択された密度をモード設定する。
次に、(G)のr読取濃度設定ノを行なうが、ここでは
読取濃度としてH(濃い)2M(普通)。
L(薄い)のいずれか、あるいはそれらの中間の濃度を
0〜Fの16階調で選択できるようにし、選択された濃
度をモード設定する。
ここで、通常はMに設定しておき、原稿の文字等が濃い
場合はLに、薄い場合はHに変更するようにしてもよい
このようにして、指定した読取エリア内の読取条件を全
て指定し終ると再び始めに戻る。そこで、別の読取エリ
アを指定して上述の各種読取条件の指定をすることがで
きるが、必要な全ての読取エリア及びその読取条件の指
定を完了し、終了キーが押されると、(+()のソート
処理へ進む。
ここでは、設定されたエリア情報(読取エリアの始点、
終点の座標及びそのエリアに対してモード設定された各
読取条件の情11ij)をイメージスキャナによるスキ
ャン順序に従って並べかえ、その情報にファイル名等を
付してメモリのファイルに書き込んだ後、編集メニュー
表示に戻る。
その後、このファイルのエリア情報の内容を修正したい
場合は、Ig集メニューで「修正」を選択し、ファイル
名を指定してそのエリア情報の内容を表示させ、修正項
目を選択してその内容を修正することができる。
エリア情報を追加したい場合は、編集メニューで「追加
」を選択して、前述の「作成」の場合と同様にしてエリ
ア情報を追加し、それをファイルに書き込むことができ
る。
複数のエリア情報のうちの一部を削除したい場合には、
「削除」を選択してCRTの画面に指定されている全て
の読取エリアを表示させ、そのうちの削除したいエリア
内へ例えばマウスカーソルを移動してピックすると、そ
のエリアの情報が削除対象として指定され、確認後削除
される。
次に、上述のように設定したエリア情報を格納するファ
イルの構成を第9図に示す。
各ファイルにはヘッダ部(32Byte)が設けられ、
ここにはファイル記号と1作成者が入力するファイル題
名及び作成者の名前を書き込む。それに続< 16By
eeづつのエリア情報格納部に、各エリア情報をスキャ
ナによるエリアのスキャン類にn個(nは指定された読
取エリアの数)書き込むようになっている。
その各エリア情報は、第10図に示すように。
エリアの始点と終点の座標情報がそれぞれX、Y。
2 Byteづつ、活字モード、活字種類、iF体種類
手書き文字種類、読取モード、読取密度、読取濃度の各
読取条件指定情報がそれぞれI Byteづつ。
それにダミー領域としてのI Byt、eから構成され
ている。
〔実施例〕
次に、帳票に記入された文字等を読取って集計などの処
理をするためのこの発明による帳票データ読取装置の実
施例について、第1図(A)(B)及び第11図以降を
参照して説明する。
第1図(A)は、この実施例のフオーム情報(前述の読
取エリア及びその読取条件の指定情報に相当する情報を
含む)を登録するために必要な部分の構成を示す機能ブ
ロック図であり、同図(B)は帳票のデータを読取るた
めに必要な部分の構成を示す機能ブロック図である。
第1図(A)において、20はイメージスキャナ。
21は枠線認識手段、22は枠線データメモリ。
23は読取エリア指定手段、24は読取条件指定手段、
25はフオーム情報登録手段、26はフオームファイル
である。
この実施例では、データの読取りを行なおうとする各種
@票ごとのフオーム情報を登録しておく必要がある。
そこで、予め帳票のモデルをイメージスキャナ20にセ
ットしてスキャンし、そのイメージデータを入力して枠
線認識手段21によってその帳票の枠線を認識して、そ
の枠線情報を枠線データメモリ22に一時格納する。
このようにして認識された枠線を図示しないCRT等の
表示装置によって表示し、その枠線を基準にして、読取
エリア指定手段23によってオペレータが読取エリアを
指定すると共に、読取条件設定手段24によって各読取
エリアごとに読取条件を指定すると、これらの各情報す
なわち枠線情報とそれに関連する各読取エリア指定情報
及び読取条件指定情報を、フオーム情報登録手段25に
よってこの帳票のフオーム情報としてフオームファイル
26に登録する。
このようなフオーム情報の登録処理を、データの読み取
りを行なう予定の各種帳票のモデルについてそれぞれ実
行することにより、@票の種類毎のフオーム情報を登録
する。
第1図(B)において、27は画像ファイル。
28はフオーム識別手段、2日は領域切出手段。
30はデータ読取手段、31は読取結果ファイルである
帳票データ読み取り時には、イメージスキャナ20に読
み取る帳票をセットしてスキャンし、そのイメージデー
タを入力して画像ファイル27に一時格納すると共に、
枠線認識手段21がそのイメージデータから枠線を認識
して枠線データメモリ22に一時格納する。
そして、フオーム識別手段28が多数のフオームファイ
ル26からそこに登録されているフオーム情報中の枠線
情報を順次読出して枠線データメモリ22の枠線情報と
比較し、マツチングをとることによってこの帳票のフオ
ームを識別して、そのフオームに対して指定されている
読取エリアの情報を出力する。
その識別情報(読取エリア指定情報を含む)と枠線デー
タメモリ22の枠線情報の基準位置の情報によって、領
域切出手段2日が画像ファイルに格納されているイメー
ジデータから文字認識をすべきエリア(領域)のデータ
を切り出して、データ読取手段30へ送出する。
データ読取手段30は、多数のフオームファイル2日か
らフオーム識別手段28によって識別されたフオームの
エリア情報を読出して、その各エリアごとの読取条件指
定情報に応じて文字認識用辞書の選択等を行なって、領
域切出手段2日によって切り出されたイメージデータか
ら文字を認識して順次文字コードデータに変換し、それ
を読取結果ファイル31に格納していく。
また、指定されている読取条件が「イメージ」の場合は
、その読取モード指定に応じて、そのエリアのイメージ
データを2値化、多値化、あるいは疑似2値化(ハーフ
トーン)して読取結果ファイル31へ格納する。
これらの各機能は、第3図に示したシステムではOCR
前処理・認識部6及び制御部10によって実行されるが
、そのフオーム情報登録処理のフローチャートを第11
図に、帳票データ読取処理のフローチャートを第12図
に示す。
なお、これらのフローチャートでは、オペレータによる
作業とこの装置による処理とを併せて工程順に示してい
る。
まず、第11図のフオーム情報登録処理について、第1
3乃至第19vi!Iも参照しながら詳細に説明する。
この処理がスタートすると、まずオペレータがフオーム
ファイル名を入力することにより、登録するフオーム情
報を格納するファイル名を指定し、次いで登録する帳票
のモデルをスキャナ20にセットする。
その後、装置側でスキャナ20にセットされた帳票の画
情報を読取り、そのイメージデータ(画像データ)から
枠線認識を行なう。
この枠線認識方法は1例えば特開昭57−211672
号公報や特開昭57−211674号公報等に見られる
ように、従来から種々の方法が提案されているが、ここ
では画面上の主走査方向(X軸方向)の一対の線分と副
走査方向(y軸方向)の一対の線分とによって囲まれた
矩形領域を構成する線分であって、その内部に矩形を含
まないものを枠線として認識する。
例えば、第13図に示す例では■、■、■で示す矩形の
領域をそれぞれ取り囲む枠線(太線で示す)を認識する
ところで、イメージスキャナから取込んだ画像データに
スキューがある場合、原画の枠線を構成する各線分の画
像が、第14図に破線で示すように両面に対して傾斜し
てしまう。
そこで、原画のこの破線で示す各線分をそれぞれ構成す
るドツトを全て取囲む4つの矩形at bec、dを発
生して、その内側の領域Aを取囲む図中に太線で示す各
線分up(上側)、ΩW、(下側)。
Qf(左側)、及びrt(右側)を枠線として認識する
なお、このスキューがある程度以上大きくなると文字の
認識が困難になるので、スキューが大き過ぎることを表
示して、オペレータに帳票をセットし直すように促す必
要がある。
また1画像データのスキューを検出して、それを補正し
た画像データを取出すことができるようにすることも、
例えば特開昭58−87652号公報に見られるように
知られているので、これを利用して、スキューによる読
取エリアの減少等の影響を防ぐようにすることも可能で
ある。
次に、第11図のフローチャートにおける識別パラメー
タの計算を行なう。すなおち、帳票のフオームを識別す
るための識別パラメータを決定し。
基準位置を見つける。
基準位置は、例えば第15図に示す点P。の位置で、そ
の座標値を(x 5tar七、  y 5tart、)
とする。
この点Poは、認識された各枠線(図示の例ではF+”
Fs)のうち最も上位にある枠a(F+)の上側線分u
pの延長線と、最も皇位にある枠線(F21F3)の左
側線分Ofの延長線との文意である。
各線分及び領域の始点、終点等の座標値は、全てこの基
準位置からの値で表わされる。なお、以下の説明におい
て、IIIA分の始点の座標値を(xs。
ys)、終点の座標値を(ZB、 !Ie)とし、エリ
ア(領域)の始点の座標値を(ass、affs)。
終点の座標値を(axe、aye)とする。
識別パラメータとしては、次の(1)〜(6)を求める
(1)読取密度 スキャナから画像データを取り込んだ時のスキャナによ
る読取密度(180,200,240,300dipの
いずれか) (2)x方向幅 第15図に示すように、線分の終点ので方向の最大座標
値max(xe)  と線分の始点の父方向の最小座標
値m1n(z s )の差 mBx(x e) −ffiin(z S )(3)y
方向幅 第15図に示すように、線分の終点のy方向の最大座標
値max(ye)と線分の始点の3方向の最小座標値w
in(!!s)の差 ll1ax(y e ) −min(y s )(4)
枠側数 枠認識処理で認識できた枠の個数(Q個)(5)で方向
線分数 枠認識処理で認識できた父方向の線分数(n本) (6) y方向線分数 枠認識処理で認識できたy方向の線分数(n本) 次に、第11図のフローチャートにおける読取エリアの
指定及び読取条件の指定を行なう。
読取エリアの指定は、第16図(A)に示すように、認
識された枠Fによって囲まれたエリアAinを指定する
場合には1例えば第15図に示したようにCRTの画面
に表示している多数の枠の内部を1つずつ順次反転表示
してオペレータによるキー人力を待ち、例えば「1」キ
ーとrOJ キーあるいは「実行キー」と「キャンセル
」キー等によって1反転表示されているエリアを読取エ
リアとして指定するか否かを順次選択できるようにすれ
ば、いちいち読取エリアの始点と終点の座標を入力する
必要がなく、簡単に指定できる。
また、第16図(B)に示すように、枠Fの外側で枠F
を構成する線分の1本を一辺とする矩形のエリアA o
utを読取エリアとして指定する場合は。
そのエリアの枠外の始点又は終点の座標値のうち。
−辺となる線分の始点又は終点の座標値と異なる方の値
(図示の例では始点のy座標ays)のみを入力すれば
指定できる。
さらに、第16図(C)に示すように、枠以外に認識さ
れた線分りを一辺とする矩形のエリアAl1nを読取エ
リアとし、て指定する場合も、上述の場合と略同様であ
る。
但し、線分りは図示のように始点(x s 、 !t 
s Lとその対角点を終点($e、!!6)とする細長
い矩形として認識される(幅dは線の振れや若干のスキ
ュー及びノイズによる)ので、読取エリアA Iinの
終点の座標(axe、a !!e)は線分りの終点の座
標(:ce、ye)とは若干具なるが。
axe=ze、a!!e=ye−d=y3  であるか
ら自動的に決定できる。
第16図(D)に示すように、認識された枠Fあるいは
線分りと関係なく自由に読取エリアAfreeを指定す
る場合には、第6図のフローチャートの(A)読取エリ
ア指定のところで説明したように、指定したいエリアの
始点と終点の座標値(,1z S 。
a!!s)と(aze、aye)を入力することによっ
て指定できる。
読取条件の指定は、各読取エリアの指定後、第6図のフ
ローチャートによって説明したようにして、活字か手書
きのモード指定、活字モードの場合の書体(フォント)
指定2手書きモードの場合の文字種指定等を順次行なう
。なお、この場合は読取密度及び読取濃度の指定は行な
わない。
このようにして、第11図における読取エリアの指定及
びそのエリアの読取条件の指定あるいは設定を必要な全
ての読取エリアに対して終了すると1次にヘッダ情報の
入力を行なう。
ヘッダ情報としては、バージョンNo、、フオーム名称
2炸成者名、その他のメモ等を入力する。
そして、これらの各データすなわちフオーム情報を、フ
オームファイル・フォーマットに従ってフオームファイ
ル26に格納し、フオーム情報登録処理を終了する。
フオームファイル・フォーマットは、第17図に示すよ
うに、ヘッダ情報、yK図面基準点、識別パラメータ、
原始データ、認識領域データの各エリアからなる。
ヘッダ情報は、作成者が入力した前述の情報であり 、
@図面基準点は第15図に示した例では点Poの座標、
すなわち父方向始点(jcst、arj)とy方向始点
(y st、art、)のデータである。
識別パラメータも前述のとおりであるが、二二ではX方
向幅とy方向幅をドツト数で格納する。
このドツト数と読取密度から長さを算出することができ
る。
原始データとしては、枠を認識した数(Q個)の枠デー
タ、X方向の線分を認識した本数(m個)のX方向線分
データ、!1方向の線分を認識した本数(n個)の!方
向線分データを、それぞれ枠ナンバ(No、)あるいは
線分ナンバ(No、)を付して格納し、枠データは枠を
構成する4本の線分Qf+ rf、up、Qwのナンバ
(No、)で格納する。線分データは各線分の始点と終
点のX方向及び!方向の座標値で格納する。
認識領域データは、前述した読取エリアに関するデータ
であり、領域個数(読取エリアとして指定された領域の
数)と、その数(1個)だけの読取条件及び領域座標を
格納する。
読取条件としては、原始データモードと原始データNo
、、字種、辞書ファイル名、及び手書きフィールドファ
イル名等がある。
原始データモードは、その読取エリアが線分に付随する
ものか枠に付随するものか、あるいは全くフリーなエリ
アなのかを指定するデータであり、原始データNo、は
、付随するデータの線分No、あるいは枠No、である
字種のデータは、第18図に示すように、8ビツトのメ
モリエリアの最上位にビットを立てる(1″にする)こ
とにより「手書きモード」を指定し、最下位にビットを
立てることにより「イメージモード」を指定する。さら
に、最上位から2ビツト目がアルファベット(A)、3
ビツト目が数字(N)、4ビツト目が記号(S)、5ビ
ツト目が片カナ(K)、6ビツト目が漢字、7ビツト目
がひらがなの指定用ビットであり、それぞれビットを立
てることにより指定し、複数の指定もできる。
なお、活字モードの場合は最上位及び最下位にはビット
を立てない。
辞書ファイル名は、活字モードの場合に指定された書体
に応じた辞書ファイル名を格納する。
手書きフィールド情報裔は1手書き文字の場合には認識
率を高めるために、第19図に示すように各行を文字の
種類(アルファベット、数字、記号等)ごとに区切って
、その各区間の長さをフィールドデータとして順次格納
したファイルを別に作成するため、それを□読み出すた
めの情報である。
領域座標は、読取エリアの始点と終点の座標(azs、
ays)、(aza’、aye)である。
次に、第12図の帳票データ読取処理について。
第20図乃至第22図も参照して説明する。
第12図のフローチャートに示す処理がスタートすると
、まず識別パラメータテーブルのセット。
すなわちフオームファイルから既に登録されているフオ
ームの識別パラメータをフオームファイル名と共に読み
出してテーブルに格納する。
その後、オペレータが読取対象の帳票をスキャナ20に
セットするが、オートフィーダ付きスキャナを使用すれ
ば多数の帳票を一度にセットでき、且つフオーム情報を
登□録しである帳票であれば、異なるフオームの帳票が
混在していてもかまわない。
そして、そのセットされた帳票の最初の1枚をスキャナ
20が所定の読取密度及び読取濃度でスキャンしてその
画像データを本体に入力するので。
本体の枠線認識手段21がその画像データから前述した
ように線分を認識し、4本の線分によって1つの矩形エ
リアを囲む枠線を認識する処理を行なう(第1図(B)
参照)。
そして1次に帳票のフオームを識、別するフオーム識別
処理を行なうが、その詳細については第20図及び第2
1図によって後述する。
次に1画像ファイル27に格納しである入力画像データ
を、枠線認識手段21による枠線の認識結果による基準
位置に対して位置を正規化し、読取エリアの画像データ
を切り出す。
そして1個々の読取エリアの読取条件に合った読取方法
を選択し、活字ANS (アルファベット。
数字、記号)認識、手書きANS認識、活字漢字認識、
手書き漢字認識等の文字認識処理、あるいはイメージデ
ータの2値化あるいは多値化処理を行なう。
この文字認識は、活字の場合は指定された書体の文字認
識用辞書とのパターンマツチングによって行なわれ1手
書き文字の場合は、予め手書き文字用の辞書を作成して
おいて、その辞書と前述した手書きフィールドデータと
を用いて、パターンマツチングによってvzPlする。
このようにして認識された文字は文字コードデータとし
て、イメージデータはピットマツプとして、それぞれ読
取結果ファイル31に第22図に示すようなフォーマッ
トに従って格納する。
そして、帳票1枚分の読み取りが終了するまで。
順次読取エリアの画像データ切出しから読取結果のファ
イルへの格納までの処理を繰り返し、帳票1枚分の読み
取りが終了すると1次の帳票をセットあるいはオートフ
ィーダによって送り込んで。
スキャナによる読取りからの処理を繰り返す。
こうして、全ての帳票の読み取りを終了するまで上述の
各処理を行なって、各帳票の指定された全ての読取エリ
アのデータを読み取って、その認識結果を読取結果ファ
イル31に格納する。
ここで、フオーム識別処理について第20図及び第21
図によって説明する。
フオーム識別処理は、第20図のフローチャートに従っ
て行なうが、まずパラメータ評価を行う。
これは、登録しである各帳票のフオームの識別パラメー
タと今回枠線認識を行なった帳票の識別パラメータとを
比較し、読取密度と枠の個数は完全に一致し、他のパラ
メータは所定の許容誤差範囲内で一致するものを選択す
る(選択したフオームの数をnlとする)。
このパラメータ評価の例を第21図にさらに詳しく示す
この例では、今回認識した帳票のフオームをフオームA
とし、登録しである帳票のフオームを順次フオームBと
し、フオームAの識別パラメータとフオームBの識別パ
ラメータとを比較し、各パラメータの比較結果が全てY
ESになった時にカウンタをカウントアツプするように
し、フオームAと全ての登録フオームとの識別パラメー
タの比較を順次行なう。
図中、A den 、 B denは読取密度(Aが付
く方はフオームA、Bが付く方はフオームBの値を示す
以下同じ)、l A xwd −B xwd lはX方
向幅の差。
l 、Aywd −B ywd lはX方向幅の差、w
t、hは幅の差のしきい値、A fralle 、 B
 frameは枠の個数、1Axl−BtllはX方向
の線分本数の差、l Ayl−ByllはX方向の線分
本数の差、nthは線分本数の差のしきい値である。
第20図に戻って、上述のパラメータ評価で選択された
フオームが少なくとも1つ以上あった(n+≧1)か否
かを判断し、なければリジェクトする。
n1≧1であれば、次に枠位置の評価を行なう。
すなわち、基準位置(第15図の点Po)によって正規
化された各枠位置をその始点位1it(a!81a!!
s)と幅(ax e  a x s )及び(aye−
a!l5)(第16図参照)を用いて、パラメータ評価
をパスした各登録フオームの各枠位置を示すこれらの値
と順次比較して、その誤差の和が所定の範囲内にあるも
のを選択する。
この枠位置の評価をn1個の登録フオームについて行な
って1選択したフオームの数を02個とする。
そして、選択されたフオームが少なくとも1つ以上あっ
た(n2≧1)か否かを判断し、なければリジェクトす
る。
n2≧1であれば、次に線分位置の評価を行なう。すな
わち、基準位置によって正規化された各線分位置をその
始点(zs、ys)と長さくz6− x g )又は(
ye−ys)を用いて、n2個の登録フオームの各線分
位置を示すこれらの値を順次比較して、その誤差の和が
所定の範囲内にあるものを選択する。
この線分位置の評価をn2個の登録フオームについて行
なって1選択したフオームの数をn3とする。
ここで、n3≧1でなければリジェクトし、n3≧1で
あれば、その選択されたフオームの中でも最も近い(誤
差が少ない)ものを該当フオームとして選択するが、こ
こで通常はn3=1になるはずであり、必然的に1つの
登録フオームを選択することができる。
この実施例によれば、伝票等の枠線によりフオームが定
められている帳票に記入された文字等の読取エリアの指
定が極めて容易になると共に、そのフオームを予め登録
したおくことにより、フオームの異なる各種の帳票をオ
ートフィーダ付スキャナで連続的に取り込んで処理する
ことも可能になる。
また、枠線を認識してフオームの識別パラメータとする
ことにより、線分のみの場合に比してノイズの影響が極
めて少なくなり、識別精度が大幅に向上する。
効果 以上説明してきたように、この発明による帳票データ読
取装置は、予め各種の帳票のフオーム情報を登録してお
くことにより、帳票内の必要な部分のデータのみを迅速
に認識して読取ることができ、データ処理装置への多量
の帳票データの入力を短時間で行にうことが可能になる
【図面の簡単な説明】
第1図(A)(B)はこの発明の一実施例である帳票デ
ータ読取装置のフオーム情報登録に必要な部分と帳票デ
ータ読み取りに必要な部分の構成をそれぞれ示す機能ブ
ロック図。 第2図はこの発明による帳票データ読取装置の機能を備
えたデータ処理システムの外観斜視図。 第3図は同じくそのブロック構成図。 第4図は第3図におけるOCR前処理・認識部6のプリ
プロセッサによる前処理機能を示すブロック図。 第5図は同じくこの発明の基礎となる前処理及び文字認
識動作のフロー図。 第6図は第5図における読取エリア及び読取条件指定処
理の詳細を示すフロー図。 第7図は読取エリア指定時におけるCRTの画面表示の
例を示す図。 第8図は書体指定時におけるCRTの画面表示の例を示
す図。 第S図は設定したエリア情報を格納するファイルの構成
を示す図。 第10図は同じくそのエリア情報の構成を示す図。 第11図は第1図(A)の構成によるフオーム情報登録
処理のフロー図、 第12図は第1図(B)の構成による帳票データ読取処
理のフロー図。 第13図乃至第19図はそれぞれ第11図のフオーム情
報登録処理の説明に供する説明図、・第20図は第12
図におけるフオーム識別処理の詳細を示すフロー図、 第21図は第20図におけるパラメータ評価処理の詳細
を示すフロー図。 第22図は読取結果ファイルのフォーマットを示す図で
ある。 1・・・キーボード  2・・・イメージスキャナ3・
・・CRTディスプレイ装W  4・・・プリンタ5・
・・本体  6・・・OCR前処理・認識部7・・・ハ
ードディスク装置  10・・・制御部11・・・画面
メモリ  12・・・CRTコントローラ20・・・イ
メージスキャナ  21・・・枠線認識手段22・・・
枠線データメモリ 23・・・読取エリア指定手段 24・・・読取条件指定手段 25・・・フオーム情報登録手段 26・・・フオームファイル  27・・・画像ファイ
ル28・・・フオーム識別手段  2S・・・領域切出
手段30・・・データ読取小段 31・・・読取結果ファイル 第4図 第7図 第8図 第9ti!5 ファイルの構成 第10図 エリア情報の構成 第11図 第16図 F (C) (D) ji20図 = 菰

Claims (1)

  1. 【特許請求の範囲】 1 スキャナによつて帳票をスキャンしてイメージデー
    タを取り込み、そのイメージデータから帳票内の文字を
    認識して文字コードデータに変換する帳票データ読取装
    置において、 帳票のモデルを前記スキャナによつてスキャンして取り
    込んだイメージデータから枠線を認識する枠線認識手段
    と、該手段によつて認識された枠線を基準にして読取エ
    リアを指定する読取エリア指定手段と、該手段によつて
    指定された各読取エリアごとに読取条件を指定する読取
    条件指定手段と、前記枠線認識手段によつて認識された
    枠線の情報と前記読取エリア指定手段及び読取条件指定
    手段によつて指定された各情報を帳票のフォーム情報と
    して登録するフォーム情報登録手段とを設け、 帳票データ読み取り時に、読み取る帳票のイメージデー
    タから枠線を認識して前記フォーム情報中の枠線の情報
    と比較し、帳票のフォームを識別してその帳票に対する
    フォーム情報により指定された読取エリアごとの読取条
    件で文字等のデータを読み取るようにしたことを特徴と
    する帳票データ読取装置。
JP61302898A 1986-12-19 1986-12-19 帳票デ−タ読取装置 Pending JPS63155386A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61302898A JPS63155386A (ja) 1986-12-19 1986-12-19 帳票デ−タ読取装置
US07/133,623 US4933979A (en) 1986-12-19 1987-12-16 Data reading apparatus for reading data from form sheet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61302898A JPS63155386A (ja) 1986-12-19 1986-12-19 帳票デ−タ読取装置

Publications (1)

Publication Number Publication Date
JPS63155386A true JPS63155386A (ja) 1988-06-28

Family

ID=17914433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61302898A Pending JPS63155386A (ja) 1986-12-19 1986-12-19 帳票デ−タ読取装置

Country Status (2)

Country Link
US (1) US4933979A (ja)
JP (1) JPS63155386A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6043819A (en) * 1990-01-16 2000-03-28 Digital Image Systems, Corp Image based document processing and information management system and apparatus
JP2009163398A (ja) * 2007-12-28 2009-07-23 Toshiba Corp 帳票読取装置、帳票読取システムおよびプログラム
JP2015088011A (ja) * 2013-10-31 2015-05-07 ブラザー工業株式会社 読み取り装置及びプログラム

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553170A (en) * 1987-07-09 1996-09-03 Ezel, Inc. High speed image processing system having a preparation portion and a converting portion generating a processed image based on the preparation portion
JP2683008B2 (ja) * 1988-02-16 1997-11-26 株式会社リコー 矩形図形内部塗りつぶし方法
JP2940936B2 (ja) * 1989-06-06 1999-08-25 株式会社リコー 表領域識別方法
EP0407935B1 (en) * 1989-07-10 1999-10-06 Hitachi, Ltd. Document data processing apparatus using image data
JPH0381817A (ja) * 1989-08-25 1991-04-08 Hitachi Ltd 手書入力情報処理装置およびこの手書入力情報処理装置を用いた手書入力情報システム
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
US5020124A (en) * 1989-10-10 1991-05-28 Unisys Corporation Method and apparatus for detecting document size in an imaging system
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5402504A (en) * 1989-12-08 1995-03-28 Xerox Corporation Segmentation of text styles
US5344132A (en) * 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
US5235702A (en) * 1990-04-11 1993-08-10 Miller Brent G Automated posting of medical insurance claims
US5363214A (en) * 1990-05-30 1994-11-08 Xerox Corporation Facsimile transmission system
US5396588A (en) * 1990-07-03 1995-03-07 Froessl; Horst Data processing using digitized images
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
JP3001065B2 (ja) * 1991-03-19 2000-01-17 テイ・エイ・エス通商株式会社 プログラムの作成方法
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
US6683697B1 (en) 1991-03-20 2004-01-27 Millenium L.P. Information processing methodology
JPH04343190A (ja) * 1991-05-21 1992-11-30 Hitachi Ltd 文字データ入力方式
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information
US5416308A (en) * 1991-08-29 1995-05-16 Video Lottery Technologies, Inc. Transaction document reader
EP0601107A4 (en) * 1991-08-30 1995-03-15 Trw Financial Systems Inc METHOD AND APPARATUS FOR CONVERTING DOCUMENT BETWEEN PAPER MEDIUM AND ELECTRONIC MEDIA.
US5926565A (en) * 1991-10-28 1999-07-20 Froessl; Horst Computer method for processing records with images and multiple fonts
US5350303A (en) * 1991-10-24 1994-09-27 At&T Bell Laboratories Method for accessing information in a computer
US5544045A (en) * 1991-10-30 1996-08-06 Canon Inc. Unified scanner computer printer
US5229589A (en) * 1991-11-21 1993-07-20 Optimum Solutions Corp., Inc. Questionnaire scanning system employing expandable answer mark areas for efficient scanning and mark detection
JP3002594B2 (ja) * 1992-03-10 2000-01-24 株式会社日立製作所 帳票処理システム
US5666549A (en) * 1992-03-10 1997-09-09 Hitachi, Ltd. Method and system for processing a document transmitted via facsimile in an initially input form stored in a knowledge base
US5467410A (en) * 1992-03-20 1995-11-14 Xerox Corporation Identification of a blank page in an image processing system
US5465167A (en) * 1992-03-20 1995-11-07 Xerox Corporation Using an image from a form in automatic creation of a form or sheet
US5434953A (en) * 1992-03-20 1995-07-18 Xerox Corporation Use of fast textured reduction for discrimination of document image components
US5418865A (en) * 1992-03-20 1995-05-23 Xerox Corporation Mark sensing on a form
US5317646A (en) * 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
US5251273A (en) * 1992-04-15 1993-10-05 International Business Machines Corporation Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
US5305396A (en) * 1992-04-17 1994-04-19 International Business Machines Corporation Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms
JP3221947B2 (ja) * 1992-12-03 2001-10-22 株式会社東芝 業務指示処理装置
US5428694A (en) * 1993-10-14 1995-06-27 International Business Machines Corporation Data processing system and method for forms definition, recognition and verification of scanned images of document forms
US5555325A (en) * 1993-10-22 1996-09-10 Lockheed Martin Federal Systems, Inc. Data capture variable priority method and system for managing varying processing capacities
EP0654746B1 (en) * 1993-11-24 2003-02-12 Canon Kabushiki Kaisha Form identification and processing system
US5838822A (en) * 1993-12-20 1998-11-17 Canon Kabushiki Kaisha Image communicating apparatus
US5551011A (en) * 1994-01-27 1996-08-27 Huyck Licensco, Inc. Computerized system for simulating paper sheet formation and the appearance of print thereon
JPH08207380A (ja) * 1994-11-25 1996-08-13 Xerox Corp オリジナルフォームに自動的に記入する方法及び装置
JPH0918706A (ja) * 1995-06-28 1997-01-17 Fuji Photo Film Co Ltd マイクロフィルム画像読取装置の制御方法
US5818453A (en) * 1996-01-05 1998-10-06 Weavexx Corporation System for evaluating print quality for a sheet
JPH1063744A (ja) * 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
SE511242C2 (sv) * 1997-04-01 1999-08-30 Readsoft Ab Förfarande och anordning för automatisk datafångst hos formulär
US6072461A (en) * 1997-08-15 2000-06-06 Haran; Yossi Apparatus and method for facilitating document generation
US6816630B1 (en) * 2000-05-22 2004-11-09 Electro-Sensors, Inc. System and method for creating and processing data forms
US6902105B2 (en) * 2001-10-22 2005-06-07 Seiko Epson Corporation Negotiable instrument processing device, negotiable instrument processing method and negotiable instrument processing system
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
DE10342594B4 (de) * 2003-09-15 2005-09-15 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE10345526A1 (de) * 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US8000535B2 (en) * 2007-06-18 2011-08-16 Sharp Laboratories Of America, Inc. Methods and systems for refining text segmentation results
US20100277772A1 (en) * 2007-08-15 2010-11-04 I. R. I. S. Method for managing sets of digitally acquired images and method for separation and identification of digitally acquired documents
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
US8358852B2 (en) * 2008-03-31 2013-01-22 Lexmark International, Inc. Automatic forms identification systems and methods
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods
EP2883193A4 (en) 2012-08-10 2016-07-13 Transaxy Inc SYSTEM FOR ENTERING DATA IN A DATA PROCESSING SYSTEM
US9607015B2 (en) * 2013-12-20 2017-03-28 Qualcomm Incorporated Systems, methods, and apparatus for encoding object formations
US9773166B1 (en) * 2014-11-03 2017-09-26 Google Inc. Identifying longform articles
US10241992B1 (en) 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3820067A (en) * 1969-11-14 1974-06-25 Cognitronics Corp Character reading system controlled by preprinted program control characters on document form
JPS57211672A (en) * 1981-06-22 1982-12-25 Ricoh Co Ltd Frame recognizing method
JPS57211674A (en) * 1981-06-23 1982-12-25 Ricoh Co Ltd Frame recognizing method
JPH0693738B2 (ja) * 1981-10-09 1994-11-16 株式会社東芝 文書画像認識編集装置
JPS5887652A (ja) * 1981-11-19 1983-05-25 Ricoh Co Ltd 画像処理装置
US4691238A (en) * 1982-10-21 1987-09-01 Dainippon Screen Mfg. Co., Ltd. Method and apparatus of storing image data into a memory in a layout scanner system
JPS59128666A (ja) * 1983-01-14 1984-07-24 Fuji Xerox Co Ltd 伝票,書類等の発行装置
JPS59205678A (ja) * 1983-05-09 1984-11-21 Sharp Corp 用紙情報入力装置
JPS60136885A (ja) * 1983-12-26 1985-07-20 Hitachi Ltd 帳票フオ−マツト識別方式
JPS6139168A (ja) * 1984-07-31 1986-02-25 Toshiba Corp 光学的文字読取装置の制御フオ−マツト登録方法
JPS61289476A (ja) * 1985-06-18 1986-12-19 Fujitsu Ltd 文字読取装置のフオ−マツト生成方式
JPH0785254B2 (ja) * 1985-09-27 1995-09-13 株式会社東芝 文字画像読取装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6043819A (en) * 1990-01-16 2000-03-28 Digital Image Systems, Corp Image based document processing and information management system and apparatus
JP2009163398A (ja) * 2007-12-28 2009-07-23 Toshiba Corp 帳票読取装置、帳票読取システムおよびプログラム
JP2015088011A (ja) * 2013-10-31 2015-05-07 ブラザー工業株式会社 読み取り装置及びプログラム
US10084938B2 (en) 2013-10-31 2018-09-25 Brother Kogyo Kabushiki Kaisha Reading apparatus and non-transitory storage medium storing instructions executable by reading apparatus

Also Published As

Publication number Publication date
US4933979A (en) 1990-06-12

Similar Documents

Publication Publication Date Title
JPS63155386A (ja) 帳票デ−タ読取装置
US6466694B2 (en) Document image processing device and method thereof
US5717794A (en) Document recognition method and system
US4944022A (en) Method of creating dictionary for character recognition
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
US5191612A (en) Character recognition system
US5394484A (en) Image recognition apparatus
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP3319203B2 (ja) 文書ファイリング方法及び装置
US20010016068A1 (en) Electronic document generating apparatus, electronic document generating method, and program thereof
JPH0333990A (ja) マスク処理を用いる光学式文字認識装置及び方法
JPH11219409A (ja) 文書読取装置
JPS63155385A (ja) 光学文字読取装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2662404B2 (ja) 光学文字読取装置における辞書作成方法
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP2001109843A (ja) 文字認識方法および装置
JPH10134141A (ja) 文書照合装置および方法
JPS5949671A (ja) 光学的文字読取装置
JPH07262317A (ja) 文書処理装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JP2887823B2 (ja) 文書認識装置
JP2544589B2 (ja) 文書処理方法及び装置
JPH06348889A (ja) 文字認識装置