JPS6238984A - 光学文字読取方式 - Google Patents

光学文字読取方式

Info

Publication number
JPS6238984A
JPS6238984A JP60177513A JP17751385A JPS6238984A JP S6238984 A JPS6238984 A JP S6238984A JP 60177513 A JP60177513 A JP 60177513A JP 17751385 A JP17751385 A JP 17751385A JP S6238984 A JPS6238984 A JP S6238984A
Authority
JP
Japan
Prior art keywords
format
slips
slip
varieties
optical character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60177513A
Other languages
English (en)
Inventor
Haruo Takeda
晴夫 武田
Kotaro Yamashita
山下 廣太郎
Kuniaki Tabata
邦晃 田畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60177513A priority Critical patent/JPS6238984A/ja
Publication of JPS6238984A publication Critical patent/JPS6238984A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文書画像の認識方式に係り、特に銀行端末等に
おける伝票類の読取に好適な光学文字読取方式に関する
〔発明の背景〕
近年、銀貢をはじめとするオフィスでは、伝票類の処理
の省力化が大きな課題となっており、その一つの解決策
として伝票類の光学文字読取装置(以下OCR,と略す
)によるコード化が進められつつある。OCRで文字を
コード化するためには、コード化する文字の位置・属性
等から成るあらかじめ登録されたフォーマット情報を、
補助的に利用する必要があるが、銀行のように多種多様
な伝票を同一のOCRで処理する必要がある場合には、
入力された伝票類が「どのフォーマットの伝票類である
か」を指定する方法が、操作性の点でポイントになる。
従来のOCR,では、たとえば(株)日立製作所発行の
HITACマニュアル500−2−054、HT−55
04−41形・1(T−5504−51形・HT−55
04−61形画像入力付光学文字読取装置/機能解説編
、と題する文献の30ページにあるように、伝票類上に
特別のフォーマットIDと呼ぶ欄を設けて、まず最初に
この欄を認識することによって入力伝票のフォーマット
を自動的に選択する方式が採られている。ただし銀行に
おける公共料金の払い込み伝票、株式の配当金受取伝票
のように、自部門以外で定義された伝票類には、上記の
特別の欄を設けることはできないので、このような伝票
類を取扱う場合には、伝票を入力する都度、人手によっ
てフォーマットを指定しなければならない欠点があった
〔発明の目的〕
本発明の目的は、複数種類のフォーマットをもつ伝票類
を、伝票類に特別なフォーマットIDを付すことなく、
自動的に読取る方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明では伝票類が一般に
表(ひよう)等の構造で特徴づけられること、および表
等を構成する線分等は、ディジタル画像処理の技術によ
り比較的容易に認識できることを利用して、入力伝票類
中の表等の構造により自動的にフォーマットを選択する
〔発明の実施例〕
以下本発明の一実施例を第1図〜第5図により詳細に説
明する。第1図は本発明による伝票類コード化処理の概
要を示す。本処理は基本的に、伝票類のサンプルをもと
にこの伝票類のフォーマットをファイルに登録する処理
1〜3と、実際に数値、文字等が書込まれた伝票類を上
記フォーマット情報を参照して認識コード化する処理1
〜5から成る。
フォーマットの登録処理は、さらに伝票類の線分の集合
である表の構造を認識する過程と、表の各欄に書込まれ
る文字・数値等の属性、桁数、位置等をユーザが指定す
る過程から成る。後者の属性等指定の過程は、従来のた
とえば前記文献にある方式(図中ディスプレイ9に表示
されたガイダンスに従ってキーボード10から入力する
)を利用するものとし、説明は省略する。以下前者の表
の認識過程を詳細に説明する。
表の認識過程の目的は、伝票類から表の特徴を表わすパ
ラメータを求めることである。伝票類としては、−例と
して第2図の伝票を用いて以下説明する。まず処理1で
、伝票11を画像入力装置(イメージ・スキャナ等)で
ディジタル化して、コンピュータのメモリに2値画像と
して取込む。
次に処理2で、上記データからディジタル画像処理の手
段により、線分の位置に関する情報を認識して、第3図
に示すテーブル12を作成する。最後に処理3で上記テ
ーブル12から、表の構造を表す特徴パラメータを求め
て、第4図に示すテーブル13を作成して、ファイル6
に格納する。なお求めた特徴パラメータと各欄の属性等
の情報はフォーマットナンバー(以下フォーマットAと
略記)によって対応づけるが、これは特にユーザに意識
させてキーボード10から取り込むこともでき、また同
一セツションで特徴パラメータおよび属性等を求めるこ
とにより暗示的に行うこともできる。
次に上記処理2の内容を詳細に説明する。処理2は、伝
票11のディジタル2値画像から直線成分を抽出する処
理と、直線成分上の端点を求めてこれを線分情報に変換
してテーブル12を作成する処理から成る。前者の直線
成分の抽出は、従来のディジタル画像処理の手段で実現
でき、たとえば長尾真氏著、電子通信学会編による「パ
ターン情報処理J  (1983年コロナ社発行」と題
する文献の79〜81ページにあるノヘウ(Hough
)変換の手法を利用することができる。本処理によれば
、画像中の直線成分を方程式 %式% における傾きθと、原点からの距離ρの組として求める
ことができる。次に上記方程式上の端点を求めて直線を
線分の情報に変換する。
第5図は直線上の端点を求めるアルゴリズムの一例を示
すフローチャートである。図中変数フラグ(flag 
)は、黒画素(1のとき)と白画素(−1のとき)を表
す。本アルゴリズムでは、まずステップ52で縦線と横
線の別を判定し、ステップ53〜58とステップ59〜
64を選択する。
次にステップ54と56またはステップ60と62で直
線上の座標を順次繰返す。ステップ57または63で黒
画素から白画素または白画素から黒画素への変化点を検
出しステップ58またはステップ64でこれを端点とし
てテーブル12に登録する。以上の処理をすべてのρ、
θの組について行う。なお入力伝票のディジタル画像の
画質が劣化している場合には、上記)]ough変換に
よる直線上に実際の線分データが乗っていない場合もあ
る。このような場合にはステップ57でXに幅をもたせ
、ステップ63でyに幅をもたせて判定することにより
、直線からある範囲でズした線分の端点を求めることが
できる。またディジタル画像にかすれがある場合には、
本来1本の線分が複数本の線分として検出される場合も
ある。このような問題は、黒画素から白画素への端点が
検出されても、次に検出された白画素から黒画素への端
点までの距離が小さいときには、これら2つの端点を登
録しないことによって解決できる。また、短い線分は登
録しないことにより、雑音を除去することができる。
次に前記処理3の内容を詳細に説明する。本処理では、
個々の線分の情報をもとに表としての性質を表す各種特
徴パラメータを求める。特徴パラメータとしては、各種
のものが考えられるが、ここでは−例として、第4図テ
ーブル13に掲げるものについて説明する。まず第1の
縦線数、第2の横線数はテーブル12の各線分について
、始点座標と終点座標を比較して縦線と横線の別を判定
することにより、直接求めることができる。第3の交点
数と第4の欄数については、線分のすべての組合せ(交
点は2つずつ、欄は4つずつの組)を調べることによっ
て求めることができる。第5の表敷は、分離独立した表
の数を示し、線分の連結状態を調べることによって、連
結した線分の集合から求めることができる。第6の表の
大きさは、上記のそれぞれの線分の集合で、始点終点の
X1Y座標のそれぞれの最大値、最小値から求めること
ができる。
以上で伝票フォーマットの登録処理の説明を終り、次に
伝票の認識処理について説明する。丑ず第1図に示す処
理1で実際に文字・数値等が書込まれた伝票を入力する
。次に上記フォーマット登録と全く同様にして処理2.
3により表の特徴パラメータを求める。次に処理4で既
登録の各フォーマットの特徴パラメータとマツチングを
行い該当するフォーマツ)Aを選択する。マツチングの
方法は、たとえば特徴パラメータに優先度を設けて順次
行うこともでき、まだすべてのパラメータについてマツ
チングを行いこの結果を総合的に判定する方法も可能で
ある。次に求めたフォーマット屋によって、あらかじめ
ファイル7に登録された伝票の各欄の位置、文字属性等
の情報を読出し、最後に処理5で文字・数値等を従来の
認識手法を用いて認識してコード化する。
以上は表の構造を用いてフォーマットを認識しだが、表
以外の例えば第2図体票11における販売伝票、ID等
の文字や、伝票の大きさ、形状、さらに表を構成する線
の太さ等の情報を認識して、補助的または独立にフォー
マットの認識に利用することかできる。また表の線分認
識の高速化のだめに、処理2の前処理として、伝票画像
の縮小を行うこともできる。縮小方法については、たと
えば吹抜敬彦氏著、日刊工業新聞社発行によるrF’A
X、OAのための画像の信号処理」と題する文献の31
ページ〜35ページに詳しいので詳細説明は省略するが
、特に伝票画像が高画質の場合には、大きな縮小率で縮
小を行うことができ、ま たとえば−の縮小率は、n画素×n画素の格子内の黒画
素の多少により黒または白の1画素で代表することによ
って実現できる。また本実施例では特徴パラメータの特
徴は完全に自動的に登録したが、キーボード10とディ
スプレイ9等を用いて、処理結果をユーザが見ながら修
正を含め対話的に登録を進めることもできる。
〔発明の効果〕
本発明によれば、伝票類の構造を認識してフォーマット
を選択することができるので、特別なフォーマツ)ID
等を伝票類に付すことなく、伝票類の自動入力ができる
効果がある。また伝票類の一部分のフォーマットID等
を認識するのではなく、伝票類全体の情報を認識するの
で、情報量が多く、フォーマットの認識精度が高い効果
がある。
【図面の簡単な説明】
第1図は本発明の処理方式の概要、第2図は伝票の一例
、第3図は線分テーブル、第4図は伝票の特徴パラメー
タ、第5図は線分認識処理のフローチャートである。 ν・・伝票類入力処理、2・・・線分認識処理、3・・
・表の特徴認識処理、4・・・マツチング処理、6・・
・表の特徴パラメータ格納ファイル、7・・・伝票類フ
ォーマット格納ファイル

Claims (1)

    【特許請求の範囲】
  1. あらかじめ登録したフォーマット情報に基づいて文字・
    数字等データを読取る光学文字読取装置において、入力
    した伝票類の表等の構造を自動的に認識して上記フォー
    マット情報を選択することを特徴とする光学文字読取方
    式。
JP60177513A 1985-08-14 1985-08-14 光学文字読取方式 Pending JPS6238984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60177513A JPS6238984A (ja) 1985-08-14 1985-08-14 光学文字読取方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60177513A JPS6238984A (ja) 1985-08-14 1985-08-14 光学文字読取方式

Publications (1)

Publication Number Publication Date
JPS6238984A true JPS6238984A (ja) 1987-02-19

Family

ID=16032219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60177513A Pending JPS6238984A (ja) 1985-08-14 1985-08-14 光学文字読取方式

Country Status (1)

Country Link
JP (1) JPS6238984A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116986A (ja) * 1988-10-26 1990-05-01 Nec Corp 光学的文字認識装置
WO1997005561A1 (fr) * 1995-07-31 1997-02-13 Fujitsu Limited Processeur de supports et procede de traitement de supports
US6801658B2 (en) 1999-03-01 2004-10-05 Hitachi, Ltd. Business form handling method and system for carrying out the same
JP2007328820A (ja) * 2007-09-05 2007-12-20 Hitachi Ltd 帳票認識方法
CN100367288C (zh) * 1995-07-31 2008-02-06 富士通株式会社 数据媒体处理装置及数据媒体处理方法
WO2023042270A1 (ja) * 2021-09-14 2023-03-23 株式会社KPMG Ignition Tokyo 文字認識プログラム、文字認識システム、及び文字認識方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116986A (ja) * 1988-10-26 1990-05-01 Nec Corp 光学的文字認識装置
WO1997005561A1 (fr) * 1995-07-31 1997-02-13 Fujitsu Limited Processeur de supports et procede de traitement de supports
US6360011B1 (en) * 1995-07-31 2002-03-19 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6501864B1 (en) 1995-07-31 2002-12-31 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6567546B1 (en) 1995-07-31 2003-05-20 Fujitsu Limited Data medium handling apparatus medium handling method
CN100367288C (zh) * 1995-07-31 2008-02-06 富士通株式会社 数据媒体处理装置及数据媒体处理方法
US6801658B2 (en) 1999-03-01 2004-10-05 Hitachi, Ltd. Business form handling method and system for carrying out the same
JP2007328820A (ja) * 2007-09-05 2007-12-20 Hitachi Ltd 帳票認識方法
WO2023042270A1 (ja) * 2021-09-14 2023-03-23 株式会社KPMG Ignition Tokyo 文字認識プログラム、文字認識システム、及び文字認識方法

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
JP5090369B2 (ja) 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置)
EP2270714B1 (en) Image processing device and image processing method
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
EP1999688A2 (en) Converting digital images containing text to token-based files for rendering
JP2004334339A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JPH03161891A (ja) 表形式文書読取装置
JPH01253077A (ja) 文字列検出方法
EP2110758B1 (en) Searching method based on layout information
Isheawy et al. Optical character recognition (ocr) system
JPH08235341A (ja) ドキュメントファイリング装置および方法
CN112949471A (zh) 基于国产cpu的电子公文识别复现方法及系统
JPH08147446A (ja) 電子ファイリング装置
US7685522B1 (en) Self-describing forms
JPS6238984A (ja) 光学文字読取方式
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
Liu et al. Document image retrieval based on density distribution feature and key block feature
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
CN106803269B (zh) 对文档图像进行透视校正的方法和设备
JP5159588B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN114332866A (zh) 一种基于图像处理的文献曲线分离与坐标信息提取方法
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
CN112632934B (zh) 基于比例计算还原表格图片为可编辑的word文件表格的方法