JPS63282586A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS63282586A
JPS63282586A JP62117744A JP11774487A JPS63282586A JP S63282586 A JPS63282586 A JP S63282586A JP 62117744 A JP62117744 A JP 62117744A JP 11774487 A JP11774487 A JP 11774487A JP S63282586 A JPS63282586 A JP S63282586A
Authority
JP
Japan
Prior art keywords
character
character string
candidate
dictionary
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62117744A
Other languages
English (en)
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62117744A priority Critical patent/JPS63282586A/ja
Publication of JPS63282586A publication Critical patent/JPS63282586A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、文字認識装置に関し、特に文字単位の認識の
5ちに文字列単位で最終的な認識を行う文字認識装置に
関する。
〔従来技術〕
近年の文字認識技術の進歩は目覚ましいが、日本語のよ
うに類似文字の多い言語を対象とした場合、文字単位の
認識処理では候補文字を正確に一つに絞り込むことが容
易でなく、正読率の向上に限界がある。
そこで、文字単位の認識処理によって候補文字を選出し
たのち、連続した文字に対する候補文字を組合せた候補
文字列と、意味のある文字列の知識辞書との比較照合を
行うことにより、最終的に文字を同定する処理(後処理
)を行うようにした装置も提案されている。
しかし、このような従来の文字認識装置は、住所あるい
は書籍基のように、予め決めた単一の意味カテゴリーの
文字列を予め設定した枠内に記入したような文書などを
対象としており、様々な意味カテゴリーに属する複数の
文字列が全く任意の位置、あるいは曖昧な位置にある文
書などには対応できないという問題があった。
〔目 的〕
したがって、本発明の目的は、様々な意味カテゴリーに
属する複数の文字列が含まれ、各文字列の位置が全く任
意であるか、あるいは曖昧な文書、名刺などに対して高
い正続率を達成できる文字認識装置を提供することにあ
る。
〔構 成〕
この目的を達成するためになされた本発明は、文字辞書
と、意味カテゴリー別の複数の知識辞書と、入力画像か
ら文字列ブロックを切出す第1の手段と、前記入力画像
中の個々の文字と前記文字辞書との比較照合により候補
文字を選出する第2の手段と、前記第1の手段により切
出された文字列ブロック毎に前記第2の手段により選出
された候補文字を組合せた候補文字列を作成する第3の
手段と、前記第1の手段により切出された文字列ブロッ
ク毎に前記第3の手段により作成された各候補文字列と
前記知識辞書との比較照合を行い一致条件を満たした候
補文字列を認識結果として選定する第4の手段とを有す
る構成である。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明による文字認識装置の一実施例を示すブ
ロック図である。図において、1は装置全体の制御など
を行う中央処理装置、2はプログラム、データなどを格
納するメインメモリである。
3は文書などを光学的に読取り2値画像として入力する
スキャナ、4は入力画像を記憶するイメージメモリであ
る。
53よ入力画像の文字列ブロックの切出しを行う文字列
ブロック切出し部、6は切出された文字列ブロックのイ
メージを記憶するための文字列ブロックイメージメモリ
である。
7は文字辞書を格納した文字辞書メモリである。
8は入力画像中の個々の文字と文字辞書との比較照合に
より、候補文字を選出する認識部である。
さらに詳しくは、この認識部8は文字列ブロックイメー
ジメモリ6から文字のイメージを切出す機能と、その文
字イメージ−の特徴を抽出する機能、さらに抽出した特
徴と文字辞書に登録されている文字の特徴との距離計算
を行い、一つまたは複数の候補文字を選出する機能など
を有する。9はその候補文字を記憶するための候補文字
メモリである。 □ 10は文字列ブロック内の個々の文字の候補文字を組合
せて候補文字列を作成する候補文字列作成部である。1
1はその候補文字列を記憶するための候補文字列メモリ
である。12は意味カテゴリー別の文字列を登録した複
数の知識辞書を格納した知識辞書メモリである。知識辞
書としては、例えば企業名を登録した企業名辞書1部門
名を登録した部門辞書、氏名を:f録した氏名辞書、住
所を登録した住所辞書、文献基を登録した文献基辞書、
著書名を登録した著者名辞書などが必要に応じて選ばら
れる。
13は文字列ブロックごとに候補文字列と知識辞書との
比較照合を行い、所定の一致条件を満足した文字列を認
識結果として選定する知識辞書照合部、14はその認識
結果を記憶するための処理結果メモリである。
15はマンマシンインタフェースのためのキーボード付
きディスプレイ装置、16は各部の制御情報、データな
どの伝達のためのバスである。
以下、この文字認識装置の動作を説明する。なお、こ\
では第2図に示す名刺の画像がスキャナ3から入力され
てイメージメモリ4に格納され、また縦書きの名刺であ
ることがディスプレイ装置15のキーボードから指定さ
れたとする。
まず、文字列ブロック切出し部5が中央処理装置1によ
って起動され、イメージメモリ4内゛の入力画像から文
字列ブロックを順次切出し、そのイメージを文字列ブロ
ックイメージメモリ6に格納される。この文字列ブロッ
クの切出しは、例えば射影法によって行われる。すなわ
ち、こぎでは縦書き名刺の画像であるから、垂直方向の
射影(水平軸に対する射影)により文字列ブロックを含
む縦長の領域を切出し、この領域の水平方向の射影から
文字の範囲をさらに切出す、たゾし、他の方法によって
切出しを行ってもよい。
このようにして、第2図中の破線の矩形領域が文字列ブ
ロック■、■、■、■とじて切出される。
この文字列ブロックの切出しの際に、文字列ブロック切
出し部5から、各文字列ブロックの入力画像内での相対
的な位置な文字サイズの情報が出力され、これは中央処
理装置1の制御によりメインメモリ2上のテーブルに順
次格納される。また、文字列ブロックの個数も中央処理
装置1によりカウントされ、文字列ブロックの切出し処
理が終了した時に文字列ブロック数がメインメモリ2上
のブロック数カウンタに得られる。
文字列ブロックの切出しが終了すると、中央処理装置1
は、認識部8に対して、処理対象の一つの文字列ブロッ
クを指定して起動をかける。認識部8は指定された文字
列ブロックのイメージを文字列ブロックイメージメモリ
6から読出して、個々の文字のイメージを切出す、そし
て、切出した文字イメージの特徴を抽出し、この特徴と
文字辞書メモリ7に格納されている文字辞書との比較照
合を行い、候補文字を選出して候補文字メモリ9に書込
む。候補文字数は、第1位候補文字との距離差と、予め
設定された距離差閾値との比較により決定される。
第2図の文字列ブロック■に対しては、例えば第1表に
示すような候補文字が選出される。
策上衣 一つの文字列ブロックの文字単位の認識処理が終了する
と、候補文字列メモリ1oが中央処理装置1により起動
される。候補文字列作成部1oは候補文字メモリ9内の
候補文字を組合せた候補文字列を作成し候補文字列メモ
リ11に書込む。
例えば文字列ブロック■の候補文字が第1表のように選
出された場合、第2表に示すような12組の候補文字列
が作成される。
第」L民 NQI  株式会社リュー Nci  2  株式会社リュー & 3 株式会社いニー NQ 4 株式会社いニー NQ 5 株式会社リコー NQ 6 株式会社リコー(正解) NQ 7 株式会社いニー NQ 8 株式会社いニー NQ 9 株式会社リエー No 10  株式会社リエー Nα11 株式会社いニー Nα12 株式会社いニー 一つの文字列ブロックに対する候補文字列の作成が終了
すると、中央処理袋R1は認識部8による次の文字列ブ
ロックに対する処理を起動すると\もに、知識辞書照合
部13を起動する。この時、中央処理装置i!flはメ
インメモリ2上のテーブルに格納されている情報を参照
して、対象文字列ブロックのカテゴリーを推定して知識
辞書照合部13に指定する。
こSでは名刺の場合であり、特定のカテゴリーの文字列
がはシ一定の順番ではゾ決まった位置に印刷されている
ことが多いため、ブロック■は企業名、ブロック■は氏
名というように、かなり高い確率でカテゴリーを推定可
能である。また名刺のように同一カテゴリーの文字列は
一回しか出現しない場合、推定したカテゴリーと既に認
識済みの文字列ブロックのカテゴリー(ラベルとして処
理結果メモリ14に格納されている)とが比較され、一
致する場合は推定したカテゴリーを取消し、次に可能性
の高いカテゴリーを選び知識辞書照合部13に指定する
知識辞書照合部13は、候補文字列メモリ11内の候補
文字列群から上位のものより順次読出し、指定されたカ
テゴリーの知識辞書との比較照合を行い、「一致条件」
を満たす候補文字列がみつがれば、その候補文字列を最
終的な認識結果として、カテゴリーのラベルを付加して
処理結果メモリ14に格納する。
ニーで1一致条件」は、簡単に「全文字一致」であるが
、1文字の不一致を許容する「(全文字−1)文字一致
」としてもよいし、適当に定めた評価関数によってもよ
い。
指定されたカテゴリーで「一致条件」を満たす候補文字
列がみつからない場合、中央処理装置1がメインメモリ
2上のテーブルの内容および処理済み文字列のラベルを
参照し、次に可能性の高いカテゴリーを指定し、知識辞
書照合部13はそのカテゴリーの知識辞書との比較照合
を行い、「一致条件」を満たす候補文字列をさがす。
例えば文字列ブロック■の場合、企業名カテゴリーの知
識辞書にr株式会社リコー」が登録されていれば、第2
表のNn6の候補文字列が「一致条件」を満たし、最終
的な認識結果として処理結果メモリ14に格納される。
すなわち1文字単位の認識では1文字列ブロック■内の
文字列は、第1位候補文字からなる&1のr株弐会社リ
ュー」となってしまうが1文字列単位の知識辞書との比
較照合により正しい文字列「株式会社リコー」に修正さ
れて認識されたわけである。
なお、全カテゴリーについて比較照合を行っても「一致
条件Jが満たされない場合は1例えば第1位の候補文字
列を処理結果とする。たゾし、その文字列ブロックにつ
いて、文字列ブロックの切出しまたは文字単位認識より
処理のやり直しを行ったり、文字列ブロックのイメージ
を出力させるようにしてもよい。
このようにして、一つの文字列ブロックに対する処理が
完了すると、中央処理装置1は次に処理すべき文字列ブ
ロックがあれば、その文字列ブロックに対する処理を行
わせる。最後の文字列ブロックの処理が完了すると、中
央処理装置1は当該入力画像の処理動作を停止させる。
なお、本実施例では名刺を例にして認識動作を説明した
が、必要なカテゴリーの知識辞書を用意すれば、書籍、
郵便物、文書など様々な画像の文字認識に適用できる。
〔効 果〕
以上の説明より明らかなように、本発明にあっては、意
味カテゴリー別の複数の知識辞書を有し。
また入力画像から文字列ブロックの切出しを行い。
切出した文字列ブロック毎に、文字単位の認識により選
出した候補文字を組合せた候補文字列と、知識辞書との
比較照合を行うことにより最終的な文字列を選出するた
め、様々なカテゴリーの文字列が混在し、さらには、そ
れらの文字列の位置やカテゴリーが曖昧であったり、全
く決まっていないような書類などに対しても高い正続率
を達成できる。
【図面の簡単な説明】
第1図は本発明による文字認識装置の一実施例を示すブ
ロック図、第2図は名刺画像と文字ブロック列を示す図
である。 1・・・中央処理装置、 2・・・メインメモリ。 3・・・スキャナ、 4・・・イメージメモリ、5・・
・文字列ブロック切出し部、 6・・・文字列ブロックイメージメモリ、7・・・文字
辞書メモリ、 8・・・認識部、9・・・候補文字メモ
リ、 10・・・候補文字列作成部、 11・・・候補文字列メモリ、 12・・・知識辞書メモリ、 13・・・知識辞書照合部。 篤1図 第2図 吹お+1フ゛ロア7■

Claims (1)

    【特許請求の範囲】
  1. (1)文字辞書と、意味カテゴリー別の複数の知識辞書
    と、入力画像から文字列ブロックを切出す第1の手段と
    、前記入力画像中の個々の文字と前記文字辞書との比較
    照合により候補文字を選出する第2の手段と、前記第1
    の手段により切出された文字列ブロック毎に前記第2の
    手段により選出された候補文字を組合せた候補文字列を
    作成する第3の手段と、前記第1の手段により切出され
    た文字列ブロック毎に前記第3の手段により作成された
    各候補文字列と前記知識辞書との比較照合を行い一致条
    件を満たした候補文字列を認識結果として選定する第4
    の手段とを有することを特徴とする文字認識装置。
JP62117744A 1987-05-14 1987-05-14 文字認識装置 Pending JPS63282586A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62117744A JPS63282586A (ja) 1987-05-14 1987-05-14 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62117744A JPS63282586A (ja) 1987-05-14 1987-05-14 文字認識装置

Publications (1)

Publication Number Publication Date
JPS63282586A true JPS63282586A (ja) 1988-11-18

Family

ID=14719231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62117744A Pending JPS63282586A (ja) 1987-05-14 1987-05-14 文字認識装置

Country Status (1)

Country Link
JP (1) JPS63282586A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03142694A (ja) * 1989-10-30 1991-06-18 Mitsubishi Electric Corp 文書読取装置
US5560039A (en) * 1993-02-25 1996-09-24 Intel Corporation Apparatus and method for a four address arithmetic unit
US5825921A (en) * 1993-03-19 1998-10-20 Intel Corporation Memory transfer apparatus and method useful within a pattern recognition system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5213089A (en) * 1975-07-18 1977-02-01 Nippon Hoso Kyokai <Nhk> Remote control device
JPS61224575A (ja) * 1985-03-29 1986-10-06 Nec Corp テレビジョンカメラ追従制御方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5213089A (en) * 1975-07-18 1977-02-01 Nippon Hoso Kyokai <Nhk> Remote control device
JPS61224575A (ja) * 1985-03-29 1986-10-06 Nec Corp テレビジョンカメラ追従制御方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03142694A (ja) * 1989-10-30 1991-06-18 Mitsubishi Electric Corp 文書読取装置
US5560039A (en) * 1993-02-25 1996-09-24 Intel Corporation Apparatus and method for a four address arithmetic unit
US5717908A (en) * 1993-02-25 1998-02-10 Intel Corporation Pattern recognition system using a four address arithmetic logic unit
US5825921A (en) * 1993-03-19 1998-10-20 Intel Corporation Memory transfer apparatus and method useful within a pattern recognition system
US5881312A (en) * 1993-03-19 1999-03-09 Intel Corporation Memory transfer apparatus and method useful within a pattern recognition system

Similar Documents

Publication Publication Date Title
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JPS62221088A (ja) 光学式文字読取装置
JP3599180B2 (ja) 検索方法、検索装置および記録媒体
JPS63282586A (ja) 文字認識装置
JPH11143893A (ja) 単語照合装置
JPH08263587A (ja) 文書入力方法および文書入力装置
CA3156204A1 (en) Domain based text extraction
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JP3159087B2 (ja) 文書照合装置および方法
JPH06103402A (ja) 名刺認識装置
JPS5842904B2 (ja) 手書きカナ・漢字の文字認識装置
JPH0256086A (ja) 文字認識の後処理方法
JP2560959B2 (ja) 文字認識後処理方式
JPH08241314A (ja) 文書ファイリングシステム
JP3151866B2 (ja) 英文字認識方法
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JPH0944604A (ja) 文字認識処理方法
JPH05210635A (ja) 入力装置
JPH11120294A (ja) 文字認識装置および媒体
JP4666875B2 (ja) 単語照合方法及び文字認識装置
JPS63138479A (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0589292A (ja) 文字列認識装置
JPH076212A (ja) 光学文字読取装置の知識処理装置
JPH07160730A (ja) 全文検索装置