JPS61161588A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPS61161588A
JPS61161588A JP60003062A JP306285A JPS61161588A JP S61161588 A JPS61161588 A JP S61161588A JP 60003062 A JP60003062 A JP 60003062A JP 306285 A JP306285 A JP 306285A JP S61161588 A JPS61161588 A JP S61161588A
Authority
JP
Japan
Prior art keywords
word
candidate
words
column
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60003062A
Other languages
English (en)
Other versions
JPH0576675B2 (ja
Inventor
Akizo Kadota
門田 彰三
Toshihiro Hananoi
花野井 歳弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60003062A priority Critical patent/JPS61161588A/ja
Publication of JPS61161588A publication Critical patent/JPS61161588A/ja
Publication of JPH0576675B2 publication Critical patent/JPH0576675B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の利用分野〕 本発明は1文字認識後処理力式に関し、特に文字認識装
置により読み取られた認識結果に対して、単語辞書との
マツチングを行うことにより、正確に認識することが可
能な文字認識後処理方式に関するものである。
〔発明の背景〕
従来より、漢字OCRの認識精度を向上させる方法とし
て、単語辞書との照合を利用することが考えられている
が、照合する前にあらかじめ単語に分割しなければなら
ず、もし分割できないときには役に立たない、単語辞書
とのマツチングにより認識率を向上させる方法として1
例えば、特公昭59−4071号公報、特開昭57−2
5074号公報、特開昭58−4490号公報、特開昭
58−39377号公報、特開昭58−39378号公
報、特開昭58−48181号公報、特開昭58−56
189号公報に記載された発明もある。しかし、これら
の方法は、第7図に示すように、帳票上のフォーマット
に制限を加えたり、第8図に示すように、単語間にスペ
ースを設けるものである。すなわち、第7図では、姓と
名と都道府県と市部区と区町村との間にあらかじめスペ
ースを設けたフォーマットを用いて、入力文字列が単語
単位に分割されていることを仮定している。
また、第8図では、単語間に必ず1つ空欄を設けて書く
ように、記述者に対して強制するもので。
単語分割部分を抽象的に表現しているのみで、実体が明
確ではない。このように、帳票あるいは記入方法に制限
を設けることは、記入者に負担を掛けるばかりで、単語
辞書との照合を実用化する場合に障害となるものであっ
た。
〔発明の目的〕
本発明の目的は、このような従来の問題を解決し、たと
え入力文字が単語単位に分割されていなくても、単語照
合を行うことができる文字認識後処理方式を提供するこ
とにある。
〔発明の概要〕
上記目的を達成するために1本発明の文字認識後処理方
式は、読取文字を認識する文字認識手段と、単語群を保
持する単語辞書と、上記文字認識手段により認識された
文字が上記単語辞書中に保持されている単語と一致する
か否かを照合する単語照合手段とを具備する文字認識後
処理方式において、上記文字認識手段から出力されたl
フィールド分の候補文字列を格納する候補文字テーブル
と、該候補文字テーブルの各カラムで最小の相違度を与
える候補単語およびその相違度を登録した整合度テーブ
ルとを設け、上記候補文字テーブルの各カラムの候補文
字をキーとして、上記単語辞書中から単語を選択的に取
り出し、該単語と上記候補文字列との相違度を計算した
後、上記整合度テーブルの中から相違度が最小の単語を
たどって出力単語列を得ることに特徴がある。
〔発明の実施例〕
以下1本発明の実施例を1図面により説明する。
先ず、本発明の動作原理を説明する。
第2図は1本発明に用いられる候補テーブルの説明図で
ある。
候補テーブルの一部1例えばカラム数11の欄に、第2
図に示すような候補単語群が存在する。
このテーブルには、候補数と第1位、第2位、第3位の
各単語列が配置されている。第1カラムから始まる単語
は、神、初、杉のいずれかを先頭にして始まる。したが
って、神、初、杉をキーにして単語辞書の中から単語を
検索することにより。
複数の単語が抽出される。神、初、杉を先頭とする単語
としては1次のものがある。
神が丘、押開、神、神楽坂、・・・ 初音、初野、・・・・ 杉崎、杉谷、・・・・ 上記の単語のうち、第2図で示された候補文字を組み合
せて作られるものとしては1次の4つだけに絞られる 神、押金、神奈川、神奈川系。
同じようにして、第2カラムから始まる単語は。
余、奈、糸を先頭として始まり、単語辞書中の単語群中
で、第2図で示された候補文字を組み合せ−で作られる
ものは、次の3つに絞られる。
余用、奈用、糸用。
同じようにして、各カラムを先頭とする単語で可能なも
のを列挙すると、第3図に示すように整理される。
これらの候補単語のうち、どの組み合せが正解かを見付
は出すために、整合度を以下の式により定義し、全体と
しての整合度が最小になる組み合せを求める。
g(0)=0 ・・・・・(1) ここで、g(I)は1番目のカラムまでの整合度、d(
1,J)はカラムI−Jから長さJの単語の重みを表わ
す。nは、許される単語の長さである。
重みd(I、J)とは、単語のもっともらしさを与える
量で、前記の特開昭58−39378号公報において使
用されているように、候補順位により重み付けを行って
もよいし、また前記特開昭58−48181号公報で使
用されているように、認識装置から出力された各候補の
類似度(あるいは距離)を使用してもよい。
当該フィールドの長さをKとすると、当該フィールドの
整合度は、g(K)で与えられる。
各カラムで得られた最小の重みd(I、J)を与える単
語を最小の重みが得られるたびにセイブしておくと、第
4図に示すような単語群が得られる。
この場合、カラムを逆にたど1と、最も整合度のよい単
語の組み合せが得られる。
第4図の例を用いて、最も整合度のよい単語の抽出法の
説明を行う、カラム11において最小の重みを与える単
語は、パ国府津″であるにの単語の長さは3であるため
、これに接続する単語はカラム8で終る。カラム8で最
小の重みを与える単語は、゛′市″である。この単語の
長さはlであるため、これに接続する単語は、カラム7
で終る。カラム7で最小の重みを与える単語は、″小田
原″である。この単語の長さは3であるから、これに接
続する単語はカラム4で終る。カラム4で最小の重みを
与える単語は、′″神奈川用″であり、この単語の長さ
は4であって、当該フィールドでのカラムはこれで終了
する。
したがって、上記の例においては、″神奈川系″、″小
田原gH,Lg市1y、l1国府津″′が最もよく整合
する単語群として選択されたことになる。
以上が、本発明の後処理の動作原理であるが。
処理の容易さから言えば、第1カラムから順に求めるよ
りは、最後のカラムから逆方向に求めた方がやり易い、
この場合を式で示すと、最後のカラムをKとして、次の
式を使用する。
g(K+1)=0 ・・・・・(2) ただし、d(1,J)は、カラム■から長さJの単語の
重みである。
第1図は1本発明の一実施例を示す文字認識後処理シス
テムの全体ブロック図である。
この実施例では、記述はすべて前記(2)式、すなわち
フィールドの最後のカラムから逆方向に処理する方法を
用いる。
システムは、文字認識装置l1重み計算回路2、単語辞
書3.111合度計算回路4、および単語抽出回路5よ
り構成される。
文字認識装置1からは、1フィールド分の文字列が出力
される。
文字認識装置lから出力された1フィールド分の認識結
果は1重み計算回路2内の候補テーブルに格納される。
候補テーブルは、第2図に示したように、フィールドの
カラム数、各カラムごとの候補数、および候補カテゴリ
から構成されている。
重み計算回路2は、候補テーブルを入力として。
第3図に示したような候補単語を単語辞書3から選択し
て、それぞれの単語の最もらしさを表わす重みを計算す
る。
重み計算回路2では、第4図において説明したように、
候補テーブルの最後のカラムから逆方向に、候補数だけ
、候補カテゴリをキーとして単語辞書3から単語を検索
する。単語辞書3は、単語をベタに詰めていてもよいが
、単語数が多いときには、カテゴリごとに分類しておき
、各カテゴリの先端を示すアドレス表を作っておいた方
が、検索し易くなる。
単語は、単語の長さΩと、Q個の漢字コードから構成さ
れている。
本発明では1重み計算回路2と整合度計算回路4と単語
抽出回路5とが、入力文字列から構成される単語のあら
ゆる組み合せを考慮し、単語列の接合度の最もよいもの
を選択することにより、単語に分割することなく単語照
合を行う。最良の接合度を得るために、ダイナミック・
プログラミングの手法を利用する。
重み計算回路2は、第2図に示すフィールド分の文字列
が入力されたものと仮定して処理を行う。
なお、各カラムは、単一候補に絞れなかった場合には、
複数の候補が出力される。第2図の例では、最後のカラ
ムは、候補数が1で、候補カテゴリは″゛津″ある。単
語辞書3から、゛′津″を先頭とする単語をすべて読み
出す、″津″から始まる単語は。
゛′津H1′#津山″、ll津島″、・・・・・等多数
存在するが、単語のカラムであるため長さ1の単語しか
許されず、゛津″のみが残される6 カラム10は、候補数が3で、候補カテゴリは、府、廊
、舟であるが、これらをキーとする単語のうち、長さが
2で最後が津で終る単語は存在しない。
次に、カラム9は候補数が3で、候補カテゴリは1国、
固1図であるが、これらをキーとする単語のうち、候補
テーブルを満足する単語は、″国府″と′″国府津″の
みである。以下同じようにして。
第1カラムまで逆にたどって行くと、第3図に示すよう
な単語群が得られる。
これらの単語の重みを計算する方法としては。
種々のものがあるが、ここでは特開昭58−39378
号公報に使用された重みを用いることにする。上記公報
で示された記号により書き表わすと、次のようになる。
d(1,J)=−Σd(St、Li)・・・・(3)上
記(3)式を使って第3図に示された単語の重みを計算
すると、第5図に示すようになる。候補カテゴリの下に
記載された数字が、それぞれの重みである。
次に、整合度計算回路4では、第5図に示したような候
補単語を組み合わせて、最もよい整合度のものを選び出
すにのとき、整合度の計算には。
(2)式を使用する。
カラム11における候補単語は、′津″だけである。長
さα1重みd、11合度gとともに、単語パ津”を登録
する(第6図のカラム11参照)。
カラム10における候補単語は存在しないので。
d=ψ+g=ψを登録する(第6図のカラム10参照)
カラム9における候補単語は、″国府津″とパ国府″が
得られる。
g(12)+d(9,3)と g(1t)+d(9,2)を比較し、小さい方を選択す
る。ここでは、″国府津″の方が小さいので、長さμ1
重みd、整合度gとともに、単語パ国府津′″を登録す
る。以下、同じようにして、先頭カラムまで遡って上記
手順を繰り返えすど、第6図に示すような整合度テーブ
ルが得られる。
単語抽出回路5では、整合度計算回路4で得られた第6
図の整合度テーブルから単語を取り出し。
出力する。先ず、整合度テーブルの第1カラムから単語
パ神奈用県″を取り出す、この単語の長さは4であるた
め1次の単語を取り出す位置は、第5カラムからである
。第5カラムから単110小田原″を取り出す、この単
語の長さは3であるため、次の単語を取り出す位置は、
第8カラムからである。
同じようにして、第8カラムから1′市”が1次番;第
9カラムから″国府津″が、それぞれ取り出される。
このようにして、最もよく入力候補と整合する単語群パ
神奈用県″′、パ小田gn、′市”、゛国府津”が得ら
れる。
以上の説明では、候補単語を最後のカラムから先頭のカ
ラムまで、すべて求めておいてから、整合度の計算をす
るように述べているが、整合度の計算は各カラムごとに
出莱るので、必ずしも全部終った後に行う必要はない。
また1以上の説明においては、認識装置1からカラムご
とに1つ以上の候補が出力されることを前提にしている
。しかし、実際の装置においては。
帳票上の塵挨や、汚れ等のために認識できない場合が少
なくない、候補なしが存在すると、そのカラムを含む単
語で一致するものがなくなるため、単語の重みが無限大
になってしまい、それ以後の単語照合結果が信用できな
くなる。
候補なしの場合の不都合をなくすため、以下に述べる方
法が有効である。すなわち、各カラムで。
最も一致する単語が見付かったとき、その重みdがある
定められた閾値よりも小さいとき、gを0にしてしまう
方法である。11合度テーブルから単語を取り出すには
1gが定められた閾値よりも小さいときには、単語を出
力し、閾値より大きいときには、リジェクトして、入力
候補文字を出力する。このようにすると、候補なしのカ
ラムの近傍のみがリジェクトされ、十分よく整合した単
語がその後見付かれば、正常に復帰することができる。
なお、実施例では、住所の例を挙げて説明したが。
住所欄に限定する必要はない。例えば1日本文の入力で
は、単語単位に分割するために単語ごとにスペースを入
れる等の方法が用いられているが。
本発明では、このような不便をなくして1通常の日本文
のままで入力が可能となる。
また1項目入力の場合にも、本発明をそのまま使用する
ことができ、項目の中に複合語が含まれていても、辞書
を拡張することなく、自然に複合語処理ができる。
〔発明の効果〕
以上説明したように1本発明によれば、単語単位にあら
かじめ分割しておく必要がなく、単語照合を使用して認
識後処理を行うことができる。したがって1本発明によ
れば、帳票設計時に単語単位にフィールド分けする必要
がなく、通常使用されているものと同じフォーマットの
帳票を使用することができ、記入者の心理的負担を大幅
に軽減することが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示す単語後処理システムの
全体ブロック図、第2図は第1図に用いられる候補テー
ブルの一例図、第3図は第2図のテーブルから選択され
た候補単語群を示す図、第4図は整合度テーブルから最
もよい整合度の単語を選び出す手順を示す図、第5図は
第3c!!Iの候補単語群に重みを付した図、第6図は
第2図の候補テーブルから作られた整合度テーブルを示
す図、第7図、第8図はそれぞれ従来のフィールド分け
した帳票、および単語間にスペースが入った日本語文を
示す図である。 1:文字認識装置、2:重み計算回路、3:単語辞書、
4:1$1合度計算回路、5:単語抽出回路。 第1図 第2図 第3図 第4図 カ  ラ  ム  位 置 第5図 第6図 第7図 第8図

Claims (1)

    【特許請求の範囲】
  1. (1)読取文字を認識する文字認識手段と、単語群を保
    持する単語辞書と、上記文字認識手段により認識された
    文字が上記単語辞書中に保持されている単語と一致する
    か否かを照合する単語照合手段とを具備する文字認識後
    処理方式において、上記文字認識手段から出力された1
    フィールド分の候補文字列を格納する候補文字テーブル
    と、該候補文字テーブルの各カラムで最小の相違度を与
    える候補単語およびその相違度を登録した整合度テーブ
    ルとを設け、上記候補文字テーブルの各カラムの候補文
    字をキーとして、上記単語辞書中から単語を選択的に取
    り出し、該単語と上記候補文字列との相違度を計算した
    後、上記整合度テーブルの中から相違度が最小の単語を
    たどって出力単語列を得ることを特徴とする文字認識後
    処理方式。
JP60003062A 1985-01-11 1985-01-11 文字認識後処理方式 Granted JPS61161588A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60003062A JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60003062A JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPS61161588A true JPS61161588A (ja) 1986-07-22
JPH0576675B2 JPH0576675B2 (ja) 1993-10-25

Family

ID=11546836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60003062A Granted JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS61161588A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置
JPH0271388A (ja) * 1988-09-07 1990-03-09 Hitachi Ltd 文字認識の後処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01183795A (ja) * 1988-01-18 1989-07-21 Fujitsu Ltd 文書リーダ後処理装置
JPH0271388A (ja) * 1988-09-07 1990-03-09 Hitachi Ltd 文字認識の後処理方法

Also Published As

Publication number Publication date
JPH0576675B2 (ja) 1993-10-25

Similar Documents

Publication Publication Date Title
JPH0684006A (ja) オンライン手書き文字認識方法
JPS61161588A (ja) 文字認識後処理方式
JPH06325091A (ja) 類似度評価型データベース検索装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH0340434B2 (ja)
Al-Mutlaq Tebyan: Interactive Spelling Correction Application for Quranic Verse
JPS60225273A (ja) 単語検索方式
JP2839515B2 (ja) 文字読取システム
Marukawa et al. A post-processing method for handwritten Kanji name recognition using Furigana information
JPH0259513B2 (ja)
JPH0226268B2 (ja)
JPS62247480A (ja) 文字認識後処理方式
JP2000311170A (ja) テキスト情報抽出方法
JP2947832B2 (ja) 単語照合方法
JPS62285189A (ja) 文字認識後処理方式
JPH0816729A (ja) 文字認識後処理方式
JP3725206B2 (ja) 文字認識装置
JP3245415B2 (ja) 文字認識方法
CN116075817A (zh) 文档检索装置
Ugrina et al. Searching for semantically correct postal addresses on the Croatian web
JPS63268082A (ja) パタ−ン認識装置
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JPH06215198A (ja) 文字認識後処理方式
JPS6116367A (ja) テキスト分割方式
JPH0119195B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term