JPS62190574A - 文字パタ−ン切り出し装置 - Google Patents

文字パタ−ン切り出し装置

Info

Publication number
JPS62190574A
JPS62190574A JP61033190A JP3319086A JPS62190574A JP S62190574 A JPS62190574 A JP S62190574A JP 61033190 A JP61033190 A JP 61033190A JP 3319086 A JP3319086 A JP 3319086A JP S62190574 A JPS62190574 A JP S62190574A
Authority
JP
Japan
Prior art keywords
pattern
character
similarity
differential
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61033190A
Other languages
English (en)
Other versions
JPH0550785B2 (ja
Inventor
Fumio Yoda
依田 文夫
Yoji Maeda
前田 陽二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP61033190A priority Critical patent/JPS62190574A/ja
Publication of JPS62190574A publication Critical patent/JPS62190574A/ja
Publication of JPH0550785B2 publication Critical patent/JPH0550785B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は1文書に記入された文字列から文字パターンを
切り出す文字パターン切り出し装置に関するものである
〔従来の技術〕
文字を認識するには、用紙に記入された文字を光電変換
し1文字の部分、背景の部分に対応して1.0の信号に
2値化変換した文字パターンから1文字ずつ文字パター
ンを切り出さなければならない。例えば、第2図は情報
処理学会第28口金国大会講演論文集、 P2O3−8
86,r文字認識による英文の文献入力システム」に示
された従来のこの種の装置の構成を示す図であり9図中
、(1)は用紙、(2)は用紙(1)上に記入された文
字列を光学的に走査して光電変換する走査手段、(3)
は光電変換された文字列のパターン(以後「文字列パタ
ーンJと呼ぶ)を記憶する文字列パターン記憶手段、(
4)は上記文字列と直交する方向に文字列パターンを走
査して求めた周辺分布値の連続性に基づき、上記文字列
パターンを分割して求めたパターン(以後「基本パター
ン」と呼ぶ)の左端と右端との座標を求めることにより
基本パターン領域を検出する基本パターン領域検出手段
、(5)は基本パターン領域検出手段(4)で求めた基
本パターン領域の位置情報から単独の基本パターン及び
連続する複数個の基本パターン領域を結合したパターン
(以後「結合バター/」と呼ぶ)のそれぞれが、どの程
度1文字のパターンらしいかを定量化した値(以後「類
似度」と呼ぶ)を計典する文字認識手段。
(6)は上記文字認識手段(5)で求めた類似度を格納
する類似度テーブル、(9)は上記類似度テーブルに格
納した類似度の大きさに基づき切り出すべき文字パター
ンの位置を決定する文字切り出し位置決定手段、α値は
上記文字切り出し位置決定手段(9)で決定した文字パ
ターン切多出し位置に基づいて上記文字列パターン記憶
手段(3)から1文字ずつ文字パターンを切り出す文字
切り出し手段、al)は切り出した文字のパターンを格
納する切υ出しパターンバッファである。
第3図は、第2図の上記基本パターン領域検出手段(4
)による処理の一例を示す図である。図中。
αっけ文字列パターン、αJは周辺分布値、 Q4)は
基本パターンでアシ、該基本パターンと対応する基本パ
ターン領域を矩形で囲って示しである。
第4図は、第2図に示された類似度テーブル(6)の構
成例を示す図であシ9図中、α9は類似度、aQは説明
を分シ易くするために示した類似度に対応する基本パタ
ーン又は結合パターンである。
第5図は、第2図の文字切り出し位置決定手段(9)で
文字を切り出すために発生させる基本パターン又は結合
パターンの組み合せの例を示す図である。また9図中記
号「*」は、所定の領域に対応するバター7が存在しな
いことを意味するものである。
次に、第2図〜第5図を用いて第2図に示す従来のこの
棟装置の動作について説明する。
まず、用紙(1)上の文字列は走査手段(2)で光電変
換され1文字列パターン記憶手段(3)に格納される。
次に文字列パターン記憶手段(3)内の文字列パターン
「解決」α2は基本パターン領域検出手段(4)に渡さ
れる。
基本パターン領域検出手段(4)では2文字列と直交す
る上下方向に文字列パターンを走査して作成した周辺分
布値aQが所定の閾値をこえる領域の連続性に基づいて
文字列パターン「解決J 117)を分割し1分割して
得た各基本パターン「角J 、 r4J 。
「シ」、「夫」α4の左右端の座標を基本パターン領域
として検出する。
次に20文字認識手段(5)では、単独の基本パターン
、°及び連続する複数個の基本パターンを結合した結合
パターンのすべてのパターンに対し、すでに知られてい
る文字認識の技術を用いて2個々のパターンがどの程度
1文字のパターンらしいかを定量化した値である類似度
を算出し、算出した類似度を上記類似度テーブル(6)
に格納する。例えば。
入カバターンPから抽出した特徴ベクトルをX=(”1
 r x2 + ”’ ! ”K J +文字Cの基準
バター/ベクトルをFc = (fcl + ’C21
+++、 rcK )とした特大カバターンの類似L 
S (PJは2式(1)と(21よりx出する。
s(p)=mq、xso<X)   −・−11)し ここで (X+Fc)=X−FcT  なる内積。
1XI=酉デフσ  なるノルムを示す。
類似度s (p)は0.0〜1.0の値をとシ、入カバ
ターンが文字らしい程、大きな値をとるという性質がち
る。
そして、上記文字認識手段(5)で求めた結果は。
第4図に示す類似度テーブル(6)に格納する。すなわ
ち、左側の基本パターンから順に番号付けした時の番号
lと、所定のパターンを構成する基本パターン数Mとに
よって指定される領域に類似度を格納する。例えば、結
合パターンr Mシ」Q5の類似度0.29tl!9は
i=1.M=3  のアドレスで示される領域に格納場
れる。
そして、上記文字切り出し位置決定手段(9)では。
上記基本パターン領域間の境界点を文字列パターンの切
り出し@軸位置とし、この各切り出し候補位置のあらゆ
る可能な組み合せにより、第5図に示す全ての可能な切
り出しパターンの組み合せを求める。また9次に、各切
り出し候補位置の組について切り出し候補位置で切り出
されたパターンに対応する基本パターンあるいは結合パ
ターンに対応する上記類似度テーブルに格納した類似度
の値に基づいて切り出し評価値を求め、この切り出し評
価値の大きさに基づいて最適な文字切り出し位置の組を
決定する。切り出し評価値は、各パターンに対応する類
似度の算術平均を計算する手法などで具体的に求めるこ
とができる。
次に上記文字切り出し手段aaは、上記文字切り出し位
置決定手段(9)で決定した文字切り出し位置の組の情
報に基づいて上記文字列パターン記憶手段(3)から1
文字ずつ文字パターンを切υ出して上記切り出しパター
ンバッファαBに出力する。
〔発明が解決しようとする問題点〕
従来の文字パターン切り出し装置は以上のよう−にパタ
ーンを認識して得た類似度の値に基づいて算出した切り
出し評価値の大きさに基づいて文字領域を切り出すよう
に構成きれているので、フリーピッチの文字列から個々
の文字を切り出すことができるが、漢字の「明」などの
ように偏「日」と労「月」とのパターンがそれぞれ1文
字「日」。
「月」としても存在する文字(以後「分離有意文字Jと
呼ぶ)の場合、「明J、  r日」、「月」のパターン
に対応する類似度の値の大きさが同程度となるため、「
明」などの分離有意文字を誤って切少出す率が高くなる
という問題点があった。
この発明はこのような問題点を解決するためになされた
もので、偏と労とが各々1文字としても存在する字形か
らなる分離有意文字を含んだフリーピッチで記入された
日本語文字列から個々の文字を正しく切り出すことがで
きる装置を得ることを目的とする。
〔問題点を解決するための手段」 この発明に係る文字パターン切り出し装置は。
上記文字認識手段で算出した類似度の値の差に基づいて
パターンがどの程度1文字らしいか定量化した値(以後
「差分類似度」と呼ぶ)を算出する差分類似度算出手段
と、差分類似度算出手段で算出した差分類似度を格納す
る差分類似度テーブルとを設けたものである。
〔作用〕
この発明では、意味のある日本文の文字列内に存在する
1文字のパターンとこの文字に11接する他の文字ある
いは他の文字の一部のパターンとが結合して生成される
パターンが1文字となることは、確率的にOに近い頻度
でしかあシ得ず、他方。
分離有意文字を構成する偏あるいは労のパターンは隣シ
合う他のパターンと結合して1文字のパターンに必ずな
るという性質に着目して、差分類似度算出手段において
着目するパターンに対する類似度の値と1着目するパタ
ーンを含んだパターンに対する類似度の値との差に基づ
いて該着目パターンがどの程度文字らしいか定量的に表
わした差分類似度の値を算出する。このため、上記差分
類似度算出手段で求めた分離有意文字のパターンに対す
る差分類似度の値は低下しないが9分離有意文字を構成
する偏や労のパターンに対する差分類似度の値は小さく
なる。従って、差分類似度の値に基づいて算出されメ切
り出し評価値を用いることにより、「明」などの分離有
意文字を正しく切υ出すことができる。
〔発明の実施例j 以下1図面を用いて本発明の詳細な説明する。
第1図は、この発明の実施例の構成を示す図である。図
中、(1)〜f6)、 (91〜aυは第2図に示した
従来装置と同一のものである。図中(7)は上記類似度
テーブルに格納でれた類似度の値に基づいて差分類似度
を算出する差分類似度算出手段、(8)は上記差分類似
度算出手段(7)で計算した差分類似度を格納する差分
類似度テーブルである。
第6図は2本発明の詳細な説明するだめの図であり1図
中、αηは従来の装置では正しく切り出すことが困難な
分離有意文字からなる文字列パターン、aeは周辺分布
値、09は基本パターンである。
第7図は、第1図に示された上記類似度テーブル(6)
の構成例であυ2図中、a!Qは類似度の例、01は説
明を分り易くするために示した類似度に対応する基本パ
ターンまたは結合パターンの例である。
図中記号「*」は第4図の場合と同様に所定の領域に対
応するパターンが存在しないことを意味する。
第8図は、第1図に示した上記差分類似度テーブル(8
)の構成例を示す図であり2図中、@は差分類似度の例
、@は説明を分シ易くするために示した差分類似度に対
応する基本パターンまたは結合パターンの例である。ま
た2図中記号「*」は所定の領域に対応するパターンが
存在しないことを意味するものである。
第9図は、第1図に示した上記差分類似度算出手段(7
)の構成例を示す図であり2図中、(6)と(8)は第
1図に示したものと同一のものである。図中。
(財)はパターン類似度検出器、(ハ)は包含パターン
類似度検出器、@は最大要素検出器、@は減算器。
@〜(ロ)は信号線である。
以下、第6図〜第9図を用いて第1図に示す実施例の動
作を説明する。
まず、用紙(1)上に記入された文字列は走査手段(2
)で光電変換され、この結果得た1行分の文字例パター
ン「明治」αηは、上記文字列パターン記憶手段(3)
に格納される。次に文字列パターン「明治」αnは、基
本パターン領域検出手段(4)に渡される。
基本パターン領域検出手段(4)では2文字列パターン
「明治」αDの周辺分布値鰻を求め1次に、この周辺分
布値に基づいて基本パターン「日」、「月」。
「シ」、「台」α9を抽出し各基本パターンに対応する
左右端の座標を基本パターン領域の位置情報として上記
文字認識手段(5)に転送する。
また、上記文字認識手段(5)では、従来の装置と同様
に単独の基本パターンと、連続する複数個の基本パター
ンを結合した結合パターンとのすべてのパターンに対し
てパターン認識処理を行い、各各のパターンに対応する
類似度を第7図に示した上記類似度テーブル(6)に格
納する。
次に、上記差分類似度算出手段(7)の動作について説
明する。まず、差分類似度について簡単に説明する。
一般に、意味のある日本文の文字列内に存在する1文字
のパターンpOに隣接する他の文字あるいは他の文字の
一部のパターンP1が結合して生成されるパターンFA
が1つの文字となることは確率的に0に近い頻度でしか
おυ得ないことが知られている。このため、1文字のパ
ターンPQを認識して得る類似度5(Po)の値とパタ
ーンp□を含ムパターンFAを認識して得る類似度s 
(PA)の値とには大きな差が生じる。他方2分離有意
文字を構成する偏おるいは労のパターンP2と9分離有
意文字のパターンP3 とは共に1つの文字となる。従
って9分離有意文字を構成する偏あるいは4oパターン
P2を認識して得る類似度8(P2)の値とパターンP
2を含む分離有意文字のパターンP3を認識して得る類
似度5(PA)の値とに大きな差は生じない。そこで2
式(3)で定義したパターンPの差分類似度Δ5(p)
の値の大きさにより、パターンPがどの程度1文字らし
いか正確に表現できる。
八8(P)=S(P) −maws(Pl)  −−−
−(31ここでP□はパターンPを含むパターン第8図
は、第7図に示した類似度テーブルに格納した類似度の
値に基づいて上記差分類似度算出手段(7)で基本パタ
ーンおよび結合パターンの各々に対応する差分類似度を
格納した差分類似度テーブルの例である。例えば、パタ
ーン「月」、「明」。
「月シ」に対する類似度はそれぞれ0.89.0.9G
0.11であるため、パターン「月」に対応する差分類
似度ΔS(月) = 0.89−max(0,90、0
,71) =−0,01となる。
第9図は、差分類似度を算出する構成例を示したもので
ある。まず、差分類似度を算出するパターンを指示する
パターンインデックス信号i、 Mが信号線(至)を介
してパターン類似度検出器c!4)に入力され、上記パ
ターン類似度検出器c!4はパターンインデックス信号
i、Mで指示されるパターンに対応する類似度を信号線
(2)を介し類似度テーブルからロードした後、信号線
(至)を介して減算器(5)に転送する。次に包含パタ
ーン類似度検出器(ハ)は。
パターンインデックス信号i、Mを信号線(ハ)を介し
入力してパターンインデックス信号i、Mで指定される
パターンを含むパターンのインデックス1′、yを生成
する。そして2次にパターンインデックスi’ 、 M
’に基づいて上記類似度テーブル(6)から信号線6υ
を介して類似度をロードし、信号線02を介して最大要
素検出器(至)に転送する。上記最大要素検出器(1)
は、上記包含パターン類似度検出器(ハ)から送られた
類似度のうち最大となる値を検出し、信号線(至)を通
して上記減算器(2)に転送する。
上記減算器(5)は、信号線(至)を介して転送された
類似度と信号線ωを介して転送された類似度との差をと
9.結果を信号線(ロ)を介してパターンインデックス
信号i、Mで指示される差分類似度テーブル(8)の領
域に格納する。
次に上記差分類似度テーブル(8)に記憶した差分類似
度を用いて文字列パターンから文字を切り出す処理につ
いて説明する。
上記文字切り出し位置決定手段(9)では従来の装置と
同様に、切り出しパターンの可能なすべての組み合せに
対して差分類似度から切り出し評価値を求める。そして
最も昼い切り出し評価値が与えられる切り出しパターン
の組を検出し、この情報を上記文字切り出し手段αQに
転送する。例えば。
第8図に示した差分類似度に基づいて切り出し評価値を
求めると切υ出しパターン「明」、「治」の組が最大の
値をとるため、この情報を上記文字切り出し手段unに
転送する。
最後に上記文字切り出し手段α値では、上記文字切り出
し位置決定手段(9)で決定した文字切り出し位置の組
の情報に基づいて上記文字列パターン記憶手段(3)か
ら1文字ずつ文字パターンを切り出して上記切り出しパ
ターンバッファに出力する。
なお、上記実施例では文字認識手段で類似度を算出する
場合について説明したが、この発明はこれに限らず文字
認識手段で相違度を算出する場合に用いてもよく、この
時9本発明の最大値を検出する回路を最小値を検出する
回路に置き換えることにより実現できる。
し発明の効果〕 以上のように、この発明によればパターンを認識して得
た類似度の差の値に基づいて1文字ずつ文字を切り出す
ため、偏と労とが各々1文字としても存在する字形から
構成される分離有意文字を含んだフリーピッチで記入さ
れた文字列から個々の文字を高い精度で切り出すことの
できる装置が得られる効果がある。
【図面の簡単な説明】
第1図はこの発明の一実施例の構成を示す構成図、第2
図は従来の文字パターン切り出し装置の構成図、第3図
は基本パターン領域検出手段の処理例の説明図、第4図
は類似度テーブルの構成例を示す図、第5図は文字切り
出し位置決定手段で評価するパターンの組み合せの例を
示す説明図。 第6図は分離有意文字列パターンの例を示す図。 第7図は類似度テーブルの構成の例を示す図、第8図は
差分類似度テーブルの構成例を示す図、第9図は差分類
似度算出手段の構成例を示す図である。 図中、(1)は用紙、(2)は走査手段、(3)は文字
列パターン記憶手段、(4)は基本パターン領域検出手
段。 (5)は文字認識手段、(6)は類似度テーブル、(7
)は差分類似度算出手段、(8)は差分類似度テーブル
、(9)は文字切り出し位置決定手段、Ooは文字切り
出し手段、αυは切り出しパターンバッファである。 なお図中、同一符号は同一または相当部分を示す。

Claims (1)

    【特許請求の範囲】
  1. 用紙などに記入された文字列から1文字ずつ文字パター
    ンを切り出す文字パターン切り出し装置において、用紙
    上の文字列を光学的に走査し光電変換する走査手段と、
    この光電変換された上記文字列のパターンを記憶する文
    字列パターン記憶手段と、上記文字列の方向と直交する
    方向に上記文字列パターンを走査して求めた周辺分布値
    の連続性に基づいて文字列パターンを分割し、分割して
    得た基本パターンの左右端の座標より基本パターン領域
    を決める基本パターン領域検出手段と、連続する複数個
    の基本パターンを結合した結合パターン及び単独の基本
    パターンを認識する文字認識手段と、この文字認識手段
    で得た類似度を格納する類似度テーブルと、着目するパ
    ターン自身の類似度の値と、着目するパターンを含むパ
    ターンの類似度の値との差の関係に基づき差分類似度を
    計算する差分類似度算出手段と、この差分類似度算出手
    段で求めた差分類似度を格納する差分類似度テーブルと
    、上記基本パターン領域の位置情報に基づいて切り出し
    候補位置のあらゆる可能な組み合せを求め、各々の切り
    出し候補位置の組み合せについて切り出し候補位置で切
    り出された基本パターンと結合パターンとに対応する上
    記差分類似度の値に基づいて切り出し評価値を求め、こ
    の切り出し評価値に基づく最適な文字切り出し位置の組
    み合せを決定する文字切り出し位置決定手段と、上記文
    字切り出し位置決定手段の結果に基づいて上記文字パタ
    ーン記憶手段に格納した1行の文字列パターンから1文
    字ずつ文字パターンを切り出して出力する文字切り出し
    手段とを具備することを特徴とする文字パターン切り出
    し装置。
JP61033190A 1986-02-18 1986-02-18 文字パタ−ン切り出し装置 Granted JPS62190574A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61033190A JPS62190574A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61033190A JPS62190574A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Publications (2)

Publication Number Publication Date
JPS62190574A true JPS62190574A (ja) 1987-08-20
JPH0550785B2 JPH0550785B2 (ja) 1993-07-29

Family

ID=12379563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61033190A Granted JPS62190574A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Country Status (1)

Country Link
JP (1) JPS62190574A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480410B2 (en) 2001-11-30 2009-01-20 Matsushita Electric Works, Ltd. Image recognition method and apparatus for the same method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991582A (ja) * 1982-11-16 1984-05-26 Nec Corp 文字読取装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991582A (ja) * 1982-11-16 1984-05-26 Nec Corp 文字読取装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480410B2 (en) 2001-11-30 2009-01-20 Matsushita Electric Works, Ltd. Image recognition method and apparatus for the same method

Also Published As

Publication number Publication date
JPH0550785B2 (ja) 1993-07-29

Similar Documents

Publication Publication Date Title
JP2816241B2 (ja) 画像情報検索装置
JPH05242292A (ja) 分離方法
JPS62190574A (ja) 文字パタ−ン切り出し装置
JP3149221B2 (ja) 画像処理装置
JP3405155B2 (ja) 文書検索装置
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP2006106931A (ja) 文字列探索装置、探索方法およびこの方法のプログラム
JPS5949671A (ja) 光学的文字読取装置
JPH0564396B2 (ja)
JPH02250193A (ja) 図形・文字分離方式
JPS60238986A (ja) 文字認識装置のパタ−ンマツチング方式
JP2755299B2 (ja) 画像処理方法
JP2864815B2 (ja) 画像特徴情報統合装置
JPH05284335A (ja) 画像情報縮小方法
JPH0351982A (ja) 文字列認識方式
JP2878327B2 (ja) 文字切り出し装置
JPH05114048A (ja) 文字認識方法及びその装置
CN115588204A (zh) 一种基于ds证据理论的单一字符图像匹配识别方法
JP2868533B2 (ja) 図面読み取り装置
JPS6162982A (ja) 楽譜五線検出装置
JPH03210688A (ja) 行検出装置
JPS61196382A (ja) 文字切出し方式
JPH08305792A (ja) 画像処理装置及び方法
JPS5920079A (ja) 文字位置検出装置
JPS60195685A (ja) 文字切出し回路

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term