JPWO2010092952A1 - パターン認識装置 - Google Patents
パターン認識装置 Download PDFInfo
- Publication number
- JPWO2010092952A1 JPWO2010092952A1 JP2010550519A JP2010550519A JPWO2010092952A1 JP WO2010092952 A1 JPWO2010092952 A1 JP WO2010092952A1 JP 2010550519 A JP2010550519 A JP 2010550519A JP 2010550519 A JP2010550519 A JP 2010550519A JP WO2010092952 A1 JPWO2010092952 A1 JP WO2010092952A1
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- feature
- character
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
上記のような応用を実現するためには、(1)実時間処理が可能である、(2)幾何学的な歪みに頑健である、(3)文字の配置に依らない認識が可能であるという3つの要件を満たす実用的なカメラベース文字認識技術が必要である。
一方、前述の(2)と(3)の要件を満たす手法として、KusachiらやLiらは文字を1文字ずつ認識する手法を提案している(例えば、非特許文献5,6参照)。しかし、非特許文献5、6に開示された手法は文字を1文字ずつ認識するため、前述の文字行の問題は起こらないが、処理に時間がかかり、(1)の実時間処理とはいえない。前記(1)から(3)の要件を同時に満たす手法が望まれている。
この発明において、クエリ画像は、幾何学的変換を受けて取得されることを前提としている。例えば、認識対象の文字を含む画像がイメージスキャナで読み取られる場合は、拡大/縮小、回転などの幾何学的歪みを伴って読み取られる。この場合、クエリ画像は相似変換による歪みを受けている。また、例えば、認識対象の文字を含む画像がカメラで撮影された場合、正対位置からのズレによって射影歪みを受ける。ただし、ズレ量が少なければ、奥行き方向の倍率変化を伴わないアフィン歪みとして近似できる。
各パターンの画像的な特徴は、その特徴を表すベクトルと関連付けられて画像データベースに登録されている。画像的な特徴の一例は、形状的な特徴、濃淡の分布の特徴、色彩の特徴あるいはそれらの組合せである。前記画像データベース中の各ベクトルは、短時間で前記ベクトルの照合を可能にすべくハッシュテーブルを用いて体系化された状態で予め登録されている。
切り出し部、特徴量取得部、照合部およびパターン決定部は、コンピュータが所定のプログラムを実行することによりそれらの機能が実現されてもよい。あるいは、その一部または全部の処理が、例えば半導体チップ上に実装されたハードウェアによって実現されてもよい。後述する実施形態において、各部の機能は、パーソナルコンピュータのハードウェアおよびソフトウェアによって実現されている。
前記第1特徴点の位置は、前記パターン要素の輪郭上の画素の中から特定されてもよい。このようにすれば、第1の特徴点は、前記パターン領域の輪郭を抽出し、その輪郭上の1点として確実に決定できる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
この発明で、クエリ画像は、後述する図1のような複数の文字やマークを含む紙面に対応する。パターン要素は、連結成分に対応する語である。また、この発明でクエリ特徴量は、クエリ画像の各パターン要素の特徴を表すベクトル量である。
さらに、この発明で、参照パターンは、文字認識において各文字を表す連結成分に対応する。例えば、後述する図14(a)の各文字、(b)の各ピクトグラム、図10の分離文字テーブルの第1列(第2列でない)の列の各パターンに対応する。参照特徴量は、各参照パターンの特徴を表すもので、クエリ特徴量と対比(照合)されるものである。また、分離パターン表は、後述する図10の分離文字テーブルに対応する。なお、図10の例では、文字「j」を構成するグループと「i」を構成するグループが分離パターン表に含まれている。この発明で、分離パターンは、例えば図10の分離文字テーブルの第1列(第2列でない)の列の各パターンに対応する。
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
発明の詳細な説明をするにあたり、まず、この発明の前提について説明する。この技術分野における従来の研究に習い、簡単のために、白色の背景に黒色の文字が書かれていることを想定する。なお、「黒色」は一例であって、地と区別できる所定の色および/または濃度の画素の一塊、所定範囲の色および/または濃度の画素の一塊は、この発明に係るパターン領域となる。以下、便宜上、前記パターン領域を構成する画素を「黒画素」と呼ぶ。文字画像はカメラで撮影するので、射影歪み、ぼけや解像度低下の影響を受けるが、文字の連結成分、即ち、画像中で黒画素が隣接し、一塊になっているものは簡単な処理で切り出せるとする。また、全ての文字は同一平面上に存在するとする。
この発明で解決すべき課題は、(i)切り出された連結成分の高速な認識、(ii)認識の頑健性向上、(iii)「i」や「j」のように2つ以上の連結成分から成る文字(分離文字)の認識、の3つである。
そのうち(i)の高速認識については、Geometric Hashingを連結成分の照合に適応させ、かつ、幾何学的不変量の計算原理を利用して高速化する方法を次の第2節で示す。(ii)の認識の頑健性向上については、連結成分の姿勢を考慮した認識方法を第4節で述べる。(iii)の分離文字の認識については、第3節で述べる手法で解決する。
2. Geometric Hashingをこの発明に適応させ高速化するための改良
2.1. Geometric Hashing
Geometric Hashingは幾何歪みを受けた画像を不変座標系を用いて記述し、検索する強力な手法である。この発明で提案するGeometric Hashingの改良手法を説明するために、Geometric Hashingを簡単に説明する。詳細は、次の文献、Y.Lamdan and H.J. Wolfson, "Geometric hashing: a general and efficient model-based recognition scheme, " Proc. ICCV1988, pp.238-249, 1988.を参照されたい。
参照画像を登録する。まず、登録する参照画像から抽出した特徴点が与えられているとする。次に全特徴点から3点選び、図2(a)に示すように選ばれた特徴点の順番を考慮して2本の基底ベクトルを作成する。そして、2本の基底ベクトルを用いて図2(b)のように新しい座標系を作成し、特徴点を写像する。この座標系は画像がアフィン変換を受けても同様に作成できるため、アフィン不変座標系である。このアフィン不変座標系を図2(b)のように格子状に区切ると、各領域は2次元ハッシュテーブルのビンに相当する。各特徴点が存在するビンに対して、登録する画像の番号と基底の通し番号の組を登録する。この処理を全ての可能な基底に対して実行し、1枚の参照画像の登録が終了する。全ての参照画像を登録して登録処理が終了する。アフィン不変座標系の作成にO(P3)、特徴点の射影等にO(P)の計算量が必要であるため、参照画像1枚当たりの計算量はO(P4)である。
なお、ここで、O(P)あるいはO(P3)は、問題を解くために必要なおおよその計算量の表記方法であって、O(P)はPが定まったときの計算量がPの1乗のオーダ、即ち、aP+b以下で収まることを、O(P3)はPの3乗のオーダ、即ち、aP3+bP2+cP+d以下で収まることを表す。
ただしa,b,c,dは定数である。O(P4)、その他についても同様である。
検索処理の前半は登録処理と同じである。質問画像から抽出した特徴点が与えられているとする。全特徴点から3点選び、図2(a)に示すように選ばれた特徴点の順番を考慮して2本の基底ベクトルを作成する。そして、2本の基底ベクトルを用いてアフィン不変座標系を作成する。このアフィン不変座標系は登録時に格子状に区切られていて、各領域が2次元ハッシュテーブルのビンに相当する。各特徴点が存在するビンから、登録されている画像の番号と基底の通し番号の組を取り出して、画像の番号と基底の通し番号の組に対して投票する(投票テーブルは2次元になる)。この処理を全ての可能な基底に対して実行し、最大の投票数を得た画像の番号と基底の通し番号の組を決める。そして、この組の画像の番号を検索結果として出力する。ただし、全ての基底を処理する前に結果が明らかになったときには処理を途中で終了することができる。アフィン不変座標系の作成にO(P3)、特徴点の射影等にO(P)の計算量が必要であるため、合計の計算量はO(P4)である。
2.2.1. 前提とする課題の相違
この発明はGeometric Hashingの改良手法に係る。この発明について述べる前に、Geometric Hashingが通常解決しようとする問題とこの発明の前提となる課題の違いについて述べておく。Geometric Hashingでは、特徴点が与えられたときに点の配置のみから対象を同定する問題を解いている。つまり、特徴点がどのような対象からどのように抽出されたかを考慮しない。それに対してこの発明では、図形が与えられたときに図形から得られる特徴点の配置と図形の特徴の両方を用いて図形を同定する。即ち、予め定められた規則をパターン領域に適用して決定する。そのため、特徴点として図形から得られる角や変曲点などの幾何変換を受けても変化しない箇所を使用することもできるが、この発明では原則として図形の輪郭上の画素を特徴点とする。このことによって手法がどのように異なるかは以下で述べる。
Geometric Hashingの欠点は膨大な計算量である。アフィン変換に対応した場合について考えると、検索処理に必要な計算量は点数Pに対してO(P4)である。P=100点の場合を考えるとO(100,000,000)もの計算が必要になるため、実時間アプリケーションに使用することは現実的でない。一方、提案する方法を用いれば、最も計算量が少ない場合、アフィン変換を考慮した場合O(P2)にまで削減することができる。
図6のように3点の特徴点が与えられたとする。1点目と2点目を通る半直線と1点目と3点目を通る半直線を考え、図形から切り取られる面積をS1とする。このとき、表1の性質4により、S1/S0がアフィン不変量になる。したがって、S1/S0が特定の値になるように3点目を定めればよい。3点目を定める際に時計回りや反時計回りなどの情報を使って点を一意に定めることもできる。
方法1と同様に、図7のように3点の特徴点が与えられたとする。3点が作る三角形の面積をS1としたとき、表1の性質4により、S1/S0がアフィン不変量になる。したがって、S1/S0が特定の値になるように3点目を定めればよい。S1/S0の値は、特定の値でなくとも、最大値、最小値等でもよい。3点目を定める際に時計回りや反時計回りなどの情報を使って点を一意に定めることもできる。なお、S1が一定になるように3点目を定めることを考えると、取り得る3点目の軌跡は図7のように1点目と2点目を通る直線と平行な直線になる。したがって、この直線と図形との交点を3点目に定めればよく、簡便に計算可能である。交点が複数ある場合は2点目から近いほうを選ぶといった選択方法も可能である。
Geometric Hashingは画像番号と基底番号の組をデータベースに登録する。一方、この発明では基底番号の代わりに、画像から計算した特徴ベクトルと基底の作成に用いた特徴点の座標を登録する(図9参照)。
なお、以後はこの発明に係るパターン認識の代表例としての文字認識の話に特化するため、「画像番号」のことを「文字番号」と呼ぶことにする。「検索」を「認識」と呼ぶことにする。また、「パターン認識装置」のことを「文字認識装置」と呼ぶことにする。
前節では単一の連結成分で構成される文字を高速に認識する方法を述べた。本節ではその結果を利用することで、「i」や「j」のように2つ以上の連結成分から成る分離文字の認識方法を述べる。
このテーブルは分離文字の各連結成分の位置と大きさの関係を記したもので、認識時に所定の位置に所定の連結成分があるかどうかを調べることで分離文字の認識が可能になる。図10(b)の分離文字テーブルは5つの要素で構成され、それらの各要素を左端から順に第1〜第5まで番号を付している。第1の要素は、連結成分の形状および/または連結成分の番号を示す。第2の要素は、その連結成分が含まれる分離文字を示す。第3の要素は、連結成分相互の相対位置を示すベクトルである。第4の要素は、連結成分の面積を示す。第5の要素は、組になるべき連結成分の面積を示している。
この発明によるパターン認識装置の概要を図11に示す。前記装置は、大別して画像登録部11と画像認識部13から成る。この発明の文字認識装置は、少なくともデータベース15にアクセス可能な画像認識部13からなる。それぞれを以下で説明する。
4.1. 画像登録部
画像登録部11では、参照画像をデータベース15に登録する。参照画像は二値画像とする。
撮影時のピンぼけに対処するため、参照画像にガウスぼかしを重畳する生成型学習法を適用した(H.Ishida, S.Yanadume, T.Takahashi, I.Ide, Y.Mekada and H.Murase, "Recognition of low-resolution characters by a generative learning method, " Proc. CBDAR2005, pp.45-51, 2005.参照)。元画像の位置(x,y)における画素の輝度値をI0(x,y)とすると、生成された劣化画像の位置(x,y)における輝度値Ig(x,y)は次式で与えられる。
2で述べた方法で 3点の特徴点を選択し、不変座標系を生成することにより、特徴ベクトルを生成する。以下では、得られた3点から特徴ベクトルを計算する方法を説明する。特徴点が2点あれば、2点を通る直線を1本定めることができるので、3点から合計
データベース15は、具体的にはハッシュテーブルで構成されている。
4.2.1. 画像の取得
画像はデジタルカメラやwebカメラで静止画ないし動画として取得する。動画として撮像した場合はフレーム毎に分解して、複数の静止画として扱う。得られた各画像を質問画像と呼び、以下の処理で用いる。
4.2.2. 文字画像の切り出し
得られた連結成分から特徴ベクトルを生成する。この処理は2で述べた処理と基本的に同じである。唯一異なるのは、全ての可能な組合せに対して不変座標系を生成せず、あらかじめ定めるS個に限定することである。
4.2.4. 投票を用いたパラメータ推定と認識(実施例1)
投票を用いてパラメータ推定と認識を行う。ここではアフィン変換の場合について述べる。
最初に、文字番号、特徴ベクトル、3点の特徴点の座標の組をハッシュテーブルからS個得る。そして、文字番号に対して重み
独立変倍の倍率αを4つのパラメータに分解する。
前節と異なる姿勢推定手法について述べる。4.2.3で述べた特徴ベクトルを用いることで、図9のハッシュテーブルから連結成分番号と特徴点3点の座標を取得することができる。こうして得られた情報は、質問画像の仮の認識結果であり、多数の誤りを含んでいる。以下では、次の文献M. Iwamura, R. Niwa, A. Horimatsu, K. Kise, S. Uchida and S.Omachi, "Layout-free dewarping of planar document images, Proc. DRR XVI, " 7247-36, Jan. 2009. に類似の多数決原理を段階的に用いることで正しい認識結果に集約する。すなわち、図13に示すように、最初に紙面の姿勢推定を行い、続いて連結成分毎に認識と姿勢推定を行う。
これらは質問画像の連結成分毎に定める。
σを変えながら参照画像1枚につき4枚の劣化画像を生成した。用いたσの値はσ=0, 2,4, 6である。適応二値化のパラメータnはn=101とし、ノイズとみなして除去する閾値は32とした。ハッシュサイズはHsize=219-1とした。
特徴ベクトルを作成する際の各領域の値の計算は、輪郭上の画素のみでなく、図形内部の全画素を用いた。
以下の実験では、CPUがOpteron 2.4GHzで、メモリが128GBである計算機を用いた。
この発明の有効性を調べるために様々なフォントの文字を認識した。字種には60種類の数字とアルファベットを用いた。内訳は、10種の数字、"i"と"j"を除いた24種の小文字アルファベット、26種の大文字アルファベットである。一部の文字はアフィン歪みを受けると外見が類似してしまうため、表2で同じ箱に入っている文字は認識実験において同一クラスとみなした。例えば、0(ゼロ)をO(オー)に間違えても誤認識とはしない。
図14(b)に示す10種のピクトグラムを3.1と同様の方法で撮像し、認識実験を行った。S=200とした。
認識率と処理時間を図17に示す。ビン数が16のときに認識率が最高になった。処理時間はほとんどの場合で同程度だったが、ビン数が4のときに極めて大きくなった。それと同時に認識率が最低になった。これは特徴ベクトルの識別能力が十分でないため、ハッシュに多数の衝突が発生したためと思われる。
最後に、図1に示した文書を認識した。デジタルカメラを紙面から0度、30度、45度の3種類に傾けて撮影して、背景が写らないように紙面の部分だけ切り取った。切り取った後の0度、30度、45度の画像の大きさはそれぞれ2054×1464、1714×1326、1516×1322である。得られた画像を図18に示す。図1に含まれる文字から得られる連結成分は148個であるが、そのうち18個は"i"と"j"の一部であった。"i"と"j"は連結成分が1つではないため、参照画像に含まれていない。したがって、これらの2字種を認識することができない。
そこで、残る148-18=130個の文字の認識率を算出した。k=25とした。認識率と処理時間を表4に示す。S=200の場合はS=20の場合よりも認識率が高かった。S=20の場合の処理時間はS=200の場合の約1/7であったが、認識率の差はそれほど大きくなかった。S=20の場合の結果から、この発明が高速で頑健な認識が可能であることを確認できた。
6.1. 各種フォントに対する性能評価
分離文字の認識方法を用いた実施例2の手法の有効性を調べるために、図14に示すArial、Century、Gigi、Impactの4種類のフォントの数字とアルファベット(各62字種)を認識した。ただし3節で既に述べたように、一部の文字はアフィン歪みを受けると外見が類似
してしまい、判別が困難なため、表3で示した文字は同一クラスとみなしている。また、4.2節で述べた画像認識部による認識処理において、得票数が0だった場合はリジェクトとした。
最後に、文字以外の図形の認識可能性を調べるため、上記の4フォントの他に図14(b)に示す10種のピクトグラムも同様の方法で認識した。図20と表5に示すように、Impact以外のフォントと同様の結果が得られた。
以上により、この発明が高速で動作し、一部のフォントを除けば誤認識率が少ないことが確認できた。
図21に示した文書を認識した。デジタルカメラを紙面から0度、30度、45度の3種類に傾けて撮影して、背景が写らないように紙面の部分だけ切り取った。切り取った後の0度、30度、45度の画像の大きさはそれぞれ2470×1746、2278×1746、2038×1844である。得られた画像を図22に示す。図21には236文字含まれている(カンマは除く)。内訳は、Arialが168文字、Arial Black Italicが27文字、MIRUのロゴの周囲の文字(フォント不明)が41文字である。このうち、ArialとMIRUのロゴの周囲の文字を登録して認識実験を行った。
Geometric Hashing以外でこの発明の関連研究をまとめておく。
中居らが提案したLLAH(Locally Likely Arrangement Hashing)という手法が ある(中居友弘,黄瀬浩一,岩村雅一,"特徴点の局所的配置に基づくデジタルカメラを用いた高速文書画像検索,"電子情報通信学会論文誌D,vol.J89-D, no.9,pp.2045-2054,Sept. 2006.参照、また、国際公開第WO2006/092957号パンフレット参照)。この手法は、単純な画像処理によって得られる特徴点の局所的な配置に着目し, 幾何学的不変量とハッシュを用いてデータベース中から対応する特徴点を 高速に検索する手法である。Geometric HashingとLLAHを比較すると、LLAHは検索の頑健性を保ちつつ, 計算量とメモリ使用量を従来手法の数億分の一に減少させている。この性能向上を可能にしているのは、特徴点の選択方法を限定して計算量を減少させていることと、特徴ベクトルの高次元化による識別性能の向上である。
本節では、前節で述べた実施態様に非特許文献7の方策を3つ導入することにより、改良手法を提案する。
8.1. 変形例の態様
1番目の方策は、距離計算の導入である。前の4.2.5 節で述べたように、ハッシュテーブルから得られる情報には誤りが含まれているため、その中から正しいものを選択する必要がある。図13(a)に示す実施態様では字種に対する投票で信頼性の高い情報を絞り込んでいたが、この実施態様ではその代わりに、クエリ特徴ベクトルと、ハッシュテーブルから得られた特徴ベクトルのユークリッド距離を計算し、距離が閾値以下のものを選択する。
8.2. 実験例3
上述した実施態様の有効性を確認するために、最大100フォントを登録したデータベースを用意し、カメラで撮像した様々なフォントの文字画像を認識した。
実験に使用した字種は、大文字と小文字のアルファベットと数字の合計62字種である。参照画像1枚につき8種類の劣化画像を生成するため、100フォントでは合計55800枚の参照画像をデータベースに登録した。認識対象として、図24に示すような、各文字を2回ずつ含み(1枚当たり124文字)、文字が曲線上に並ぶようにレイアウトされた画像を用意した。そして、A4用紙に印刷し、デジタルカメラで0度、30度、45度から撮像したものを手動で切り出して認識対象とした。図24にCenturyの認識対象画像を示す。画像の大きさはそれぞれ1577×2209、1397×2185、1265×2201である。
実験ではCPUがOpteron 2.8GHzで、メモリが32GBである計算機を用いた。画像の登録と認識に要する計算量を削減するため、連結成分の幅と高さの大きい方が、参照画像では100ピクセル、質問画像では50ピクセルになるように正規化した。また、本実験例(8節)において前述していないパラメータはl=4(すなわち、k=16)、Hsize=219-1、D=2、S=10とした。以下で述べる実験例2の実験においても本パラメータを使用するため、手法が同じであっても前節までの結果と完全には一致しない。
まず、認識率と1文字当たりの平均処理時間を図27、図28に示す。図中の「実験例2」は実験例2で用いた手法を表す。認識率については、実験例2による手法は複数のフォントを登録すると認識率が減少したのに対して、提案手法の登録フォント数に依らず、高い水準でほぼ一定であった。処理時間については、実験例3(この実施態様)の手法と実験例2の手法の両方が登録フォント数の増加に伴って処理時間が増加しているが、提案手法の方が傾きが緩やかであった。
以上に述べた実施態様は、1文字ごとに認識を行うものである。そのため、文書のどこにどの文字が書かれているかを知ることは出来るが、どんな意味の単語や文章が書かれているのかを知ることは出来ない。情報検索のキーワードは多くの場合単語であるということを考えると単語認識は不可欠である。
この実施態様によれば、英語のように単語間がスペースで区切られて他の単語と区別され、かつ予め定められた読み方向の規則、例えば、左から右に記すという規則に従う言語に対処した単語認識を行う。また、前提条件として文書画像は文字認識の段階で独立変倍とシアーの歪みが取り除かれたものとする。
この実施態様では実時間の文字・単語認識技術を利用した情報取得アプリケーションの実現性、有用性を実証するため発明者らが作成した単語認識機能付のパターン認識装置(以下、実証システム)について説明する。
雑誌の記事や街頭の看板など、環境中には至る所に文字が存在し、それぞれが目的地への経路や商品の宣伝のような何らかの意味を持った情報を人に伝えている。そのような環境中文字をカメラで撮影し、実時間でコンピュータに認識させれば様々なサービスが見込める。情景中の文字を用いるパターン認識装置では特別な準備が必要なく、気軽に使えるという利点がある。実世界の単語が各種サービスとリンクしていることから、前記パターン認識装置の機能を我々は「環境中文字列のリンクアンカー化」と呼ぶことにした。
今回、実証システムで用いたカメラベース文字認識は第2.3節で上述した手法を基礎とし、さらに第8節の変形例を取り入れた手法である。連結成分ごとの認識では ‘N’,‘Z’,‘z’など、互いにアフィン変換の関係にある文字を識別することができないため、そのような文字群は図32のように同クラスとみなし、認識時にはクラスに属する複数の文字を結果候補として出力する。文字単位認識のみではクラスレベルまでの識別しか行えないが、次節で述べる単語認識の段階で1字種レベルでの識別を行う。しかし、アフィン変換の関係にある文字の組み合わせはフォントによってまちまちであるため、登録させるフォントの種類が増えるにつれ、手動でのクラス分類は困難になる。そこで、我々の手法では文字の登録時に自動的にクラス分類を行う。文字画像がデータベースに新たに追加されるとき、既にデータベース中に存在する文字画像とのマッチングを行い、類似した文字画像が見つかった場合には新たに登録された文字をその類似文字のクラスに分類するという方法である。
ここまでに書いた処理により1文字ごとのクラスおよびその姿勢を知ることが出来たが、この実証システムにおいては、どの文字の姿勢が尤もらしいか推定し、複数の文字を含むクラスから最終的な結果1文字を決定する処理は次節の単語認識の段階で行う。
9.2.1. 問題設定
この実証システムは、英語のように単語間がスペースで区切られ、かつ左から右に記される言語に対処した単語認識を行う。また、前提条件として文書画像は文字認識の段階で独立変倍とシアーの歪みが取り除かれたものとする。我々は文字の向きを利用して文書中の文字を連結し、尤もらしい単語を求める手法を提案する。「文字の向き」とは 9.1節の文字認識で求められる回転のパラメータを指す。文字行を利用して文字の並びを推定する前記非特許文献4では文字行が平行な直線である文書に限って認識可能であるが、この発明では図1、図21及び図33のような文字行を成さない文書にも対処できることである。
最初に画像中のどの領域が1つの単語であるのかを推定する。図34のように文書画像にある程度のぼかしを掛けて二値化すると、隣接する文字同士が結合し、スペースで区切られた部分のみが分割したままの状態になる。よって、ぼかし画像の連結成分を抽出することで単語の領域を推定することが出来る。適切なぼかしの度合いはキャプチャ画像中の文字の間隔と太さによって変化するため、この実証システムでは文字間の距離および各文字の面積を計算し、それに比例したぼかしの度合いを逐次的に決定する。文字間の距離とはキャプチャ画像中の各文字から最近傍の位置にある文字とのユークリッド距離を求め、平均したものである。面積とは連結成分の画素数であり、これも平均値を用いる。ぼかしはガウシアンフィルタを用い、平均文字間距離を d、平均面積を a とすると、ガウシアンの標準偏差 σ は σ=200 × d/a とした。また、ぼかした画像の二値化処理には OpenCV の適応二値化を用いた。
この実施態様の有効性を確認するため、カメラで撮影した文書の単語を認識する実験を行った。用いた計算機は CPU が Opteron 2.8GHz、メモリが 16GB である。実験ではデータベースに登録したフォントの種類が増えたときに認識精度や処理時間がどのように変化するのかを調べた。
文字登録時にはカメラ撮影時のピンぼけや解像度の低下に対処するため、前記生成型学習法を用いる。本実験ではガウスぼかしを3段階、解像度低下を3段階 (ただし、ぼかし無し・解像度変化無しの段階も含む) の計9段階の劣化を適用した。そのため、10フォントでは文字画像 5,580 枚分のデータが登録されることになる。
また、実施形態の第8節では、より高速かつ頑健な近似最近傍探索手法を導入した。これにより、データベースに100フォント(登録画像総数は55800枚)を登録し、認識対象の文字画像に劣化(射影歪みや解像度の低下、ぼけ)が生じるという条件の下で1秒間に140文字程度を認識することが可能になった。
さらに、環境中文字列をリンクアンカー化する実証システムを作成して動作させた。前記実証システムにおいて利便性を考慮した単語認識手法を提案し、実験によって有効性を示した。
13 画像認識部
15 データベース
Claims (10)
- 少なくとも1片のパターン要素から構成され、幾何学的変換を受けたクエリ画像からその少なくとも1片のパターン要素を切り出す切り出し部と、
前記パターン要素の中にあってそのパターン要素から所定の規則に基づいて特定される第1、第2および第3特徴点を含む少なくとも3つの特徴点により表される前記パターン要素の特徴であって前記幾何学的変換に対し不変な特徴をクエリ特徴量として取得する特徴量取得部と、
パターン認識の候補として用意された複数の異なる参照パターンの特徴をそれぞれ表す複数の参照特徴量と前記クエリ特徴量とを照合する照合部と、
照合された特徴量の類似性に基づいて、前記候補の中から特定された参照パターンを認識結果として決定するパターン決定部とを備え、
各参照特徴量は、前記規則に基づいて各参照パターンから決定される特徴点を用いて表され、
前記規則に基づき、前記第1特徴点の位置は前記パターン要素の中にあって前記幾何学的変換に対して不変な点に特定され、前記第2特徴点の位置は前記パターン要素の形状に関する性質であって前記幾何学的変換に対し不変な性質を用いて特定され、前記第3特徴点の位置は前記幾何学的変換に対し不変な所定量と決定された第1および第2特徴点の位置とから特定されることを特徴とするパターン認識装置。 - 前記第1特徴点の位置は、前記パターン要素の輪郭上の画素の中から特定される請求項1に記載のパターン認識装置。
- 前記性質は、前記幾何学的変換の一種としてのアフィン変換に対して重心が不変な性質であり、
第2特徴点の位置は、前記性質を用い、前記パターン要素の重心として特定される請求項1または2に記載のパターン認識装置。 - 前記性質は、前記幾何学的変換の一種としてのアフィン変換に対して面積比が不変な性質であり、
第3特徴点の位置は、前記パターン要素の輪郭の中から特定され、かつ、前記性質を用い、前記パターン要素の面積と前記第1、第2および第3特徴点を頂点とする三角形の面積との面積比の所定値に基づいて特定される請求項1〜3のいずれか一つに記載のパターン認識装置。 - 前記特徴量取得部は、前記第1乃至第3特徴点のうち2点をそれぞれ結ぶ2本の一次独立なベクトルを基底とする座標系であって前記幾何学的変換に対し不変な座標系を用いて前記幾何学的変換に対し不変な特徴を取得する請求項1〜4のいずれか一つに記載のパターン認識装置。
- 前記照合部は、対応する参照パターンと関連付けられてハッシュテーブルに登録された参照特徴量と前記クエリ特徴量との照合を行い、
前記ハッシュテーブルは、複数のビンを有してなり、
各参照特徴量はその参照特徴量につき予め定められたハッシュ関数を計算して決定される一つのビンに予め分類されて登録され、
前記照合部は、前記クエリ特徴量につき前記ハッシュ関数を計算して得られるインデックスを用いて適当なビンを参照し前記照合を行う請求項1〜5のいずれか一つに記載のパターン認識装置。 - 各参照特徴量は、前記第1乃至第3特徴点の座標データに対応付けられ、かつ、前記参照特徴量に対応する参照パターンの識別子に対応付けられて前記ビンに登録されてなり、
前記パターン決定部は、前記クエリ特徴量に関連付けられた各座標データと、参照されるビンに登録され各参照特徴量に関連付けられた座標データとの照合に基づき、かつ、それらの照合の多数決処理に基づいて前記クエリ画像の姿勢を推定する請求項6に記載のパターン認識装置。 - 前記パターン決定部は、少なくとも一組の分離パターンが登録された分離パターン表を有し、各分離パターンは前記参照パターンの一つに対応し前記一組の分離パターンは一つの認識結果を提供し、前記分離パターン表を参照して前記候補の中から特定された参照パターンとその組の一つの分離パターンとの間の対応関係が存するか否かを判断し、
前記対応関係が存しかつその組の他のすべての分離パターンについての対応関係が既に存するとき、前記特定された参照パターンに対応する分離パターンが属する組により提供されるものを認識結果とする請求項1〜7のいずれか一つに記載のパターン認識装置。 - 前記分離パターン表には、その組のある分離パターンと他の分離パターンとの間の相対位置が登録されてなり、
前記パターン決定部は、ある特定された参照パターンに対応する分離パターンについて登録された相対位置によって定まる位置に他の特定された参照パターンがあるときに認識結果を決定する請求項8に記載のパターン認識装置。 - 前記クエリ画像は、複数の文字からなる単語のパターンを含んでなり、
前記パターン決定部により認識された各文字を1度ずつ通る最短の経路を求め、求められた経路の順及び逆順をそれぞれ単語の候補とする単語候補決定部と、
前記クエリ画像における所定方向に対する各文字の回転角を求める回転角決定部と、
前記経路の順又は逆順に沿って隣接する2文字間の回転角の差を第1の評価指標とし、各候補の何れか一端を第1文字としたとき第1文字に隣接する第2文字へ向かう方向と予め定められた読み方向の規則とに基づいて前記第1文字がとるべき回転角を推測し、推測された回転角と前記回転角決定部により決定された第1文字の回転角との差を第2の評価指標とし、第1及び第2の評価指標を最小化する候補を選択することによりその単語を構成する文字の読み順を決定する読み順決定部とをさらに備える請求項1〜9のいずれか一つに記載のパターン認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010550519A JP5522408B2 (ja) | 2009-02-10 | 2010-02-09 | パターン認識装置 |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009029031 | 2009-02-10 | ||
JP2009029031 | 2009-02-10 | ||
JP2009163924 | 2009-07-10 | ||
JP2009163924 | 2009-07-10 | ||
JP2010550519A JP5522408B2 (ja) | 2009-02-10 | 2010-02-09 | パターン認識装置 |
PCT/JP2010/051889 WO2010092952A1 (ja) | 2009-02-10 | 2010-02-09 | パターン認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010092952A1 true JPWO2010092952A1 (ja) | 2012-08-16 |
JP5522408B2 JP5522408B2 (ja) | 2014-06-18 |
Family
ID=42561794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010550519A Expired - Fee Related JP5522408B2 (ja) | 2009-02-10 | 2010-02-09 | パターン認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8422793B2 (ja) |
JP (1) | JP5522408B2 (ja) |
CN (1) | CN102388392B (ja) |
WO (1) | WO2010092952A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120162246A1 (en) * | 2010-12-23 | 2012-06-28 | Sap Portals Israel Ltd. | Method and an apparatus for automatic capturing |
US8379979B2 (en) * | 2011-02-25 | 2013-02-19 | Sony Corporation | System and method for effectively performing a scene rectification procedure |
JP5768590B2 (ja) * | 2011-08-22 | 2015-08-26 | 富士通株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP6098065B2 (ja) * | 2011-09-13 | 2017-03-22 | 株式会社リコー | 画像検査装置、画像検査方法、及びプログラム |
AU2011226985B2 (en) * | 2011-09-30 | 2014-05-01 | Canon Kabushiki Kaisha | Image retrieval method |
JP2015035006A (ja) | 2012-04-26 | 2015-02-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複数の要素の結合結果を識別する情報処理装置、プログラムおよび方法 |
CN104584071B (zh) * | 2012-08-23 | 2018-01-26 | 日本电气株式会社 | 物体识别装置、物体识别方法 |
TWI443346B (zh) * | 2012-09-14 | 2014-07-01 | Chunghwa Telecom Co Ltd | 電器設備識別系統及方法 |
CN102945373A (zh) * | 2012-10-24 | 2013-02-27 | 中国科学院自动化研究所 | 基于上下文的局部空间信息建模方法 |
US9076223B1 (en) * | 2012-12-11 | 2015-07-07 | The Mathworks, Inc. | Fast stopping criterion for active contour algorithms |
US8888005B2 (en) | 2013-04-12 | 2014-11-18 | David Prokop | Uniquely identifiable drug dosage form units |
US9280827B2 (en) * | 2013-07-03 | 2016-03-08 | Mitsubishi Electric Research Laboratories, Inc. | Method for determining object poses using weighted features |
AU2013273778A1 (en) * | 2013-12-20 | 2015-07-09 | Canon Kabushiki Kaisha | Text line fragments for text line analysis |
CN108133492B (zh) * | 2016-12-01 | 2022-04-26 | 京东方科技集团股份有限公司 | 图像匹配方法、装置和系统 |
CN110268224A (zh) * | 2017-02-10 | 2019-09-20 | 深圳市大疆创新科技有限公司 | 用于无人机实时位置跟踪的系统和方法 |
US20180349110A1 (en) * | 2017-05-31 | 2018-12-06 | Wipro Limited | Method and layout identification system for facilitating identification of a layout of a user interface |
CN110942064B (zh) * | 2019-11-25 | 2023-05-09 | 维沃移动通信有限公司 | 图像处理方法、装置和电子设备 |
CN111783770B (zh) * | 2020-01-16 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 图像的矫正方法、装置和计算机可读存储介质 |
US20210374141A1 (en) * | 2020-05-29 | 2021-12-02 | Soco, Inc. | Question answering retrieval via sparse transformer matching |
KR102378659B1 (ko) * | 2021-02-23 | 2022-03-25 | 주식회사 포스로직 | 패턴 이미지 검출 방법 및 패턴 이미지 검출 장치 |
CN113570682B (zh) * | 2021-08-02 | 2024-05-07 | 北京经纬恒润科技股份有限公司 | 一种直角路由方法和装置 |
CN117370591B (zh) * | 2023-12-07 | 2024-04-12 | 粤港澳大湾区数字经济研究院(福田) | 基于点集表示的矢量图识别方法、装置、终端及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054094A (en) | 1990-05-07 | 1991-10-01 | Eastman Kodak Company | Rotationally impervious feature extraction for optical character recognition |
JPH0628476A (ja) | 1992-07-09 | 1994-02-04 | Nec Corp | 画像信号の処理装置 |
US6539106B1 (en) * | 1999-01-08 | 2003-03-25 | Applied Materials, Inc. | Feature-based defect detection |
JP4507318B2 (ja) | 1999-12-03 | 2010-07-21 | 曙機械工業株式会社 | 裁断機 |
JP3914864B2 (ja) | 2001-12-13 | 2007-05-16 | 株式会社東芝 | パターン認識装置及びその方法 |
US7200270B2 (en) | 2001-12-13 | 2007-04-03 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus and method using distributed model representation of partial images |
JP2005084765A (ja) | 2003-09-05 | 2005-03-31 | Univ Of Fukui | 文字認識装置及び方法及びそのプログラム |
US7734067B2 (en) * | 2004-12-07 | 2010-06-08 | Electronics And Telecommunications Research Institute | User recognition system and method thereof |
US8036497B2 (en) | 2005-03-01 | 2011-10-11 | Osaka Prefecture University Public Corporation | Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image |
EP1914680A4 (en) * | 2005-03-01 | 2012-10-24 | Univ Osaka Prefect Public Corp | DOCUMENT / IMAGE PROCEDURE AND PROGRAM, AND DOCUMENT / IMAGE RECORDING AND SEARCH APPARATUS |
JP4859061B2 (ja) | 2007-03-07 | 2012-01-18 | 公立大学法人大阪府立大学 | 画像の補正方法、補正プログラムおよび画像歪み補正装置 |
JP4336729B2 (ja) | 2007-03-28 | 2009-09-30 | シャープ株式会社 | 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理プログラムおよびその記録媒体 |
US7991189B2 (en) | 2007-03-28 | 2011-08-02 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
KR101247891B1 (ko) | 2008-04-28 | 2013-03-26 | 고리츠다이가쿠호징 오사카후리츠다이가쿠 | 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램 |
-
2010
- 2010-02-09 US US13/148,850 patent/US8422793B2/en not_active Expired - Fee Related
- 2010-02-09 JP JP2010550519A patent/JP5522408B2/ja not_active Expired - Fee Related
- 2010-02-09 WO PCT/JP2010/051889 patent/WO2010092952A1/ja active Application Filing
- 2010-02-09 CN CN2010800161588A patent/CN102388392B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP5522408B2 (ja) | 2014-06-18 |
US20120230592A1 (en) | 2012-09-13 |
WO2010092952A1 (ja) | 2010-08-19 |
CN102388392B (zh) | 2013-09-11 |
CN102388392A (zh) | 2012-03-21 |
US8422793B2 (en) | 2013-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5522408B2 (ja) | パターン認識装置 | |
Shi et al. | Aster: An attentional scene text recognizer with flexible rectification | |
Tian et al. | Multilingual scene character recognition with co-occurrence of histogram of oriented gradients | |
Ye et al. | Text detection and recognition in imagery: A survey | |
US8744196B2 (en) | Automatic recognition of images | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
JP4332556B2 (ja) | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 | |
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
JP2018136926A (ja) | コンテナコード認識のための方法及びシステム | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
Tian et al. | Scene Text Detection in Video by Learning Locally and Globally. | |
Zhu et al. | Deep residual text detection network for scene text | |
Wang et al. | Logo detection in document images based on boundary extension of feature rectangles | |
CN111340020A (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN110569818A (zh) | 一种智能阅读学习方法 | |
Sahare et al. | Robust character segmentation and recognition schemes for multilingual Indian document images | |
Liu et al. | Scene text recognition with high performance CNN classifier and efficient word inference | |
Xiong et al. | Text detection in stores using a repetition prior | |
Fornés et al. | A keyword spotting approach using blurred shape model-based descriptors | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
JP5004082B2 (ja) | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 | |
CN107341429A (zh) | 手写粘连字符串的切分方法、切分装置和电子设备 | |
Yang et al. | Intelligent digitization of substation one-line diagrams based on computer vision | |
CN111213157A (zh) | 一种基于智能终端的快递信息录入方法及录入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5522408 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |