WO2008066152A1

WO2008066152A1 - Dispositif, procédé et programme de génération de valeur caractéristique d'image de document

Info

Publication number: WO2008066152A1
Application number: PCT/JP2007/073156
Authority: WO
Inventors: Tatsuo Akiyama
Original assignee: Nec Corporation
Priority date: 2006-11-30
Filing date: 2007-11-30
Publication date: 2008-06-05
Also published as: EP2093709A4; EP2093709A1; JPWO2008066152A1; JP4957924B2

Description

明細書

文書画像特徴量生成装置、文書画像特徴量生成方法及び文書画像特徴量生成用プログラム

技術分野

[0001] 本発明は、文書画像特徴量生成装置、文書画像特徴量生成方法、文書画像特徴量生成用プログラム、文書画像特徴量格納装置、文書画像特徴量格納方法、文書画像特徴量格納用プログラム、文書画像特徴量照合装置、文書画像特徴量照合方法及び文書画像特徴量照合用プログラムに関し、特に、登録文書画像と検索文書画像の撮像条件の違いによる連結領域の出現の違いがもたらす画像検索又は同定の悪影響を抑制するための文書画像検索特徴量の文書画像特徴量生成装置、文書画像特徴量生成方法、文書画像特徴量生成用プログラム及び前記特徴量を用いた検索もしくは文書画像特徴量格納装置、文書画像特徴量格納方法、及び文書画像特徴量格納用プログラム、前記特徴量を格納する文書画像特徴量照合装置、文書画像特徴量照合方法及び文書画像特徴量照合用プログラムに関する。

背景技術

[0002] 従来、文書や画像を取込み、その文書や画像の特徴量を計算する装置が知られている。また、その装置を用いたシステムの一例が、非特許文献 1に記載されている。

[0003] このシステムは、文書画像検索特徴量生成システム Rを含んだシステムであり、図 3 1を参照すると、文書画像検索特徴量生成システム Rは、登録画像特徴量計算装置 R1と、検索画像特徴量計算装置 R2と、登録画像特徴量格納装置 R3とを備えている

[0004] はじめに、図 32を参照しながら、登録画像特徴量計算装置 R1の構成を説明する。

[0005] 登録画像特徴量計算装置 R1は、特徴点抽出部 R11と、登録画像特徴量計算部 R 12とを備えている。

[0006] また、特徴点抽出部 R11は、二値画像生成部 R111と、単語領域計算部 R112と、単語重心計算部 Rl 13とを備えて!/、る。

[0007] 一方、登録画像特徴量計算部 R12は、注目特徴点設定部 R121と、近傍特徴点計算部 R122と、近傍特徴点選択部 Rl 23と、不変量計算部 R124とを備えている。

[0008] なお、不変量計算部 R124は、計算結果を、登録画像特徴量計算装置 R1から出力し、その計算結果が登録画像特徴量格納装置 R3に入力されるようになっている。

[0009] 次に、登録画像が登録画像特徴量計算装置 R1に入力された場合の文書画像特徴量生成システムの動作について、フローチャートを用いて順に説明する。

[0010] 図 33を参照すると、登録画像が登録画像特徴量生成装置 R1に入力されると、まず

、特徴点抽出部 R11は、入力された登録画像から特徴点を抽出（これを特徴点抽出処理と言う。）する (ステップ SR11)。

[0011] そして、ステップ SR11の特徴点抽出処理によって特徴点が求められると、ステップ

SR12へ移動し、登録画像特徴量計算部 R12 (図 32)が、求められた特徴点から特徴量を計算する処理 (これを登録画像用特徴量抽出処理と言う。）を行う。

[0012] このように、登録画像特徴量計算装置 R1は、特徴点抽出処理と登録画像用特徴量抽出処理とを行い、特徴量を生成するようになって V、る。

[0013] 次に、ステップ SR11の特徴点抽出処理について、図 34に示すフローチャートを用いて、特徴点抽出部 R11 (図 32)の動作を説明する。

[0014] まず、図 34に示すフローチャートでは、二値画像生成部 R111 (図 32)が、入力された登録画像に対して、適応二値化を施して二値画像を生成する（ステップ SRI 11

)。

[0015] 次に、単語領域計算部 R112 (図 32)では、生成された二値画像に対してガウシァンフィルタを適用した後に、再度、二値化を行うことで登録画像の単語領域を得る (ステツプ SR112)。なお、ステップ SR112におけるこの処理を、単語領域ラベリング処理という。

[0016] そして次に、単語重心計算部 R113 (図 32)が、登録画像の単語領域の重心を求め（これを単語重心計算処理と言う。）、これを特徴点とする (ステップ SRI 13)。

[0017] ステップ SR113において特徴点が求められた後は、登録画像特徴量計算部 R12 ( 図 32)が、求められた特徴点から特徴量を計算（上述の登録画像用特徴量抽出処理のこと指す。 )を行うようになって!/、る（図 33のステップ SR12)。

[0018] 次に、登録画像特徴量計算部 R12が、登録画像用特徴量抽出処理を行う処理内容について、図 35に示すフローチャートを用いて説明する。

[0019] 図 35に示すフローチャートを参照すると、登録画像特徴量計算部 R12 (図 32)は、注目特徴点設定部 R121 (図 32)が、特徴点抽出部 R11によって計算された特徴点から、ある特徴点を注目特徴点と設定する（ステップ SR1201)。

[0020] そして、近傍特徴点計算部 R122 (図 32)は、その注目特徴点の近傍にある N個の特徴点 (これを近傍特徴点と言う。 )を選択する (ステップ SR1202)。

[0021] 次に、 N個の近傍特徴点から選ぶことのできる M個の特徴点の組み合わせのすべてに対して特徴ベクトルを計算するようになっており、近傍特徴点選択部 R123 (図 3 2)によって、まず M個の中から組み合わせの 1つの近傍特徴点が選択（ステップ SR 1203)され、不変量計算部 R124 (図 32)により、特徴量 (ベクトル）の計算が行われる（ステップ SR1204)。

[0022] ここで、近傍特徴点選択部 R123 (図 32)は、選択された M個の点に対し、ある注目特徴点を中心として、注目特徴点とその注目特徴点から最も近 V、特徴点を基準として反時計回りとなるように、 M個の点の順序付けを行う。

[0023] これにより、不変量計算部 R124は、順序付けされた M個の点の組み合わせの 1つから、 1つの特徴ベクトルを計算する。

[0024] 更に詳述すると、不変量計算部 R124は、順序付けされた M個の点の組み合わせから、選択しうる全ての f点の組み合わせの順序を保存して抜き出し、その順序が保存された f個の組み合わせから、予め定められた種類の不変量を、予め決められた方法で、繰り返し計算することによって特徴ベクトルを計算し、格納する。

[0025] ここで、繰り返し計算する回数は、次式

國

Mし f ( 1 ) によって定義され、（1)式の C回繰り返すことにより、 C次元の特徴ベクトルが 1

M f M f

つ生成される。

[0026] 例えば、この順序付けされた M個の点の組合せから、特徴ベクトルを計算する具体例を、図 36及び図 37を用いて例示する。 [0027] 図 36は、 N点から M点が選択されると共に、 M点から f点が選択される様子を表したものである。

[0028] 図 36では、具体例として、 N= 7 M = 6 f = 4の場合を示しており、図 37では、 N 点から選択された M点の組み合わせ力或いは、 M点から選択された f点の組み合わせが、登録画像特徴量計算 (ステップ SR1204)における特徴ベクトルの計算に、どのように利用される力、を示している。

[0029] 図 36及び図 37に示すように、 1つの注目特徴点に対して、（1)式で示した、 C (M

M f 点の組み合わせから f点の組み合わせを選ぶ全ての組み合わせの数に相当 )次元の特徴ベクトルが、 C (N点の組み合わせから M点の組み合わせを選ぶ全ての組み

N M

合わせの数に相当 )個から、計算されることを示して!/、る。

[0030] つまり、これは、順序付けされた 6個の点の組み合わせから、選択しうる全ての 4点の組み合わせの順序を保存して抜き出し、その順序が保存された 4個の組み合わせから予め定められた種類の不変量を計算し、 15回繰り返すことによって、 15次元の特徴ベクトルが、 1つ生成される（図 35のステップ SR1204)。

[0031] このように、不変量計算部 R124は、ある注目特徴点から、最も近い近傍特徴点により順序付けされた M個の点の組み合わせの 1つについて、特徴ベクトルを計算する

[0032] そして、不変量計算部 R124は、この特徴ベクトルの計算を、（1)式で示した C の

N M

回数である 7回繰り返し行うことによって、 7個の 15次元の特徴ベクトルを生成する。

[0033] 具体的には、不変量計算部 R124は、 N点から選択しうる全ての M点の組み合わせについて、 C 個（例えば、 7個）全てについて、特徴ベクトルの計算が終了したか否

N M

力、、判定する（図 35のステップ SR1205)。

[0034] ここで、 M個全ての近傍特徴点に対して、 1つでも特徴ベクトルの計算が終了していない場合には、ステップ SR1203 戻り、再び、近傍特徴点選択部 R123によって

、まだ選択されていない近傍特徴点が選択されると共に、引き続き、計算されていない特徴ベクトルが計算される。

[0035] 一方、不変量計算部 R124は、ある注目特徴点に対して、 N点から選択しうる全ての M点の組み合わせについて、 C 個（例えば、 7個）全ての特徴ベクトルの計算が

N M 終了した場合には、ステップ SR1206へ進み、全ての特徴点について特徴べクトノレの計算が終了したか判定する。

[0036] ここで、全ての特徴点に対して、特徴ベクトルの計算が終了した場合には、登録画像用特徴量抽出処理（図 32のステップ SR12)を終了する。

[0037] これに対し、まだ全ての特徴点に対して特徴ベクトルの計算が終了していない場合には、ステップ SR1201に戻り、まだ計算されていない特徴点を注目特徴点として設定されると共に、選択されていない特徴ベクトルが計算されるので、登録画像用特徴量抽出処理において、全ての特徴ベクトルが計算される。

[0038] これにより、登録画像特徴量計算部 R12の処理 (すなわち図 33の登録画像用特徴量抽出処理のことである。）は、特徴点抽出部 R11によって抽出された全ての特徴点を注目特徴点として、全ての特徴ベクトルを計算するまで継続される。

[0039] なお、非特許文献 1によれば、特徴量ベクトルの計算がされた後に、ノ、ッシュを用いた特徴量の登録処理が行われる力本発明が解決したレ、課題とは無関係であるため省略する。

[0040] ところで、この不変量計算部 R124 (図 32)は、 M個から選ばれる f個の特徴点のすベてに対して、予め定められた順番で f個の特徴点から計算される幾何学的不変量を計算することにより、各幾何学的不変量の値を要素とした特徴量ベクトルを計算す

[0041] なお、この fの値は、利用する幾何学的不変量により異なっている。従って、利用する幾何学的不変量の種類は、システム上、登録画像と検索画像の間で許容したい変換を、予め定めることにより決定されている。

[0042] 例えば、非特許文献 1中では、ァフィン変換を許容することをあらかじめ想定し、任意の 4点の座標から計算されるァフィン不変量を幾何学的不変量として用いているので、 f = 4である。また、 Nと Mの値については、 N^M^fを満たす任意の値に予め定めておく必要がある。

[0043] 具体的には例えば、非特許文献 1中では、（N, M)として（10, 10)、 (8, 7)などの場合にっレ、ての結果が報告されて!/、る。

[0044] 次に、文書画像検索特徴量生成システム Rの備える検索画像特徴量計算装置 R2 について、図 38を参照しながら説明する。図 38は、検索画像特徴量計算装置 R2の構成を示したものである。

[0045] 検索画像特徴量計算装置 R2 (図 38)は、特徴点抽出部 R21と、検索画像特徴量計算部 R22とを備えている。

[0046] 特徴点抽出部 R21 (図 38)は、二値画像生成部 R211と、単語領域計算部 R212と

、単語重心計算部 R213とを備えている。この特徴点抽出部 R21は、登録画像特徴量計算装置 R1における特徴点抽出部 R11 (図 32)と同一である。

[0047] 一方、特徴量計算部 R22 (図 38)は、注目特徴点設定部 R221と、近傍特徴点計算部 R222と、近傍特徴点選択部 R223と、巡回計算部 R224と、不変量計算部 R22

5とを備えている。

[0048] ここで、注目特徴点設定部 R221、近傍特徴点計算部 R222、近傍特徴点選択部 R223、不変量計算部 R225は、それぞれ、登録画像特徴量計算装置 R1 (図 32)における特徴点抽出部 R121、近傍特徴点計算部 R122、近傍特徴点選択部 R123、不変量計算部 R124と同一である。

[0049] 従って、検索画像特徴量計算装置 R2 (図 38)は、登録画像特徴量計算装置 R1に対し、巡回計算部 R224を更に備えて!/、ることを特徴として!/、る。

[0050] 次に、図 39及び図 40に示すフローチャートを参照して、検索画像特徴量計算装置 R2の動作につ!/、て説明する。

[0051] 文書画像特徴量生成システム Rは、検索画像特徴量計算装置 R2 (図 38)に登録画像が入力されると、まず、特徴点抽出部 R21が、入力された登録画像から特徴点を抽出する（図 39のステップ SR21)。この場合、特徴点抽出部 R21 (図 38)は、登録画像特徴量計算装置 R1における特徴量抽出部 R11 (図 32)と同じ動作によって特徴点を抽出する。

[0052] 従って、特徴点抽出部 R21 (図 38)は、特徴点抽出部 Rl 1 (図 32)と同じ動作であるので、説明は省略する。

[0053] 特徴点抽出部 R21 (図 38)によって特徴点が求められた後、検索画像特徴量計算装置 R2は、検索画像特徴量計算部 R22 (図 38)が、文書画像検索用特徴量を計算 (これを検索画像用特徴量抽出処理と言う。）する（ステップ SR22)。 [0054] このように、検索画像特徴量計算部 R22 (図 38)の動作は、図 39のフローチャートに示す通り、登録画像特徴量計算部 R12 (図 32)の動作とほぼ同一である。

[0055] しかしながら、検索画像特徴量計算装置 R2が、登録画像特徴量計算装置 R1に対して異なっている点は、図 40のステップ SR2204において、近傍特徴点選択部 R22 3 (図 38)によって求められた順序つき組み合わせに対して、巡回置換を求めることである。

[0056] ここで、巡回置換につ!/、て説明すると、巡回置換とは、元が順序付けられた集合（例えば、 {PI , P2, P3, P4} )が与えられたときに、 P1→P2→P3→P4(→P1)と、元の順番を巡回させるように、元の順番を変更させる（概念的には、それぞれの元を P1 →P2→P3→P4(→P1)に従って、 n回右へシフトした元に置き換える。）、順序つき集合を得るための置換のことを言う。

[0057] 具体白勺には列えば、、 {PI , P2, P3, P4}を、 {P2, P3, P4, P1 }もしくは、 {P3, P4 , PI , P2}、或いは {P4, PI , P2, P3}に置換することを巡回置換と言う。

[0058] これに対し、上記以外の、例えば {PI , P2, P3, P4}を、 {PI , P3, P2, P4}や {P 1 , P4, P2, P3}への置換するものは、本願発明では巡回置換に該当しない。

[0059] なお、ここでは、近傍特徴点が、元 {PI , P2, · · · }に該当する。

[0060] このように、ステップ SR2204で巡回置換を計算すると共に、後段のステップ SR22 05において、ステップ SR2203で選択された M個の順序つき組み合わせに関する全ての巡回置換の場合について、特徴ベクトルが求められることとなる。

[0061] そして、ステップ SR2206において、 M点全ての巡回配置の特徴ベクトルの計算が終了したか判定する。

[0062] ここで、 M点全ての巡回配置の特徴ベクトルの計算が終了していない場合には、ステツプ SR2204に戻り、まだ計算されていない巡回配置の特徴ベクトルを計算する。

[0063] 一方、 M点全ての巡回配置の特徴ベクトルの計算が終了すると、ステップ SR2207 へ移動し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定する。

[0064] そして、 N点から選択しうる、全ての M点の組み合わせにつ!/、て、特徴ベクトルの計算が終了していない場合には、ステップ SR2203へ戻り、まだ選択されていない M点の組み合わせについて、特徴ベクトルを計算する。

[0065] これに対し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了した場合には、ステップ SR2208へ移動して、全ての特徴点について

、特徴ベクトルの計算が終了したか判定する。

[0066] 従って、 N点から選択しうる、全ての M点の組み合わせにつ!/、て、特徴ベクトルが計算される。

[0067] 次に、ステップ SR2208では、全ての特徴点について、特徴ベクトルの計算が終了したか判定するようになっており、全ての特徴点について特徴ベクトルの計算が終了していない場合には、ステップ SR2201へ戻り、引き続き、まだ計算されていない特徴点を注目特徴点と設定し、特徴ベクトルの計算を行う。

[0068] これにより、全ての特徴点について、特徴ベクトルの計算を行うことができるようになつている。

[0069] なお、 N、 M、 fの値については、非特許文献 1では、登録画像特徴量計算部 R12 ( 図 32)における N、 M、 fの値と同一の値を用いることが記載されている。

[0070] また、登録画像特徴量格納装置 R3 (図 31)は、登録画像特徴量計算装置 R1にお

V、て計算された特徴量 (ベクトル)を格納する装置である。

[0071] このような従来技術では、予め許容すべき定められた幾何学的変換に対する不変量を、特徴量 (ベクトル）の要素としている。

[0072] また、幾何学的変換に対する不変量に関しては、非特許文献 2に、射影不変量、ァフィン不変量、相似不変量などが説明されている。

[0073] これにより、例えば、ァフィン不変量を特徴ベクトルの要素とした場合には、検索画像と登録画像の間でァフィン変換が生じたとしても、両者から原理上同じ特徴べタトルが計算できる。

[0074] すなわち、予め登録画像もしくは検索画像に対して、傾き補正、サイズ補正などの前処理を行うことなぐ照合に利用できる特徴ベクトルが生成できる点が利点である。

[0075] また更に、連結領域におけるラベリングの方法として、ラン解析や境界追跡などの手法について、非特許文献 3に記載されている。

[0076] そして、従来の特徴点を抽出する特徴点抽出方法については、非特許文献 4に概略が記載されている。

[0077] 非特許文献 1：中居友弘、外 2名、 "デジタルカメラを用いた高速文書画像検索におけるァフィン不変量および相似不変量の利用"、電子情報通信学会技術研究報告（ノターン言忍識'メディア理角早、 PRMU2005— 184〜201)、 2006年 2月 16日、第 10 5巻、第 614号、 25〜30頁

非特許文献 2 :佐藤淳著、 "コンピュータビジョン"、コロナ社、 1999年、 54〜65頁非特許文献 3 :田村秀行編著、コンピュータ画像処理、オーム社、 2002年、 149-1 53頁

非特許文献 4 :中居友弘、外 2名、 "デジタルカメラによる文書画像検索一 1万ページ力、ら 0. 1秒で検索する一"、情報科学技術レターズ、 2005年 8月、第 4巻、 133〜； 13 6頁（LI- 001)

発明の開示

発明が解決しょうとする課題

[0078] しかしながら、非特許文献 1乃至 4に記載されたものでは、特徴点として二値化後の画像から得られる連結成分の重心のみを用いている。従って、登録画像及び検索画像から決定された本来対応すべき連結領域が、一方で接触し、かつ、他方で分離した場合には、特徴量の計算に用いられる特徴点の配置が、本質的に異なった位置となってしまう。

[0079] すなわち、スキャナの個体差、撮像条件の違いなどにより、登録画像及び検索画像から決定された本来対応すべき連結領域が、一方の連結領域で接触し、かつ、他方で分離した場合には、一致すべき特徴量が得られないという問題があった。

[0080] 本発明は、上記問題に鑑みてなされたものであり、登録画像及び検索画像の注目連結領域に関して、一方の画像中では接触し、かつ、他方の画像中では分離している場合であっても、対応する特徴量が得られる文書画像特徴量生成装置、文書画像特徴量生成方法、文書画像特徴量生成用プログラム、文書画像特徴量格納装置、文書画像特徴量格納方法、文書画像特徴量格納用プログラム、文書画像特徴量照合装置、文書画像特徴量照合方法及び文書画像特徴量照合用プログラムを提供することを目白勺とする。課題を解決するための手段

[0081] 本発明によれば、入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置であって、入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出手段と、求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成手段と、を備えることを特徴とする文書画像特徴量生成装置が提供される。

[0082] また、本発明によれば、入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置における文書画像特徴量生成方法であって、入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出ステップと、求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成ステップと、を備えることを特徴とする文書画像特徴量生成方法が提供される。

[0083] 更に、本発明によれば、入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置における文書画像特徴量生成用プログラムであって、入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出手順と、求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成手順と、をコンピュータに実行させることを特徴とする文書画像特徴量生成用プログラムが提供される。

発明の効果 [0084] 本発明によれば、統合された連結領域に関する重心を特徴点として利用し、特徴量の生成を行っているため、特徴量を計算するための特徴点の配置として、登録画像と検索画像にぉレ、て、ほぼ一致するような特徴点の配置を得ることができる。

[0085] これにより、登録画像及び検索画像から計算される連結領域に関して、一方の画像で接触し、かつ、他方の画像で分離している場合にも、ほぼ一致する特徴量が生成することができるので、文書画像特徴量生成装置、文書画像特徴量生成方法、文書画像特徴量生成用プログラム、文書画像特徴量格納装置、文書画像特徴量格納方法、文書画像特徴量格納用プログラム、文書画像特徴量照合装置、文書画像特徴量照合方法、及び文書画像特徴量照合用プログラムを実現することができる。

図面の簡単な説明

[0086] [図 1]本発明に係る文書画像検索特徴量生成システムの構成を示すブロック図であ

[図 2]本発明の第 1の実施の形態に係る登録画像特徴量計算装置の構成を示すプロック図である。

[図 3]本発明の第 1の実施の形態に係る検索画像特徴量計算装置の構成を示すプロック図である。

[図 4]本発明の第 1の実施の形態に係る登録画像特徴量計算装置の動作を示すフロ一チャートである。

[図 5]本発明の第 1の実施の形態に係る特徴点抽出部の動作を示すフローチャートである。

[図 6]本発明の第 1の実施の形態に係る統合特徴点計算部の動作を示すフローチヤートである。

[図 7]本発明の第 1の実施の形態に係る登録画像特徴量計算部の動作を示すフローチャートである。

[図 8]本発明の第 1の実施の形態に係る登録画像特徴量計算部の特徴量追加計算処理を説明するフローチャートである。

[図 9]本発明の第 1の実施の形態に係る検索画像特徴量計算装置の動作を示すフロ一チャートである。 [図 10]本発明の第 1の実施の形態に係る検索画像特徴量計算部の動作を示すフロ一チャートである。

[図 11]本発明の第 1の実施の形態に係る検索画像特徴量計算部の特徴量追加計算処理を説明するフローチャートである。

[図 12]本発明の第 2の実施の形態に係る検索画像特徴量計算装置の構成を示すブロック図である。

[図 13]本発明の第 3の実施の形態に係る登録画像特徴量計算装置の構成を示すブロック図である。

[図 14]本発明の第 1の実施の形態に係る第 1の実施例である文書画像検索特徴量生成システムの構成を示すブロック図である。

園 15]本発明の第 1の実施例における連結領域間の距離について説明するための図である。

園 16]本発明の第 1の実施例における登録画像 PR1Aを表した図である。

園 17]本発明の第 1の実施例における登録画像 PR1Aに関する連結領域計算部の計算結果を表した図である。

園 18]本発明の第 1の実施例における登録画像 PR1Aに関して、特徴点抽出処理の過程を説明するための図である。

園 19]本発明の第 1の実施例における登録画像 PR1Aに関して、連結領域間の距離を計算するためのフィルタを表した図である。

園 20]本発明の第 1の実施例における登録画像 PR1Aに関して、連結領域間距離計算処理が終了した時点の特徴点抽出処理の過程を説明するための図である。

園 21]本発明の第 1の実施例における登録画像 PR1Aに関して、統合特徴点計算処理が終了した時点の特徴点抽出処理の過程を説明するための図である。

園 22]本発明の第 1の実施例における登録画像 PR1Aに関して、特徴点抽出処理の結果を説明するための図である。

[図 23]本発明の第 1の実施例における登録画像特徴量計算部における近傍特徴点選択部及び検索画像特徴量計算部における巡回計算部が計算した順序付き組み合わせと、登録画像特徴量計算部及び検索画像特徴量計算部が生成する特徴量（ベクトル)を計算するにあたり、不変量計算部及び巡回計算部が計算する値と特徴量

(ベクトル）の要素番号との関係について説明するための図である。

[図 24]本発明の第 1の実施例における登録画像 PR1Aに関して、登録画像特徴量計算装置による特徴量 (ベクトル)生成結果を説明するための図である。

園 25]本発明の第 1の実施例における登録画像 PR2Aを表した図である。

[図 26]本発明の第 1の実施例における登録画像 PR2Aに関して、登録画像特徴量計算装置による特徴量 (ベクトル)生成結果を説明するための図である。

園 27]本発明の第 1の実施例における登録画像 PR1Bを表した図である。

園 28]本発明の第 1の実施例における登録画像 PR1Bに関して、特徴点抽出処理の結果を説明するための図である。

[図 29]本発明の第 1の実施例における特徴量照合装置の動作を示すフローチャートである。

[図 30]本発明の第 1の実施例における登録画像 PR1Bに関して、検索画像特徴量計算装置による特徴量 (ベクトル)生成結果を説明するための図である。

[図 31]従来技術における文書画像検索特徴量生成システム Rの構成を示すブロック図である。

[図 32]従来技術の登録画像特徴量計算装置、特徴点抽出部、及び登録画像特徴量計算部の構成を示すブロック図である。

[図 33]従来技術の登録画像特徴量計算装置の動作を示すフローチャートである。

[図 34]従来技術の特徴点抽出処理の動作を説明するためのフローチャートである。

[図 35]従来技術の登録画像特徴量計算部の登録画像用特徴量抽出処理を説明するためのフローチャートである。

園 36]従来技術における組み合わせを選択し、説明するための図である。

[図 37]従来技術における 7通りの 15次元特徴ベクトルを説明するための図である。

[図 38]従来技術の検索画像特徴量計算装置、特徴点抽出部、及び検索画像特徴量計算部の構成を示すブロック図である。

[図 39]従来技術の検索画像特徴量計算装置の動作を示すフローチャートである。園 40]従来技術の検索画像特徴量計算部の動作を説明するためのフローチャートである。

符号の説明

A, B スキャナ

CI , C2 計算機

Ml , M2 記憶装置

D, R 文書画像検索特徴量生成システム

1 , R1 登録画像特徴量計算装置

2, R2 検索画像特徴量計算装置

3, R3 登録画像特徴量格納装置

4 特徴量照合装置

5 特徴べク卜ルー致数格納装置

6 同定装置

11 , R11 登録画像特徴量計算装置における特徴点抽出部

21 , R21 検索画像特徴量計算装置における特徴点抽出部

22, R22 検索画像特徴量計算部

111 , R111 登録画像特徴量計算装置における二値画像生成部

112, R112 登録画像特徴量計算装置における連結領域計算部

113, R113 登録画像特徴量計算装置における連結領域重心計算部 114 登録画像特徴量計算装置における統合特徴点計算部

12, R12 登録画像特徴量計算部

121 , R121 登録画像特徴量計算部における注目特徴点設定部

122, R122 登録画像特徴量計算部における近傍特徴点計算部

123, R123 登録画像特徴量計算部における注目特徴点選択部

124, R124 登録画像特徴量計算部における不変量計算部

125 登録画像特徴量計算部における巡回計算部

211 , R211 検索画像特徴量計算装置における二値画像生成部

212, R212 検索画像特徴量計算装置における連結領域計算部

213, R213 検索画像特徴量計算装置における連結領域重心計算部 214 検索画像特徴量計算装置における統合特徴点計算部

221 , R221 検索画像特徴量計算部における注目特徴点設定部

222, R222 検索画像特徴量計算部における近傍特徴点計算部

223, R223 検索画像特徴量計算部における注目特徴点選択部

224, R224 検索画像特徴量計算部における巡回計算部

225, R225 検索画像特徴量計算部における不変量計算部

発明を実施するための最良の形態

[0088] 次に、発明を実施するための最良の形態について、図面を参照して詳細に説明す

[0089] (第 1の実施の形態）

(1)文書画像検索特徴量生成システム Dの全体構成

図 1を参照すると、本発明の第 1の実施の形態では、登録画像特徴量計算装置 1と

、検索画像特徴量計算装置 2と、登録画像特徴量格納装置 3とを備えている。

[0090] (1 1)登録画像特徴量計算装置 1の回路構成

[0091] 図 2を参照すると、登録画像特徴量計算装置 1は、特徴点抽出部 11と、登録画像特徴量計算部 12とを備えている。

[0092] 特徴点抽出部 11は、二値画像生成部 111と、連結領域計算部 112と、連結領域重心計算部 113と、統合特徴点計算部 114とを備えている。

[0093] 二値画像生成部 111では、入力された、ある画像から二値画像を生成する。

[0094] 具体的には例えば、入力画像がグレースケール画像である場合には、予め定められた閾値による二値化、適応二値化など、予め定めた範囲の画素値の画素と、それ以外の範囲の画素値の画素とで二値化を行うなど、既存の二値化手法を用いる。

[0095] 一方、入力がカラー画像である場合には、グレースケールに既存の手法で変換した後に、グレースケール画像に対する二値化を行うことができる、また、入力画像が力ラー画像の場合であれば、画素値の色空間の分布を求めた後に、色空間をクラスタリングし、 1つ以上のクラスタリング領域とそれ以外の領域とで二値化する方法であつても良い。

[0096] 連結領域計算部 112では、二値画像生成部 111により生成された二値画像が入力されると、連結領域ラベリングを行う。この第 1の実施の形態では、連結領域ラベリングを行うにあたっては、非特許文献 3で記載されているような、ラン解析や境界追跡などの既存の手法を用いてラベリングを行うこととする。

[0097] 但し、連結領域ラベリングは、ラン解析や境界追跡に限定されるものではなぐ入力された二値画像に対し、同じ連結領域に属する画素には同じラベルを付け、異なる連結領域に属する画素には、異なるラベルを付けるようにさえすれば良い。

[0098] また、非特許文献 1に記載されているように、連結領域ラベリングを行う前に既存の画像処理手法などを行い、単語領域に相当する領域を得るようにしても良!/、。

[0099] 連結領域重心計算部 113では、連結領域計算部 112により計算された同一ラベルに属する画素集合の重心を計算し、特徴点とする。

[0100] 統合特徴点計算部 114では、異なるラベル付けをされた複数領域を選択し、それらの連結領域から計算された特徴点（以下、被統合特徴点と呼ぶ）、及び当該連結領域の画素数から、異なるラベル付けがされた連結領域の複数選択領域を統合して得られる新しい特徴点（以下、統合特徴点と呼ぶ。）と画素数を求める。

[0101] ここで、統合する連結領域を決定するには、互いの連結領域が近い位置にある連結領域集合を選ぶと良い。そして、互いの連結領域が近い位置にあるか判定するためには、重心間の距離、当該ラベルに属する連結領域の中で異なるラベルに属する連結領域までの距離の最小値、などを近さの尺度として、予め定められた値以下の近さの場合に、統合すべき連結領域であると決定する。

[0102] このように、特徴点抽出部 11では、二値画像生成部 111と、連結領域計算部 112 と、連結領域重心計算部 113と、統合特徴点計算部 114とを備えることにより、入力される入力画像から、特徴点を抽出する機能を持つ。

[0103] 次に、登録画像特徴量計算部 12について説明する。

[0104] 登録画像特徴量計算部 12は、注目特徴点設定部 121と、近傍特徴点計算部 122 と、近傍特徴点選択部 123と、不変量計算部 124とを備えている。

[0105] 注目特徴点設定部 121では、特徴量算出を行うにあたり、注目すべき特徴点（これを注目特徴点と言う。）を 1つ設定する。

[0106] 近傍特徴点計算部 122では、注目特徴点の近傍にある、予め定められた個数 (N 個とする。）の特徴点を計算し、出力する。

[0107] 近傍特徴点選択部 123は、近傍特徴点計算部 122で計算された近傍特徴点から、予め定められた個数の特徴点（M個とする。）を選択する。このとき、統合特徴点と、その統合特徴点を生成する元となった特徴点とを、同時に選ばないように選択するものとする。

[0108] また、選択された特徴点は、注目特徴点を中心として、注目特徴点と選択された特徴点のうち注目特徴点にもっとも近い特徴点を結ぶ半直線を基準として、時計回り、または反時計回り、いずれかの予め定められた方向に順序付けする。

[0109] 不変量計算部 124は、近傍特徴点選択部 123によって選択された特徴点集合力も、予め定められた順序で要素となる幾何学的不変量を格納することにより、特徴量（ベクトル）を生成する。

[0110] このとき、特徴量 (ベクトル）の各要素は、予め定められた幾何学的不変量とする。この幾何学的不変量には、非特許文献 2に記載されているように、相似不変量、ァフィン不変量、射影不変量などがある。なお、この特徴ベクトルの格納先は、登録画像特徴量格納装置 3である。

[0111] このように、登録画像特徴量計算部 12では、注目特徴点設定部 121と、近傍特徴点計算部 122と、近傍特徴点選択部 123と、不変量計算部 124とを備えることにより、特徴点抽出部 11から出力された特徴点と連結領域画素数とを利用して、特徴量（ベクトル)を計算し、登録画像特徴量格納装置 3に格納する。

[0112] 次に、検索画像特徴量計算装置 2について、図 3を参照して説明する。

[0113] (1 2)検索画像特徴量計算装置 2の回路構成

[0114] 図 3を参照すると、検索画像特徴量計算装置 2は、特徴点抽出部 21と、検索画像特徴量計算部 22とを備えている。

[0115] 特徴量抽出部 21は、二値画像生成部 211と、連結領域生成部 212と、連結領域重心計算部 213と、統合特徴点計算部 214とを備えている。

[0116] 検索画像特徴量計算装置 2における特徴点抽出部 21は、登録画像特徴量計算装置 1における特徴点抽出部 11と同じ構成であるので、詳細は省略する。

[0117] 次に、検索画像特徴量計算部 22について説明する。 [0118] 検索画像特徴量計算部 22は、注目特徴点設定部 221と、近傍特徴点計算部 222 と、近傍特徴点選択部 223と、巡回計算部 224と、不変量計算部 225とを備えている

[0119] 検索画像特徴量計算部 22における、注目特徴点設定部 221、近傍特徴点計算部

222、近傍特徴点選択部 223は、それぞれ、登録画像特徴量計算部 12 (図 2)における注目特徴点設定部 121、近傍特徴点計算部 122、近傍特徴点選択部 123と同じ構成であるので、詳細は省略する。

[0120] 巡回計算部 224は、近傍特徴点選択部 223が出力した順序付き特徴点集合を入力として、特徴点集合の順序を巡回することによって変更を行う。

[0121] 検索画像特徴量計算装置 2における不変量計算部 225は、登録画像特徴量計算部 12 (図 2)における不変量計算部 124と同じであるので、詳細は省略する。

[0122] 従って、検索画像特徴量計算部 22は、特徴点抽出部 21から出力された特徴点と、連結領域画素数とを利用して、特徴量 (ベクトル)を計算する。

[0123] また、登録画像特徴量計算装置 3 (図 1)は、上述のように登録画像特徴量計算装置 1が生成した特徴量 (ベクトル）と、連結領域画素数とを格納する装置である。

[0124] (2)文書画像検索特徴量生成システム Dの処理手順

(2- 1)登録画像特徴量計算装置 1の処理手順

[0125] 次に、第 1の実施の形態における全体の動作について、図 4乃至図 11のフローチヤートを用いて、順番に詳細に説明する。

[0126] まず、図 4に示すフローチャートを参照すると、文書画像検索特徴量生成システム

Dは、登録画像特徴量計算装置 1に多値画像が入力されると、登録画像特徴量計算装置 1 (図 2)の特徴量抽出部 11が、特徴点抽出処理を行う（ステップ S 11)。

[0127] そして、特徴量抽出部 11の特徴点抽出処理が終了すると、次に登録画像特徴量計算部 12 (図 2)が、登録画像特徴量計算処理を行う（ステップ S12)。

[0128] ここで、特徴点抽出処理 (ステップ S 11)及び登録画像用特徴量計算処理 (ステツプ S12)の処理内容について、更にフローチャートを用いて詳細に説明する。

[0129] 図 5のフローチャートは、ステップ S 11における特徴点抽出処理について示したものである。 [0130] まず、登録画像特徴量計算装置 1 (図 2)の二値画像生成部 111が、二値画像を生成する（ステップ S 111)。

[0131] 次に、連結領域生成部 112 (図 2)が、連結領域ラベリングを行う（ステップ S 112)。

この第 1の実施の形態では、生成された二値画像に対して、例えば、非特許文献 3に記載されている、 4連結のラン解析によるラベリング処理を行うこととする。

[0132] そして、連結領域重心計算部 113が、各連結領域に対して、重心位置と画素数とを計算する (ステップ S 113)。

[0133] 続いて、統合特徴点計算部 114が、互いに近傍にある特徴点から統合特徴点を求め、かつ、統合した連結領域の画素数を求める（ステップ S 114)。この近傍を定める基準として用いる距離尺度は、特徴点間のユークリッド距離、市街地距離など、既存の距離尺度を用いることができる。

[0134] ここで、例えば、互いに近傍にあるかどうかを判定するためには、連結領域間の距離が閾値 TH1を超えないようにする方法がある。この TH1は、予め定められた値を使っても良いし、行切り出しを行ってベースラインを求めた後に、連結成分をそのべースライン上に投影して求められる連結成分の幅を求めて、その値で TH1を割るなど正規化を fiつても良い。

[0135] 統合特徴点計算部 114が、この連結領域の大きさを求める処理 (これを統合特徴点計算処理と言う。）について、図 6のフローチャートを用いて説明する。図 6を参照すると、統合特徴点計算部 114の動作は、概略次の通りである。

[0136] まず、統合特徴点計算部 114は、連結領域ラベリング画像に対して、各連結領域間の距離を求める（これを連結領域間距離計算処理と言う。 ) (ステップ S1141)。

[0137] ここで、この距離の尺度には、ユークリッド距離、市街地距離など既存の距離尺度を用いる。また、連結領域間の距離は、重心間の距離によって求められる。

[0138] 更に、連結領域間の距離を定義する別の方法としては、連結領域 CC1の任意の画像と、別の連結領域 CC2の任意の画素とにおける距離尺度 dの最小値は、次式

[数 2]

Dist 1 =

(χ,. eCC ml，(in d (( .， )，（ ,， , ))

) SCC2 '，ノ，、〃 ( 2 ) のように定義することあでさる。

[0139] 次に、被統合特徴点を決定し、統合特徴点の重心を計算し、統合される連結領域の画素数の和を計算し、統合特徴点に対応する画素数とする（ステップ S1142)。

[0140] この場合、例えば、任意の連結領域対を統合する方式や距離 D以下の連結領域対を統合する方式などによって、 2つの連結領域を統合する方式がある。

[0141] または、任意の 3つ以上の連結領域を統合すること方式も適用可能である。更に、単に距離 D以下の連結領域同士を統合する場合は、例えば、連結成分 1と連結成分

2の距離が D以下、連結成分 2と連結成分 3の距離が D以下の場合に、 3つの連結領域を統合するようにすることあできる。

[0142] 同様にすれば、予め定められた個数 A個までの連結領域を統合することが可能である。また、ここでは、 Aの値は予め定めておくものとする。

[0143] このように、登録画像特徴量計算装置 1の特徴点抽出部 11は、ステップ S11の特徴点抽出処理（図 4)により、特徴点と、統合特徴点と、各連結領域に対応する画素数を計算すること力 Sできる。

[0144] また、図 4のフローチャートのステップ S11における特徴点抽出処理力特徴量抽出部 11によって特徴点抽出処理が終了すると、登録画像特徴量計算部 12によって

、ステップ S 12の登録画像用特徴量抽出処理が行われる（図 4のステップ S 12)。

[0145] 次に、この登録画像用特徴量抽出処理（図 4のステップ S12)の処理内容について

、更に図 7のフローチャートを参照しながら、登録画像特徴量計算部 12の動作を説明する。

[0146] なお、背景技術と重複する処理内容については、処理内容を理解する際に必要な概略動作を説明する。

[0147] 最初に、登録画像特徴量計算部 12に備えられた注目特徴点設定部 121 (図 2)が

、ある特徴点を注目特徴点と設定する（ステップ S 1201)。

[0148] 次に、近傍特徴点計算部 122は、注目特徴点が統合特徴点であるかどうかを判定する（ステップ S 1202)。

[0149] ここで、設定された注目特徴点が統合特徴点である場合には、ステップ S1210以下の処理を行い、一方、設定された注目特徴点が統合特徴点でない場合には、ステップ S I 203以下の処理を行う。

[0150] まず、設定された注目特徴点が統合特徴点でない場合には、ステップ S 1203へ進み、近傍特徴点計算部 122は、注目特徴点と統合特徴点を除いた特徴点のうち距離の近い方から N個の特徴点を選択する（ステップ S 1203)。

[0151] 次に、近傍特徴点選択部 123は、 N個の特徴点から M個の特徴点を選択する組み合わせを求め、 1つを選択する（ステップ S1204)。このとき M個の特徴点は、前述の通り、適切に順序付けするものとする。

[0152] そして、不変量計算部 124が、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番に要素が格納される (ステツプ S1205)。

[0153] 図 7に示すステップ S 1204力、らステップ S 1205までの処理は、ステップ S1203で選択された N点から選択しうる、全ての M点の組み合わせにつ!/、て行う。

[0154] そして、ステップ S 1206において、 N点力、ら選択しうる全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定するようになっている。

[0155] ここで、 M点（M個）全ての近傍特徴点に対して、 1個でも特徴ベクトルの計算が終了していない場合には、ステップ S1204へ戻り、まだ計算されていない特徴べクトノレの近傍特徴点が選択されると共に、引き続き、特徴べ外ルの計算を行う。

[0156] これにより、 N点から選択しうる全ての M点の組み合わせについて、特徴ベクトルが計算されるようになって!/、る。

[0157] 次に、ステップ S 1203にて選択した N個の特徴点のうち、ある統合特徴点を生成した特徴点集合の全てが含まれているかどうかを判定する（ステップ S 1207)。

[0158] ここで、もし、ある統合特徴点を生成した特徴点集合の全てが存在して!/、れば、特徴量追加計算処理が行われる（ステップ S 1208)。

[0159] これに対し、ある統合特徴点を生成した特徴点集合の全てが含まれていなければ、ステップ S 1209へ進む。

[0160] このステップ S1208における特徴量追加計算処理については、図 8のフローチヤートを用いて後述する。

[0161] また、ステップ S 1209へ進んだ後は、すべての特徴点において、特徴量の計算が終了したか否か判定するようになっており、すべての特徴点において特徴量の計算が終了した場合には、登録画像用特徴量抽出処理（図 4のステップ S12)は終了する

[0162] 一方、ステップ S1209において、まだ全ての特徴点の特徴量の計算が終了していない場合には、ステップ S 1201 戻り、まだ計算されていない特徴点を注目特徴点として、特徴ベクトルを計算するようになっている。

[0163] また、ステップ S 1202において、設定した注目特徴点が統合特徴点であった場合には、ステップ S1210 進み、次のような動作となる。

[0164] 近傍特徴点計算部 122 (図 2)は、注目特徴点と、注目特徴点を生成した被統合特徴点と、統合特徴点とを除いた特徴点のうち、距離の近い方から N個の特徴点を選択する（ステップ S 1210)。

[0165] 次に、近傍特徴点選択部 123は、 N個の特徴点から M個の特徴点を選択する組み合わせを求め、 1つを選択する（ステップ S1211)。このとき M個の特徴点は、前述の通り、適切に順序付けするものとする。

[0166] 次に、不変量計算部 124が、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番に要素が格納される (ステツプ S1212)。

[0167] ステップ S1211からステップ S1212までの処理は、ステップ S1210で選択された N 点から選択しうる、全ての M点の組み合わせにつ!/、て行う。

[0168] そして、ステップ S1213において、 N点力、ら選択しうる全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定するようになっている。

[0169] ここで、 M点（M個）全ての近傍特徴点に対して、 1個でも特徴ベクトルの計算が終了していない場合には、ステップ S1211 戻り、まだ計算されていない特徴ベクトルの近傍特徴点が選択されると共に、引き続き、特徴ベクトルの計算を行うようになっている。

[0170] このように、 N点から選択しうる全ての M点の組み合わせについて、特徴ベクトルが計算される。

[0171] 次に、ステップ S 1214において、選択した N個の特徴点のうち、ある統合特徴点を生成した特徴点集合の全てが含まれているかどうかを判定する (ステップ S 1214)。

[0172] ここで、もし、ある統合特徴点を生成した特徴点集合の全てが存在すれば、特徴量

[0173] これに対し、ある統合特徴点を生成した特徴点集合の全てが含まれていなければ、ステップ S 1209へ進む。

[0174] この特徴点追加計算処理 (ステップ S1215)の処理内容は、ステップ S 1208と同じであり、後述する。そして、特徴点追加計算処理 (ステップ S1215)の終了後、ステツプ S 1209へ進む。

[0175] 最後に、ステップ S 1209において、すべての特徴点を注目特徴点として処理を行つたかどうかの判定を行う。ここでは、上述と同様に、すべての特徴点を注目特徴点として処理が行われていなければステップ S1201へ戻り、一方、すべての特徴点を注目特徴点として特徴ベクトルを計算する処理が行われて V、れば、登録画像用特徴量抽出処理（図 4のステップ S12)を終了する。

[0176] (2— 2)登録画像特徴量計算装置 1における特徴量追加計算処理手順

[0177] ここで、上述のステップ S1208又は S1215における特徴量追加計算処理手順について、図 8のフローチャートを用いて説明する。

[0178] まず、登録画像特徴量計算部 12の近傍特徴点選択部 123 (図 2)は、近傍特徴点計算部 122により計算された N個の近傍特徴点から、ある統合特徴点を生成した被統合特徴点を削除し、代わりにそれらの被統合特徴点から計算された統合特徴点を加える（ステップ S12081)。また、このときの近傍特徴点の合計数を N'個とする。

[0179] もし、 N'≥Mであれば、ステップ S12083へ進み、これに対し、 N' < Mであれば、ステップ S 12081へ戻る。

[0180] ステップ S12083では、近傍特徴点選択部 123が、 N'個の特徴点から M個の特徴点を選択する組み合わせの 1つを求める。このとき、ステップ S 1204 (図 7)と同様に、適切な順序付けを行うものとする。

[0181] 続いて、不変量計算部 124が、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番により、要素を格納する (ステツプ S 12084)。 [0182] ステップ SI 2083力、らステップ SI 2084までの処理は、 N，個の特徴点から M個の特徴点を選択する組み合わせのすべてについて処理が行われるまで繰り返される。

[0183] そして、ステップ S12085において、 N'点力も選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定するようになっている。

[0184] ここで、 M点（M個）全ての近傍特徴点に対して、 1個でも特徴ベクトルの計算が終了していない場合には、ステップ S12083へ戻り、まだ計算されていない特徴べタトルの近傍特徴点が選択されると共に、引き続き、まだ計算されていない特徴べクトノレの計算を行う。

[0185] これにより、 N'点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルが計算される。

[0186] また、ステップ S 12086では、近傍特徴点の中に含まれ、ある統合特徴点を生成した全ての被特徴点集合に対して、特徴ベクトルの計算が終了したか否か判定するようになつている。

[0187] ここで、近傍特徴点の中に含まれ、ある統合特徴点を生成した全ての被特徴点集合に対して、特徴ベクトルの計算が終了していない場合には、ステップ S12081 戻り、まだ計算されていない特徴点集合に対して、引き続き、特徴ベクトルの計算を行う

[0188] これにより、ステップ S 1208又は S 1215における特徴量追加計算処理は、近傍特徴点計算部 122によって計算された N'個の特徴点中に含まれる統合特徴点について、特徴量追加計算の処理が行われるまで繰り返され、全ての特徴ベクトルを計算するようになつている。

[0189] このように、近傍特徴点の中に含まれ、ある統合特徴点を生成した、全ての被特徴点集合に対して、繰り返し不変量を計算するようになっていると共に、繰り返し処理が終了した後にステップ S 1209 進む。

[0190] (2- 3)検索画像特徴量計算装置 2の処理手順

[0191] 次に、検索画像特徴量計算装置 2の動作について説明する。なおこの動作は、登録画像特徴量計算装置 1の動作と同一の動作が多いので、登録画像特徴量計算装置 1の動作と異なる点について、特に詳細に説明する。 [0192] 図 9に示すフローチャートを参照すると、まず、文書画像検索特徴量生成システム

Dは、検索画像特徴量計算装置 2に多値画像が入力されると、特徴量抽出部 21 (図

3) 、特徴点抽出処理を行う（ステップ S21)。

[0193] これは、登録画像特徴量計算装置 1の動作における特徴点抽出処理（図 4のステツプ S11)と全く同一の処理である。

[0194] 特徴点抽出処理（図 4のステップ S21)が終了すると、検索画像特徴量計算部 22が

、検索画像特徴量計算処理を行う（ステップ S22)。

[0195] ここで、図 10のフローチャートを参照しながら、検索画像特徴量計算部 22の検索画像特徴量計算処理 (ステップ S22)の処理内容について説明する。

[0196] 最初に、検索画像特徴量計算部 22に備えられた注目特徴点設定部 221 (図 3)が

、ある特徴点を注目特徴点と設定する（ステップ S2201)。

[0197] 次に、近傍特徴点計算部 222は、注目特徴点が統合特徴点であるかどうかを判定する（ステップ S2202)。

[0198] ここで、設定された注目特徴点が統合特徴点である場合には、ステップ S2212以下の処理を行い、設定された注目特徴点が統合特徴点でない場合には、ステップ S

2203以下の処理を行う。

[0199] まず、設定された注目特徴点が統合特徴点でな V、場合には、ステップ S2203へ進み、近傍特徴点計算部 222は、注目特徴点と、統合特徴点とを除いた特徴点のうち

、距離の近レ、方から N個の特徴点を選択する（ステップ S2203)。

[0200] 次に、近傍特徴点選択部 223 (図 3)は、 N個の特徴点から M個の特徴点を選択する組み合わせを求め、 1つを選択する（ステップ S2204)。このとき M個の特徴点は、前述の通り、適切に順序付けするものとする。

[0201] そして、近傍特徴点選択部 223は、 M個の順序付き組み合わせから、巡回置換の

1つを計算する（ステップ S2205)。

[0202] 次に、不変量計算部 225は、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番に要素を格納する（ステップ

S2206)。

[0203] ステップ S2205からステップ S2206までの処理は、 M点から計算されるすべての巡回置換組み合わせにつ、て行う。

[0204] また、ステップ S2207において、 M点全ての巡回配置の特徴ベクトルの計算が終了したか判定するようになっている。

[0205] ここで、 M点（M個）全ての近傍特徴点に対して、 1個でも巡回配置の特徴べクトノレの計算が終了していない場合には、ステップ S2205 戻り、まだ計算されていない巡回配置の特徴ベクトルにつ V、て、特徴ベクトルの計算を行う。

[0206] 一方、 M点全ての巡回配置の特徴ベクトルの計算が終了すると、ステップ S2208 へ移動し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定するようになっている。

[0207] ここで、 N点力も選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了していない場合には、ステップ S2204 戻り、まだ選択されていない M点の組み合わせについて、特徴ベクトルを計算する。

[0208] これに対し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了した場合には、ステップ S2209へ移動する。

[0209] 次に、ステップ S2203にて選択した N個の特徴点のうち、ある統合特徴点を生成した特徴点集合の全てが含まれているかどうかを判定する（ステップ S 2209)。

[0210] ここで、もし、ある統合特徴点を生成した特徴点集合の全てが存在すれば、特徴量追加計算処理が行われる (ステップ S2210)。

[0211] これに対し、ある統合特徴点を生成した特徴点集合の全てが含まれていなければ、ステップ S 2211へ進む。

[0212] このステップ S2210における特徴量追加計算処理については、図 11のフローチヤートを用いて後述する。

[0213] また、ステップ S2211へ進んだ後は、すべての特徴点において、特徴量の計算が終了したか否か判定するようになっており、すべての特徴点において特徴量の計算が終了した場合には、検索画像用特徴量抽出処理 (ステップ S22)は終了する。

[0214] 一方、ステップ S2211において、まだすベての特徴点の特徴量の計算が終了していない場合には、ステップ S2201へ戻り、まだ計算されていない特徴点を注目特徴点として、特徴ベクトルを計算する。 [0215] また、ステップ S2202にお!/、て、設定した注目特徴点が統合特徴点であった場合には、ステップ S2212へ進み、次のような動作となる。

[0216] 検索画像特徴量計算部 22に備えられた近傍特徴点計算部 222 (図 3)は、注目特徴点と、注目特徴点を生成した被統合特徴点と、統合特徴点とを除いた特徴点のうち、距離の近い方から N個の特徴点を選択する（ステップ S2212

[0217] 次に、近傍特徴点選択部 223 (図 3)は、 N個の特徴点から M個の特徴点を選択する組み合わせを求め、 1つを選択する（ステップ S2213)。このとき M個の特徴点は、前述の通り、適切に順序付けするものとする。

[0218] 次に、近傍特徴点選択部 223 (図 3) 1 M個の順序付き組み合わせから、巡回置換の 1つを計算する（ステップ S2214

[0219] そして、次に、不変量計算部 224が、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番に要素が格納される

(ステップ S 2215

[0220] ステップ S2214力もステップ S2215までの処理は、 M点から計算される全ての巡回置換の組み合わせにつ V、て行う。

[0221] そして、ステップ S2216において、 M点全ての巡回配置の特徴ベクトルの計算が終了したかを判定する。

[0222] ここで、 M点全ての巡回配置の特徴ベクトルの計算が終了していない場合には、ステツプ S2214に戻り、まだ計算されていない巡回配置の特徴ベクトルを計算する。

[0223] 一方、 M点全ての巡回配置の特徴ベクトルの計算が終了すると、ステップ S2217 へ移動し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定する。

[0224] そして、 N点から選択しうる、全ての M点の組み合わせにつ!/、て、特徴ベクトルの計算が終了していない場合には、ステップ S2213 戻り、まだ選択されていない M点の組み合わせについて、特徴ベクトルを計算する。

[0225] これに対し、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了した場合には、ステップ S2218へ移動する。

[0226] また、ステップ S2212において選択された N個の特徴点のうち、ある統合特徴点を生成した特徴点集合の全てが含まれているかどうかを判定する (ステップ S 2218)。

[0227] ここで、もし、ある統合特徴点を生成した特徴点集合の全てが存在すれば、特徴量

[0228] これに対し、ある統合特徴点を生成した特徴点集合の全てが含まれていなければ、ステップ S 2211へ進む。

[0229] 特徴点追加計算処理 (ステップ S2219)の処理内容は、ステップ S2210と同じであるため、特徴点追加計算処理として後述する。そして、特徴点追加計算処理の終了後、ステップ S2211へ進む。

[0230] 最後に、ステップ S 2211において、すべての特徴点を注目特徴点として処理を行つたかどうかの判定を行う。

[0231] ここでは、登録画像特徴量計算装置 1と同様に、すべての特徴点を注目特徴点として処理が行われていなければステップ S2201へ戻り、これに対し、全ての特徴点を注目特徴点として特徴ベクトルを計算する処理が行われて V、れば、検索画像用特徴量抽出処理（図 9のステップ S22)を終了する。

[0232] (2— 4)検索画像特徴量計算装置 2における特徴量追加計算処理手順

[0233] ここで、上述のステップ S2210又は S2219における特徴量追加計算処理手順について、図 11のフローチャートを用いて説明する。

[0234] まず、検索画像特徴量計算部 22の近傍特徴点選択部 223 (図 3)は、近傍特徴点計算部 222により計算された N個の近傍特徴点から、ある統合特徴点を生成した被統合特徴点を削除し、代わりにそれらの被統合特徴点から計算された統合特徴点を加える（ステップ S22081)。また、このときの近傍特徴点の数を N'個とする。

[0235] もし、 N'≥Mであれば、ステップ S22083へ進み、これに対し、 N ' < Mであれば、ステップ S22081へ戻る。

[0236] ステップ S22083では、近傍特徴点選択部 223が、 N'個の特徴点から M個の特徴点を選択する組み合わせの 1つを求める。このとき、ステップ S2204 (図 10)と同様に

、適切な順序付けを行うものとする。

[0237] 続いて、近傍特徴点選択部 223が、 M個の順序付き組み合わせから、巡回置換の

1つを計算する（ステップ S22084)。 [0238] 次に、不変量計算部 225 (図 3)が、 M個の順序付けされた特徴点から、 f個の特徴点座標から計算できる不変量を計算し、予め定められた順番に要素を格納する (ステップ S 22085)。

[0239] ステップ S22084力、らステップ S22085までの処理は、 M個の順序付けされた特徴点の組み合わせからの全ての巡回置換について行うものとする。

[0240] そして、ステップ S22086において、全ての巡回置換について、特徴ベクトルを計算したか判定する。

[0241] ここで、 M点（M個）全ての巡回置換に対して、 1個でも特徴ベクトルが計算が終了していない場合には、ステップ S22084 戻り、まだ計算されていない巡回置換について、引き続き、特徴ベクトルの計算を行うようになっている。

[0242] 一方、全ての巡回置換につ!/、て特徴ベクトルが計算されて!/、れば、ステップ S220 87 移動する。

[0243] これにより、全ての巡回置換について、特徴ベクトルが計算される。そして、ステップ

S22087において、 N'点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定する。

[0244] ここで、 N'個の特徴点から M個の特徴点を選択しうる、全ての M点の組み合わせについて、特徴ベクトルが計算されていなければ、ステップ S22083 戻り、まだ計算されて V、な!/、選択しうる M点の組み合わせにつ V、て、特徴ベクトルを計算する。

[0245] これに対し、 N'点から選択しうる、全ての M点の組み合わせについて、特徴べタトルの計算が終了した場合には、ステップ S22088へ移動する。

[0246] このように、ステップ S22083力、らステップ S22087までの処理は、 N，個の特徴点力、ら M個の特徴点を選択する組み合わせの全てにつ!/、て、処理が行われるまで繰り返される。

[0247] これにより、 N'点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルが計算されるようになっている。

[0248] また、ステップ S22088では、近傍特徴点の中に含まれ、ある統合特徴点を生成した全ての被特徴点集合に対して、特徴べ外ルの計算が終了したか否か判定する。

[0249] これにより、ある統合特徴点を生成した全ての被特徴点集合に対して、特徴べタトルの計算が終了するまで繰り返される。

[0250] 従って、ステップ S2210及びステップ S2219における特徴量追加計算処理（図 10

)は、近傍特徴点計算部 222によって計算された N個の特徴点中に含まれる統合特徴点について、特徴量追加計算の処理が行われるまで繰り返される。

[0251] このように、近傍特徴点の中に含まれ、ある統合特徴点を生成した、全ての被特徴点集合に対して、繰り返し不変量を計算するようになっていると共に、繰り返し処理が終了した後にステップ S2211へ進む。

[0252] (3)効果

[0253] 第 1の実施の形態では、統合特徴点計算部 114、及び統合特徴点計算部 214により連結成分の接触を模擬して生成した特徴点が生成され、かつ、近傍特徴点計算部 122および近傍特徴点計算部 222により、統合特徴点と、その統合特徴点を生成する元となった被統合特徴点とを同時に選ばないように特徴点集合を計算し、その特徴点集合を用いて特徴量を生成するので、登録画像と検索画像の一方の画像中では接触し、かつ、他方の画像中では分離している場合であっても、対応する特徴量を得ること力 Sでさる。

[0254] (4)他の実施の形態

[0255] (4 1)第 2の実施の形態

[0256] 上述の第 1の実施の形態では、検索画像特徴量生成部 22に、巡回計算部 224を含んでいたが、第 2の実施の形態としては、予め入力される画像が回転のみ考慮すればよい場合には、図 12に示すように、巡回計算部 224を省略した構成とすることもできる。

[0257] この場合、ステップ S2205、 S2211、 S22084の巡回計算処理は、省略される。

[0258] (4 2)第 3の実施の形態

[0259] また、本発明に係る第 3の実施の形態として、図 12に示したように、検索画像特徴量計算装置 2に設けられていた巡回計算部 224を検索画像特徴量生成部 22から省略すると共に、図 13に示すように巡回計算部 224と同一の巡回計算部 125を、登録画像特徴量生成部 12に含むようにしても良!/、。

[0260] この場合、登録画像特徴量生成装置 1と検索画像特徴量生成装置 2とを入れ替えた形態に相当する。

[0261] また、ステップ S2205、 S2214、 S22084の処理を省略し、代わりにステップ S120 4、 S1211 , S 12083の後に、それぞれ、ステップ S2205、 S2214、 S22084の動作を組み入れて、順序付き組み合わせに関するすべての巡回組み合わせにつ!/、て処理を行えばよい。

実施例 1

[0262] 次に、具体的な実施例を用いて、本発明を実施するための最良の形態の動作を説明する。

[0263] 図 14に示すように、第 1の実施の形態による第 1の実施例では、文書画像検索特徴量生成システム D力 S、文書画像検索システム Zの一部として組み込まれている。

[0264] この図 14に示す文書画像検索システム Zは、スキャナ Aと、スキャナ Bと、計算機 C1 と、計算機 C2と、記憶装置 Mlと、記憶装置 M2とを備えている。

[0265] この第 1の実施例では、登録画像特徴量生成装置 1を計算機 C1内に備え、検索画像特徴量生成装置 2を計算機 C2内に備えている。

[0266] また、登録画像特徴量生成装置 1によって生成された特徴量を格納する登録画像特徴量格納装置 3を、記憶装置 Ml内に備えて V、る。

[0267] また、登録画像特徴量格納装置 3に格納された特徴量と、検索画像特徴量生成装置 2によって生成された特徴量とを照合する照合装置 4が、計算機 C2内に備えられている。

[0268] また、各登録文書が生成した特徴量 (ベクトル）のうち、検索画像から生成された特徴ベクトルと一致した回数を格納する特徴ベクトル一致数格納装置 5が、記憶装置 M 2内に備えられている。

[0269] 更に、各登録画像の特徴量一致数から検索すべき登録画像を決定する同定装置

6が、計算機 C2内に備えられている。

[0270] なお、記憶装置 Mlと記憶装置 M2とは同一のものであってもよぐまた計算機 C1と計算機 C2も同一のものでもよぐスキャナ Aとスキャナ Bも同一のものであっても良い

〇

[0271] ここで、本実施例におけるパラメータ値としては、 N= 7、 M = 6、 f = 4を用いることとする。また、不変量としてァフィン不変量を計算することとする。

[0272] そして、統合する特徴点の最大数は 2とする。また、特徴点を統合する基準として、連結領域間の距離は、連結領域 αの任意の画像と、別の連結領域 /3の任意の画像との市街地距離 dの最小値であって、（2)式によって定義されるものとする。

[0273] また、（2)式の Distlの値力 STH1 = 2以下となる連結領域対 1つを統合するものとする。

[0274] 具体的には例えば、図 15に示すように、 2つの連結領域対 α、 βの間の距離値は

、 2となる。なお、（2)式で定義されている CC1は、連結領域の αと同義であり、 CC2 は、連結領域の /3と同義である。

[0275] すなわち、図 15において〇印で示す箇所は、（2)式によって連結領域対 αと /3の距離値が 2となっており、また（2)式の距離値が 1の場合には、連結領域 αとベータが接触して!/、ることを意味して!/、る。

[0276] また、特徴点間の距離は、ユークリッド距離で定義するものとする。また、画像中の座標系は、左下を原点とし、 X座標の正方向を画像の右方向に、 y座標の正方向を画像の上方向にとるものとする。

[0277] 第 1の実施例では、スキャナ Aは、文書 DObj lと DObj 2とを撮像し、画像 PR1A、 P

R2Aとして登録画像特徴量を計算する。その後、スキャナ Bは、文書 DObj lを撮像し

、画像 PR1Bとして、その画像 PR1Bの特徴量が登録されている画像 PR1A、 PR2A の!/、ずれであるかを検索（同定)する例につ!/、て説明する。

[0278] 図 14に記載された文書画像検索システム Zにおいて、まず、ある登録画像 PR1A 力 Sスキャナ Aから入力されて、登録画像特徴量生成装置 1が特徴量を生成し、登録画像特徴量格納装置 3に特徴量を格納するまでの動作（図 4)について説明する。

[0279] なお、この登録画像 PR1Aは 256階調の濃淡画像であり、図 16に示すような画像である。

[0280] 登録画像 PR1Aが登録画像特徴量生成装置 1に入力されると、特徴点抽出部 11 が特徴点抽出処理（図 4の S 11)を行う。まず、図 5に示したステップ S111の二値画像生成処理により、二値画像が生成される。

[0281] ここでは、予め定められた閾値 TH0によって二値化するものとする。 [0282] 次に、連結領域ラベリング処理（図 5のステップ SI 12)では、一例として生成された二値画像に対して、非特許文献 3に記載されている、 4連結のラン解析によるラベリング処理を行う。

[0283] ラベリング処理が行われた後の連結領域ラベリング画像 LI1の様子を、図 17に示す。図 17中では、ラベリング処理の結果として、ラベル領域の外接矩形を重畳させてい

[0284] 図 16の画像にはかすれがあるため、本来 1つの連結領域となるべき領域が 2つに分離している。

[0285] より具体的に説明すると、図 17では、アルファベット毎に連結領域力個であることを期待している。しかしな力、図 16に示す登録画像 PR1Aの「G」という文字は、力、すれているため（この場合、薄く撮像されていることを表す。）、図 17に示す「G」の連結領域が 2つに分離されて!/、ることを意味して!/、る。

[0286] 次に、連結領域重心'画素数計算処理（図 5のステップ S 113)により、連結領域の重心を求めて特徴点とする。

[0287] ここで、特徴点は、当該連結領域の画素数とともに、図 18のように格納される。

[0288] 次に、統合特徴点計画処理（図 5のステップ S114)の連結領域間距離計算処理（図 6のステップ S1141)により、連結領域間の距離 Distlを求める。なお、本実施例では TH1 = 2であるので、少なくとも距離値 2までを検出できる方法で距離を求めればよい。

[0289] ここでは、距離値 3まで計測できる図 19のようなフィルタを用いて、ラベル画像全面をスキャンすることによって、連結領域間を求めることとする。

[0290] なお、ここで距離値 0の場合は、統合の対象外であることを表すものとする。

[0291] そして条件を満たした連結領域は、すでに格納されている特徴点情報（図 18)に関連付けて、更に図 20のように格納される。

[0292] 次に、統合処理（図 6のステップ S1142)では、格納されている特徴点情報（図 20) を用いて、連結領域間距離が TH1 = 2以下の連結領域対を統合し、統合特徴点を求める。

[0293] この場合、連結領域重心'画素数計算処理（図 5のステップ S 113)において、予め連結領域画素数を格納しておくと、統合処理（図 6のステップ S 1142)において統合特徴点の重心を求める際には、二つの特徴点座標を (X , y ) , (X , y )とし、特徴点 i

, jに対応付けられている連結成分画素数を Ρ , Ρとすると、重心の性質から、統合特徴点の座標 (X ，y )は、次式

Φ Φ

[数 3]

, 、_ A (^， '） + (^，）

，ァん — ( 3 )

により、簡便に求められる。

[0294] もちろん、すでに求められている特徴点座標を用いずに、連結領域ラベリング画像

L11 (図示しないが、図 5の連結領域ラベリング処理によって算出される画像である。 )から統合した領域を求め、その領域に関する重心を用いてもよい。

[0295] 本実施例では、以上のような特徴点抽出処理（図 4のステップ S 11)が行われる結果、得られる連結領域の統合特徴点は、図 21のようになる。

[0296] 図 21において、かすれのため 2つに分離していた領域対（例えば、 4番と 5番）に対して連結され、統合特徴点 (例えば 14番）が計算されて V、る。

[0297] また、 9番と 13番とが連結され、統合特徴点 15番が計算されると共に、 10番と 11番とが連結されて、統合特徴点 16番が計算されている。

[0298] なお、この場合において、登録画像 PR1Aに連結領域番号を付した画像を、図 22 に示す。図 21及び図 22から明らかなように、連結領域番号 9番と 15番は、極めて近接していることを示している。

[0299] 次に、登録画像特徴量生成部 12が、登録画像特徴量用特徴量抽出処理（図 4の

[0300] まず、登録画像特徴量生成部 12の注目特徴点設定部 121が、特徴点の 1つを注目特徴点として設定する (ステップ S 1201)。

[0301] 本説明では、図 22に示した連結領域番号 7番を注目特徴点として説明する。

[0302] 次に、注目特徴点が統合特徴点力、どうかの判定を行う（ステップ S 1202)。この場合

、図 21の統合フラグに示されているように、統合特徴点の場合には「1」が記入されているので、これにより判定を行うことができる。なお、この場合では、判定結果は Noであるので、ステップ S 1203へ進む。

[0303] ステップ S 1203では、注目特徴点と統合特徴点とを除 V、た特徴点のうち、注目特徴点からのユークリッド距離の小さレ、方から N ( = 7)個の特徴点を選択する。

[0304] 本実施例では、特徴点番号 8、 4、 5、 2、 10、 11、 3の 7特徴点が選択される。次にステップ S 1204で、 N ( = 7)点から M ( = 6)点を選択する組み合わせの 1つが選択される。ここでは、特徴点番号 8、 4、 5、 2、 10、 11の M ( = 6)点が選択される。

[0305] ここで、特徴点番号は、注目特徴点 7番の最近傍特徴点 4番を先頭とし、 7番を軸として 8番を通る半直線を基準として時計回りにソートされている。

[0306] 次にステップ S 1204で、 f ( = 4)点の座標から計算されるァフィン計算量を求める。

[0307] そして次に、ステップ S 1205において、特徴ベクトルをァフィン不変量によって計算する。

[0308] ここで、ァフィン不変量とは、非特許文献 2によれば、二次元位置ベクトル γ , γ ,

1 2

Ύ , γ に対して、次式

3 4

[数 4コ

| V_{3 4} - i I

ァフィン不変量 = | _V2 — _V3 __V] I ( 4 ) で定まる量のことである。

[0309] ここで、 I γ γ I は、二つの列ベクトル γ , γを横に並べて作った 2 X 2行列 | γ

i j i j i

7 Iの行列式である。

j

[0310] ステップ S 1204力、らステップ S 1205の処理は、 M点の順序付け組み合わせから f 点を選択しうる、全ての組み合わせにつ!/、て行われる。

[0311] そして、ステップ S 1206において、 N点力、ら選択しうる全ての M点の組み合わせについて、特徴ベクトルの計算が終了したか判定するようになっている。

[0312] ここで、 M点（M個）全ての近傍特徴点に対して、 1個でも特徴ベクトルの計算が終了していない場合には、ステップ S 1204へ戻り、まだ計算されていない特徴べクトノレの近傍特徴点が選択されると共に、引き続き、特徴ベクトルの計算を行うようになっている。

[0313] これにより、 N点から選択しうる、全ての M点の組み合わせについて、特徴ベクトルが計算されるようになっている。

[0314] なお、 M点の順序付き組み合わせから γ , y , y , y を選択する方法は、図 23

1 2 3 4

に示されて!/、るような組み合わせを選択するものとする。

[0315] 例えば、図 23に示す 1番目の要素は、 M点の順序付き組み合わせ内の特徴点に関して、 y は順序付け組み合わせの 1番目の特徴点座標、 _Ί は 2番目の特徴点座

1 2 標、 Ί は 3番目の特徴点座標、 γ は 4番目の特徴点座標を用いる。

3 4

[0316] また、 Μ ( = 6)点から f ( = 4)点を選ぶ組み合わせの数は、 C = 15通り存在する

M f

ので、本実施例で生成される特徴量ベクトルは 15次元ベクトルとなる。

[0317] ステップ S1204力、らステップ S1205の処理を繰り返すことにより、結果として、図 24 に示すように注目特徴点 7番に関する 15次元の特徴量ベクトルが生成され、登録画像特徴量格納装置 3に格納される。

[0318] 従って、この 15次元の特徴量ベクトルを生成するステップ S 1204からステップ S 12

06までの処理は、 N ( = 7)点から M ( = 6)点を選択するすべての組み合わせにつ!/ヽて、行われる。

[0319] また、 1つの M点の組み合わせにっき 1つの特徴量ベクトルが生成されるので、ステップ S 1204力、らステップ S 1206までの処理で、例えば注目特徴点 8番に関する C

N M

= 7個の特徴ベクトルが生成され、登録画像特徴量格納装置 3に格納される（図 24 参照)。

[0320] 次に、ステップ S 1207において、近傍特徴点の中に統合特徴点を生成した特徴点集合の全てが存在するか判定を行う。

[0321] この場合、ステップ S1203で選択した N点に対応付けられている連結領域のうち、連結領域 4番と 5番との距離と、 10番と 11番との距離とが、連結領域間の距離が 2≤

TH1となっているので、ステップ S 1208の特徴量追加計算処理（図 8)を行う。

[0322] まず、連結領域 4番と 5番とを N点の組みあわせから削除し、 4番と 5番を統合して生成された統合特徴点 14番（図 22)を付け加える（図 8のステップ S 12081)。

[0323] この結果、特徴点番号 8、 14、 3、 2、 10、 11の N' ( = 6)個からなる特徴点の組み合わせが求められる。

[0324] 次に、図 8のステップ S12082による判定を行う。この場合は Yesであるから、ステツプ S12083の処理を行う。なお、本実施例においては、必ず Yesとなることから、ステップ S 12082の処理をスキップすることもできる。

[0325] 次に、ステップ S 12083にて、 N' ( = 6)点から選ぶことのできる M ( = 6)点の順序付き組み合わせを求める。

[0326] ここでは、結果として、特徴点番号 8、 14、 3、 2、 10、 11の順序付き組み合わせが求められる。次にステップ S12084にて、特徴ベクトルを求める。

[0327] これは、ステップ S1205の動作と同一である。

[0328] このように計算すると、注目特徴点 7番に関する 8番目の特徴ベクトルが生成され、登録画像特徴量格納装置 3に格納される。また、 N' ( = 6)点から選ぶことのできる M ( = 6)点の順序付き組み合わせは、この一通りのみであり（ステップ S12085)、かつ、連結領域 10番と 11番に関して統合特徴点を用いて特徴ベクトルを生成する手続きを行っていないので（ステップ S12086)、ステップ S12081へ戻り、特徴ベクトルを計算する処理を継続する。

[0329] このように計算すると、本実施例では、注目特徴点番号 8番に関しては 9種類の 15 次元特徴ベクトルが生成される。

[0330] これらの S 1201力、ら S 1209までの処理（図 7)は、 1番から 16番までのすベての特徴点を注目特徴点とした処理が行われるまで継続される。

[0331] 以上により、登録画像 PR1Aに対する登録画像特徴量抽出処理（図 4)が完了する。この結果として、図 24に示すような特徴量が計算される。

[0332] 更に、登録画像 PR2A (図 25)に対する登録画像特徴量抽出処理（図 4)も同様に行われる。結果として、図 26に示すような特徴量が計算される。

[0333] 次に、登録画像 PR1A、 PR2Aに対する登録画像特徴量計算処理（図 4)の終了後、文書 DObj lがスキャナ Bによって撮像され、検索画像 PR1Bが検索画像特徴量計算装置 2に入力された場合の例について説明する。

[0334] ここで、登録画像のうち文書 DObj lが撮像されている画像は PR1 Aであるから、検索（同定)結果として PR1Aが出力されることが望まし!/、。 [0335] 図 27に示す検索画像 PR1Bが検索画像特徴量計算装置 2 (図 14)に入力されると、まず、特徴ベクトル一致数格納装置 5 (図 14)内に格納されている、各登録文書に対応する特徴ベクトル一致数を 0に初期化する。

[0336] 次に、検索画像特徴量計算装置 2の特徴点抽出部 21によって、特徴点抽出処理（ステップ S21)が行われる。この処理は、登録画像特徴量計算装置 1における特徴点抽出部 11による特徴点抽出処理 (ステップ S 11)と同じ処理である。

[0337] 結果として、図 28に示すような特徴点が得られる。もちろん、入力となるスキャナの個体差を吸収できるよう、二値化閾値、統合に用いる閾値 Distlの値など、ノラメ一タの値は、登録画像特徴量計算装置 1の特徴点抽出部 11と検索画像特徴量計算装置 2の特徴点抽出部 21とにおいて、それぞれ変更することは可能である。

[0338] 次に、検索画像特徴量計算部 22が行う検索画像特徴量計算処理 (ステップ S22) について説明する。なお、検索画像特徴量計算処理（図 9のステップ S22)は、後述する特徴量照合装置 4が行う特徴量照合処理と協調して動作を行う。

[0339] 具体的には、 1つの特徴量 (ベクトル）が生成される度に、登録画像特徴量格納装置 3に格納されている特徴量 (ベクトル）との照合処理を行う。以下で、これらの動作について詳細に説明する。

[0340] まず、検索画像特徴量計算装置 2の注目特徴点設定部 221が、特徴点の一つを注目特徴点として設定する（図 10のステップ S2201)。

[0341] ここでは、特徴点番号 1番から 5番までを注目特徴点として特徴量 (ベクトル)を生成した後に、特徴点番号 6番の特徴点を注目特徴点とした場合について説明する。

[0342] そして次に、図 10のステップ S2202において、注目特徴点が統合特徴点であるかどうかの判定を行う。特徴点番号 6番は統合特徴点ではないので（図 20)、ステップ S 2203へ進む。

[0343] ステップ S2203では、統合特徴点と注目特徴点自身 (この場合、特徴点番号 6番である。）とを除いた特徴点のうち、注目特徴点番号 6番近傍の特徴点を N ( = 7)点選択する。ここでは、特徴点番号 7、 4、 3、 2、 9、 10、 8の 7点が選択される（図 28)。

[0344] 次に、ステップ S2204にて、 N ( = 7)点から M ( = 6)点を選ぶ組み合わせのひとつを選択する。ここでは、 1番目の組み合わせとして、特徴点番号 7、 4、 3、 2、 9、 10が選ばれたとする。この組み合わせは、ステップ S 1204の処理による順序付け方法と同様に順序付けされている。

[0345] 次にステップ S2205 (図 10)にて、 M ( = 6)点からなる順序付け組み合わせの巡回置換を計算する。

[0346] まずは、巡回させない順序付け組み合わせ 7、 4、 3、 2、 9、 10を出力する。次にこの順序付け組み合わせに対して、ステップ S2206 (図 10)にて特徴量 (ベクトル）を計算する。この特徴量生成方法は、ステップ S1205における特徴量生成方法と同一である。

[0347] ステップ S2205からステップ S2206の処理はすべての巡回組み合わせにつ!/、て行われるので、他の順序付け組み合わせ、例えば、 4、 3、 2、 9、 10、 7に対する特徴量 (ベクトル)などについても計算が行われる。

[0348] また、上述のように、 S2204力、ら S2207までの処理は、 N ( = 7)点から M ( = 6)点を選ぶすべての組み合わせについて計算されるまで繰り返される。

[0349] 本実施例では、ステップ S2206 (図 10)において、特徴量（ベクトル）が 1つ計算されるたびに、特徴量照合装置 4 (図 14)によって、後述する照合処理が行われる。

[0350] そして、照合処理の結果、一致すると判定された特徴ベクトルがある場合には、特徴ベクトル一致数格納装置 5内に格納されている、登録文書毎の一致数力だけ増やされる。

[0351] ここで、照合処理について、図 29に示すフローチャートを参照しながら、具体的に動作について説明する。

[0352] まず、図 29のステップ S41において、登録画像特徴量格納装置 3に格納されている、ある特徴ベクトルと、検索画像から生成された特徴ベクトルとの距離を計算し (ステツプ S41)、ある閾値 TH1を超えない場合に一致したものと判定する（ステップ S42

)。

[0353] 距離尺度としては、 2ベクトル間の距離を計算できる既存の尺度を用いることができる。本実施例では、距離として 2つのベクトルの誤差二乗和を、 TH1の値として 0. 15 を用いることとする。

[0354] 例えば、ステップ S2206 (図 10)において計算された検索画像 PR1Bの注目特徴点 6番に関する順序付け組み合わせ、 0番目に関する巡回なしの特徴ベクトルは、図 30のようになる。この場合、登録画像 PR1Aから計算された注目特徴点 7番に関する 8番目の特徴ベクトルとの誤差二乗和は、 0. 14· · ·となる。

[0355] そしてこの値は、ステップ S42において、閾値 TH1を越えているか否かの判定が行われる。

[0356] ここで、閾値 TH1を超えない場合には、ステップ S43へ移動し、 2つの特徴ベクトルがー致したものとみなして、一致した特徴ベクトルが計算された登録画像 (この例では PR1A)に対応する特徴ベクトル一致数を 1増加させる（ステップ S43)。

[0357] この例の場合は、誤差二乗和が予め定められた閾値 ΤΗ1 = 0· 15の値を超えないので、検索画像 PR1Aに関する特徴ベクトル一致数を 1増加させる。

[0358] 特徴量照合装置 4の照合処理が終了すると、ステップ S2207 (図 10)に移動して、引き続き、検索画像特徴量計算部 2の処理を継続する。

[0359] なお、本実施例では、登録画像において特徴量 (ベクトル）が生成される度に照合処理を行うこととした力 S、本実施の形態ではこれに限らず、予め検索画像から計算される全ての特徴ベクトルを計算し、適当な記憶装置に格納しておき、その後に、検索画像から生成された特徴ベクトルと登録画像から生成された特徴ベクトルの全ての組み合わせについて照合処理を行うことにより、結果として同じ同定 (検索）結果を得るようにしても良い。

[0360] そして、検索画像特徴量計算部 2の処理に戻った後、ステップ S2209 (図 10)で、統合すべき特徴点対があるかどうかの判定が行われる。この場合は Noとなるので、ステツプ S 2211へ進む。

[0361] ステップ S2211では、すべての統合点についての処理が行われたか否かの判定を行う。ここでは Noであるので、まだ注目特徴点として設定されていない特徴点を注目特徴点として処理を継続する。

[0362] このように、全ての特徴点を注目特徴点として処理をすると、特徴ベクトル一致数格納装置 5内（図 14)に格納されている一致数は、例えば、登録画像 PR1Aに関する一致数は 6となり、一方、登録画像 PR2Aに関する一致数は 1となる。

[0363] また、検索画像特徴量計算装置 2が照合処理を終えると、同定装置 6 (図 14)が特徴ベクトル一致数格納装置 5内（図 14)に格納されている一致数を参照して、最も特徴ベクトル一致数の多力、つた登録画像を同定すべき画像として判定する。

[0364] なお、本実施例では、一致数の一番多 V、登録画像を判定結果とするので、登録画像 PR1Aが出力される。もちろん、画像そのものを出力としなくとも、画像と一意に結び付けられた ID、名称など、あるいはそれらの組み合わせを出力してもよい。また、一意に同定するだけでなぐ特徴ベクトル一致数の上 iij候補に相当する結果を出力しても良い。

[0365] なお、本実施例で説明した、検索画像 PR1Aから計算された注目特徴点 7番に関する 8番目の特徴ベクトルは、特徴点を統合することによって生成することのできた特徴量 (ベクトル）である。

[0366] この特徴量 (ベクトル）は、従来の方法では生成し得な力、つた特徴ベクトルであるので、本実施例に記載の特徴点を統合して特徴量 (ベクトル)を生成することにより、文書の検索または同定を行う上で有効である。

[0367] また、本実施例では、互いに近い距離にある連結領域同士を統合するようにしている。分離や接触は、近い距離にある連結領域の間でおこる現象と考えられるから、互いに近い距離にある連結同士のみ統合する方式は、すべての連結領域対に関して統合する方式と比べ、統合にかかる計算量を効果的に削減することができるので、特に有効である。

[0368] また、本実施例では、連結領域間の距離 Distlを特徴点の統合判定に用いて!/、る

[0369] 従って、特徴点間の距離を基準とした場合などと比べて、連結成分の接触を精度良くシミュレートできるので有効である。

[0370] また、この方法は、本発明の第 1の実施の形態や第 3の実施の形態において、登録画像と検索画像の間の文書の傾きの影響を受けにくいだけでなぐ登録画像や検索画像の傾き補正が不要なので、特に有効である。

[0371] 本願 (ま、曰本の特願 2006— 324095号（2006年 11月 30曰 ίこ出願） ίこ基づレヽたものであり、又、特願 2006— 324095号に基づくパリ条約の優先権を主張するものである。特願 2006— 324095号の開示内容は、特願 2006— 324095号を参照することにより本明細書に援用される。

[0372] 本発明の代表的な実施形態が詳細に述べられたが、様々な変更 (change_S)、置き換え (substitutions)及び選択 (alternatives)が請求項で定義された発明の精神と範囲力、ら逸脱することなくなされること力理解されるべきである。また、仮にクレームが出願手続きにおいて補正されたとしても、クレームされた発明の均等の範囲は維持されるものと発明者は意図する。

産業上の利用可能性

[0373] 本発明によれば、撮像装置により取り込まれた文書画像を、保存しておレ、た文書を撮像した画像を用いて検索する文書検索装置として適用できる。また、対象物表面の特徴的な文字列、例えば郵便物の住所領域画像や、対象物を一意に識別するために設計された識別子などを用いて、対象物を検索または同定するための装置として利用できる。この検索または同定装置は、さまざまな箇所で撮像された画像力対象物を追跡するシステムに利用できる。

Claims

請求の範囲

[1] 入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置であって、

入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出手段と、

求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成手段と、

を備えることを特徴とする文書画像特徴量生成装置。

[2] 前記特徴量生成手段は、前記統合特徴点と、前記注目特徴点以外の前記特徴点とから前記近傍特徴点を選択し、前記統合された連結領域の特徴量を生成することを特徴とする請求項 1記載の文書画像特徴量生成装置。

[3] 前記特徴量生成手段は、前記統合特徴点と、当該統合特徴点を生成する元となつた前記特徴点とが、同時に選択されることを排除して、前記統合された連結領域の特徴量を生成する

ことを特徴とする請求項 1又は 2に記載の文書画像特徴量生成装置。

[4] 前記特徴量生成手段は、前記注目特徴点を生成する元となった前記特徴点を、前記近傍特徴点として選択されることを排除して、前記統合された連結領域の特徴量を生成する

ことを特徴とする請求項 1乃至 3の何れか 1項に記載の文書画像特徴量生成装置。

[5] 前記統合特徴点計算手段は、前記連結領域の統合の際、予め設定された値を超えな V、距離にある連結成分のみを統合する

ことを特徴とする請求項 1乃至 4の何れか 1項に記載の文書画像特徴量生成装置。

[6] 前記統合特徴点計算手段は、少なくとも 2つ以上の前記連結領域に対して、一方の前記連結領域に属する画素と他方の前記連結領域に属する画素との距離の最小値を、前記統合特徴点の計算に用いる

ことを特徴とする請求項 5に記載の文書画像特徴量生成装置。

[7] 前記統合特徴点計算手段は、前記連結領域の距離を計算する際に、少なくとも前記予め設定された値までの距離を求める

ことを特徴とする請求項 5又は 6に記載の文書画像特徴量生成装置。

[8] 請求項 1乃至 7の何れか 1項に記載の文書画像特徴量生成装置を用いて生成された前記特徴量を用いて文書画像検索もしくは同定を行う手段を備える

ことを特徴とする文書画像検索照合装置。

[9] 請求項 1乃至 7の何れか 1項に記載の文書画像特徴量生成装置を用いて生成された前記特徴量を格納する手段を備えることを特徴とする文書画像検索特徴量格納装置。

[10] 入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置における文書画像特徴量生成方法であって、

入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出ステップと、

求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成ステップと、

を備えることを特徴とする文書画像特徴量生成方法。

[11] 前記特徴量生成ステップでは、前記統合特徴点と、前記注目特徴点以外の前記特徴点とから前記近傍特徴点を選択し、前記統合された連結領域の特徴量を生成することを特徴とする請求項 10記載の文書画像特徴量生成方法。

[12] 前記特徴量生成ステップでは、前記統合特徴点と、当該統合特徴点を生成する元となった前記特徴点とが、同時に選択されることを排除して、前記統合された連結領域の特徴量を生成する

ことを特徴とする請求項 10又は 11に記載の文書画像特徴量生成方法。

[13] 前記特徴量生成ステップでは、前記注目特徴点を生成する元となった前記特徴点を、前記近傍特徴点として選択されることを排除して、前記統合された連結領域の特徴量を生成することを特徴とする請求項 10乃至 12の何れか 1項に記載の文書画像特徴量生成方法。

[14] 前記統合特徴点計算ステップでは、前記連結領域の統合の際、予め設定された値を超えな V、距離にある連結成分のみを統合する

ことを特徴とする請求項 10乃至 13の何れか 1項に記載の文書画像特徴量生成方法。

[15] 前記統合特徴点計算ステップでは、少なくとも 2つ以上の前記連結領域に対して、一方の前記連結領域に属する画素と他方の前記連結領域に属する画素との距離の最小値を、前記統合特徴点の計算に用いる

ことを特徴とする請求項 14に記載の文書画像特徴量生成方法。

[16] 前記統合特徴点計算ステップでは、前記連結領域の距離を計算する際に、少なくとも前記予め設定された値までの距離を求める

ことを特徴とする請求項 14又は 15に記載の文書画像特徴量生成方法。

[17] 請求項 10乃至 16の何れか 1項に記載の文書画像特徴量生成方法を用いて生成された前記特徴量を用いて文書画像検索もしくは同定を行うステップを備える

ことを特徴とする文書画像検索照合方法。

[18] 請求項 10乃至 16の何れか 1項に記載の文書画像特徴量生成方法を用いて生成された前記特徴量を格納するステップを備えることを特徴とする文書画像検索特徴量格納方法。

[19] 入力される入力画像から特徴点を抽出し、当該特徴点から特徴量を生成する文書画像特徴量生成装置における文書画像特徴量生成用プログラムであって、

入力された前記入力画像から連結領域を決定し、前記連結領域の重心と前記特徴点とを計算すると共に、少なくとも一部の前記連結領域を統合し、統合された連結領域の重心から統合特徴点を求める統合特徴点抽出手順と、

求められた前記特徴点の中から注目特徴点を設定すると共に、当該注目特徴点の近傍に配置される近傍特徴点と前記統合特徴点とから、統合された連結領域の特徴量を生成する特徴量生成手順と、

をコンピュータに実行させることを特徴とする文書画像特徴量生成用プログラム。

[20] 前記特徴量生成手順では、前記統合特徴点と、前記注目特徴点以外の前記特徴点とから前記近傍特徴点を選択し、前記統合された連結領域の特徴量を生成することをコンピュータに実行させることを特徴とする請求項 19記載の文書画像特徴量生成用プログラム。

[21] 前記特徴量生成手順では、前記統合特徴点と、当該統合特徴点を生成する元となつた前記特徴点とが、同時に選択されることを排除して、前記統合された連結領域の特徴量を生成する

ことをコンピュータに実行させることを特徴とする請求項 19又は 20に記載の文書画像特徴量生成用プログラム。

[22] 前記特徴量生成手順では、前記注目特徴点を生成する元となった前記特徴点を、前記近傍特徴点として選択されることを排除して、前記統合された連結領域の特徴量を生成する

ことをコンピュータに実行させることを特徴とする請求項 19乃至 21の何れ力、 1項に記載の文書画像特徴量生成用プログラム。

[23] 前記統合特徴点計算手順では、前記連結領域の統合の際、予め設定された値を超えな V、距離にある連結成分のみを統合する

ことをコンピュータに実行させることを特徴とする請求項 19乃至 22の何れ力、 1項に記載の文書画像特徴量生成用プログラム。

[24] 前記統合特徴点計算手順では、少なくとも 2つ以上の前記連結領域に対して、一方の前記連結領域に属する画素と他方の前記連結領域に属する画素との距離の最小値を、前記統合特徴点の計算に用いる

ことをコンピュータに実行させることを特徴とする請求項 23に記載の文書画像特徴量生成用プログラム。

[25] 前記統合特徴点計算手順では、前記連結領域の距離を計算する際に、少なくとも前記予め設定された値までの距離を求める

ことをコンピュータに実行させることを特徴とする請求項 23又は 24に記載の文書画像特徴量生成用プログラム。

[26] 請求項 19乃至 25の何れか 1項に記載の文書画像特徴量生成用プログラムを用いて生成された前記特徴量を用いて文書画像検索もしくは同定を行う手順をコンビュータに実行させることを特徴とする文書画像検索照合用プログラム。

[27] 請求項 19乃至 25の何れか 1項に記載の文書画像特徴量生成用プログラムを用いて生成された前記特徴量を格納する手順をコンピュータに実行させることを特徴とする文書画像検索特徴量格納用プログラム。