JPWO2006092957A1

JPWO2006092957A1 - 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置

Info

Publication number: JPWO2006092957A1
Application number: JP2006532580A
Authority: JP
Inventors: 浩一黄瀬; 友弘中居; 雅一岩村
Original assignee: Osaka Prefecture University
Current assignee: Osaka Prefecture University
Priority date: 2005-03-01
Filing date: 2006-02-15
Publication date: 2008-08-07
Anticipated expiration: 2026-02-15
Also published as: JP4332556B2; EP1914680A1; EP1914680A4; CN101133429B; CN101133429A; WO2006092957A1

Abstract

撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から求められた特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する方法であって、撮像されたデジタル画像から複数の特徴点を抽出し、抽出された各特徴点に対して局所的な特徴点の集合を決定し、決定された各集合から特徴点の部分集合を選択し、選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せに基づいて、幾何学的変換に対する不変量をそれぞれ求め、求めた各不変量を組み合わせて特徴量を計算し、対応する特徴量が予め求められた前記データベース中の文書・画像に対して投票を行うことにより、撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する文書・画像検索方法。

Description

この発明はデジタルカメラやスキャナなどを用いた文書・画像検索方法およびそのプログラム、文書・画像登録装置および検索装置に関する。

デジタルカメラの一般化、高機能化、小型化、低廉化は、パターン認識・メディア理解の分野に新しい可能性を与えつつある。そのひとつは、ユーザが取得する画像を様々なサービスと連携させることと考えられる。文字・文書の分野も例外ではない。カメラに基づく文字認識、文書・画像解析の研究が盛んに行われている（例えば、非特許文献１、２参照）。特に、携帯電話に付属のデジタルカメラを用いたインタフェースは重要であり、それを用いた文字読み取りや翻訳など、種々の処理が検討されている（例えば、非特許文献３、４参照）。

また、画像ベースの文書・画像、即ち、文書および／または画像を検索する従来手法としては、以下のようなものがある。Ｋａｕｎｉｓｋａｎｇａｓの方法では、文書、画像を段落や図などの領域に分け、それぞれの領域を判別し、木構造で表現する。検索を行うときは検索質問とデータベースの文書、画像の各領域とのマッチングを判定し、最もよくマッチするものを検索結果として出力する（例えば、非特許文献５参照）。Ｈｕｌｌの方法には、単語の文字数を用いた文書の索引付け法ならびに検索法、および不変量を用いた画像の索引付け法が開示されている。

また、テキストを単語ごとに分割し、各単語の文字数の並びを特徴量として文書を表現する。あらかじめデータベース中の文書の各部分の特徴量を計算してハッシュに登録しておき、検索時には入力画像に同じ処理を行って特徴量を得る。得られた特徴量を用いてハッシュにアクセスし、投票により検索を行う手法が開示されている（例えば、特許文献１、非特許文献６参照）。

上に挙げた方法は、フラットベッドスキャナなどで得られた高解像度の正対画像を対象としている。そのため、この発明が主として対象とするようなデジタルカメラを利用した文書・画像検索には利用できない。例えば、Ｈｕｌｌの方法では入力画像が文字ごとに分離されていることが前提である。しかし、その前提は、この発明の対象となるような低解像度あるいは射影変換などの幾何学的変換を受けた画像では成立しないことがある。
特開平７−２８２０８８号公報 D. Doermann, J. Liang and H. Li: "Progress in camerabased document image analysis", Proc. ICDAR'03, pp. 606-616 (2003) 黄瀬, 大町, 内田, 岩村:"カメラを用いた文字認識・文書画像解析の現状と課題", 信学技報PRMU2004-246(2005.3) 山田, 仙田:"携帯カメラを用いたユビキタス情報インタフェース"，情報処理, 45, 9, pp. 923-927 (2004) Y. Watanabe, Y. Okada, Y-B. Kim, T. Takeda: "Translationcamera", Proc. ICPR'98, pp.613-617 (1998) K. Hannu : "Document Image Retrieval with Improvements in Database Quality", Academic Dissertation of University of Oulu (1999) J. J. Hull : "Document Image Matching and Retrieval with Multiple Distortion-Invariant Descriptors", Document Analysis Systems, pp.379-396 （１９９５）

この発明の課題は、デジタルカメラやスキャナなどで撮影された文書・画像を検索質問として、文書・画像データベースを検索する方法を提供することである。ここで問題となるのは、
（１）検索質問の文書・画像はデジタルカメラやスキャナなどで撮影されるため射影変換などの幾何学的変換の歪みを受け、また全体が撮像されているとは限らないことである。さらに、検索質問画像の解像度や照明条件がデータベース中の文書・画像とは大きく異なることも問題をより困難にする要因である。換言すれば、撮影する角度によって検索質問の文書・画像がデータベースに格納された文書・画像と違う画像と認識されてしまうため、同一性の判定が困難である。撮影角度の違いを吸収できる手法が望まれている。
（２）画像の特徴を精度よく検査するためには特徴を示す要素を数多く抽出する必要があるが、要素の数が多いと同一性の判定に多大な時間が必要になる。同一性の判定のために長時間を要することのない手法が望まれている。
（３）多数の文書・画像を扱うと、類似の文書・画像が多く存在し、その中から正解を取り出すことが困難になる。類似の文書・画像から高い精度で同一性が判定できる手法が望まれている。

以上のような問題を克服するために、この発明は次のアイデアを導入する。
（１）幾何学的変換の歪みによらない文書・画像の特徴量を得るため、幾何学的変換に対する不変量を用いて特徴量を計算する。この発明では、不変量の一例として、複比をとりあげる。複比は、直線上の４点または平面上の５点から求められる値で、幾何学的変換の一種である射影変換に対する不変量として知られている。複比を用いるためには、対象とする文書・画像の特徴を点（特徴点）であらわす必要がある。複比の計算に用いる特徴点には、例えば英文文書の場合には単語の重心を用いればよい。また、部分画像からの検索を可能にするため、文書・画像の部分ごとに得られる複比を用いて特徴量を計算すればよい。また、射影変換の他に、アフィン変換や相似変換についても触れる。

（２）特徴点の可能な対応付けを全て試すことは、組み合わせ爆発が生じるため現実的ではない。そこで、この発明は、ハッシュを用いた投票を導入し、特徴点の対応を陽に取らずに検索を行う。登録時には、まず文書・画像から特徴点を求めて特徴量を計算し、そこからインデックスを求めてハッシュに登録する。検索時には、検索質問から同様の処理で特徴点、特徴量、インデックスを求めてハッシュにアクセスし、登録されている文書・画像に対して投票を行うことで検索する。投票処理は、従来から知られた概念であるが、文書・画像の検索に適用された事例はほとんどない。

（３）複比の値によって同一の画像であることを示すためには、複比の計算の元となる点同士が対応していなければならない。しかし、画像から抽出したＮ個の点を全て対応付ける組み合わせはＮ！個ある。十分な判定精度を得ようとすると点の数を十分多くしなければならないが、そうすると計算量が多すぎる。

前述のＨｕｌｌの方法でも、Geometric Hashing手法の計算量O(N³)が大きいことが発明の動機の一つに挙げられている。そして、回転及び拡大縮小に対する不変量（後述する相似不変量）となるように３個または４個以上の特徴点（注目ポイント）を用いることが述べられている。しかし、Ｈｕｌｌの方法に従ったとしても、N個の特徴点から３個を取り出す場合の数はO(N³)通りあり、その数は従来手法とかわらない。従って、従来手法に比していかに計算量が低減し得るのか明確でない。従来手法よりも計算量を低減できる手法が望まれている。
ここで、O(N)あるいはO(N³)は、問題を解くために必要なおおよその計算量の表記方法であって、O(N)はNが定まったときの計算量がaN+b以下で収まることを、O(N³)はaN³+bN²+cN+d以下で収まることを表す。ただしa,b,c,dは定数である。

この発明によれば、ある点に着目してその点の近傍ごとに特徴量を定義する。即ち、ある点の近傍ｎ個の点を取り出す。さらに、ｎ個の点からｍ個の点（複比の単位とする点の数、４または５＜ｍ＜ｎ）を取り出せば、幾何学的変換を受けても互いに対応する点の近傍ｎ個のうちｍ個の点が一致するような組合せが存在すると考え、全ての点についてその近傍ｎ個のうちｍ個の点の組み合わせを全て試すようにする。ｎ、ｍの値を適当に選択することにより、計算量の爆発を回避することができる。即ち、この発明によれば、Hullと同様に相似変換に対する不変量を用いる場合の計算量は従来のO(N³)通りからO(N)に低減される。また、射影変換に対する不変量を用いる場合はO(N⁵)通りからO(N)に、アフィン不変量に対する不変量を用いる場合はO(N⁴)通りからO(N)にそれぞれ軽減される。

さらに、ｍ個の点から４または５個の点を選んで複比を計算すると、いくつかの複比が他の画像と同じになっても、全ての複比が一致することは非常に稀になる。その結果、精度よく同一性が判定できる。

換言すれば、この発明は、従来の認識処理とは異なる可能性の一つとして、検索処理の一手法を提案する。具体的には、デジタルカメラやスキャナなどで撮影した文書・画像の一部あるいは全部を「検索質問」とし、その検索質問を含む文書・画像をデータベースから検索する処理である。このような検索処理は、手元の印刷物から対応する電子文書を検索したり、印刷物に対する書き込みを抽出するための前段階の処理としても用いることができる。

デジタルカメラやスキャナなどを用いた文書・画像検索が、従来の文書・画像検索と大きく異なる点は、画像が受ける種々の歪みにある。スキャナにより好適な条件で取得される従来の文書・画像が受ける幾何歪みは、ほぼ相似変換の一種である回転のみであった。これに対して、デジタルカメラによる文書・画像は射影変換による歪みを被る。また、スキャナを用いる場合であっても、例えば、製本された文書・画像など被写体が立体物の場合は少なくとも画像の一部にアフィン変換あるいは相似変換による歪を被る場合がある。デジタルカメラ、特に携帯電話に付属のものや小型のスキャナの特性を考えると、部分的に取得された文書・画像からも検索可能（部分検索が可能）でなければならない。

そこで、この発明では前述のように２つのアイデアを導入する。つまり、一つは幾何学的変換に対する不変量である複比（ｃｒｏｓｓ−ｒａｔｉｏ）に着目し、文書・画像を複比によってインデックス付けすることである。文書・画像の様々な「部分」から複比を計算し、インデックスとすることにより、部分検索にも対処する。もう一つは、ハッシュを用いた投票処理により検索を実現することである。これにより、特徴点の対応を陽に求めることなく、柔軟かつ比較的高速な検索が可能となる。

なお、上記の複比（ｃｒｏｓｓ−ｒａｔｉｏ）は、コンピュータビジョンの分野で、種々の変換に対する不変量の一種としてしばしば用いられる。これは、図１に示すように同一平面上で一直線状に並ぶ点ＡＢＣＤに対して、以下の式で求められる。

また、複比は同一平面上の５点から、図２のようにして一直線上の４点を生成して計算することもできる。ここで、点ＡＢＣＤＥの複比はＡ'Ｂ'Ｃ'Ｄ'の複比として求められる。さらに、同一平面上の５点からは、以下のような不変量も知られている。

ここで、Ｐ（Ａ，Ｂ，Ｃ）は、頂点Ａ，Ｂ，Ｃから構成される三角形の面積である。この発明では、例えば、このような複比を用いて文書・画像固有の特徴量を計算し、文書・画像の検索を行う。

また、複比以外の幾何学的変換に対する不変量（幾何学的不変量）を用いてもよい。幾何学的不変量とは、幾何学的変換を通じて変化しない値であり、幾何学的変換の種類に応じて様々な幾何学的不変量が存在する。
換言すれば、この発明では、同一平面上のｆ点から計算される幾何学的不変量を用いて特徴量を計算する。幾何学的不変量の計算に要する点の数ｆは不変量の種類によって異なる。以下に、幾何学的不変量の例を挙げる。

１．複比：前述のように、複比は，射影変換の不変量であり，同一平面上の5点ABCDE(f=5)の座標から｛P(A,B,C)P(A,D,E)｝/｛P(A,B,D)P(A,C,E)｝で求められる。複比は射影変換の不変量であるため，点ABCDEの座標が射影歪みによって変化しても，その値は同一に保たれる．
２．アフィン不変量：アフィン不変量はアフィン変換における不変量である。アフィン変換とは、直線の平行性が維持される幾何変換であり、射影変換よりも自由度の低い変換である。射影変換を受けた平面においても、局所領域ではその変換がアフィン変換に近似されることがあるため、点の局所配置に基づく提案手法では複比の代わりにアフィン不変量を利用することが考えられる。

アフィン不変量は、例えば、同一平面上の4点ABCD(f=4)の座標からP(A,C,D)/P(A,B,C)で計算される。
３．相似不変量：相似変換はアフィン変換よりもさらに自由度の低い変換であり、拡大・縮小、回転、並進のみからなる変換である。相似変換においては直線間の角度、距離の比、面積の比、距離の2乗と面積の比などが不変となる。例えば、3点ABC(f=3)からAC/ABで計算される距離の比を用いてもよい。

ところで、画像上の特徴点から得られる不変量の値は連続値であるが、インデックスに用いる際には離散化する必要がある。好ましい実現手法の一つは、予備実験により特徴点から得られる不変量のヒストグラムを作成し、各離散値における不変量の頻度が等しくなるように離散値を割り当て、ｋ階調に量子化することである。

この発明は、上記のようなアイデアに基づいてなされたものであり、撮影されたデジタル画像を使って、文書・画像情報が登録されたデータベースから文書、画像を検索する方法であって、撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて文書・画像の特徴量を求め、データベース中の文書・画像情報のうち求めた特徴量に一致する文書・画像に対して投票を行うことにより前記デジタル画像に対応する文書・画像を検索する文書・画像検索方法を提供するものである。

前記特徴点が、画像の中に繰り返し現れる特定の部位であってもよい。
前記特徴点が、単語領域の重心であってもよい。単語領域の重心を特徴点とすることにより、例えば英語など、単語領域が互いに分離されて配置される言語で書かれた文書の特徴を精度よく識別することが可能である。
前記特徴点が、後述する黒画素の連結成分の重心であってもよい。
前記特徴点が、漢字の閉鎖空間であってもよい。漢字の閉鎖空間を特徴点とすることにより、単語領域が互いに分離されて配置されることのない言語、例えば日本語であっても文書の特徴を精度よく識別することが可能である。
前記不変量が複比であってもよい。複比を用いることによって、幾何学的変換を受けた画像から、元の画像を検索することができる。
撮影方法が、デジタルカメラあるいはスキャナによるデジタル方式の撮影方法であってもよい。

また前記特徴量が、特徴点の局所的な集合を決定し、決定された各集合に含まれる特徴点からその一部の特徴点を選択する一の組み合わせに対して不変量を計算し、各組合せに対する不変量を用いた計算によって求められる値であってもよい。
このようにすれば、特徴点の局所的な集合から特徴量を求めるので、全ての特徴点の全ての組み合わせについて計算する方法に比べて計算量を減らすことができ、同一性の判定に要する処理時間を短縮することができる。あるいは、局所的な特徴点から特徴量を求めるので、部分検索に対応することができる。
さらに、前記特徴量が、特徴点の一の組み合わせから得られる不変量を複数個組み合わせることによってその識別能力が高められた特徴量であってもよい。このようにすれば、複比を組み合わせた値を特徴量とするので、類似の文書・画像から高い精度で同一性を判定することができる。

また、この発明は、文書・画像を入力する工程と、入力された文書・画像にＩＤを付す工程と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する工程と、抽出された各特徴点について実行する（１）〜（２）の工程であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する工程、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の工程であって、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求める工程、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
（ｃ）求められたハッシュのインデックスを用いて（ａ）の工程で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する工程、
の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法を提供する。
この登録方法によれば、各特徴点ｐの近傍にあるｎ個の特徴点を局所的な集合として決定し、各集合からｍ個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からｍ個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、ｍ個の特徴点からｄ個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量を得ることができる。

前記特徴量が、ｍ個の点から５個の特徴点を選択する全ての組み合わせについて５個の特徴点の巡回置換のそれぞれについて求められる複比からなるものであってもよい。
また、前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、

ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖ_maxは離散化された複比の最大値、ｐａｔはｍ点から５点を取り出す組み合わせパターンに与える識別番号で０から_mＣ₅−１の何れかの値であってもよい。
あるいは、前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、

ここで、ｋは複比の量子化レベル数、Ｈ_sizeはハッシュのサイズ、ｃｒ_nはｍ点から取り出した５点の組み合わせに対する複比であってもよい。
また、この発明は、前述の登録方法により登録された文書・画像の検索方法であって、撮影画像を読み取る工程と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、抽出された各特徴点について実行する（１）〜（２）の工程であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する工程、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の工程であって、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求める工程、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）の工程で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する工程と、
各特徴点について（１）〜（２）の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する工程とをコンピュータに実行させることを特徴とする文書・画像の検索方法を提供する。
この検索方法によれば、各特徴点ｐの近傍にあるｎ個の特徴点を局所的な集合として決定し、各集合からｍ個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からｍ個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、ｍ個の特徴点からｄ個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量で検索することができる。

ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖ_maxは離散化された複比の最大値、ｐａｔはｍ点から５点を取り出す組み合わせパターンに与える識別番号で０から_mＣ₅−１の何れかの値であってもよい。
あるいはまた、前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、

ここで、ｋは複比の量子化レベル数、Ｈ_sizeはハッシュのサイズ、ｃｒ_nはｍ点から取り出した５点の組み合わせに対する複比であってもよい。
前記文書・画像登録方法あるいは文書・画像検索方法は、例えば、汎用のパーソナルコンピュータによって実行されるものであってもよい。

また、この発明は別の観点から、撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて画像の特徴量を求め、文書・画像を格納するデータベース中にある求めた特徴量に一致する文書・画像に対して投票を行うことにより撮影された画像に対応する文書・画像データをデータベースから検索する処理をコンピュータに実行させるプログラムを提供するものである。

さらにまた、この発明は、文書・画像を入力する処理と、入力された文書・画像にＩＤを付す処理と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する処理と、抽出された各特徴点について実行する（１）〜（２）の処理、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する処理、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の処理であって、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求める処理、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
（ｃ）求められたハッシュのインデックスを用いて（ａ）の処理で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する処理、
の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラムを提供する。

また、この発明は、前述の登録プログラムを用いて入力された文書・画像の検索プログラムであって、撮影画像を読み取る処理と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する処理と、抽出された各特徴点について実行する（１）〜（２）の処理、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する処理、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の処理、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求める処理、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）の処理で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する処理と、
各特徴点について（１）〜（２）の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム、文書・画像登録装置および検索装置を提供する。

前記文書・画像登録プログラムおよび文書・画像検索プログラムは、例えば、汎用のパーソナルコンピュータ上で処理が実行されるものであってもよい。
さらに異なる観点から、この発明は、文書・画像を入力する入力部と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、抽出した各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する特徴点選択部と、選択されたｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて次の（ａ）〜（ｃ）の処理、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求め、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
（ｃ）求められたハッシュのインデックスを用いて（ａ）で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する処理、
を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置を提供する。

前記文書・画像登録装置は、汎用のパーソナルコンピュータをハードウェアとして用いることができる。この場合、入力部は外部の装置と文書・画像データをやり取りする通信Ｉ／Ｆや、データを記憶する記録メディアを読み書きするドライブ、例えばＤＶＤドライブやＣＤドライブ、あるいは画像を読み込むスキャナ装置で構成される。また、特徴点抽出部、特徴点選択部、特徴量登録部の各機能は、アプリケーションとしてインストールされるプログラムをパーソナルコンピュータのＣＰＵが実行することによって実現することができる。あるいは、ＤＳＰやＡＳＩＣを用いた専用のハードウェアによってその機能を実現してもよい。

また、この発明は、前記登録装置により登録された文書・画像を格納してなる文書・画像記憶装置を提供する。
前記文書・画像記憶装置は、汎用のファイルサーバーをハードウェアとして用いることができる。

さらにまた、この発明は、前述の文書・画像記憶装置に格納された文書・画像を検索する検索装置であって、撮影画像を読み取る読取部と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する特徴点抽出部と、抽出した各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する特徴点選択部と、選択されたｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて次の（ａ）〜（ｃ）の処理、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値（４や５など））を選択する全ての組合せについてｄ個の点に係る特徴量を求め、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する処理、
を行う投票処理部と、各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する文書ＩＤ特定部とを備えることを特徴とする文書・画像の検索装置を提供する。

前記文書・画像検索装置は、汎用のパーソナルコンピュータをハードウェアとして用いることができる。この場合、読取部は撮影画像を受信する通信Ｉ／Ｆや、撮影画像が記録された記録メディア、例えばＳＤカード（登録商標）やメモリースティック（登録商標）読み込むＩ／Ｆで構成される。また、特徴点抽出部、特徴点選択部、投票処理部の各機能は、アプリケーションとしてインストールされるプログラムをパーソナルコンピュータのＣＰＵが実行することによって実現することができる。あるいは、ＤＳＰやＡＳＩＣを用いた専用のハードウェアによってその機能を実現してもよい。

前記文書・画像検索装置は、前記文書・画像記憶装置としての機能を備えていてもよい。あるいは、前記文書・画像検索装置は、前記文書・画像登録装置としても機能するものであってもよい。あるいはまた、文書・画像記憶装置と文書・画像登録装置の両方の機能を備えていてもよい。

この明細書で、「文書」とは、文字で表された情報であってデータベースに蓄積し検索できるものをいう。文書の一例は、契約書やパンフレットのようなビジネス文書、科学技術論文、新聞、カタログである。また、「画像」とは文字以外のパターンで表示され、撮影可能な情報であってデータベースに蓄積し検索できるものをいう。画像の一例は、図形や図面、写真、ポスターである。「画像」は、文書を画像として表したものを含む。

また、「連結成分」とは、画像の中にあって互いに繋がっている画素の集まりをいう。具体的には、ある画素の上下左右斜めの方向に隣接する画素がある場合、両者は互いに繋がっており、連結成分を構成すると考える。「特徴点」とは、画像の特徴を表す点であり、画像処理によって抽出される点のことをいう。「不変量」とは、幾何学的変換を受けても変化しない量の総称である。幾何学的変換の一例は回転であり、画像を回転させても、画像中に映っている図形の面積は変化しない。図形の面積は回転に対する不変量の例である。また、辺の長さの比は、拡大縮小に対する不変量の例である。幾何学的変換には、前述の回転や拡大縮小などの相似変換のほかに前記の射影変換やアフィン変換がある。

「投票」とは、情報処理の分野で部分的に証拠を集計するために用いる処理であって、得られた証拠に基づいて選択肢の何れかに得点を与え、すべての証拠を集計した結果最高得点を得た選択肢を選択する処理をいう。一般的に各証拠は異なる点数の票を持つ。
さらにまた、「検索質問」とは、情報検索において、ユーザの検索要求を表すデータをいう。この発明の場合には、ユーザは画像を検索質問として入力する。即ち、ユーザは、「この画像と同じものをデータベースより取り出せ」という意味で画像を入力する。

この発明によれば、デジタルカメラやスキャナなどの撮像画像から特徴点を抽出し特徴点から不変量を算出して文書・画像を検索するので、所望の文書・画像を高精度で検索できる。

この発明に係る複比の例を示す説明図である。この発明に係る複比の他の例を示す説明図である。この発明に用いる文書画像検索システムを示すブロック図である。この発明の入力画像の一例を示す説明図である。図４の２値画像を示す説明図である。図５の画像を処理した画像の説明図である。図６の画像をさらに処理した画像の説明図である。この発明の特徴点を説明する説明図である。この発明の特徴点を説明する説明図である。この発明における特徴点を複比との関係を示す説明図である。この発明における特徴点を説明する説明図である。この発明の登録処理の手順を示す説明図である。（実施の形態１）この発明のハッシュの構造を示す説明図である。（実施の形態１）この発明の検索処理の手順を示す説明図である。（実施の形態１）この発明の１次投票テーブルを示す説明図である。この発明の２次投票テーブルを示す説明図である。この発明のデータベース中の画像を示す説明図である。この発明のデータベース中の画像を示す説明図である。この発明の実験例１で用いる撮像画像例を示す説明図である。この発明の実験例１で用いる撮像画像例を示す説明図である。この発明の実験例１で用いる撮像画像例を示す説明図である。この発明の実験例１で用いる撮像画像例を示す説明図である。この発明の実験例２で用いる撮像画像例を示す説明図である。この発明の実験例２で用いる撮像画像例を示す説明図である。この発明の実験例２で用いる撮像画像例を示す説明図である。この発明の実験例２で用いる撮像画像例を示す説明図である。この発明の実験例２で用いる撮像画像例を示す説明図である。この発明の登録処理の手順を示す説明図である。（実施の形態２）この発明のハッシュの構造を示す説明図である。（実施の形態２）この発明の検索処理の手順を示す説明図である。（実施の形態２）この発明の投票処理において、検索質問の特徴点ｐと登録文書の点の対応付けを示す説明図である。（実施の形態２）この発明の実験例３で用いる撮像画像例を示す説明図である。この発明の実験例３でデータベースへの登録ページ数と検索精度の関係を調べた実験結果を示すグラフである。この発明の実験例３で用いた検索質問の例を示す説明図である。この発明の実験例４でデータベースへの登録ページ数と検索時間の関係を調べた実験結果を示すグラフである。この発明に係る特徴点抽出の手順の例を示すフローチャートである。文書への書き込みを電子文書に反映させるシステムの構成例を示す説明図である。図３８は、撮影画像を正対に戻す例を示す説明図である。この発明の文書・画像登録装置の構成を示すブロック図である。この発明の文書・画像の検索装置の構成を示すブロック図である。ｎ個の点（n=8）からｍ個の点（m=7）を選ぶすべての組み合わせを説明する説明図である。（実施の形態２）ｆ個の点の組み合わせから得られる不変量で定義されるｍ(m=7)個の点の配置を示す説明図である。（実施の形態２）図２８と異なる登録の手順を示す説明図である。（実施の形態２）図３０と異なる検索の手順を示す説明図である。（実施の形態２）データベース中の登録文書の例を示す説明図である。（実施の形態２の実験例）検索質問の例を示す説明図である。（その他の実験例）撮影角度と検索精度の関係を示すグラフである。（その他の実験例）処理時間の目安としてのT(n,m,l)と処理時間との関係を示すグラフである。（その他の実験例）量子化レベルと検索精度および処理時間との関係を示すグラフである。（その他の実験例）登録ページ数と検索結果の関係を示すグラフである。（その他の実験例）検索に失敗した検索質問の例を示す説明図である。（その他の実験例）登録ページ数と検索速度およびリスト長との関係を示すグラフである。（その他の実験例）データベース中の登録文書の例を示す説明図である。（その他の実験例）検索質問の例を示す説明図である。（その他の実験例）さまざまなパラメータでの撮影角度と検索精度の関係を示すグラフである。（その他の実験例）ｎ個の点(n=3)から定められるm個の点(m=2)の配置を示す説明図である。（その他の実験例）文書以外の画像に対して、この発明の手法を用いた処理例を示す説明図である。（d=16,n=28,m=1）（その他の実験例）

符号の説明

１文書・画像登録装置
３検索装置
１１入力部
１５特徴点抽出部
１７特徴点選択部
１９特徴点登録部
２１読取部
２３特徴点抽出部
２５特徴点選択部
２７投票処理部
２９ＩＤ特定部
３１文書画像データベース

この発明の文書・画像検索システムの構成を図３に示す。文書・画像は、特徴点抽出により点の集合に変換された後、登録の場合は登録処理へ、検索の場合は検索処理に入力される。登録処理では、特徴点を用いて複比を計算し、それをインデックスに変換することによってハッシュに文書を登録する。一方、検索処理は、特徴点から同様にインデックスを計算し、投票を行うことで所望の文書・画像を検索する。

ハッシュは、データベースのデータに対して高速にアクセスするための仕組みであり、格納するデータに対してキーを定め、キーを用いて計算される場所（アドレス）にデータを格納するものである。詳細には、前記キーをインデックスとする配列のテーブルとしてハッシュテーブルがあり、ハッシュテーブルの各要素には、リストデータへのポインタが格納されている。前記キーからハッシュテーブルのインデックスを計算し、求めたインデックスでハッシュテーブルを参照して得られたポインタで示されるアドレスにデータを格納する。キーをハッシュテーブルのインデックスに変換する関数がハッシュ関数である。格納されたデータの取り出しに際しては、ハッシュ関数を用いてキーからハッシュテーブルのインデックスを得、得られたインデックスで参照されるハッシュテーブルの要素に格納されたポインタを用いてデータを取り出す。

以下、各々について述べる。
特徴点抽出
特徴点抽出で重要なことは、特徴点の再現性、すなわち幾何学的変換・ノイズ・低解像度の影響下でも同一の特徴点が得られることである。英文文書における単語の重心は、この条件を満たす特徴点の１つである。これは、英文文書では単語と単語の間に空白があり、分離が比較的容易なためである。

例を用いて手順の概略を説明する。入力画像（図４）は、まず適応２値化により２値画像（図５）に変換される。次に、２値画像から以下のように単語領域を得る。まず、ガウシアンフィルタを適用して２値画像を平滑化する（にじませる）。このときガウシアンフィルタのパラメータは文字サイズの推定値（連結成分の面積の最頻値の平方根）に基づいて適応的に定める。そして、平滑化した画像に対して、再度適応２値化を適用し、２値画像（図６）を得る。この画像の連結成分を単語領域とみなし、その重心を特徴点とする。図６に対しては図７が得られる。

次に、図３６に示すフローチャートに沿って、手順の詳細について述べる。入力画像を図３６（ａ）のフローチャートに沿って処理し特徴点の集合を得る。
最初の処理はサイズ補正である。入力画像が携帯電話付属のカメラからのものであるときは、画像サイズが大きく異なるので画像を拡大し、サイズを補正する。

次に次式で表される適応２値化を施す。
ここで、Ｉは入力画像（濃淡画像）、Ｆは出力画像（２値画像）、Ｔは適応的に求められる閾値であり、上の「式２」で定義される。ここで、ｂは閾値を決めるために参照するブロックのサイズ、ｓは閾値を制御するパラメータである。この式は、ブロック内の濃度値の平均から一定量の値（ｓ）を引いたものを閾値とすることを意味している。

前処理は、図３６（ｂ）に表されている。文書・画像をデータベースに登録する際の「データベース構築モード」か、撮影画像に対応する文書・画像を検索する検索モードかによって処理が異なる。データベース構築モードではない場合、すなわち検索を行う場合、それが携帯カメラを用いない通常の検索の場合（通常検索モード）には、面積が小さい連結成分を消去する。一方、データベース構築モードのときには、まず連結成分の面積の最頻値の平方根として文字のサイズを推定する。次にそれをＨａｓｈＳｃａｌｅ倍して平滑化のパラメータｃとする。平滑化では、まず、次式でガウシアンフィルタの標準偏差σを求める。

次に、この式で規定されたガウシアンフィルタによって画像を平滑化する。そして、再度、適応２値化を用いて２値画像を得る。以上が前処理である。
図３６（ｃ）のフローチャートについて説明する。上記が前処理であったので、次の処理は平滑化パラメータ推定である。これについては、前述のパラメータ推定と同様の処理を施す。次段の平滑化も前述と同様である。平滑化後の画像に対して再度適応２値化を施し、２値画像を得る。最終的には、前述の処理手順によって得た２値画像の連結成分を取り出し、その重心を特徴点とする。

インデックスに用いる特徴量計算
登録、検索の鍵となるのは、複比を用いていかにハッシュのインデックスを計算するかである。ここでは、登録、検索の詳細について述べる前に、インデックスに用いる特徴量の計算方法についてまとめる。

画像上の特徴点から得られる複比の値は連続値だが、インデックスに用いるときはｋ個に離散化する。幾何学的変換や撮影条件の変動による誤差を吸収するために、ｋの値はある程度小さくすることが好ましいが、小さすぎると識別力が落ちるので、適当な値を選択する必要がある。ここでは予備実験の結果として得られたｋ＝９を用いて説明するが、ｋの値は一例であってこれに限定されるものではない。また、ここでは、部分検索を可能とするため、各特徴点の近傍ごとに定まる特徴量を用いる。

各特徴点の近傍で特徴量を定義するとき、以下のようなものが考えられる。

（１）近傍５点の複比
（２）近傍ｎ点からの５点の複比
（３）近傍ｎ点からのｍ（＜ｎ）点の配置、およびｍ点からの５点の複比
この発明ではこのうち最も複雑な（３）を用いる。以下ではこれら３つの手法を単純なものから説明し、この発明における特徴量と、なぜ複雑な手法が必要になるかについて述べる。
近傍５点の複比
特徴点の近傍から複比を用いて特徴量を定義するとき、まず容易に思いつくのは最近傍５点から複比を計算する方法である。例えば、図８に示す特徴点ｐに対して最も近い１から５の５点を選び出し、そこから複比を計算して点ｐの特徴量とすることが考えられる。

しかし、図８、図９に示すように、異なる角度から撮影した文書・画像では、最近傍の５点は変化する。そのため、同じ文書の同じ点から同一の特徴量が得られないという問題が生じる。
近傍ｎ点からの５点の複比
次に考えられるのは、近傍ｎ点からあらゆる５点の組み合わせを選び出し、そこから複比を計算する方法である。

図８、図９の例では、最近傍の５点こそ異なるが、近傍８点中の７点までは同一である。このように、近傍ｎ点にはあまり変化しないｍ（＜ｎ）点が存在する。従って、ｎ点からすべての５点の組み合わせを生成して複比を計算すれば、共通するｍ点中の５点から計算される複比は一致すると考えられる。このことから、近傍ｎ点のすべての５点の組み合わせの複比を特徴量とし、比較する際にはそのうちの変化しないｍ点中の５点から計算される複比が一定数以上一致する場合に同一の点であるとみなす方法が考えられる。

しかし、実際にこの特徴量を用いて検索を行うと、正しい結果が得られないことが多い。図１０に示す例を用いて考える。いま簡単のため、近傍ｎ点から得られるすべての複比を図１０の４個とする。ここでは、特徴点Ａの近傍で定義される複比が（０．２，１．３，０．３，１．８）、同様に特徴点Ｂから（１．２，１．６，０．１，０．２）が得られている。いま、複比を０．５ステップで離散化するとすれば、離散化後は各々（０，２，０，３）、（２，３，０，０）となる。種類のみを考えると両者とも０，２，３の出現となり、同じものと認定される。実際の画像で計測するとこのような状況が頻出し、検索に失敗する。
近傍ｎ点からのｍ点の配置およびｍ点からの５点の複比
上記の問題を解決する一方策は、順序を含めて複比を考えることである。つまり、図１０の例では、（０，２，０，３）と（２，３，０，０）を別のものとして区別することである。

具体的に、図１１の例を用いて説明する。ここで点ＡＢＣＤＥＦＧＨと点ＩＪＫＬＭＮＯＰは、同一文書の異なる画像において、対応する点の近傍８点の組とする。８点の組のうち異なるものはＥ，Ｌの１点のみであり、残り７点は共通である。従って、それぞれの８点からすべての７点の組み合わせを取り出せば、そのうちＡＢＣＤＦＧＨとＩＪＫＭＮＯＰの１組はまったく同じものになる。このように完全に共通な７点の組から、ある定まった順序ですべての５点の組み合わせを生成すれば、順序も含めて完全に一致する。つまり、最初は点ＡＢＣＤＦから得られた複比と点ＩＪＫＭＮから得られた複比、次は点ＡＢＣＤＧから得られた複比と点ＩＪＫＭＯから得られた複比というように、同じ順序で共通な７点から複比を計算すれば、同じ順序で同じ複比が得られる。異なる７点の組から同じ複比がまったく同じ順序で現れるということはまれであるので、この順序付けられた複比を特徴量として用いれば、上記問題の解決が期待できる。

特徴量の計算方法についてまとめる。まず、与えられた点の近傍ｎ点を取り出す。次に、ｎ点からすべてのｍ点の組み合わせを作成する。ｍ点から定まった順序で５点の組み合わせを作成し、複比を計算する。ここで、複比の値が順序も含めてｌ個以上一致したとき、特徴量は一致すると判定する。

（実施の形態１）
登録
以上の準備に基づき、まず、登録処理の手順について述べる。データベース中に格納する文書・画像は、データベースに格納する際に、その特徴点を抽出して特徴量を計算し、文書・画像に対応付けて格納しておけばよい。撮影された画像データが得られたら、その特徴量を計算し、データベース中の各文書・画像に対応付けられた特徴量との一致を調べることにより撮影された画像データに対応する文書・画像をデータベース中の文書・画像から検索することができる。

図１２に登録処理の手順の一例を示す。ここで、文書ＩＤは文書の識別番号であり、点ＩＤは文書ごとに各点に割り当てられる点の識別番号である。_nＣ_mパターンＩＤはｎ点からｍ点を取り出す際の組み合わせパターンに与えられる識別番号であり、０からＣ_m−１の値をとる。同様に_mＣ₅パターンＩＤはｍ点から５点を取り出す際の組み合わせパターンの識別番号であり、０から_mＣ₅−１の値をとる。
文書画像が登録されるハッシュの構造を図１３に示す。ここで、「文書画像」は、文書が画像として記録されたものをいう。登録処理では、５〜８行目でハッシュのインデックスを求め、９行目でインデックスを用いてハッシュに登録するという処理を繰り返す。

処理に沿って説明する。まず図１２に示す登録手順の５〜７行目では、５点から５通りの複比を計算する。５通りの複比は、得られた５点ＡＢＣＤＥに対して、ＡＢＣＤＥ，ＢＣＤＥＡ，ＣＤＥＡＢ，ＤＥＡＢＣ，ＥＡＢＣＤというように先頭となる点を巡回させて得られるものである。
次に、８行目でハッシュテーブルのインデックスを計算する。ハッシュ関数を以下に
示す。

ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖ_maxは離散化された複比の最大値、ｐａｔは_mＣ₅パターンＩＤである。
９行目でインデックスを用いて（文書ＩＤ、点ＩＤ、_nＣ_mパターンＩＤ）の組をハッシュに登録する。ハッシュで衝突が起きた場合、データは図１３のようにリスト構造で付け加えられる。ここで、文書ＩＤだけでなく、点ＩＤおよび_nＣ_mパターンＩＤもハッシュに登録するのは、検索時に特徴量の比較を行う際、順序付けられた複比の一致する個数を、文書ＩＤ、点ＩＤ、_nＣ_mパターンＩＤごとに集計するためである。
検索

次に検索について述べる。図１４に検索処理の手順の一例を示す。この発明ではまず図１５に示す１次投票テーブルを用いて一定数ｌ以上の複比が順序も含めて一致しているかどうかを調べ一致しているものについて図１６に示す２次投票テーブルに対して投票を行い、検索結果を決める。ここで、ｌの好適な値を決定するためには、１（ｌ（_mＣ_nの制約条件の下、複数の適当な値を選んで予備的な実験を行い、検索結果の正解と不正解との比が大きい値をｌの値として決定すればよい。

登録と同様に処理に沿って説明する。まず図１４に示す検索手順の６〜９行目で登録時と同様の手法によりハッシュのインデックスを求め、１０行目でハッシュを読んで図１３にあるようなリストを得る。リストの各要素について、１次投票テーブルの該当するセルに投票を行う。

このような処理を繰り返し行い、ｍ点からのすべての５点の組み合わせについて投票が終わったら、１次投票テーブルの各セルを調べる。ｌ以上の得票数をもつセルが見つかったら、セルの属する文書ＩＤで２次投票テーブルに投票する。
以上の処理により、最終的に２次投票テーブルで最も得票数の多い文書を検索結果とする。

なお、４行目でＰ_mから開始点を変えたＰ'_mを作成し、すべてのＰ'_mについて処理を行っているのは、Ｐ_mとして点ＡＢＣＤＥＦＧが与られたとき、Ｐ'_mとしてＢＣＤＥＦＧＡ，ＣＤＥＦＧＡＢのように巡回させたものをｍ通り作成することに相当する。これは、画像が回転している場合に対応するためである。

（実施の形態２）より高速化した手法
この実施例では、実施の形態１に比べて、登録あるいは検索に要する処理時間をより短縮できる手法について説明する。
改善された登録ならびに検索方法を説明する前に、特徴量計算に関する説明を補足する。

特徴量計算
１．特徴量の満たすべき条件
この明細書において、特徴量とは，文書画像の特徴点を表現する量である。検索質問および登録文書のそれぞれについて、特徴点から得られる特徴量を計算し、それらの値を比較することで検索質問と登録文書が対応しているか否かを判断する。
特徴量の評価基準としては，検索精度や検索に要する計算量が挙げられる。検索質問に対応する登録文書を正確に、かつ高速に検索できる特徴量が優れた特徴量であるといえる。ここでは、特徴量の精度に関する条件として以下の2条件を定義する。

第一の条件は、各種歪みの影響を受けても同じ文書の同じ点からは同じ特徴量が得られなければならないということである。もし登録文書と検索質問から異なる特徴量が得られれば、検索によって正しく対応する特徴点を見つけることはできない。この条件を「特徴量の安定性」と呼ぶ。
第二の条件とは、異なる点からは異なる特徴量が得られなければならないということである。もし異なる文書から同じ特徴量が得られれば、検索の際に正しく対応する特徴点だけでなく、対応しない特徴点まで見つかることになる。この条件を「特徴量の識別性」と呼ぶ。

また、第三の条件として、特徴量を求める計算量が小さいことも必要もある。いうまでもなく、安定性や識別性の高い特徴量であっても、計算量が膨大であれば利用は困難となる。従って、特徴量は精度に関する上記の2条件を満たすだけでなく、計算量が小さくなければならない。
これら3つの条件が高速かつ高精度な文書画像検索における特徴量の満たすべき条件である。

２．特徴量の安定性
前述の３つの条件のうち、まず特徴量の安定性について述べる。前述のように，提案手法では各特徴点の近傍点から不変量を用いて特徴量を計算する。そのため、特徴量が安定であるためには、射影歪みによって近傍点の座標が変化しても特徴量の計算に用いる点として同じ点が得られる必要がある。図８および図９に示すように、近傍点は射影歪みの影響で変化する。このため、特徴点ｐの近傍ｆ点から計算される不変量を特徴量とすると、同じ特徴点ｐから同じ特徴量を得ることはできない。

そこで、この発明では、より広い範囲の近傍点から複数の点の組み合わせを作成し、そこから複数の特徴量を計算する。これは、図8、図９のように、射影歪みの影響があってもある程度広い範囲の近傍ｎ点（図８、図９では8点）のうちｍ点（図８、９では７点）までは同じ点が含まれるという仮定に基づいている。近傍ｎ点のうちｍ点が同一であるならば、図４１のようにｎ点からすべてのｍ点の組み合わせPm(0)、Pm(1)、…、Pm(_nC_m−1)を作成し、それぞれ特徴量を計算することで少なくとも1つは同じ特徴量が得られると考えられる。

３．特徴量の識別性
次に、特徴量の識別性について述べる。提案手法では、1つの特徴量の計算に用いる特徴点の数ｍを増やすことで識別性を高める。ｍ点の配置の表現方法としては、図４２のようにｍ点から得られるすべてのｆ点の組み合わせから計算される不変量の列cr(0)、cr(1)、…、cr(_mC_f−1)を用いる。なお、cr(i)と前述のcr_iとは同じ複比を表しており同値である。ｍが大きければ大きいほど、計算される不変量の数が多くなるため、同じ特徴量が偶然に現れる可能性は低くなる。ただし、ｍが大き過ぎると特徴量の安定性が低下する。なぜなら、特徴量が一致するためには特徴量の不変量すべてが一致する必要があるが、ｍが大きいと不変量の数_mC_fが増加するので、誤差の影響で異なる不変量が計算される可能性が高くなるためである。

４．計算量と記憶容量
以上に述べたように、ｎを大きくすると広い範囲から複数の特徴量を計算するようになり、特徴量の安定性が向上する。また、ｍを大きくすると1つの特徴量の計算に用いる点の数が増加するため、特徴量の識別性が向上する。しかし、これらのパラメータを大きくし過ぎると計算量の面で問題が生じる。ｎおよびｍが大き過ぎると、不変量の計算回数が増加する。そのため、登録および検索に要する処理時間が大きくなる。また、登録時には計算される特徴量を記憶しておく必要があるため、大きな記憶容量が必要となる。

５．不変量の量子化レベル
安定性および識別性に影響するパラメータはｎ、ｍだけではない。不変量の量子化レベルｋもこれらに影響する。ｋの値が大きい（不変量が細かく離散化される）と、誤差の影響で同じｆ点から計算される不変量が異なる値に離散化される可能性が高くなり、安定性が低下する。ｋの値が小さい（不変量が粗く離散化される）と、異なるｆ点から計算された不変量が同じ値に離散化される可能性が高くなり、識別性が低下する。以上のことから、高い検索精度と同時に高速な処理や小さい記憶容量を実現するには、ｎ、ｍおよびｋを適切に設定する必要があるといえる。

登録
次に、実施の形態１と異なる登録手順の一例として、図２８に示す登録処理の手順について説明する。
登録処理では、登録文書の各点について、その近傍ｎ点からすべてのｍ点の組み合わせを生成し、そこから複比を用いたインデックスを求めて図２９に示すハッシュに登録する。以下、処理に沿って説明する。図２８に示す登録手順の１行目で特徴点の集合から１点を取り出してｐとし、２行目でｐの近傍ｎ点を時計回りに取り出してＰ_nとする。３行目ではＰ_nからｍ点を取り出してＰ_mとし、Ｐ_mから得られるすべての５点の組み合わせについて５行目で複比の値を計算し、離散化してｃｒ_iを得る。ｍ点から得られる５点の組み合わせの数は_mＣ₅であるので、ｉは０〜_mＣ₅−１の値をとる。
このようにして得られた複比ｃｒ_iより、ハッシュ関数を用いて７行目でハッシュのインデックスＨ_indexを求め、８行目でＨ_indexを用いて文書ＩＤ（登録文書の識別番号）と点ＩＤ（点の識別番号）、ｃｒ_i（ｉ＝０，．．．，_mＣ₅−１）をハッシュに登録する。
ハッシュ関数を以下に示す。

ここで、ｋは複比の量子化レベル数、Ｈ_sizeはハッシュのサイズである。また、登録時に衝突が生じた場合、データは図２９のようにリスト構造で付け加えられる。

この登録処理の手順は、図４３のように表すこともできる。図４３について説明する。登録処理では、登録文書の各特徴点について、その近傍ｎ点からすべてのｍ点を選ぶ組み合わせを生成し、そこから不変量を用いたインデックスを求めて図２９に示すハッシュ表に登録する。

まず、図４３の1行目で特徴点の集合から1点を取り出してｐとする。２行目でｐの近傍ｎ点を取り出してＰｎとする。３行目で、Ｐ_ｎからｍ点を取り出してＰ_ｍとする。４行目で、Ｐ_ｍの要素に対してｐを中心とした時計回りの順序を与えて特徴点の列Ｌ_ｍを定める。次に、５行目でＬ_ｍの要素から順序を保ったままｆ点を選択してできる特徴点の列Ｌ_fをすべて求め、求めたL_fを辞書式順序に並べる。

例えば、m=7、f=5のときには、(L_f(0)、…L_f(₇C₅−1))として((p₀,p₁,p₂,p₃,p₄), (p₀,p₁,p₂,p₃,p₅), …(p₂,p₃,p₄,p₅,p₆))が得られる。さらに７行目において、L_f(i)の点を前から順にA,B,C,…として上で示した不変量の計算式に代入して不変量を求め，離散化してcr(i)とする。このようにして得られたcr(i)より、９行目で以下の「式３」に示されるハッシュ関数を用いてハッシュ表のインデックスH_indexを求め，10行目でH_indexを用いて登録文書の識別番号である文書ID（Document ID）と点の識別番号である点ID（Point ID）、不変量（Invariants）cr(i)(i=0,1,…_mC_f−1)をハッシュ表に登録する。この実施の形態で用いるハッシュ関数を以下に示す。

ここで、ｋは不変量の量子化レベル，Ｈ_sizeはハッシュ表のサイズである。また、登録時に衝突が生じた場合、データは図２９のようにリスト構造で付け加えられる。このような処理をすべてのｐについて施し，文書を登録する。

検索
次に検索について述べる。図３０に実施の形態１と異なる検索手順の一例として、検索処理の手順を示す。登録と同様に、処理に沿って説明する。まず処理手順の５から８行目で登録時と同様の手法によりハッシュのインデックスを求め、９行目でハッシュを読んで図２９にあるようなリストを得る。リストの各要素について、登録されている複比と検索質問の複比が完全に一致しているかどうか確認し、一致しているものについては文書ＩＤの１次元配列である投票テーブルの該当するセルに投票を行う。

投票は検索質問の特徴点ｐと登録文書の点を対応付けることに相当する。ここで、点ごとに独立に対応付けると、図３１におけるＡとＡ'，Ａ''やＡ，ＢとＡ'のように１つの点と複数の点が対応するという誤った対応が生じる。このような誤対応による投票を得票数に含めると正しい対応による投票の評価が相対的に下がり、検索が失敗する原因となる。そこで本手法では、検索質問と登録文書の点の間の対応を記録しておき、すでに対応付けられている点については投票を行わないことにする。これにより誤った対応による投票を制限する。

このような処理をすべての点について行い、最終的に投票テーブルで得票数が最大の文書を検索結果とする。
なお、４行目でＰ_mから開始点を変えたＰ'_mを作成し、すべてのＰ'_mについて処理を行っているのは、Ｐ_mとして点ＡＢＣＤＥＦＧが与られたとき、Ｐ'_mとしてＢＣＤＥＦＧＡ，ＣＤＥＦＧＡＢのように巡回させたものをｍ通り作成することに相当する。これは、画像が回転している場合に対応するためである。

前述の手順は、図４４のように表すこともできる。図４４について説明する。登録処理と同様に、１〜３行目で、ｐ、Ｐ_ｎ、Ｐ_ｍを得る。４〜５行目では、登録処理とは異なり、Ｐ_ｍのすべての点を開始点ｐ_０としてＬ_ｍを作成する。これは、図４３の登録アルゴリズムの4行目において、画像の回転を考慮せずにＰ_ｍから得られる列として、Ｌ_ｍを1つだけ登録しているために必要となる。点ｐを中心とした特徴点の時計回りの順序は、射影変換を受けた後でも開始点の任意性を残して一定である。すなわち、Ｌ_ｍの巡回置換を考えると、その中に必ず1つは登録時に用いた順序のものが存在するといえる。６〜１０行目で登録時と同様の手法によりハッシュ表のインデックスを求め、１１行目でハッシュ表を読んで図２９にあるようなリストを得る。１２〜１４行目で、リストの各要素について、登録されている文書IDのものに投票する。ここで、誤対応による投票を制限するため、

（１）不変量の列が一致する、（２）検索質問の1点が1つの登録文書の複数点に対応しない、（３）登録文書の１点は検索質問の複数の点と対応しない、という３条件を用いる。このような処理をすべての点について行うと、各登録文書の得票数が得られる。しかし、このようにして得られた得票数は依然として誤対応によるものを含んでいる。誤った投票は、登録文書に含まれる特徴点数に概ね比例する。このため、多くの特徴点をもつ登録文書は、不当に多くの得票数を得ることになる。このような誤った投票を補正するため、以下の「式４」のように文書d_iに対してスコアS(d_i)を定義する。
ここで、V(di)はdiの得票数、N(di)はdiに含まれる特徴点の数，cは予備実験で定められる特徴点数と誤投票の比例定数である。最終的に、最大のスコアを得た文書を検索結果とする。

（実施の形態１の実験例）
実験例の概要
実施の形態１に述べた手法の有効性を検証するために、通常のデジタルカメラと携帯電話付属のデジタルカメラそれぞれについて撮影された文書画像から対応するものを検索した。通常のデジタルカメラにはＣＡＮＯＮ（登録商標）ＥＯＳＫｉｓｓＤｉｇｉｔａｌ（６３０万画素）と付属のレンズＥＦ−Ｓ１８−５５ｍｍＵＳＭを、携帯電話付属のデジタルカメラには京セラＴＫ３１付属のデジタルカメラ（１８万画素）を使用した。

文書画像データベースには１，２段組の英語論文のＰＤＦファイルから変換して作成した文書画像を５０ページ用意した。データベース中の文書画像の例を図１７、図１８に示す。なお、実験例はＣＰＵＰｅｎｔｉｕｍ（登録商標）４２．４ＧＨｚ、メモリ７６８ＭＢの計算機で行った。

実験例１：通常のデジタルカメラによる実験例
まず通常のデジタルカメラを用いた結果について述べる。３．で述べた処理のパラメータはｎ＝８、ｍ＝７、ｋ＝９、ｌ＝１０とした。ここで、前述したようにｋは、特徴点から得られる複比の値を離散化する個数、ｌは、１次投票の得点に基づいて同一の点と認定するために一致しなければならない複比の個数であって、ハッシュの各要素を２次投票の対象とするか否かを判定する際の得点のしきい値である。検索質問には、異なる１０ページに対して、図１９〜図２２に示すような４段階の撮影範囲で撮影した画像を計４０枚用意した。ここで撮影範囲Ａは文書全体、Ｂは文字領域全体、Ｃは文字領域半分程度、Ｄは文字領域１／４程度とした。画像の撮影はやや傾いた角度から行った。対応する得票数が１位になったとき正答とし、正答率と処理時間の平均を調べた。

表１に実験結果を示す。撮影範囲に関わらず、すべての入力画像で正しい結果が得られた。なお、撮影範囲が狭くなるにつれて処理時間が減少しているのは、処理する特徴点の数が少なくなるためである。

実験例２：携帯電話付属のデジタルカメラによる実験例
携帯電話で撮影した検索質問として図２３〜図２７を用いて検索を行った。その結果、図２４〜図２６で検索に成功、図２３，図２７では検索に失敗した。図２３で検索に失敗した理由は、入力画像の解像度が低すぎると単語の分離ができず特徴点を正しく抽出できないためであり、図２７で検索に失敗した理由は、画像に含まれる領域が狭すぎると近傍点が正しく得られないためである。以上により、携帯電話付属のデジタルカメラのように解像度が低い機器を利用する場合でも、撮影範囲の調整が必要になるものの検索は可能であることが示された。

このように、前述の実験例では、複比とハッシュを用いた投票により、デジタルカメラで撮影した文書画像を検索質問とする文書画像検索法を提案し、文書画像を高い精度で検索できることを確認した。また、撮影範囲を調整すれば、解像度の低い携帯電話付属のデジタルカメラでも検索が可能であることも明らかになった。

（実施の形態２の実験例）
実験例の概要
実施の形態２に述べた手法の有効性を検証するため、検索精度およびデータベースのサイズと検索速度の関係について調べた。検索質問の作成には、ＣＡＮＯＮＥＯＳＫｉｓｓＤｉｇｉｔａｌ（６３０万画素）と付属のレンズＥＦ−Ｓ１８−５５ｍｍＵＳＭを使用し、文書を図３２に示すような傾いた角度から撮影した。検索質問数は５０である。一方、文書画像データベースには種々の英語論文のＰＤＦファイルから変換して作成した文書画像１万ページを用いた。データベース中の文書画像の例を図１７，図１８に示す。実験に用いた処理のパラメータはｎ＝８，ｍ＝７，ｋ＝１０，Ｈ_size＝１．２８×１０⁸とした。なお、ＣＰＵがＡＭＤＯｐｔｅｒｏｎ（登録商標）１．８ＧＨｚ、メモリ４ＧＢの計算機を用いた。

実験例３：検索精度
まず、データベースへの登録ページ数と検索精度の関係を調べた。実験結果を図３３に示す。ページ数の増加に伴って、精度が低下していくことがわかる。
以下では、１万ページの場合について述べる。正しい文書画像の得票数が１位となったのは、５０枚のうち４９枚であり、検索精度は９８％となった。残りの１枚の画像については、５位にランクされていた。検索時間は平均で１３７．７ｍｓであった。１位にならなかった検索質問の例を図３４に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。

実験例４：検索時間
次に、登録ページ数が検索時間にどのように影響するかを調べた。結果を図３５に示す。登録文書数が増加するに従って検索時間は少しずつ増加することがわかる。ハッシュにおけるリスト長の平均（平均リスト長）を同図に示す。ここで平均リスト長とは、ハッシュに値があるものについて、そのリスト長の平均をとったものである。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュで衝突が増加していることがわかる。これが検索時間の増加の理由と考えられる。

（その他の実験例）
ア．複比を用いたときの検索性能
複比を用いた文書画像のインデクシングと検索の性能をより精密に評価するため、様々なパラメータを用いて実験を行った。

図４５に示すような英語論文のPDFファイルを変換して得られた文書画像のデータベースと、印刷文書をデジタルカメラで撮影した検索質問を用いて実験を行った。文書画像データベースとしては、それぞれ10，100，1,000，10,000ページの文書画像からなるデータベースA，B，C，Dを用いた。データベースDはデータベースCを、データベースCはデータベースBを、データベースBはデータベースAをその一部としてそれぞれ含んでいる。また、PDFファイルとしては主にCVPR、ICPR、ICCVなどの類似したレイアウトをもつ国際学会の予稿集のものを用いた。

検索質問としては、データベースBを印刷したものを紙面に対してそれぞれ６０°、４５°、３０°程度の角度から撮影した検索質問１、２、３を用いた。画像の数はそれぞれ100枚である．検索質問の例を図４６に示す。検索質問の作成には、CANON EOS Kiss Digital（630万画素）と付属のレンズEF-S 18-55mm USMを使用した。実験に用いたハッシュ表のサイズはＨsize=2²⁷−1とした．また、CPUがAMD Opteron 1.8GHz、メモリが6GBの計算機を用いた。
実験１：パラメータｎ，ｍと性能との関係

提案手法の性能は，特徴量計算時の組み合わせ数を決めるパラメータｎおよびｍの値によって変化する。そこでまず、さまざまなｎ、ｍの組み合わせにおける検索精度、処理時間、記憶容量について調べた。実験にはデータベースBおよび検索質問1〜3を用いた。検索質問の撮影角度ごとの実験結果を表２〜表４に示す。

ここで、精度は検索質問に正しく対応する文書が最も多くの得票数を得た割合、処理時間は特徴点抽出処理を除く検索処理に要した時間、リスト数はハッシュ表に登録される要素（図２９に示す、文書ID、点ID、複比の列cr(0)，…cr(_mC₅−1)の組が1つの要素）の数の合計、ｌはハッシュ表においてリスト長が0でないもののリスト長の平均である。表２〜表４には各ｎ，ｍの組について、最も高い精度が得られたｋを用いた結果のみを示している。また、参考のため、各ｎ，ｍにおける組み合わせの数_nC_mおよび_mC₅も示してある。まず、精度について考察する。

全体として、撮影角度が小さくなるにつれて精度が低下した。これは、射影歪みが大きいと近傍点の変化が大きくなり、特徴量の安定性を保つことができなくなるためと考えられる。ただし、図４７に示すようにｎとｍの差が大きいと精度の低下が抑えられた。これは、ｎ−ｍが許容される特徴点の消失数であることによる。次に、処理時間について考察する。図４４に示した検索アルゴリズムの構造から、処理時間は、特徴量計算およびリスト処理に要する時間とそれらの繰り返し回数とによって定まると考えられる。特徴量計算に要する時間は、概ね特徴量を構成する複比の数である_mC₅に比例し、リスト処理に要する時間は平均リスト長ｌに比例する。また、それらの繰り返し回数は_nC_m×ｍである。以上のことから、パラメータｎ，ｍと平均リスト長ｌから求められる処理時間の目安としてT(n,m,l)を以下の「式５」で定義する。

ここで、αは特徴量計算に対するリスト処理の時間の重みである。図４８にα=3としたときのT(n,m,l)と処理時間のグラフを示す。図４８より、T(n,m,l)と処理時間はほぼ比例することがわかる。従って、処理時間は「式５」のような形でｎ，ｍ，ｌの影響を受けると考えられる。最後に、記憶容量について考察する。表２〜表４では、ハッシュ表に記憶されるリスト数は_nC_mに比例したものになっている。これは、各点の特徴量ごとに登録が行われるためである。上述したように、高い安定性を実現するにはｎ−ｍの値を大きくする必要があるが、これは同時に、必要となる記憶容量の増大をもたらすといえる。

実験2：量子化レベルと性能の関係
提案手法の性能は，量子化レベルｋの値によっても変化する．そこで，データベースBおよび検索質問1を用いてパラメータをn=8，m=7と設定し、ｋと精度および処理時間の関係を調べた。結果を図４９に示す。まず精度について考察する。ｋが小さいときの精度は低く、ｋの増加に伴って精度も急激に上昇した。これは、ｋが小さいときは特徴量の識別性が低いため、正しく対応する文書とそうでないものを区別できないことが原因と考えられる。また、ｋが大きくなり過ぎると、精度が急激に低下した。これは、特徴量の安定性が低下するためと考えられる。次に、処理時間について考察する。処理時間は、ｋの増加に伴って急激に減少した後、ほぼ一定の値に保たれている。これは、ｋが小さいときは特徴量の識別性が低くハッシュ表での衝突が多くなるため、検索時のハッシュアクセスに時間がかかることが原因と考えられる。以上のことから、高速かつ高精度な検索を実現するにはｋの値を適切に設定することが必要といえる。

実験3：登録ページ数と検索精度の関係
データベースA〜Dを用いて登録ページ数を10から10,000まで変化させたときの登録ページ数と検索精度の関係を調べた。検索質問は1および2を用いた。また、パラメータは両方の検索質問で統一し、n=8，m=7とした．このとき、ｋの値は表２、表３に示す値を用いた。実験結果を図５０に示す。
ページ数の増加に伴って、精度が低下していくことがわかる。これは、データベースが大きいと、同じ特徴量をもつ異なる文書が登録されている可能性が高くなるためと考えられる。また、検索質問1に比べて検索質問2では精度が低くなっている。これは、射影歪みが大きいために近傍点の変動が大きく、特徴量を安定に得ることが困難であることが原因と考えられる。検索に失敗した検索質問の例を図５１に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。

実験4：登録ページ数と処理時間の関係
登録ページ数が処理時間にどのように影響するかを調べた。データベースはA〜D、検索質問は1、パラメータはn=8，m=7，k=12を用いた。結果を図５２に示す。登録文書数が増加するに従って処理時間は少しずつ増加することがわかる。すでに述べたように、処理時間はパラメータn，mと平均リスト長lに影響される。この実験ではパラメータn，mは固定されているので、平均リスト長lを同図に示す。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュ表で衝突が増加していることがわかる。これが処理時間の増加の理由と考えられる。

イ．相似変換
実験概要
この発明における相似不変量の有効性を検証するため、検索精度および処理時間の比較実験を行った。実験では、図５３に示すような英語論文の電子文書を変換して得られた文書画像のデータベースと、印刷文書をデジタルカメラで撮影した検索質問を用いた。文書画像データベースとしては、それぞれ100、1,000、10,000ページの文書画像からなるデータベースA，B，Cを用いた。データベースCはデータベースBを、データベースBはデータベースAをその一部として含んでいる。また、電子文書としては主にCVPR、ICPR、ICCVなどの類似したレイアウトをもつ国際会議の予稿集のものを用いた。検索質問としては、データベースAを印刷したものを紙面に対してそれぞれ９０°、６０°、４５°、３０°程度の角度から撮影したものを用いた。画像の数はそれぞれ100枚である。検索質問の例を図５４に示す。検索質問の作成には、CANON EOS Kiss Digital（630万画素）と付属のレンズEF-S 18-55mm USMを使用した。実験に用いたハッシュ表のサイズはH_size = 2²⁷−1とした。また、CPUが AMD Opteron 2.8GHz、メモリ16GBの計算機を用いた。

実験１：撮影角度と検索精度の関係
まず、特徴量の計算に複比または相似不変量を用いたときの検索質問の撮影角度と検索精度の関係を調べた。提案手法では、特徴量計算時の組み合わせ数を決めるパラメータnおよびmや、不変量の量子化レベル数kの値によって性能が大きく変化する。この実験では、n=10とし、m=10，9，8，7のそれぞれについて最も高い精度を与えたkを用いた。また、撮影角度90°〜30°の検索質問と100ページのデータベースAを用いた。

図５５に(a)複比、(b)相似不変量のそれぞれについて各n，mの組み合わせにおける撮影角度と検索精度の関係を示す。図５５(a)，(b)より、角度が小さくなるにつれて全体的に精度が低下することがわかる。これは、歪みによって特徴点の近傍構造が変化し、近傍n点のうちm点の一致という条件が満たされなくなることが原因であると考えられる。ただし、n=10，m=7のようにnとmの差が大きいときには精度の低下が比較的小さくなっている。

図５５(a)に示す複比は角度の減少に対する精度の低下が小さく、(b)の相似不変量は精度の低下が大きいという結果になった。これは、以下に述べる不変量の性質が原因であると考えられる。まず、複比は射影不変量であるため、特徴点の位置の射影歪みによる変動に対しては不変である。しかし、射影歪みでない変動に対しては不安定な性質をもっている。提案手法では特徴点として単語領域の重心を用いており、これは画像が歪んだ場合、一定の変動を受ける。そのため、大きな射影歪みを受けた場合、特徴点の座標の変動により特徴点から計算される複比の値が変化し、不安定となると考えられる。

相似不変量の場合は局所領域の歪みが相似変換に近似できる範囲では安定となる。しかし、相似変換は変換としての制約が強過ぎるため、射影歪みが大きいと局所領域でも相似変換に近似できなくなる。そのため、射影歪みが大きいと特徴量としての安定性が低くなる。

実験２：登録ページ数と検索精度の関係
次に、不変量ごとに登録ページ数と検索精度の関係を調べた。N=8、m=7とし、kは登録ページ数100のときに最も高い精度を与えたものを用いた。表５に結果を示す。実験1と同様に、撮影角度の減少に伴って検索精度が低下した。また、登録ページ数が増加するに従って精度は低下した。これは、登録ページ数の増加に伴って類似した点の配置をもつ文書の登録される確率が増加することが原因と考えられる。実験1と同様に、複比の精度が高く、精度の低いものが相似不変量という結果になった。

実験3：登録ページ数と処理時間の関係
各不変量での登録ページ数と処理時間の関係についても調べた。ここでの処理時間とは、1枚の検索質問について図４４に示される検索処理のみに要した時間であり、その前段階の特徴点抽出処理は含まない。パラメータは実験2と同じものを用いた。例として、検索質問に撮影角度60°のものを用いたときの結果を表５に示す。

なお、検索質問の撮影角度が変化しても処理時間はほぼ一定であった。全体として、登録ページ数の増加に伴って処理時間は増大した。これは、ハッシュに登録されるデータが増加するため、衝突率が高くなることが原因であると考えられる。処理時間は、複比は短く、相似不変量は長いという結果になった。これは、特徴量を求める際の不変量の計算回数_mC_fの相違に起因すると考えられる。M=7の場合、_mC_fの値はfが小さいほど大きくなる。そのため、f=5である複比に比べて、f=5の相似不変量の方が処理時間が長くなっていると考えられる。また、相似不変量では登録ページ数10,000のときに急激に処理時間が増大している。これは、相似不変量はその計算に用いる点の数が少ないため、同じ離散値をとりやすく、ハッシュでの衝突が急激に増加したためと考えられる。

ウ．文書以外の画像
文書以外の対象への適用性を示すために、デジタルカメラで撮影したポスターや雑誌表紙を対象として実験を行った。
実験手法の概要
文書画像の場合とは異なり、特徴点としては、次の文献で提案されているPCA-SIFTを用いた（例えば、Y. Ke and R. Sukthankar. Pca-sift: representation for local image descriptors. Vol. 2, pages 506-513, 2004.参照）。
PCA-SIFTは、画像から特徴点を抽出するとともに、その特徴点を特徴づけるd次元の特徴ベクトルv=(v₁,…,v_d)を求めるものである。PCA-SIFTによって得られる特徴点、特徴ベクトルは、SIFTと呼ばれる手法に基づいている（例えば、D. G. Lowe. Distinctive image features from scale invariant keypoints. International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.参照）。

本手法では、PCA-SIFTによって得られる実数値のベクトルvを、ビットベクトルw=(w₁,…,w_d)に変換して用いる。変換方法としては様々なものが考えられるが、例えば、v_i≧0ならばw_i=1, それ以外の場合w_i=0とする方法でもよい。以下ではこの方法を用いた結果を示す。
文書の場合と同様、本手法では、複数の特徴点を組み合わせて用いる。図５６に概要を示す。ここでp₀は現在注目している点、他の点p₁…はp₀の周囲の点である。この例は、周囲３点から２点を組み合わせる（n=3, m=2）を表している。いま、p₀, p₁, p₂の３つの点を組み合わせるとしよう。各々のビットベクトルをw₀,w₁,w₂とし、w_i=(w_1i,…,w_di)で表すとき、組合せの結果として得られるp₀の特徴ベクトルw₀'は、
w₀'=(w₀,w₁,w₂)=(w₁₀,…,w_d0,w₁₁,…,w_d1,w₁₂,…,w_d2)
のように3d次元のビットベクトルとなる。これを文書画像の場合と同様にハッシュのインデックスに変換する。具体的には、

の式によってインデックスH_indexを得る。ここで、rは組み合わせる特徴点の数、H_sizeはハッシュのサイズである。

実験例：
本手法の有効性を検証するため、実験を行った。使用計算機はAMD Opteron 2.8GHz, メモリ16GBのものである。SIFTの特徴ベクトルの次元を128, PCA-SIFTの次元を36とした。また、本手法においてビットベクトルを組み合わせる際には、元のビットベクトルw_iの次元を、9 ( d ( 36の間で変化させて用いた。これは、例えば、d=9の場合ならば、w₁〜w₉のみを用いることを意味する。また、点の組合せとしては、5 ( n ( 30, 1 ( m ( 3 の範囲で試した。また、特別な場合として特徴点を組み合わせないケース(n=0,m=0)も行った。

実験対象は、40個の平面物体である。このうち、5個はポスター、残り35個は雑誌Comm. of the ACMの表紙である。これらの物体を、630万画素のカメラを用いて撮影し、3042×2048というサイズのカラー画像を得た。実験ではこれを1024×683の濃淡画像に変換した。
検索質問としては、45°、60°、75°の３つの水平方向の角度から撮影したもの、大、小２つの異なるサイズで正面から撮影したものの、合計５つの異なる見え方のものを用意した。ここで、大を除くすべての画像では、対象全体が画像に収まっていた。大の場合は、対象の概ね50％の領域が撮影されていた。平面物体の数が50, 見え方が5通りなので、合計200枚の画像を検索質問として用いたことになる。また、データベースには90°の角度から中の大きさで撮影した画像を格納した。したがって、データベースの画像は、検索質問の画像のいずれとも異なるものとなる。

本手法による処理例を図５７に示す。ここで、図５７(a)はデータベース中の画像、図５７(b)〜(f)は、検索質問の画像（上部）とデータベース中の画像（下部）の特徴点が対応付いている様子を表している。この例の場合は、データベース40枚の画像の中からすべて正解を検索することができた。

本実験では、比較手法としては、（１）SIFTによって得られた128次元の実数値ベクトルをそのまま用いて、ユークリッド距離で最も近いものをデータベースから探す手法（以下、SIFTと呼ぶ）、（２）PCA-SIFTで得られた36次元の実数値ベクトルに対して、同様にユークリッド距離を用いる手法（以下、PCA-SIFTと呼ぶ）の２つを用いた。
処理精度と処理時間を表６に示す。

SIFTとPCA-SIFTは共に100%の検索精度(accuracy)となっているものの、膨大な処理時間を要していることがわかる。一方、本手法では、処理精度を90%前後に保ったまま、大幅な処理時間の短縮に成功している。
本手法では２つのパラメータ設定（d=24, n=0, m=0）および (d=16, n=28, m=1)の結果を示している。点を組み合わせない前者に比べて、点を組み合わせる後者の方が、処理精度が向上している。
誤検索の詳細を表７に示す。

ここで、誤った画像のランクの平均(ave. rank of failed correct images)は、点を組み合わせない場合（上側）に比べて組み合わせる場合（下側）の方が小さい。これは、誤った場合でも、より上位に正解がランクされていることを示している。点を組み合わせる場合の誤りは、2/3が４５度という浅い角度の検索質問、1/3が小(small)のサイズの画像に対して生じていた。実用上、より重要性のある60°〜75°、大(large)については誤りは皆無であった。また、２位の得票数に対する１位の得票数の比（ave. ratio of votes）を同様に表７に示す。

検索に成功（succeeded）の場合は、共に２位の得票数の７倍以上という高い得票数を得ている。一方、検索に失敗した場合には、1倍を少し上回る程度であった。このことから、得票数の比を見ると、正しい対象が検索されているかどうかをある程度推定することも可能であると考えられる。また、比に対する閾値を設定すれば、処理誤りを排除することができる。上記の場合、すべての誤りを排除する閾値を設定すると、処理精度は75%となった。

（装置の構成例）
この発明に係る文書画像を文書・画像データベースに登録する文書・画像登録装置の構成例を説明する。また、前記文書・画像登録装置を用いて文書・画像が登録された文書・画像データベースから、文書・画像を検索する検索装置の構成例を説明する。

図３９は、この発明の文書・画像登録装置１の構成を示すブロック図である。文書・画像登録装置１は、入力部１１、特徴点抽出部１５、特徴点選択部１７、特徴点登録部１９からなる。入力部１１は、登録する文書・画像が入力される部分である。特徴量抽出部１５は、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する部分である。特徴点選択部は１７、抽出された各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する部分である。特徴点登録部１９は、選択されたｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて、実施の形態１または２で述べた登録の手順に従ってハッシュテーブルのインデックスを計算し、入力された文書・画像を文書画像データベース３１に登録する部分である。

また、図４０は、この発明の文書・画像の検索装置の構成を示すブロック図である。検索装置３は、読取部２１、特徴点抽出部２３、特徴点選択部２５、投票処理部２７、ＩＤ特定部２９からなる。読取部２１は、撮影画像を読み取る部分である。特徴点抽出部２３は、読み取られた撮影画像から画像の配置を表す複数の特徴点を抽出する部分であり、図３９の特徴点抽出部１５に対応する。特徴点選択部２５は、抽出された各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する部分であり、図３９の特徴点選択部１７に対応する。投票処理部２７は、実施の形態１または２で述べた検索の手順に従って特徴量が一致する文書ＩＤに投票する処理を行う部分である。ＩＤ特定部２９は、各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する部分である。

＜物理的な実体とのリンク＞
この発明の画像検索方法によれば、物理的な実体（文書、パンフレット、ポスター、看板など）と電子データ（インターネットホームーページなどの関連情報）とをリンクさせ、実体の撮影画像からそれに対応する電子データを検索することができる。例えば、新聞、雑誌記事などのテキストメディアのデータがインターネット上のサーバーに格納されている場合に、ユーザが前記メディアの画像を撮影するだけでインターネット上のサーバーにアクセスしてデータを取得することができる。従って、この発明は、テキストメディアの画像検索方法として非常に有効である。

あるいは、この発明は、宣伝広告用のパンフレットとインターネット上のホームページを連携させたカタログショッピング・システムなどにも適用することができる。また、ポスターを撮影することによってポスターの内容に関連する情報を取り出すような用途に適用することができる。あるいは、街中にある看板を撮影することによって関連情報を取り出すような用途に適用することができる。あるいはまた、地図（略図などでもよい）に情報を貼付けた電子データを関連情報として取り出すような用途に適用できる。

以上のリンクにおいて、関連情報とは、テキストや画像に加え、音声、動画でもよい。
上記のリンクはサービスを提供するベンダ側で用意することが考えられる一方で、個人がリンクを私的に設定することも考えられる。例えば、ある書類に関連付けておきたい電子データがある場合、本技術を用いれば、カメラを用いてリンクを設定することが可能となる。
さらに、本発明の実時間性（高速で処理できる点）を利用すれば、カメラを通してみた物理的実体（文書、パンフレット、ポスターなど）に、電子データを実時間で重畳表示することも可能となる。これは、知的情報レンズとでもいうべき情報処理形態となる。

＜物理的な実体どうしのリンク＞
物理的な実体と電子データとのリンクについて前述したが、この発明の画像検索方法を用いて物理的な実体同士をリンクさせることも考えることができる。具体的には以下のような状況である。
（１）ある文書に関連する別の文書があるとき、それらが関連していることを記録しておきたい。
（２）物理的実体（文書、パンフレット、ポスター）に関連する人やモノ（製品など）を記録したい（文書を撮影することで、人やモノの写真を取り出す）。このような情報処理は、物理的な実体の、写真を通したリンク付けと考えることができる。

＜書き込み抽出システムへの応用＞
さらに、この発明の画像検索方法は、我々が日常的に行う文書への書き込みを電子文書へと反映させる処理に応用することができる。
図３７は、文書への書き込みを電子文書に反映させるシステムの構成例を示す説明図である。図３７に示すように、前記システムは、以下の構成を有する。
（１）原本となる書き込みのない文書をデータベースに格納しておく。
（２）書き込みのある文書をカメラで撮影し、書き込みのない文書を本技術により検索する。その結果、書き込みのない文書と書き込みのある文書で、特徴点の対応をとることができる。
（３）特徴点の対応に基づいて、カメラで撮影した画像を正対に戻すことができる（斜めから撮影した状態を、まっすぐな状態に戻すこと）。図３８は、撮影画像を正対に戻す例を示す説明図である。
（４）正対に戻した画像から書き込みのない画像を引き算することにより、書き込みだけを抽出することができる。
（５）抽出した書き込みを、電子文書へのアノーテーションとして書き加えることにより、電子文書へ書き込みが反映される。
以上によって、紙文書と電子文書を境目なく（シームレスに）利用することが可能となる。

この発明による書き込み抽出システムを、デジタルカメラだけではなく、コピー機やスキャナなどと連動させることも可能である。この場合、撮影された画像が被る幾何学的変換は、カメラの場合のように射影変換ではなく、相似変換やアフィン変換となる。したがって、相似変換やアフィン変換の不変量を用いて書き込み抽出システムを構成すればよい。射影変換と比べて、アフィン変換や相似変換は制約がより強いため、書き込み抽出の精度をより向上させることが可能と考えられる。

Claims

撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から得られる特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する方法であって、
撮像されたデジタル画像から複数の特徴点を抽出し、
抽出された各特徴点に対して局所的な特徴点の集合を決定し、
決定された各集合から特徴点の部分集合を選択し、
選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せについて、幾何学的変換に対する不変量をそれぞれ求め、
求めた各不変量を組み合わせて特徴量を計算し、
予めその特徴量が得られた前記データベース中の文書・画像に対して投票を行うことにより、
撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する文書・画像検索方法。
前記特徴点が、画像の中に繰り返し現れる特定の部位であることを特徴とする請求項１に記載の文書・画像検索方法。
前記特徴点が、単語領域の重心であることを特徴とする請求項１に記載の文書・画像検索方法。
前記特徴点が、漢字の閉鎖空間であることを特徴とする請求項１に記載の文書・画像検索方法。
前記不変量が、複比であることを特徴とする請求項１に記載の文書・画像検索方法。
撮影方法が、デジタルカメラまたはスキャナによるデジタル方式の撮影方法である請求項１に記載の文書・画像検索方法。
前記不変量が、アフィン変換に対する不変量であることを特徴とする請求項１に記載の文書・画像検索方法。
前記不変量が、相似変換に対する不変量であることを特徴とする請求項１に記載の文書・画像検索方法。
文書・画像を入力する工程と、
入力された文書・画像にＩＤを付す工程と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する工程と、
抽出された各特徴点について実行する（１）〜（２）の工程であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する工程、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の工程、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求める工程、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
（ｃ）求められたハッシュのインデックスを用いて（ａ）の工程で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する工程、
の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法。
前記特徴量が、ｍ個の点から５個の特徴点を選択する全ての組み合わせについて５個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項９記載の登録方法。
前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、
ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖ_maxは離散化された複比の最大値、ｐａｔはｍ点から５点を取り出す組み合わせパターンに与える識別番号で０から_mＣ₅−１の何れかの値である請求項９記載の登録方法。
前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、
ここで、ｋは複比の量子化レベル数、Ｈ_sizeはハッシュのサイズ、ｃｒ_nはｍ点から取り出した５点の組み合わせに対する複比
である請求項９記載の登録方法。
請求項１記載の登録方法により登録された文書・画像の検索方法であって、
撮影画像を読み取る工程と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、
抽出された各特徴点について実行する（１）〜（２）の工程であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する工程、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の工程、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求める工程、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）の工程で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する工程と、
各特徴点について（１）〜（２）の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する工程と
をコンピュータに実行させることを特徴とする文書・画像の検索方法。
前記特徴量が、ｍ個の点から５個の特徴点を選択する全ての組み合わせについて５個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項１３記載の検索方法。
前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、
ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖ_maxは離散化された複比の最大値、ｐａｔはｍ点から５点を取り出す組み合わせパターンに与える識別番号で０から_mＣ₅−１の何れかの値である請求項１３記載の検索方法。
前記処理（ｂ）において特徴量からハッシュのインデックスを求める計算が、
ここで、ｋは複比の量子化レベル数、Ｈ_sizeはハッシュのサイズ、ｃｒ_nはｍ点から取り出した５点の組み合わせに対する複比
である請求項１３記載の検索方法。
撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて画像の特徴量を求め、文書・画像を格納するデータベース中にある求めた特徴量に一致する文書・画像に対して投票を行うことにより撮影された画像に対応する文書・画像をデータベースから検索する処理をコンピュータに実行させるプログラム。
文書・画像を入力する処理と、
入力された文書・画像にＩＤを付す処理と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する処理と、
抽出された各特徴点について実行する（１）〜（２）の処理であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する処理、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の処理、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求める処理、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
（ｃ）求められたハッシュのインデックスを用いて（ａ）の処理で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する処理、
の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラム。
請求項１８記載の登録プログラムを用いて入力された文書・画像の検索プログラムであって、
撮影画像を読み取る処理と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する処理と、
抽出された各特徴点について実行する（１）〜（２）の処理であって、
（１）対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する処理、
（２）選択したｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて実行する（ａ）〜（ｃ）の処理、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求める処理、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）の処理で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する処理と、
各特徴点について（１）〜（２）の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム。
文書・画像を入力する入力部と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、
抽出した各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する特徴点選択部と、
選択されたｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて次の（ａ）〜（ｃ）の処理、
（ａ）対象とするｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求め、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
（ｃ）求められたハッシュのインデックスを用いて（ａ）で求めた特徴量と特徴点ｐに係るＩＤである点ＩＤと特徴点ｐが抽出された文書・画像の文書ＩＤとを対応付けてハッシュに登録する処理、
を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置。
請求項２０記載の登録装置により登録された文書・画像を格納してなる文書・画像記憶装置。
請求項２１記載の文書・画像記憶装置に格納された文書・画像を検索する検索装置であって、
撮影画像を読み取る読取部と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する特徴点抽出部と、
抽出した各特徴点について対象とする特徴点ｐに最も距離の近いｎ個の特徴点を選択する特徴点選択部と、
選択されたｎ個の特徴点からｍ個（ただしｍ＜ｎ）をさらに選択する全ての組合せについて次の（ａ）〜（ｃ）の処理、
（ａ）ｍ個の特徴点からｄ個（ｄは予め定めたｍ以下の値）を選択する全ての組合せについてｄ個の点に係る特徴量を求め、
（ｂ）求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
（ｃ）求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、（ａ）で求めた特徴量と比較して特徴量が一致する文書ＩＤに投票する処理、
を行う投票処理部と、
各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書ＩＤを特定する文書ＩＤ特定部とを備えることを特徴とする文書・画像の検索装置。