JPWO2006092957A1 - 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 - Google Patents

文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 Download PDF

Info

Publication number
JPWO2006092957A1
JPWO2006092957A1 JP2006532580A JP2006532580A JPWO2006092957A1 JP WO2006092957 A1 JPWO2006092957 A1 JP WO2006092957A1 JP 2006532580 A JP2006532580 A JP 2006532580A JP 2006532580 A JP2006532580 A JP 2006532580A JP WO2006092957 A1 JPWO2006092957 A1 JP WO2006092957A1
Authority
JP
Japan
Prior art keywords
image
document
feature
points
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006532580A
Other languages
English (en)
Other versions
JP4332556B2 (ja
Inventor
浩一 黄瀬
浩一 黄瀬
友弘 中居
友弘 中居
雅一 岩村
雅一 岩村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Prefecture University
Original Assignee
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University filed Critical Osaka Prefecture University
Publication of JPWO2006092957A1 publication Critical patent/JPWO2006092957A1/ja
Application granted granted Critical
Publication of JP4332556B2 publication Critical patent/JP4332556B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から求められた特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する方法であって、撮像されたデジタル画像から複数の特徴点を抽出し、抽出された各特徴点に対して局所的な特徴点の集合を決定し、決定された各集合から特徴点の部分集合を選択し、選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せに基づいて、幾何学的変換に対する不変量をそれぞれ求め、求めた各不変量を組み合わせて特徴量を計算し、対応する特徴量が予め求められた前記データベース中の文書・画像に対して投票を行うことにより、撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する文書・画像検索方法。

Description

この発明はデジタルカメラやスキャナなどを用いた文書・画像検索方法およびそのプログラム、文書・画像登録装置および検索装置に関する。
デジタルカメラの一般化、高機能化、小型化、低廉化は、パターン認識・メディア理解の分野に新しい可能性を与えつつある。そのひとつは、ユーザが取得する画像を様々なサービスと連携させることと考えられる。文字・文書の分野も例外ではない。カメラに基づく文字認識、文書・画像解析の研究が盛んに行われている(例えば、非特許文献1、2参照)。特に、携帯電話に付属のデジタルカメラを用いたインタフェースは重要であり、それを用いた文字読み取りや翻訳など、種々の処理が検討されている(例えば、非特許文献3、4参照)。
また、画像ベースの文書・画像、即ち、文書および/または画像を検索する従来手法としては、以下のようなものがある。Kauniskangasの方法では、文書、画像を段落や図などの領域に分け、それぞれの領域を判別し、木構造で表現する。検索を行うときは検索質問とデータベースの文書、画像の各領域とのマッチングを判定し、最もよくマッチするものを検索結果として出力する(例えば、非特許文献5参照)。Hullの方法には、単語の文字数を用いた文書の索引付け法ならびに検索法、および不変量を用いた画像の索引付け法が開示されている。
また、テキストを単語ごとに分割し、各単語の文字数の並びを特徴量として文書を表現する。あらかじめデータベース中の文書の各部分の特徴量を計算してハッシュに登録しておき、検索時には入力画像に同じ処理を行って特徴量を得る。得られた特徴量を用いてハッシュにアクセスし、投票により検索を行う手法が開示されている(例えば、特許文献1、非特許文献6参照)。
上に挙げた方法は、フラットベッドスキャナなどで得られた高解像度の正対画像を対象としている。そのため、この発明が主として対象とするようなデジタルカメラを利用した文書・画像検索には利用できない。例えば、Hullの方法では入力画像が文字ごとに分離されていることが前提である。しかし、その前提は、この発明の対象となるような低解像度あるいは射影変換などの幾何学的変換を受けた画像では成立しないことがある。
特開平7−282088号公報 D. Doermann, J. Liang and H. Li: "Progress in camerabased document image analysis", Proc. ICDAR'03, pp. 606-616 (2003) 黄瀬, 大町, 内田, 岩村:"カメラを用いた文字認識・文書画像解析の現状と課題", 信学技報PRMU2004-246(2005.3) 山田, 仙田:"携帯カメラを用いたユビキタス情報インタフェース", 情報処理, 45, 9, pp. 923-927 (2004) Y. Watanabe, Y. Okada, Y-B. Kim, T. Takeda: "Translationcamera", Proc. ICPR'98, pp.613-617 (1998) K. Hannu : "Document Image Retrieval with Improvements in Database Quality", Academic Dissertation of University of Oulu (1999) J. J. Hull : "Document Image Matching and Retrieval with Multiple Distortion-Invariant Descriptors", Document Analysis Systems, pp.379-396 (1995)
この発明の課題は、デジタルカメラやスキャナなどで撮影された文書・画像を検索質問として、文書・画像データベースを検索する方法を提供することである。ここで問題となるのは、
(1)検索質問の文書・画像はデジタルカメラやスキャナなどで撮影されるため射影変換などの幾何学的変換の歪みを受け、また全体が撮像されているとは限らないことである。さらに、検索質問画像の解像度や照明条件がデータベース中の文書・画像とは大きく異なることも問題をより困難にする要因である。換言すれば、撮影する角度によって検索質問の文書・画像がデータベースに格納された文書・画像と違う画像と認識されてしまうため、同一性の判定が困難である。撮影角度の違いを吸収できる手法が望まれている。
(2)画像の特徴を精度よく検査するためには特徴を示す要素を数多く抽出する必要があるが、要素の数が多いと同一性の判定に多大な時間が必要になる。同一性の判定のために長時間を要することのない手法が望まれている。
(3)多数の文書・画像を扱うと、類似の文書・画像が多く存在し、その中から正解を取り出すことが困難になる。類似の文書・画像から高い精度で同一性が判定できる手法が望まれている。
以上のような問題を克服するために、この発明は次のアイデアを導入する。
(1)幾何学的変換の歪みによらない文書・画像の特徴量を得るため、幾何学的変換に対する不変量を用いて特徴量を計算する。この発明では、不変量の一例として、複比をとりあげる。複比は、直線上の4点または平面上の5点から求められる値で、幾何学的変換の一種である射影変換に対する不変量として知られている。複比を用いるためには、対象とする文書・画像の特徴を点(特徴点)であらわす必要がある。複比の計算に用いる特徴点には、例えば英文文書の場合には単語の重心を用いればよい。また、部分画像からの検索を可能にするため、文書・画像の部分ごとに得られる複比を用いて特徴量を計算すればよい。また、射影変換の他に、アフィン変換や相似変換についても触れる。
(2)特徴点の可能な対応付けを全て試すことは、組み合わせ爆発が生じるため現実的ではない。そこで、この発明は、ハッシュを用いた投票を導入し、特徴点の対応を陽に取らずに検索を行う。登録時には、まず文書・画像から特徴点を求めて特徴量を計算し、そこからインデックスを求めてハッシュに登録する。検索時には、検索質問から同様の処理で特徴点、特徴量、インデックスを求めてハッシュにアクセスし、登録されている文書・画像に対して投票を行うことで検索する。投票処理は、従来から知られた概念であるが、文書・画像の検索に適用された事例はほとんどない。
(3)複比の値によって同一の画像であることを示すためには、複比の計算の元となる点同士が対応していなければならない。しかし、画像から抽出したN個の点を全て対応付ける組み合わせはN!個ある。十分な判定精度を得ようとすると点の数を十分多くしなければならないが、そうすると計算量が多すぎる。
前述のHullの方法でも、Geometric Hashing手法の計算量O(N3)が大きいことが発明の動機の一つに挙げられている。そして、回転及び拡大縮小に対する不変量(後述する相似不変量)となるように3個または4個以上の特徴点(注目ポイント)を用いることが述べられている。しかし、Hullの方法に従ったとしても、N個の特徴点から3個を取り出す場合の数はO(N3)通りあり、その数は従来手法とかわらない。従って、従来手法に比していかに計算量が低減し得るのか明確でない。従来手法よりも計算量を低減できる手法が望まれている。
ここで、O(N)あるいはO(N3)は、問題を解くために必要なおおよその計算量の表記方法であって、O(N)はNが定まったときの計算量がaN+b以下で収まることを、O(N3)はaN3+bN2+cN+d以下で収まることを表す。ただしa,b,c,dは定数である。
この発明によれば、ある点に着目してその点の近傍ごとに特徴量を定義する。即ち、ある点の近傍n個の点を取り出す。さらに、n個の点からm個の点(複比の単位とする点の数、4または5<m<n)を取り出せば、幾何学的変換を受けても互いに対応する点の近傍n個のうちm個の点が一致するような組合せが存在すると考え、全ての点についてその近傍n個のうちm個の点の組み合わせを全て試すようにする。n、mの値を適当に選択することにより、計算量の爆発を回避することができる。即ち、この発明によれば、Hullと同様に相似変換に対する不変量を用いる場合の計算量は従来のO(N3)通りからO(N)に低減される。また、射影変換に対する不変量を用いる場合はO(N5)通りからO(N)に、アフィン不変量に対する不変量を用いる場合はO(N4)通りからO(N)にそれぞれ軽減される。
さらに、m個の点から4または5個の点を選んで複比を計算すると、いくつかの複比が他の画像と同じになっても、全ての複比が一致することは非常に稀になる。その結果、精度よく同一性が判定できる。
換言すれば、この発明は、従来の認識処理とは異なる可能性の一つとして、検索処理の一手法を提案する。具体的には、デジタルカメラやスキャナなどで撮影した文書・画像の一部あるいは全部を「検索質問」とし、その検索質問を含む文書・画像をデータベースから検索する処理である。このような検索処理は、手元の印刷物から対応する電子文書を検索したり、印刷物に対する書き込みを抽出するための前段階の処理としても用いることができる。
デジタルカメラやスキャナなどを用いた文書・画像検索が、従来の文書・画像検索と大きく異なる点は、画像が受ける種々の歪みにある。スキャナにより好適な条件で取得される従来の文書・画像が受ける幾何歪みは、ほぼ相似変換の一種である回転のみであった。これに対して、デジタルカメラによる文書・画像は射影変換による歪みを被る。また、スキャナを用いる場合であっても、例えば、製本された文書・画像など被写体が立体物の場合は少なくとも画像の一部にアフィン変換あるいは相似変換による歪を被る場合がある。デジタルカメラ、特に携帯電話に付属のものや小型のスキャナの特性を考えると、部分的に取得された文書・画像からも検索可能(部分検索が可能)でなければならない。
そこで、この発明では前述のように2つのアイデアを導入する。つまり、一つは幾何学的変換に対する不変量である複比(cross−ratio)に着目し、文書・画像を複比によってインデックス付けすることである。文書・画像の様々な「部分」から複比を計算し、インデックスとすることにより、部分検索にも対処する。もう一つは、ハッシュを用いた投票処理により検索を実現することである。これにより、特徴点の対応を陽に求めることなく、柔軟かつ比較的高速な検索が可能となる。
なお、上記の複比(cross−ratio)は、コンピュータビジョンの分野で、種々の変換に対する不変量の一種としてしばしば用いられる。これは、図1に示すように同一平面上で一直線状に並ぶ点ABCDに対して、以下の式で求められる。
また、複比は同一平面上の5点から、図2のようにして一直線上の4点を生成して計算することもできる。ここで、点ABCDEの複比はA'B'C'D'の複比として求められる。さらに、同一平面上の5点からは、以下のような不変量も知られている。
ここで、P(A,B,C)は、頂点A,B,Cから構成される三角形の面積である。この発明では、例えば、このような複比を用いて文書・画像固有の特徴量を計算し、文書・画像の検索を行う。
また、複比以外の幾何学的変換に対する不変量(幾何学的不変量)を用いてもよい。幾何学的不変量とは、幾何学的変換を通じて変化しない値であり、幾何学的変換の種類に応じて様々な幾何学的不変量が存在する。
換言すれば、この発明では、同一平面上のf点から計算される幾何学的不変量を用いて特徴量を計算する。幾何学的不変量の計算に要する点の数fは不変量の種類によって異なる。以下に、幾何学的不変量の例を挙げる。
1.複比:前述のように、複比は,射影変換の不変量であり,同一平面上の5点ABCDE(f=5)の座標から{P(A,B,C)P(A,D,E)}/{P(A,B,D)P(A,C,E)}で求められる。複比は射影変換の不変量であるため,点ABCDEの座標が射影歪みによって変化しても,その値は同一に保たれる.
2.アフィン不変量:アフィン不変量はアフィン変換における不変量である。アフィン変換とは、直線の平行性が維持される幾何変換であり、射影変換よりも自由度の低い変換である。射影変換を受けた平面においても、局所領域ではその変換がアフィン変換に近似されることがあるため、点の局所配置に基づく提案手法では複比の代わりにアフィン不変量を利用することが考えられる。
アフィン不変量は、例えば、同一平面上の4点ABCD(f=4)の座標からP(A,C,D)/P(A,B,C)で計算される。
3.相似不変量:相似変換はアフィン変換よりもさらに自由度の低い変換であり、拡大・縮小、回転、並進のみからなる変換である。相似変換においては直線間の角度、距離の比、面積の比、距離の2乗と面積の比などが不変となる。例えば、3点ABC(f=3)からAC/ABで計算される距離の比を用いてもよい。
ところで、画像上の特徴点から得られる不変量の値は連続値であるが、インデックスに用いる際には離散化する必要がある。好ましい実現手法の一つは、予備実験により特徴点から得られる不変量のヒストグラムを作成し、各離散値における不変量の頻度が等しくなるように離散値を割り当て、k階調に量子化することである。
この発明は、上記のようなアイデアに基づいてなされたものであり、撮影されたデジタル画像を使って、文書・画像情報が登録されたデータベースから文書、画像を検索する方法であって、撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて文書・画像の特徴量を求め、データベース中の文書・画像情報のうち求めた特徴量に一致する文書・画像に対して投票を行うことにより前記デジタル画像に対応する文書・画像を検索する文書・画像検索方法を提供するものである。
前記特徴点が、画像の中に繰り返し現れる特定の部位であってもよい。
前記特徴点が、単語領域の重心であってもよい。単語領域の重心を特徴点とすることにより、例えば英語など、単語領域が互いに分離されて配置される言語で書かれた文書の特徴を精度よく識別することが可能である。
前記特徴点が、後述する黒画素の連結成分の重心であってもよい。
前記特徴点が、漢字の閉鎖空間であってもよい。漢字の閉鎖空間を特徴点とすることにより、単語領域が互いに分離されて配置されることのない言語、例えば日本語であっても文書の特徴を精度よく識別することが可能である。
前記不変量が複比であってもよい。複比を用いることによって、幾何学的変換を受けた画像から、元の画像を検索することができる。
撮影方法が、デジタルカメラあるいはスキャナによるデジタル方式の撮影方法であってもよい。
また前記特徴量が、特徴点の局所的な集合を決定し、決定された各集合に含まれる特徴点からその一部の特徴点を選択する一の組み合わせに対して不変量を計算し、各組合せに対する不変量を用いた計算によって求められる値であってもよい。
このようにすれば、特徴点の局所的な集合から特徴量を求めるので、全ての特徴点の全ての組み合わせについて計算する方法に比べて計算量を減らすことができ、同一性の判定に要する処理時間を短縮することができる。あるいは、局所的な特徴点から特徴量を求めるので、部分検索に対応することができる。
さらに、前記特徴量が、特徴点の一の組み合わせから得られる不変量を複数個組み合わせることによってその識別能力が高められた特徴量であってもよい。このようにすれば、複比を組み合わせた値を特徴量とするので、類似の文書・画像から高い精度で同一性を判定することができる。
また、この発明は、文書・画像を入力する工程と、入力された文書・画像にIDを付す工程と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する工程と、抽出された各特徴点について実行する(1)〜(2)の工程であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程であって、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて(a)の工程で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する工程、
の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法を提供する。
この登録方法によれば、各特徴点pの近傍にあるn個の特徴点を局所的な集合として決定し、各集合からm個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からm個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、m個の特徴点からd個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量を得ることができる。
前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなるものであってもよい。
また、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
ここで、crn(n=0から4)は離散化された5通りの複比、Vmaxは離散化された複比の最大値、patはm点から5点を取り出す組み合わせパターンに与える識別番号で0からm5−1の何れかの値であってもよい。
あるいは、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
ここで、kは複比の量子化レベル数、Hsizeはハッシュのサイズ、crnはm点から取り出した5点の組み合わせに対する複比であってもよい。
また、この発明は、前述の登録方法により登録された文書・画像の検索方法であって、撮影画像を読み取る工程と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、抽出された各特徴点について実行する(1)〜(2)の工程であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程であって、
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の工程で求めた特徴量と比較して特徴量が一致する文書IDに投票する工程と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する工程とをコンピュータに実行させることを特徴とする文書・画像の検索方法を提供する。
この検索方法によれば、各特徴点pの近傍にあるn個の特徴点を局所的な集合として決定し、各集合からm個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からm個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、m個の特徴点からd個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量で検索することができる。
前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなるものであってもよい。
また、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
ここで、crn(n=0から4)は離散化された5通りの複比、Vmaxは離散化された複比の最大値、patはm点から5点を取り出す組み合わせパターンに与える識別番号で0からm5−1の何れかの値であってもよい。
あるいはまた、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
ここで、kは複比の量子化レベル数、Hsizeはハッシュのサイズ、crnはm点から取り出した5点の組み合わせに対する複比であってもよい。
前記文書・画像登録方法あるいは文書・画像検索方法は、例えば、汎用のパーソナルコンピュータによって実行されるものであってもよい。
また、この発明は別の観点から、撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて画像の特徴量を求め、文書・画像を格納するデータベース中にある求めた特徴量に一致する文書・画像に対して投票を行うことにより撮影された画像に対応する文書・画像データをデータベースから検索する処理をコンピュータに実行させるプログラムを提供するものである。
さらにまた、この発明は、文書・画像を入力する処理と、入力された文書・画像にIDを付す処理と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する処理と、抽出された各特徴点について実行する(1)〜(2)の処理、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理であって、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて(a)の処理で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラムを提供する。
また、この発明は、前述の登録プログラムを用いて入力された文書・画像の検索プログラムであって、撮影画像を読み取る処理と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する処理と、抽出された各特徴点について実行する(1)〜(2)の処理、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の処理で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム、文書・画像登録装置および検索装置を提供する。
前記文書・画像登録プログラムおよび文書・画像検索プログラムは、例えば、汎用のパーソナルコンピュータ上で処理が実行されるものであってもよい。
さらに異なる観点から、この発明は、文書・画像を入力する入力部と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて(a)で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置を提供する。
前記文書・画像登録装置は、汎用のパーソナルコンピュータをハードウェアとして用いることができる。この場合、入力部は外部の装置と文書・画像データをやり取りする通信I/Fや、データを記憶する記録メディアを読み書きするドライブ、例えばDVDドライブやCDドライブ、あるいは画像を読み込むスキャナ装置で構成される。また、特徴点抽出部、特徴点選択部、特徴量登録部の各機能は、アプリケーションとしてインストールされるプログラムをパーソナルコンピュータのCPUが実行することによって実現することができる。あるいは、DSPやASICを用いた専用のハードウェアによってその機能を実現してもよい。
また、この発明は、前記登録装置により登録された文書・画像を格納してなる文書・画像記憶装置を提供する。
前記文書・画像記憶装置は、汎用のファイルサーバーをハードウェアとして用いることができる。
さらにまた、この発明は、前述の文書・画像記憶装置に格納された文書・画像を検索する検索装置であって、撮影画像を読み取る読取部と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する特徴点抽出部と、抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理、
を行う投票処理部と、各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する文書ID特定部とを備えることを特徴とする文書・画像の検索装置を提供する。
前記文書・画像検索装置は、汎用のパーソナルコンピュータをハードウェアとして用いることができる。この場合、読取部は撮影画像を受信する通信I/Fや、撮影画像が記録された記録メディア、例えばSDカード(登録商標)やメモリースティック(登録商標)読み込むI/Fで構成される。また、特徴点抽出部、特徴点選択部、投票処理部の各機能は、アプリケーションとしてインストールされるプログラムをパーソナルコンピュータのCPUが実行することによって実現することができる。あるいは、DSPやASICを用いた専用のハードウェアによってその機能を実現してもよい。
前記文書・画像検索装置は、前記文書・画像記憶装置としての機能を備えていてもよい。あるいは、前記文書・画像検索装置は、前記文書・画像登録装置としても機能するものであってもよい。あるいはまた、文書・画像記憶装置と文書・画像登録装置の両方の機能を備えていてもよい。
この明細書で、「文書」とは、文字で表された情報であってデータベースに蓄積し検索できるものをいう。文書の一例は、契約書やパンフレットのようなビジネス文書、科学技術論文、新聞、カタログである。また、「画像」とは文字以外のパターンで表示され、撮影可能な情報であってデータベースに蓄積し検索できるものをいう。画像の一例は、図形や図面、写真、ポスターである。「画像」は、文書を画像として表したものを含む。
また、「連結成分」とは、画像の中にあって互いに繋がっている画素の集まりをいう。具体的には、ある画素の上下左右斜めの方向に隣接する画素がある場合、両者は互いに繋がっており、連結成分を構成すると考える。「特徴点」とは、画像の特徴を表す点であり、画像処理によって抽出される点のことをいう。「不変量」とは、幾何学的変換を受けても変化しない量の総称である。幾何学的変換の一例は回転であり、画像を回転させても、画像中に映っている図形の面積は変化しない。図形の面積は回転に対する不変量の例である。また、辺の長さの比は、拡大縮小に対する不変量の例である。幾何学的変換には、前述の回転や拡大縮小などの相似変換のほかに前記の射影変換やアフィン変換がある。
「投票」とは、情報処理の分野で部分的に証拠を集計するために用いる処理であって、得られた証拠に基づいて選択肢の何れかに得点を与え、すべての証拠を集計した結果最高得点を得た選択肢を選択する処理をいう。一般的に各証拠は異なる点数の票を持つ。
さらにまた、「検索質問」とは、情報検索において、ユーザの検索要求を表すデータをいう。この発明の場合には、ユーザは画像を検索質問として入力する。即ち、ユーザは、「この画像と同じものをデータベースより取り出せ」という意味で画像を入力する。
この発明によれば、デジタルカメラやスキャナなどの撮像画像から特徴点を抽出し特徴点から不変量を算出して文書・画像を検索するので、所望の文書・画像を高精度で検索できる。
この発明に係る複比の例を示す説明図である。 この発明に係る複比の他の例を示す説明図である。 この発明に用いる文書画像検索システムを示すブロック図である。 この発明の入力画像の一例を示す説明図である。 図4の2値画像を示す説明図である。 図5の画像を処理した画像の説明図である。 図6の画像をさらに処理した画像の説明図である。 この発明の特徴点を説明する説明図である。 この発明の特徴点を説明する説明図である。 この発明における特徴点を複比との関係を示す説明図である。 この発明における特徴点を説明する説明図である。 この発明の登録処理の手順を示す説明図である。(実施の形態1) この発明のハッシュの構造を示す説明図である。(実施の形態1) この発明の検索処理の手順を示す説明図である。(実施の形態1) この発明の1次投票テーブルを示す説明図である。 この発明の2次投票テーブルを示す説明図である。 この発明のデータベース中の画像を示す説明図である。 この発明のデータベース中の画像を示す説明図である。 この発明の実験例1で用いる撮像画像例を示す説明図である。 この発明の実験例1で用いる撮像画像例を示す説明図である。 この発明の実験例1で用いる撮像画像例を示す説明図である。 この発明の実験例1で用いる撮像画像例を示す説明図である。 この発明の実験例2で用いる撮像画像例を示す説明図である。 この発明の実験例2で用いる撮像画像例を示す説明図である。 この発明の実験例2で用いる撮像画像例を示す説明図である。 この発明の実験例2で用いる撮像画像例を示す説明図である。 この発明の実験例2で用いる撮像画像例を示す説明図である。 この発明の登録処理の手順を示す説明図である。(実施の形態2) この発明のハッシュの構造を示す説明図である。(実施の形態2) この発明の検索処理の手順を示す説明図である。(実施の形態2) この発明の投票処理において、検索質問の特徴点pと登録文書の点の対応付けを示す説明図である。(実施の形態2) この発明の実験例3で用いる撮像画像例を示す説明図である。 この発明の実験例3でデータベースへの登録ページ数と検索精度の関係を調べた実験結果を示すグラフである。 この発明の実験例3で用いた検索質問の例を示す説明図である。 この発明の実験例4でデータベースへの登録ページ数と検索時間の関係を調べた実験結果を示すグラフである。 この発明に係る特徴点抽出の手順の例を示すフローチャートである。 文書への書き込みを電子文書に反映させるシステムの構成例を示す説明図である。 図38は、撮影画像を正対に戻す例を示す説明図である。 この発明の文書・画像登録装置の構成を示すブロック図である。 この発明の文書・画像の検索装置の構成を示すブロック図である。 n個の点(n=8)からm個の点(m=7)を選ぶすべての組み合わせを説明する説明図である。(実施の形態2) f個の点の組み合わせから得られる不変量で定義されるm(m=7)個の点の配置を示す説明図である。(実施の形態2) 図28と異なる登録の手順を示す説明図である。(実施の形態2) 図30と異なる検索の手順を示す説明図である。(実施の形態2) データベース中の登録文書の例を示す説明図である。(実施の形態2の実験例) 検索質問の例を示す説明図である。(その他の実験例) 撮影角度と検索精度の関係を示すグラフである。(その他の実験例) 処理時間の目安としてのT(n,m,l)と処理時間との関係を示すグラフである。(その他の実験例) 量子化レベルと検索精度および処理時間との関係を示すグラフである。(その他の実験例) 登録ページ数と検索結果の関係を示すグラフである。(その他の実験例) 検索に失敗した検索質問の例を示す説明図である。(その他の実験例) 登録ページ数と検索速度およびリスト長との関係を示すグラフである。(その他の実験例) データベース中の登録文書の例を示す説明図である。(その他の実験例) 検索質問の例を示す説明図である。(その他の実験例) さまざまなパラメータでの撮影角度と検索精度の関係を示すグラフである。(その他の実験例) n個の点(n=3)から定められるm個の点(m=2)の配置を示す説明図である。(その他の実験例) 文書以外の画像に対して、この発明の手法を用いた処理例を示す説明図である。(d=16,n=28,m=1)(その他の実験例)
符号の説明
1 文書・画像登録装置
3 検索装置
11 入力部
15 特徴点抽出部
17 特徴点選択部
19 特徴点登録部
21 読取部
23 特徴点抽出部
25 特徴点選択部
27 投票処理部
29 ID特定部
31 文書画像データベース
この発明の文書・画像検索システムの構成を図3に示す。文書・画像は、特徴点抽出により点の集合に変換された後、登録の場合は登録処理へ、検索の場合は検索処理に入力される。登録処理では、特徴点を用いて複比を計算し、それをインデックスに変換することによってハッシュに文書を登録する。一方、検索処理は、特徴点から同様にインデックスを計算し、投票を行うことで所望の文書・画像を検索する。
ハッシュは、データベースのデータに対して高速にアクセスするための仕組みであり、格納するデータに対してキーを定め、キーを用いて計算される場所(アドレス)にデータを格納するものである。詳細には、前記キーをインデックスとする配列のテーブルとしてハッシュテーブルがあり、ハッシュテーブルの各要素には、リストデータへのポインタが格納されている。前記キーからハッシュテーブルのインデックスを計算し、求めたインデックスでハッシュテーブルを参照して得られたポインタで示されるアドレスにデータを格納する。キーをハッシュテーブルのインデックスに変換する関数がハッシュ関数である。格納されたデータの取り出しに際しては、ハッシュ関数を用いてキーからハッシュテーブルのインデックスを得、得られたインデックスで参照されるハッシュテーブルの要素に格納されたポインタを用いてデータを取り出す。
以下、各々について述べる。
特徴点抽出
特徴点抽出で重要なことは、特徴点の再現性、すなわち幾何学的変換・ノイズ・低解像度の影響下でも同一の特徴点が得られることである。英文文書における単語の重心は、この条件を満たす特徴点の1つである。これは、英文文書では単語と単語の間に空白があり、分離が比較的容易なためである。
例を用いて手順の概略を説明する。入力画像(図4)は、まず適応2値化により2値画像(図5)に変換される。次に、2値画像から以下のように単語領域を得る。まず、ガウシアンフィルタを適用して2値画像を平滑化する(にじませる)。このときガウシアンフィルタのパラメータは文字サイズの推定値(連結成分の面積の最頻値の平方根)に基づいて適応的に定める。そして、平滑化した画像に対して、再度適応2値化を適用し、2値画像(図6)を得る。この画像の連結成分を単語領域とみなし、その重心を特徴点とする。図6に対しては図7が得られる。
次に、図36に示すフローチャートに沿って、手順の詳細について述べる。入力画像を図36(a)のフローチャートに沿って処理し特徴点の集合を得る。
最初の処理はサイズ補正である。入力画像が携帯電話付属のカメラからのものであるときは、画像サイズが大きく異なるので画像を拡大し、サイズを補正する。
次に次式で表される適応2値化を施す。
ここで、Iは入力画像(濃淡画像)、Fは出力画像(2値画像)、Tは適応的に求められる閾値であり、上の「式2」で定義される。ここで、bは閾値を決めるために参照するブロックのサイズ、sは閾値を制御するパラメータである。この式は、ブロック内の濃度値の平均から一定量の値(s)を引いたものを閾値とすることを意味している。
前処理は、図36(b)に表されている。文書・画像をデータベースに登録する際の「データベース構築モード」か、撮影画像に対応する文書・画像を検索する検索モードかによって処理が異なる。データベース構築モードではない場合、すなわち検索を行う場合、それが携帯カメラを用いない通常の検索の場合(通常検索モード)には、面積が小さい連結成分を消去する。一方、データベース構築モードのときには、まず連結成分の面積の最頻値の平方根として文字のサイズを推定する。次にそれをHashScale倍して平滑化のパラメータcとする。平滑化では、まず、次式でガウシアンフィルタの標準偏差σを求める。
次に、この式で規定されたガウシアンフィルタによって画像を平滑化する。そして、再度、適応2値化を用いて2値画像を得る。以上が前処理である。
図36(c)のフローチャートについて説明する。上記が前処理であったので、次の処理は平滑化パラメータ推定である。これについては、前述のパラメータ推定と同様の処理を施す。次段の平滑化も前述と同様である。平滑化後の画像に対して再度適応2値化を施し、2値画像を得る。最終的には、前述の処理手順によって得た2値画像の連結成分を取り出し、その重心を特徴点とする。
インデックスに用いる特徴量計算
登録、検索の鍵となるのは、複比を用いていかにハッシュのインデックスを計算するかである。ここでは、登録、検索の詳細について述べる前に、インデックスに用いる特徴量の計算方法についてまとめる。
画像上の特徴点から得られる複比の値は連続値だが、インデックスに用いるときはk個に離散化する。幾何学的変換や撮影条件の変動による誤差を吸収するために、kの値はある程度小さくすることが好ましいが、小さすぎると識別力が落ちるので、適当な値を選択する必要がある。ここでは予備実験の結果として得られたk=9を用いて説明するが、kの値は一例であってこれに限定されるものではない。また、ここでは、部分検索を可能とするため、各特徴点の近傍ごとに定まる特徴量を用いる。
各特徴点の近傍で特徴量を定義するとき、以下のようなものが考えられる。
(1)近傍5点の複比
(2)近傍n点からの5点の複比
(3)近傍n点からのm(<n)点の配置、およびm点からの5点の複比
この発明ではこのうち最も複雑な(3)を用いる。以下ではこれら3つの手法を単純なものから説明し、この発明における特徴量と、なぜ複雑な手法が必要になるかについて述べる。
近傍5点の複比
特徴点の近傍から複比を用いて特徴量を定義するとき、まず容易に思いつくのは最近傍5点から複比を計算する方法である。例えば、図8に示す特徴点pに対して最も近い1から5の5点を選び出し、そこから複比を計算して点pの特徴量とすることが考えられる。
しかし、図8、図9に示すように、異なる角度から撮影した文書・画像では、最近傍の5点は変化する。そのため、同じ文書の同じ点から同一の特徴量が得られないという問題が生じる。
近傍n点からの5点の複比
次に考えられるのは、近傍n点からあらゆる5点の組み合わせを選び出し、そこから複比を計算する方法である。
図8、図9の例では、最近傍の5点こそ異なるが、近傍8点中の7点までは同一である。このように、近傍n点にはあまり変化しないm(<n)点が存在する。従って、n点からすべての5点の組み合わせを生成して複比を計算すれば、共通するm点中の5点から計算される複比は一致すると考えられる。このことから、近傍n点のすべての5点の組み合わせの複比を特徴量とし、比較する際にはそのうちの変化しないm点中の5点から計算される複比が一定数以上一致する場合に同一の点であるとみなす方法が考えられる。
しかし、実際にこの特徴量を用いて検索を行うと、正しい結果が得られないことが多い。図10に示す例を用いて考える。いま簡単のため、近傍n点から得られるすべての複比を図10の4個とする。ここでは、特徴点Aの近傍で定義される複比が(0.2, 1.3, 0.3, 1.8)、同様に特徴点Bから(1.2, 1.6, 0.1, 0.2)が得られている。いま、複比を0.5 ステップで離散化するとすれば、離散化後は各々(0, 2, 0, 3)、(2, 3, 0, 0) となる。種類のみを考えると両者とも0,2,3 の出現となり、同じものと認定される。実際の画像で計測するとこのような状況が頻出し、検索に失敗する。
近傍n点からのm点の配置およびm点からの5点の複比
上記の問題を解決する一方策は、順序を含めて複比を考えることである。つまり、図10の例では、(0, 2, 0, 3)と(2, 3, 0, 0)を別のものとして区別することである。
具体的に、図11の例を用いて説明する。ここで点ABCDEFGHと点IJKLMNOPは、同一文書の異なる画像において、対応する点の近傍8点の組とする。8点の組のうち異なるものはE,L の1点のみであり、残り7点は共通である。従って、それぞれの8点からすべての7点の組み合わせを取り出せば、そのうちABCDFGHとIJKMNOPの1組はまったく同じものになる。このように完全に共通な7点の組から、ある定まった順序ですべての5点の組み合わせを生成すれば、順序も含めて完全に一致する。つまり、最初は点ABCDFから得られた複比と点IJKMNから得られた複比、次は点ABCDGから得られた複比と点IJKMOから得られた複比というように、同じ順序で共通な7点から複比を計算すれば、同じ順序で同じ複比が得られる。異なる7点の組から同じ複比がまったく同じ順序で現れるということはまれであるので、この順序付けられた複比を特徴量として用いれば、上記問題の解決が期待できる。
特徴量の計算方法についてまとめる。まず、与えられた点の近傍n点を取り出す。次に、n点からすべてのm点の組み合わせを作成する。m点から定まった順序で5点の組み合わせを作成し、複比を計算する。ここで、複比の値が順序も含めてl個以上一致したとき、特徴量は一致すると判定する。
(実施の形態1)
登録
以上の準備に基づき、まず、登録処理の手順について述べる。データベース中に格納する文書・画像は、データベースに格納する際に、その特徴点を抽出して特徴量を計算し、文書・画像に対応付けて格納しておけばよい。撮影された画像データが得られたら、その特徴量を計算し、データベース中の各文書・画像に対応付けられた特徴量との一致を調べることにより撮影された画像データに対応する文書・画像をデータベース中の文書・画像から検索することができる。
図12に登録処理の手順の一例を示す。ここで、文書IDは文書の識別番号であり、点IDは文書ごとに各点に割り当てられる点の識別番号である。nmパターンIDはn点からm点を取り出す際の組み合わせパターンに与えられる識別番号であり、0からCm−1の値をとる。同様にm5パターンIDはm点から5点を取り出す際の組み合わせパターンの識別番号であり、0からm5−1の値をとる。
文書画像が登録されるハッシュの構造を図13に示す。ここで、「文書画像」は、文書が画像として記録されたものをいう。登録処理では、5〜8行目でハッシュのインデックスを求め、9行目でインデックスを用いてハッシュに登録するという処理を繰り返す。
処理に沿って説明する。まず図12に示す登録手順の5〜7行目では、5点から5通りの複比を計算する。5通りの複比は、得られた5点ABCDEに対して、ABCDE,BCDEA,CDEAB,DEABC,EABCDというように先頭となる点を巡回させて得られるものである。
次に、8行目でハッシュテーブルのインデックスを計算する。ハッシュ関数を以下に
示す。
ここで、crn(n=0から4)は離散化された5通りの複比、Vmaxは離散化された複比の最大値、patはm5パターンIDである。
9行目でインデックスを用いて(文書ID、点ID、nmパターンID)の組をハッシュに登録する。ハッシュで衝突が起きた場合、データは図13のようにリスト構造で付け加えられる。ここで、文書IDだけでなく、点IDおよびnmパターンIDもハッシュに登録するのは、検索時に特徴量の比較を行う際、順序付けられた複比の一致する個数を、文書ID、点ID、nmパターンIDごとに集計するためである。
検索
次に検索について述べる。図14に検索処理の手順の一例を示す。この発明ではまず図15に示す1次投票テーブルを用いて一定数l以上の複比が順序も含めて一致しているかどうかを調べ一致しているものについて図16に示す2次投票テーブルに対して投票を行い、検索結果を決める。ここで、lの好適な値を決定するためには、1(l(mnの制約条件の下、複数の適当な値を選んで予備的な実験を行い、検索結果の正解と不正解との比が大きい値をlの値として決定すればよい。
登録と同様に処理に沿って説明する。まず図14に示す検索手順の6〜9行目で登録時と同様の手法によりハッシュのインデックスを求め、10行目でハッシュを読んで図13にあるようなリストを得る。リストの各要素について、1次投票テーブルの該当するセルに投票を行う。
このような処理を繰り返し行い、m点からのすべての5点の組み合わせについて投票が終わったら、1次投票テーブルの各セルを調べる。l以上の得票数をもつセルが見つかったら、セルの属する文書IDで2次投票テーブルに投票する。
以上の処理により、最終的に2次投票テーブルで最も得票数の多い文書を検索結果とする。
なお、4行目でPmから開始点を変えたP'mを作成し、すべてのP'mについて処理を行っているのは、Pmとして点ABCDEFGが与られたとき、P'mとしてBCDEFGA,CDEFGABのように巡回させたものをm通り作成することに相当する。これは、画像が回転している場合に対応するためである。
(実施の形態2)より高速化した手法
この実施例では、実施の形態1に比べて、登録あるいは検索に要する処理時間をより短縮できる手法について説明する。
改善された登録ならびに検索方法を説明する前に、特徴量計算に関する説明を補足する。
特徴量計算
1.特徴量の満たすべき条件
この明細書において、特徴量とは,文書画像の特徴点を表現する量である。検索質問および登録文書のそれぞれについて、特徴点から得られる特徴量を計算し、それらの値を比較することで検索質問と登録文書が対応しているか否かを判断する。
特徴量の評価基準としては,検索精度や検索に要する計算量が挙げられる。検索質問に対応する登録文書を正確に、かつ高速に検索できる特徴量が優れた特徴量であるといえる。ここでは、特徴量の精度に関する条件として以下の2条件を定義する。
第一の条件は、各種歪みの影響を受けても同じ文書の同じ点からは同じ特徴量が得られなければならないということである。もし登録文書と検索質問から異なる特徴量が得られれば、検索によって正しく対応する特徴点を見つけることはできない。この条件を「特徴量の安定性」と呼ぶ。
第二の条件とは、異なる点からは異なる特徴量が得られなければならないということである。もし異なる文書から同じ特徴量が得られれば、検索の際に正しく対応する特徴点だけでなく、対応しない特徴点まで見つかることになる。この条件を「特徴量の識別性」と呼ぶ。
また、第三の条件として、特徴量を求める計算量が小さいことも必要もある。いうまでもなく、安定性や識別性の高い特徴量であっても、計算量が膨大であれば利用は困難となる。従って、特徴量は精度に関する上記の2条件を満たすだけでなく、計算量が小さくなければならない。
これら3つの条件が高速かつ高精度な文書画像検索における特徴量の満たすべき条件である。
2.特徴量の安定性
前述の3つの条件のうち、まず特徴量の安定性について述べる。前述のように,提案手法では各特徴点の近傍点から不変量を用いて特徴量を計算する。そのため、特徴量が安定であるためには、射影歪みによって近傍点の座標が変化しても特徴量の計算に用いる点として同じ点が得られる必要がある。図8および図9に示すように、近傍点は射影歪みの影響で変化する。このため、特徴点pの近傍f点から計算される不変量を特徴量とすると、同じ特徴点pから同じ特徴量を得ることはできない。
そこで、この発明では、より広い範囲の近傍点から複数の点の組み合わせを作成し、そこから複数の特徴量を計算する。これは、図8、図9のように、射影歪みの影響があってもある程度広い範囲の近傍n点(図8、図9では8点)のうちm点(図8、9では7点)までは同じ点が含まれるという仮定に基づいている。近傍n点のうちm点が同一であるならば、図41のようにn点からすべてのm点の組み合わせPm(0)、Pm(1)、…、Pm(nCm−1)を作成し、それぞれ特徴量を計算することで少なくとも1つは同じ特徴量が得られると考えられる。
3.特徴量の識別性
次に、特徴量の識別性について述べる。提案手法では、1つの特徴量の計算に用いる特徴点の数mを増やすことで識別性を高める。m点の配置の表現方法としては、図42のようにm点から得られるすべてのf点の組み合わせから計算される不変量の列cr(0)、cr(1)、…、cr(mCf−1)を用いる。なお、cr(i)と前述のcriとは同じ複比を表しており同値である。mが大きければ大きいほど、計算される不変量の数が多くなるため、同じ特徴量が偶然に現れる可能性は低くなる。ただし、mが大き過ぎると特徴量の安定性が低下する。なぜなら、特徴量が一致するためには特徴量の不変量すべてが一致する必要があるが、mが大きいと不変量の数mCfが増加するので、誤差の影響で異なる不変量が計算される可能性が高くなるためである。
4.計算量と記憶容量
以上に述べたように、nを大きくすると広い範囲から複数の特徴量を計算するようになり、特徴量の安定性が向上する。また、mを大きくすると1つの特徴量の計算に用いる点の数が増加するため、特徴量の識別性が向上する。しかし、これらのパラメータを大きくし過ぎると計算量の面で問題が生じる。nおよびmが大き過ぎると、不変量の計算回数が増加する。そのため、登録および検索に要する処理時間が大きくなる。また、登録時には計算される特徴量を記憶しておく必要があるため、大きな記憶容量が必要となる。
5.不変量の量子化レベル
安定性および識別性に影響するパラメータはn、mだけではない。不変量の量子化レベルkもこれらに影響する。kの値が大きい(不変量が細かく離散化される)と、誤差の影響で同じf点から計算される不変量が異なる値に離散化される可能性が高くなり、安定性が低下する。kの値が小さい(不変量が粗く離散化される)と、異なるf点から計算された不変量が同じ値に離散化される可能性が高くなり、識別性が低下する。以上のことから、高い検索精度と同時に高速な処理や小さい記憶容量を実現するには、n、mおよびkを適切に設定する必要があるといえる。
登録
次に、実施の形態1と異なる登録手順の一例として、図28に示す登録処理の手順について説明する。
登録処理では、登録文書の各点について、その近傍n点からすべてのm点の組み合わせを生成し、そこから複比を用いたインデックスを求めて図29に示すハッシュに登録する。以下、処理に沿って説明する。図28に示す登録手順の1行目で特徴点の集合から1点を取り出してpとし、2行目でpの近傍n点を時計回りに取り出してPnとする。3行目ではPnからm点を取り出してPmとし、Pmから得られるすべての5点の組み合わせについて5行目で複比の値を計算し、離散化してcriを得る。m点から得られる5点の組み合わせの数はm5であるので、iは0〜m5−1の値をとる。
このようにして得られた複比criより、ハッシュ関数を用いて7行目でハッシュのインデックスHindexを求め、8行目でHindexを用いて文書ID(登録文書の識別番号)と点ID(点の識別番号)、cri(i=0,...,m5−1)をハッシュに登録する。
ハッシュ関数を以下に示す。
ここで、kは複比の量子化レベル数、Hsizeはハッシュのサイズである。また、登録時に衝突が生じた場合、データは図29のようにリスト構造で付け加えられる。
この登録処理の手順は、図43のように表すこともできる。図43について説明する。登録処理では、登録文書の各特徴点について、その近傍n点からすべてのm点を選ぶ組み合わせを生成し、そこから不変量を用いたインデックスを求めて図29に示すハッシュ表に登録する。
まず、図43の1行目で特徴点の集合から1点を取り出してpとする。2行目でpの近傍n点を取り出してPnとする。3行目で、Pからm点を取り出してPとする。4行目で、Pの要素に対してpを中心とした時計回りの順序を与えて特徴点の列Lを定める。次に、5行目でLの要素から順序を保ったままf点を選択してできる特徴点の列Lfをすべて求め、求めたLfを辞書式順序に並べる。
例えば、m=7、f=5のときには、(Lf(0)、…Lf(7C5−1))として((p0,p1,p2,p3,p4), (p0,p1,p2,p3,p5), …(p2,p3,p4,p5,p6))が得られる。さらに7行目において、Lf(i)の点を前から順にA,B,C,…として上で示した不変量の計算式に代入して不変量を求め,離散化してcr(i)とする。このようにして得られたcr(i)より、9行目で以下の「式3」に示されるハッシュ関数を用いてハッシュ表のインデックスHindexを求め,10行目でHindexを用いて登録文書の識別番号である文書ID(Document ID)と点の識別番号である点ID(Point ID)、不変量(Invariants)cr(i)(i=0,1,…mCf−1)をハッシュ表に登録する。この実施の形態で用いるハッシュ関数を以下に示す。
ここで、kは不変量の量子化レベル,Hsizeはハッシュ表のサイズである。また、登録時に衝突が生じた場合、データは図29のようにリスト構造で付け加えられる。 このような処理をすべてのpについて施し,文書を登録する。
検索
次に検索について述べる。図30に実施の形態1と異なる検索手順の一例として、検索処理の手順を示す。登録と同様に、処理に沿って説明する。まず処理手順の5から8行目で登録時と同様の手法によりハッシュのインデックスを求め、9行目でハッシュを読んで図29にあるようなリストを得る。リストの各要素について、登録されている複比と検索質問の複比が完全に一致しているかどうか確認し、一致しているものについては文書IDの1次元配列である投票テーブルの該当するセルに投票を行う。
投票は検索質問の特徴点pと登録文書の点を対応付けることに相当する。ここで、点ごとに独立に対応付けると、図31におけるAとA',A''やA,BとA'のように1つの点と複数の点が対応するという誤った対応が生じる。このような誤対応による投票を得票数に含めると正しい対応による投票の評価が相対的に下がり、検索が失敗する原因となる。そこで本手法では、検索質問と登録文書の点の間の対応を記録しておき、すでに対応付けられている点については投票を行わないことにする。これにより誤った対応による投票を制限する。
このような処理をすべての点について行い、最終的に投票テーブルで得票数が最大の文書を検索結果とする。
なお、4行目でPmから開始点を変えたP'mを作成し、すべてのP'mについて処理を行っているのは、Pmとして点ABCDEFGが与られたとき、P'mとしてBCDEFGA,CDEFGABのように巡回させたものをm通り作成することに相当する。これは、画像が回転している場合に対応するためである。
前述の手順は、図44のように表すこともできる。図44について説明する。登録処理と同様に、1〜3行目で、p、P、Pを得る。4〜5行目では、登録処理とは異なり、Pのすべての点を開始点pとしてLを作成する。これは、図43の登録アルゴリズムの4行目において、画像の回転を考慮せずにPから得られる列として、Lを1つだけ登録しているために必要となる。点pを中心とした特徴点の時計回りの順序は、射影変換を受けた後でも開始点の任意性を残して一定である。すなわち、Lの巡回置換を考えると、その中に必ず1つは登録時に用いた順序のものが存在するといえる。6〜10行目で登録時と同様の手法によりハッシュ表のインデックスを求め、11行目でハッシュ表を読んで図29にあるようなリストを得る。12〜14行目で、リストの各要素について、登録されている文書IDのものに投票する。ここで、誤対応による投票を制限するため、
(1)不変量の列が一致する、(2)検索質問の1点が1つの登録文書の複数点に対応しない、(3)登録文書の1点は検索質問の複数の点と対応しない、という3条件を用いる。このような処理をすべての点について行うと、各登録文書の得票数が得られる。しかし、このようにして得られた得票数は依然として誤対応によるものを含んでいる。誤った投票は、登録文書に含まれる特徴点数に概ね比例する。このため、多くの特徴点をもつ登録文書は、不当に多くの得票数を得ることになる。このような誤った投票を補正するため、以下の「式4」のように文書diに対してスコアS(di)を定義する。
ここで、V(di)はdiの得票数、N(di)はdiに含まれる特徴点の数,cは予備実験で定められる特徴点数と誤投票の比例定数である。最終的に、最大のスコアを得た文書を検索結果とする。
(実施の形態1の実験例)
実験例の概要
実施の形態1に述べた手法の有効性を検証するために、通常のデジタルカメラと携帯電話付属のデジタルカメラそれぞれについて撮影された文書画像から対応するものを検索した。通常のデジタルカメラにはCANON(登録商標) EOS Kiss Digital(630万画素)と付属のレンズEF−S 18−55mm USMを、携帯電話付属のデジタルカメラには京セラTK31 付属のデジタルカメラ(18万画素)を使用した。
文書画像データベースには1,2 段組の英語論文のPDFファイルから変換して作成した文書画像を50ページ用意した。データベース中の文書画像の例を図17、図18に示す。なお、実験例はCPU Pentium(登録商標)4 2.4GHz、メモリ768MBの計算機で行った。
実験例1:通常のデジタルカメラによる実験例
まず通常のデジタルカメラを用いた結果について述べる。3.で述べた処理のパラメータはn=8、m=7、k=9、l=10とした。ここで、前述したようにkは、特徴点から得られる複比の値を離散化する個数、lは、1次投票の得点に基づいて同一の点と認定するために一致しなければならない複比の個数であって、ハッシュの各要素を2次投票の対象とするか否かを判定する際の得点のしきい値である。検索質問には、異なる10ページに対して、図19〜図22に示すような4段階の撮影範囲で撮影した画像を計40枚用意した。ここで撮影範囲Aは文書全体、Bは文字領域全体、Cは文字領域半分程度、Dは文字領域1/4 程度とした。画像の撮影はやや傾いた角度から行った。対応する得票数が1位になったとき正答とし、正答率と処理時間の平均を調べた。
表1に実験結果を示す。撮影範囲に関わらず、すべての入力画像で正しい結果が得られた。なお、撮影範囲が狭くなるにつれて処理時間が減少しているのは、処理する特徴点の数が少なくなるためである。
実験例2:携帯電話付属のデジタルカメラによる実験例
携帯電話で撮影した検索質問として図23〜図27を用いて検索を行った。その結果、図24〜図26で検索に成功、図23,図27では検索に失敗した。図23で検索に失敗した理由は、入力画像の解像度が低すぎると単語の分離ができず特徴点を正しく抽出できないためであり、図27で検索に失敗した理由は、画像に含まれる領域が狭すぎると近傍点が正しく得られないためである。以上により、携帯電話付属のデジタルカメラのように解像度が低い機器を利用する場合でも、撮影範囲の調整が必要になるものの検索は可能であることが示された。
このように、前述の実験例では、複比とハッシュを用いた投票により、デジタルカメラで撮影した文書画像を検索質問とする文書画像検索法を提案し、文書画像を高い精度で検索できることを確認した。また、撮影範囲を調整すれば、解像度の低い携帯電話付属のデジタルカメラでも検索が可能であることも明らかになった。
(実施の形態2の実験例)
実験例の概要
実施の形態2に述べた手法の有効性を検証するため、検索精度およびデータベースのサイズと検索速度の関係について調べた。検索質問の作成には、CANON EOS Kiss Digital(630万画素)と付属のレンズEF−S 18−55mm USMを使用し、文書を図32に示すような傾いた角度から撮影した。検索質問数は50である。一方、文書画像データベースには種々の英語論文のPDFファイルから変換して作成した文書画像1万ページを用いた。データベース中の文書画像の例を図17, 図18に示す。実験に用いた処理のパラメータはn=8,m=7,k=10, Hsize=1.28×108とした。なお、CPUが AMD Opteron(登録商標) 1.8GHz、メモリ4GBの計算機を用いた。
実験例3:検索精度
まず、データベースへの登録ページ数と検索精度の関係を調べた。実験結果を図33に示す。ページ数の増加に伴って、精度が低下していくことがわかる。
以下では、1万ページの場合について述べる。正しい文書画像の得票数が1位となったのは、50枚のうち49枚であり、検索精度は98%となった。残りの1枚の画像については、5位にランクされていた。検索時間は平均で137.7msであった。1位にならなかった検索質問の例を図34に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。
実験例4:検索時間
次に、登録ページ数が検索時間にどのように影響するかを調べた。結果を図35に示す。登録文書数が増加するに従って検索時間は少しずつ増加することがわかる。ハッシュにおけるリスト長の平均(平均リスト長)を同図に示す。ここで平均リスト長とは、ハッシュに値があるものについて、そのリスト長の平均をとったものである。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュで衝突が増加していることがわかる。これが検索時間の増加の理由と考えられる。
(その他の実験例)
ア.複比を用いたときの検索性能
複比を用いた文書画像のインデクシングと検索の性能をより精密に評価するため、様々なパラメータを用いて実験を行った。
図45に示すような英語論文のPDFファイルを変換して得られた文書画像のデータベースと、印刷文書をデジタルカメラで撮影した検索質問を用いて実験を行った。文書画像データベースとしては、それぞれ10,100,1,000,10,000ページの文書画像からなるデータベースA,B,C,Dを用いた。データベースDはデータベースCを、データベースCはデータベースBを、データベースBはデータベースAをその一部としてそれぞれ含んでいる。また、PDFファイルとしては主にCVPR、ICPR、ICCVなどの類似したレイアウトをもつ国際学会の予稿集のものを用いた。
検索質問としては、データベースBを印刷したものを紙面に対してそれぞれ60°、45°、30°程度の角度から撮影した検索質問1、2、3を用いた。画像の数はそれぞれ100枚である.検索質問の例を図46に示す。検索質問の作成には、CANON EOS Kiss Digital(630万画素)と付属のレンズEF-S 18-55mm USMを使用した。実験に用いたハッシュ表のサイズはHsize=227−1とした.また、CPUがAMD Opteron 1.8GHz、メモリが6GBの計算機を用いた。
実験1:パラメータn,mと性能との関係
提案手法の性能は,特徴量計算時の組み合わせ数を決めるパラメータnおよびmの値によって変化する。そこでまず、さまざまなn、mの組み合わせにおける検索精度、処理時間、記憶容量について調べた。実験にはデータベースBおよび検索質問1〜3を用いた。検索質問の撮影角度ごとの実験結果を表2〜表4に示す。
ここで、精度は検索質問に正しく対応する文書が最も多くの得票数を得た割合、処理時間は特徴点抽出処理を除く検索処理に要した時間、リスト数はハッシュ表に登録される要素(図29に示す、文書ID、点ID、複比の列cr(0),…cr(mC5−1)の組が1つの要素)の数の合計、lはハッシュ表においてリスト長が0でないもののリスト長の平均である。表2〜表4には各n,mの組について、最も高い精度が得られたkを用いた結果のみを示している。また、参考のため、各n,mにおける組み合わせの数nCmおよびmC5も示してある。まず、精度について考察する。
全体として、撮影角度が小さくなるにつれて精度が低下した。これは、射影歪みが大きいと近傍点の変化が大きくなり、特徴量の安定性を保つことができなくなるためと考えられる。ただし、図47に示すようにnとmの差が大きいと精度の低下が抑えられた。これは、n−mが許容される特徴点の消失数であることによる。次に、処理時間について考察する。図44に示した検索アルゴリズムの構造から、処理時間は、特徴量計算およびリスト処理に要する時間とそれらの繰り返し回数とによって定まると考えられる。特徴量計算に要する時間は、概ね特徴量を構成する複比の数であるmC5に比例し、リスト処理に要する時間は平均リスト長lに比例する。また、それらの繰り返し回数はnCm×mである。以上のことから、パラメータn,mと平均リスト長lから求められる処理時間の目安としてT(n,m,l)を以下の「式5」で定義する。
ここで、αは特徴量計算に対するリスト処理の時間の重みである。図48にα=3としたときのT(n,m,l)と処理時間のグラフを示す。図48より、T(n,m,l)と処理時間はほぼ比例することがわかる。従って、処理時間は「式5」のような形でn,m,lの影響を受けると考えられる。最後に、記憶容量について考察する。表2〜表4では、ハッシュ表に記憶されるリスト数はnCmに比例したものになっている。これは、各点の特徴量ごとに登録が行われるためである。上述したように、高い安定性を実現するにはn−mの値を大きくする必要があるが、これは同時に、必要となる記憶容量の増大をもたらすといえる。
実験2:量子化レベル と性能の関係
提案手法の性能は,量子化レベルkの値によっても変化する.そこで,データベースBおよび検索質問1を用いてパラメータをn=8,m=7と設定し、kと精度および処理時間の関係を調べた。結果を図49に示す。まず精度について考察する。kが小さいときの精度は低く、kの増加に伴って精度も急激に上昇した。これは、kが小さいときは特徴量の識別性が低いため、正しく対応する文書とそうでないものを区別できないことが原因と考えられる。また、kが大きくなり過ぎると、精度が急激に低下した。これは、特徴量の安定性が低下するためと考えられる。次に、処理時間について考察する。処理時間は、kの増加に伴って急激に減少した後、ほぼ一定の値に保たれている。これは、kが小さいときは特徴量の識別性が低くハッシュ表での衝突が多くなるため、検索時のハッシュアクセスに時間がかかることが原因と考えられる。以上のことから、高速かつ高精度な検索を実現するにはkの値を適切に設定することが必要といえる。
実験3:登録ページ数と検索精度の関係
データベースA〜Dを用いて登録ページ数を10から10,000まで変化させたときの登録ページ数と検索精度の関係を調べた。検索質問は1および2を用いた。また、パラメータは両方の検索質問で統一し、n=8,m=7とした.このとき、kの値は表2、表3に示す値を用いた。実験結果を図50に示す。
ページ数の増加に伴って、精度が低下していくことがわかる。これは、データベースが大きいと、同じ特徴量をもつ異なる文書が登録されている可能性が高くなるためと考えられる。また、検索質問1に比べて検索質問2では精度が低くなっている。これは、射影歪みが大きいために近傍点の変動が大きく、特徴量を安定に得ることが困難であることが原因と考えられる。検索に失敗した検索質問の例を図51に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。
実験4:登録ページ数と処理時間の関係
登録ページ数が処理時間にどのように影響するかを調べた。データベースはA〜D、検索質問は1、パラメータはn=8,m=7,k=12を用いた。結果を図52に示す。登録文書数が増加するに従って処理時間は少しずつ増加することがわかる。すでに述べたように、処理時間はパラメータn,mと平均リスト長lに影響される。この実験ではパラメータn,mは固定されているので、平均リスト長lを同図に示す。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュ表で衝突が増加していることがわかる。これが処理時間の増加の理由と考えられる。
イ.相似変換
実験概要
この発明における相似不変量の有効性を検証するため、検索精度および処理時間の比較実験を行った。実験では、図53に示すような英語論文の電子文書を変換して得られた文書画像のデータベースと、印刷文書をデジタルカメラで撮影した検索質問を用いた。文書画像データベースとしては、それぞれ100、1,000、10,000ページの文書画像からなるデータベースA,B,Cを用いた。データベースCはデータベースBを、データベースBはデータベースAをその一部として含んでいる。また、電子文書としては主にCVPR、ICPR、ICCVなどの類似したレイアウトをもつ国際会議の予稿集のものを用いた。検索質問としては、データベースAを印刷したものを紙面に対してそれぞれ90°、60°、45°、30°程度の角度から撮影したものを用いた。画像の数はそれぞれ100枚である。検索質問の例を図54に示す。検索質問の作成には、CANON EOS Kiss Digital(630万画素)と付属のレンズEF-S 18-55mm USMを使用した。実験に用いたハッシュ表のサイズはHsize = 227−1とした。また、CPUが AMD Opteron 2.8GHz、メモリ16GBの計算機を用いた。
実験1:撮影角度と検索精度の関係
まず、特徴量の計算に複比または相似不変量を用いたときの検索質問の撮影角度と検索精度の関係を調べた。提案手法では、特徴量計算時の組み合わせ数を決めるパラメータnおよびmや、不変量の量子化レベル数kの値によって性能が大きく変化する。この実験では、n=10とし、m=10,9,8,7のそれぞれについて最も高い精度を与えたkを用いた。また、撮影角度90°〜30°の検索質問と100ページのデータベースAを用いた。
図55に(a)複比、(b)相似不変量のそれぞれについて各n,mの組み合わせにおける撮影角度と検索精度の関係を示す。図55(a),(b)より、角度が小さくなるにつれて全体的に精度が低下することがわかる。これは、歪みによって特徴点の近傍構造が変化し、近傍n点のうちm点の一致という条件が満たされなくなることが原因であると考えられる。ただし、n=10,m=7のようにnとmの差が大きいときには精度の低下が比較的小さくなっている。
図55(a)に示す複比は角度の減少に対する精度の低下が小さく、(b)の相似不変量は精度の低下が大きいという結果になった。これは、以下に述べる不変量の性質が原因であると考えられる。まず、複比は射影不変量であるため、特徴点の位置の射影歪みによる変動に対しては不変である。しかし、射影歪みでない変動に対しては不安定な性質をもっている。提案手法では特徴点として単語領域の重心を用いており、これは画像が歪んだ場合、一定の変動を受ける。そのため、大きな射影歪みを受けた場合、特徴点の座標の変動により特徴点から計算される複比の値が変化し、不安定となると考えられる。
相似不変量の場合は局所領域の歪みが相似変換に近似できる範囲では安定となる。しかし、相似変換は変換としての制約が強過ぎるため、射影歪みが大きいと局所領域でも相似変換に近似できなくなる。そのため、射影歪みが大きいと特徴量としての安定性が低くなる。
実験2:登録ページ数と検索精度の関係
次に、不変量ごとに登録ページ数と検索精度の関係を調べた。N=8、m=7とし、kは登録ページ数100のときに最も高い精度を与えたものを用いた。表5に結果を示す。実験1と同様に、撮影角度の減少に伴って検索精度が低下した。また、登録ページ数が増加するに従って精度は低下した。これは、登録ページ数の増加に伴って類似した点の配置をもつ文書の登録される確率が増加することが原因と考えられる。実験1と同様に、複比の精度が高く、精度の低いものが相似不変量という結果になった。
実験3:登録ページ数と処理時間の関係
各不変量での登録ページ数と処理時間の関係についても調べた。ここでの処理時間とは、1枚の検索質問について図44に示される検索処理のみに要した時間であり、その前段階の特徴点抽出処理は含まない。パラメータは実験2と同じものを用いた。例として、検索質問に撮影角度60°のものを用いたときの結果を表5に示す。
なお、検索質問の撮影角度が変化しても処理時間はほぼ一定であった。全体として、登録ページ数の増加に伴って処理時間は増大した。これは、ハッシュに登録されるデータが増加するため、衝突率が高くなることが原因であると考えられる。処理時間は、複比は短く、相似不変量は長いという結果になった。これは、特徴量を求める際の不変量の計算回数mCfの相違に起因すると考えられる。M=7の場合、mCfの値はfが小さいほど大きくなる。そのため、f=5である複比に比べて、f=5の相似不変量の方が処理時間が長くなっていると考えられる。また、相似不変量では登録ページ数10,000のときに急激に処理時間が増大している。これは、相似不変量はその計算に用いる点の数が少ないため、同じ離散値をとりやすく、ハッシュでの衝突が急激に増加したためと考えられる。
ウ.文書以外の画像
文書以外の対象への適用性を示すために、デジタルカメラで撮影したポスターや雑誌表紙を対象として実験を行った。
実験手法の概要
文書画像の場合とは異なり、特徴点としては、次の文献で提案されているPCA-SIFTを用いた(例えば、Y. Ke and R. Sukthankar. Pca-sift: representation for local image descriptors. Vol. 2, pages 506-513, 2004.参照)。
PCA-SIFTは、画像から特徴点を抽出するとともに、その特徴点を特徴づけるd次元の特徴ベクトルv=(v1,…,vd)を求めるものである。PCA-SIFTによって得られる特徴点、特徴ベクトルは、SIFTと呼ばれる手法に基づいている(例えば、D. G. Lowe. Distinctive image features from scale invariant keypoints. International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.参照)。
本手法では、PCA-SIFTによって得られる実数値のベクトルvを、ビットベクトルw=(w1,…,wd)に変換して用いる。変換方法としては様々なものが考えられるが、例えば、vi≧0ならばwi=1, それ以外の場合wi=0とする方法でもよい。以下ではこの方法を用いた結果を示す。
文書の場合と同様、本手法では、複数の特徴点を組み合わせて用いる。図56に概要を示す。ここでp0は現在注目している点、他の点p1…はp0の周囲の点である。この例は、周囲3点から2点を組み合わせる(n=3, m=2)を表している。いま、p0, p1, p2の3つの点を組み合わせるとしよう。各々のビットベクトルをw0,w1,w2とし、wi=(w1i,…,wdi)で表すとき、組合せの結果として得られるp0の特徴ベクトルw0'は、
w0'=(w0,w1,w2)=(w10,…,wd0,w11,…,wd1,w12,…,wd2)
のように3d次元のビットベクトルとなる。これを文書画像の場合と同様にハッシュのインデックスに変換する。具体的には、
の式によってインデックスHindexを得る。ここで、rは組み合わせる特徴点の数、Hsizeはハッシュのサイズである。
実験例:
本手法の有効性を検証するため、実験を行った。使用計算機はAMD Opteron 2.8GHz, メモリ16GBのものである。SIFTの特徴ベクトルの次元を128, PCA-SIFTの次元を36とした。また、本手法においてビットベクトルを組み合わせる際には、元のビットベクトルwiの次元を、9 ( d ( 36の間で変化させて用いた。これは、例えば、d=9の場合ならば、w1〜w9のみを用いることを意味する。また、点の組合せとしては、5 ( n ( 30, 1 ( m ( 3 の範囲で試した。また、特別な場合として特徴点を組み合わせないケース(n=0,m=0)も行った。
実験対象は、40個の平面物体である。このうち、5個はポスター、残り35個は雑誌Comm. of the ACMの表紙である。これらの物体を、630万画素のカメラを用いて撮影し、3042×2048というサイズのカラー画像を得た。実験ではこれを1024×683の濃淡画像に変換した。
検索質問としては、45°、60°、75°の3つの水平方向の角度から撮影したもの、大、小2つの異なるサイズで正面から撮影したものの、合計5つの異なる見え方のものを用意した。ここで、大を除くすべての画像では、対象全体が画像に収まっていた。大の場合は、対象の概ね50%の領域が撮影されていた。平面物体の数が50, 見え方が5通りなので、合計200枚の画像を検索質問として用いたことになる。また、データベースには90°の角度から中の大きさで撮影した画像を格納した。したがって、データベースの画像は、検索質問の画像のいずれとも異なるものとなる。
本手法による処理例を図57に示す。ここで、図57(a)はデータベース中の画像、図57(b)〜(f)は、検索質問の画像(上部)とデータベース中の画像(下部)の特徴点が対応付いている様子を表している。この例の場合は、データベース40枚の画像の中からすべて正解を検索することができた。
本実験では、比較手法としては、(1)SIFTによって得られた128次元の実数値ベクトルをそのまま用いて、ユークリッド距離で最も近いものをデータベースから探す手法(以下、SIFTと呼ぶ)、(2)PCA-SIFTで得られた36次元の実数値ベクトルに対して、同様にユークリッド距離を用いる手法(以下、PCA-SIFTと呼ぶ)の2つを用いた。
処理精度と処理時間を表6に示す。
SIFTとPCA-SIFTは共に100%の検索精度(accuracy)となっているものの、膨大な処理時間を要していることがわかる。一方、本手法では、処理精度を90%前後に保ったまま、大幅な処理時間の短縮に成功している。
本手法では2つのパラメータ設定(d=24, n=0, m=0) および (d=16, n=28, m=1)の結果を示している。点を組み合わせない前者に比べて、点を組み合わせる後者の方が、処理精度が向上している。
誤検索の詳細を表7に示す。
ここで、誤った画像のランクの平均(ave. rank of failed correct images)は、点を組み合わせない場合(上側)に比べて組み合わせる場合(下側)の方が小さい。これは、誤った場合でも、より上位に正解がランクされていることを示している。点を組み合わせる場合の誤りは、2/3が45度という浅い角度の検索質問、1/3が小(small)のサイズの画像に対して生じていた。実用上、より重要性のある60°〜75°、大(large)については誤りは皆無であった。また、2位の得票数に対する1位の得票数の比(ave. ratio of votes)を同様に表7に示す。
検索に成功(succeeded)の場合は、共に2位の得票数の7倍以上という高い得票数を得ている。一方、検索に失敗した場合には、1倍を少し上回る程度であった。このことから、得票数の比を見ると、正しい対象が検索されているかどうかをある程度推定することも可能であると考えられる。また、比に対する閾値を設定すれば、処理誤りを排除することができる。上記の場合、すべての誤りを排除する閾値を設定すると、処理精度は75%となった。
(装置の構成例)
この発明に係る文書画像を文書・画像データベースに登録する文書・画像登録装置の構成例を説明する。また、前記文書・画像登録装置を用いて文書・画像が登録された文書・画像データベースから、文書・画像を検索する検索装置の構成例を説明する。
図39は、この発明の文書・画像登録装置1の構成を示すブロック図である。文書・画像登録装置1は、入力部11、特徴点抽出部15、特徴点選択部17、特徴点登録部19からなる。入力部11は、登録する文書・画像が入力される部分である。特徴量抽出部15は、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する部分である。特徴点選択部は17、抽出された各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する部分である。特徴点登録部19は、選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて、実施の形態1または2で述べた登録の手順に従ってハッシュテーブルのインデックスを計算し、入力された文書・画像を文書画像データベース31に登録する部分である。
また、図40は、この発明の文書・画像の検索装置の構成を示すブロック図である。検索装置3は、読取部21、特徴点抽出部23、特徴点選択部25、投票処理部27、ID特定部29からなる。読取部21は、撮影画像を読み取る部分である。特徴点抽出部23は、読み取られた撮影画像から画像の配置を表す複数の特徴点を抽出する部分であり、図39の特徴点抽出部15に対応する。特徴点選択部25は、抽出された各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する部分であり、図39の特徴点選択部17に対応する。投票処理部27は、実施の形態1または2で述べた検索の手順に従って特徴量が一致する文書IDに投票する処理を行う部分である。ID特定部29は、各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する部分である。
<物理的な実体とのリンク>
この発明の画像検索方法によれば、物理的な実体(文書、パンフレット、ポスター、看板など)と電子データ(インターネットホームーページなどの関連情報)とをリンクさせ、実体の撮影画像からそれに対応する電子データを検索することができる。例えば、新聞、雑誌記事などのテキストメディアのデータがインターネット上のサーバーに格納されている場合に、ユーザが前記メディアの画像を撮影するだけでインターネット上のサーバーにアクセスしてデータを取得することができる。従って、この発明は、テキストメディアの画像検索方法として非常に有効である。
あるいは、この発明は、宣伝広告用のパンフレットとインターネット上のホームページを連携させたカタログショッピング・システムなどにも適用することができる。また、ポスターを撮影することによってポスターの内容に関連する情報を取り出すような用途に適用することができる。あるいは、街中にある看板を撮影することによって関連情報を取り出すような用途に適用することができる。あるいはまた、地図(略図などでもよい)に情報を貼付けた電子データを関連情報として取り出すような用途に適用できる。
以上のリンクにおいて、関連情報とは、テキストや画像に加え、音声、動画でもよい。
上記のリンクはサービスを提供するベンダ側で用意することが考えられる一方で、個人がリンクを私的に設定することも考えられる。例えば、ある書類に関連付けておきたい電子データがある場合、本技術を用いれば、カメラを用いてリンクを設定することが可能となる。
さらに、本発明の実時間性(高速で処理できる点)を利用すれば、カメラを通してみた物理的実体(文書、パンフレット、ポスターなど)に、電子データを実時間で重畳表示することも可能となる。これは、知的情報レンズとでもいうべき情報処理形態となる。
<物理的な実体どうしのリンク>
物理的な実体と電子データとのリンクについて前述したが、この発明の画像検索方法を用いて物理的な実体同士をリンクさせることも考えることができる。具体的には以下のような状況である。
(1)ある文書に関連する別の文書があるとき、それらが関連していることを記録しておきたい。
(2)物理的実体(文書、パンフレット、ポスター)に関連する人やモノ(製品など)を記録したい(文書を撮影することで、人やモノの写真を取り出す)。このような情報処理は、物理的な実体の、写真を通したリンク付けと考えることができる。
<書き込み抽出システムへの応用>
さらに、この発明の画像検索方法は、我々が日常的に行う文書への書き込みを電子文書へと反映させる処理に応用することができる。
図37は、文書への書き込みを電子文書に反映させるシステムの構成例を示す説明図である。図37に示すように、前記システムは、以下の構成を有する。
(1)原本となる書き込みのない文書をデータベースに格納しておく。
(2)書き込みのある文書をカメラで撮影し、書き込みのない文書を本技術により検索する。その結果、書き込みのない文書と書き込みのある文書で、特徴点の対応をとることができる。
(3)特徴点の対応に基づいて、カメラで撮影した画像を正対に戻すことができる(斜めから撮影した状態を、まっすぐな状態に戻すこと)。図38は、撮影画像を正対に戻す例を示す説明図である。
(4)正対に戻した画像から書き込みのない画像を引き算することにより、書き込みだけを抽出することができる。
(5)抽出した書き込みを、電子文書へのアノーテーションとして書き加えることにより、電子文書へ書き込みが反映される。
以上によって、紙文書と電子文書を境目なく(シームレスに)利用することが可能となる。
この発明による書き込み抽出システムを、デジタルカメラだけではなく、コピー機やスキャナなどと連動させることも可能である。この場合、撮影された画像が被る幾何学的変換は、カメラの場合のように射影変換ではなく、相似変換やアフィン変換となる。したがって、相似変換やアフィン変換の不変量を用いて書き込み抽出システムを構成すればよい。射影変換と比べて、アフィン変換や相似変換は制約がより強いため、書き込み抽出の精度をより向上させることが可能と考えられる。

Claims (22)

  1. 撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から得られる特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する方法であって、
    撮像されたデジタル画像から複数の特徴点を抽出し、
    抽出された各特徴点に対して局所的な特徴点の集合を決定し、
    決定された各集合から特徴点の部分集合を選択し、
    選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せについて、幾何学的変換に対する不変量をそれぞれ求め、
    求めた各不変量を組み合わせて特徴量を計算し、
    予めその特徴量が得られた前記データベース中の文書・画像に対して投票を行うことにより、
    撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する文書・画像検索方法。
  2. 前記特徴点が、画像の中に繰り返し現れる特定の部位であることを特徴とする請求項1に記載の文書・画像検索方法。
  3. 前記特徴点が、単語領域の重心であることを特徴とする請求項1に記載の文書・画像検索方法。
  4. 前記特徴点が、漢字の閉鎖空間であることを特徴とする請求項1に記載の文書・画像検索方法。
  5. 前記不変量が、複比であることを特徴とする請求項1に記載の文書・画像検索方法。
  6. 撮影方法が、デジタルカメラまたはスキャナによるデジタル方式の撮影方法である請求項1に記載の文書・画像検索方法。
  7. 前記不変量が、アフィン変換に対する不変量であることを特徴とする請求項1に記載の文書・画像検索方法。
  8. 前記不変量が、相似変換に対する不変量であることを特徴とする請求項1に記載の文書・画像検索方法。
  9. 文書・画像を入力する工程と、
    入力された文書・画像にIDを付す工程と、
    入力された文書・画像から画像の配置を示す複数の特徴点を抽出する工程と、
    抽出された各特徴点について実行する(1)〜(2)の工程であって、
    (1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
    (2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程、
    (a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
    (c)求められたハッシュのインデックスを用いて(a)の工程で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する工程、
    の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法。
  10. 前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項9記載の登録方法。
  11. 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
    ここで、crn(n=0から4)は離散化された5通りの複比、Vmaxは離散化された複比の最大値、patはm点から5点を取り出す組み合わせパターンに与える識別番号で0からm5−1の何れかの値である請求項9記載の登録方法。
  12. 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
    ここで、kは複比の量子化レベル数、Hsizeはハッシュのサイズ、crnはm点から取り出した5点の組み合わせに対する複比
    である請求項9記載の登録方法。
  13. 請求項1記載の登録方法により登録された文書・画像の検索方法であって、
    撮影画像を読み取る工程と、
    読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、
    抽出された各特徴点について実行する(1)〜(2)の工程であって、
    (1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
    (2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程、
    (a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
    (c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の工程で求めた特徴量と比較して特徴量が一致する文書IDに投票する工程と、
    各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する工程と
    をコンピュータに実行させることを特徴とする文書・画像の検索方法。
  14. 前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項13記載の検索方法。
  15. 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
    ここで、crn(n=0から4)は離散化された5通りの複比、Vmaxは離散化された複比の最大値、patはm点から5点を取り出す組み合わせパターンに与える識別番号で0からm5−1の何れかの値である請求項13記載の検索方法。
  16. 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
    ここで、kは複比の量子化レベル数、Hsizeはハッシュのサイズ、crnはm点から取り出した5点の組み合わせに対する複比
    である請求項13記載の検索方法。
  17. 撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて画像の特徴量を求め、文書・画像を格納するデータベース中にある求めた特徴量に一致する文書・画像に対して投票を行うことにより撮影された画像に対応する文書・画像をデータベースから検索する処理をコンピュータに実行させるプログラム。
  18. 文書・画像を入力する処理と、
    入力された文書・画像にIDを付す処理と、
    入力された文書・画像から画像の配置を示す複数の特徴点を抽出する処理と、
    抽出された各特徴点について実行する(1)〜(2)の処理であって、
    (1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
    (2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
    (a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
    (c)求められたハッシュのインデックスを用いて(a)の処理で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
    の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラム。
  19. 請求項18記載の登録プログラムを用いて入力された文書・画像の検索プログラムであって、
    撮影画像を読み取る処理と、
    読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する処理と、
    抽出された各特徴点について実行する(1)〜(2)の処理であって、
    (1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
    (2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
    (a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
    (c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の処理で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理と、
    各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム。
  20. 文書・画像を入力する入力部と、
    入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、
    抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、
    選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
    (a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求め、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
    (c)求められたハッシュのインデックスを用いて(a)で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
    を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置。
  21. 請求項20記載の登録装置により登録された文書・画像を格納してなる文書・画像記憶装置。
  22. 請求項21記載の文書・画像記憶装置に格納された文書・画像を検索する検索装置であって、
    撮影画像を読み取る読取部と、
    読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する特徴点抽出部と、
    抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、
    選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
    (a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求め、
    (b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
    (c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理、
    を行う投票処理部と、
    各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する文書ID特定部とを備えることを特徴とする文書・画像の検索装置。
JP2006532580A 2005-03-01 2006-02-15 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 Expired - Fee Related JP4332556B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2005056124 2005-03-01
JP2005056124 2005-03-01
JP2005192658 2005-06-30
JP2005192658 2005-06-30
PCT/JP2006/302669 WO2006092957A1 (ja) 2005-03-01 2006-02-15 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置

Publications (2)

Publication Number Publication Date
JPWO2006092957A1 true JPWO2006092957A1 (ja) 2008-08-07
JP4332556B2 JP4332556B2 (ja) 2009-09-16

Family

ID=36940994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006532580A Expired - Fee Related JP4332556B2 (ja) 2005-03-01 2006-02-15 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置

Country Status (4)

Country Link
EP (1) EP1914680A4 (ja)
JP (1) JP4332556B2 (ja)
CN (1) CN101133429B (ja)
WO (1) WO2006092957A1 (ja)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8156115B1 (en) 2007-07-11 2012-04-10 Ricoh Co. Ltd. Document-based networking with mixed media reality
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
JP2007299210A (ja) 2006-04-28 2007-11-15 Sharp Corp 画像処理装置、画像形成装置、画像読取装置及び画像処理方法
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
JP4257925B2 (ja) 2006-08-24 2009-04-30 シャープ株式会社 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体
CN101536035B (zh) * 2006-08-31 2012-09-26 公立大学法人大阪府立大学 图像识别方法、以及图像识别装置
US8107728B2 (en) 2006-09-19 2012-01-31 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, computer program and recording medium
JP2008102907A (ja) 2006-09-19 2008-05-01 Sharp Corp 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体
JP4957924B2 (ja) * 2006-11-30 2012-06-20 日本電気株式会社 文書画像特徴量生成装置、文書画像特徴量生成方法及び文書画像特徴量生成用プログラム
US8320683B2 (en) 2007-02-13 2012-11-27 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus
US8055079B2 (en) 2007-03-06 2011-11-08 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, and image forming apparatus
US7991189B2 (en) 2007-03-28 2011-08-02 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
US8295603B2 (en) 2007-03-28 2012-10-23 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP4988408B2 (ja) 2007-04-09 2012-08-01 株式会社デンソー 画像認識装置
US8131083B2 (en) 2007-04-09 2012-03-06 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method having storage section, divided into a plurality of regions, for storing identification information for identifying reference image
JP4765990B2 (ja) * 2007-04-16 2011-09-07 日本ビクター株式会社 デジタルコンテンツデータの管理システム、管理方法及び利用装置
US8103108B2 (en) 2007-05-01 2012-01-24 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP4989308B2 (ja) * 2007-05-16 2012-08-01 キヤノン株式会社 画像処理装置及び画像検索方法
US8184912B2 (en) 2007-06-06 2012-05-22 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
US8180159B2 (en) 2007-06-06 2012-05-15 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
US8121414B2 (en) 2007-06-13 2012-02-21 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, and image forming apparatus
US8351706B2 (en) 2007-07-24 2013-01-08 Sharp Kabushiki Kaisha Document extracting method and document extracting apparatus
JP2009031876A (ja) 2007-07-24 2009-02-12 Sharp Corp 画像処理装置およびそれを備えた画像形成装置、画像読取装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
JP5004082B2 (ja) * 2007-07-27 2012-08-22 公立大学法人大阪府立大学 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
US8351707B2 (en) 2007-07-31 2013-01-08 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, image processing system, and image processing method
JP4487000B2 (ja) * 2007-07-31 2010-06-23 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、画像処理システム、画像処理プログラムおよびその記録媒体
US8050505B2 (en) 2007-08-01 2011-11-01 Sharp Kabushiki Kaisha Image processing apparatus, image processing system, image processing method, and image forming apparatus
JP4361946B2 (ja) 2007-08-07 2009-11-11 シャープ株式会社 画像処理装置、画像処理方法、画像処理プログラム、およびそのプログラムが格納された記録媒体
JP4469885B2 (ja) 2007-09-07 2010-06-02 シャープ株式会社 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体
JP4362528B2 (ja) 2007-09-10 2009-11-11 シャープ株式会社 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体
JP4958228B2 (ja) * 2007-09-12 2012-06-20 公立大学法人大阪府立大学 文書および/または画像のデータベースへの登録方法およびその検索方法
US8260061B2 (en) 2007-09-21 2012-09-04 Sharp Kabushiki Kaisha Image data output processing apparatus and image data output processing method
JP4486987B2 (ja) 2007-09-26 2010-06-23 シャープ株式会社 画像データ出力処理装置、画像データ出力処理方法、プログラム及び記録媒体
JP4457140B2 (ja) 2007-10-02 2010-04-28 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、画像読取装置、コンピュータプログラム及び記録媒体
JP5487970B2 (ja) * 2007-11-08 2014-05-14 日本電気株式会社 特徴点配置照合装置及び画像照合装置、その方法及びプログラム
JP5142705B2 (ja) * 2007-12-29 2013-02-13 シャープ株式会社 画像検索装置
JP4970301B2 (ja) * 2008-02-08 2012-07-04 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP4588771B2 (ja) * 2008-02-26 2010-12-01 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラム及び記憶媒体
JP4604100B2 (ja) 2008-03-21 2010-12-22 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体
CN101551859B (zh) 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP4538507B2 (ja) 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US8139860B2 (en) * 2008-07-31 2012-03-20 Fuji Xerox Co., Ltd. Retrieving and sharing electronic documents using paper
EP2387003A1 (en) 2008-11-10 2011-11-16 NEC Corporation Image matching device, image matching method, and image matching program
JP5298830B2 (ja) * 2008-12-19 2013-09-25 富士ゼロックス株式会社 画像処理プログラム、画像処理装置及び画像処理システム
JP5522408B2 (ja) * 2009-02-10 2014-06-18 公立大学法人大阪府立大学 パターン認識装置
CN101853388B (zh) * 2009-04-01 2013-07-17 中国科学院自动化研究所 一种基于几何不变量的视角不变的行为识别方法
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US8281428B1 (en) 2009-10-30 2012-10-09 Shrewsbury William R Disability shower
JP5660574B2 (ja) * 2011-03-02 2015-01-28 公立大学法人大阪府立大学 文書画像データベースの登録方法および検索方法
US8948518B2 (en) * 2011-07-14 2015-02-03 Futurewei Technologies, Inc. Scalable query for visual search
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
KR101191223B1 (ko) * 2011-11-16 2012-10-15 (주)올라웍스 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
JP5821598B2 (ja) * 2011-12-12 2015-11-24 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5536124B2 (ja) * 2012-03-05 2014-07-02 株式会社デンソーアイティーラボラトリ 画像処理システム及び画像処理方法
US8935246B2 (en) * 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
JP6151141B2 (ja) * 2013-09-18 2017-06-21 株式会社東芝 仕分装置および仕分方法
JP6134246B2 (ja) * 2013-10-16 2017-05-24 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
US10063751B2 (en) 2015-09-24 2018-08-28 Qualcomm Incorporated System and method for accessing images with a captured query image
CN112368741B (zh) * 2018-06-29 2024-06-11 祖克斯有限公司 传感器校准
CN110888993A (zh) * 2018-08-20 2020-03-17 珠海金山办公软件有限公司 一种复合文档检索方法、装置及电子设备
JP7231529B2 (ja) * 2019-11-20 2023-03-01 Kddi株式会社 情報端末装置、サーバ及びプログラム
CN110942064B (zh) * 2019-11-25 2023-05-09 维沃移动通信有限公司 图像处理方法、装置和电子设备
KR102557912B1 (ko) * 2020-12-28 2023-07-19 주식회사 포스코디엑스 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
JP3469345B2 (ja) * 1995-03-16 2003-11-25 株式会社東芝 画像のファイリング装置及びファイリング方法
US6104834A (en) * 1996-08-01 2000-08-15 Ricoh Company Limited Matching CCITT compressed document images
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
JP2001101191A (ja) * 1999-09-27 2001-04-13 Cadix Inc 画像識別装置及び画像識別に用いられるデータベースシステム
JP2003178304A (ja) * 2001-12-12 2003-06-27 Mitsubishi Electric Corp 顔画像検索装置、顔画像検索方法、およびその方法をコンピュータに実行させるプログラム
US7200270B2 (en) * 2001-12-13 2007-04-03 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method using distributed model representation of partial images

Also Published As

Publication number Publication date
JP4332556B2 (ja) 2009-09-16
EP1914680A1 (en) 2008-04-23
EP1914680A4 (en) 2012-10-24
CN101133429B (zh) 2010-10-06
CN101133429A (zh) 2008-02-27
WO2006092957A1 (ja) 2006-09-08

Similar Documents

Publication Publication Date Title
JP4332556B2 (ja) 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
US8036497B2 (en) Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image
US8195659B2 (en) Integration and use of mixed media documents
US7991778B2 (en) Triggering actions with captured input in a mixed media environment
US7917554B2 (en) Visibly-perceptible hot spots in documents
US8156427B2 (en) User interface for mixed media reality
US9357098B2 (en) System and methods for use of voice mail and email in a mixed media environment
US7672543B2 (en) Triggering applications based on a captured text in a mixed media environment
US9171202B2 (en) Data organization and access for mixed media document system
US8600989B2 (en) Method and system for image matching in a mixed media environment
US7769772B2 (en) Mixed media reality brokerage network with layout-independent recognition
US8838591B2 (en) Embedding hot spots in electronic documents
US9405751B2 (en) Database for mixed media document system
US8949287B2 (en) Embedding hot spots in imaged documents
US9063953B2 (en) System and methods for creation and use of a mixed media environment
US8335789B2 (en) Method and system for document fingerprint matching in a mixed media environment
US7920759B2 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
KR100979457B1 (ko) 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템
US20070047780A1 (en) Shared Document Annotation
US20060262976A1 (en) Method and System for Multi-Tier Image Matching in a Mixed Media Environment
KR100960639B1 (ko) 혼합 미디어 문서 시스템용의 데이터 구성 및 액세스
KR100960640B1 (ko) 전자 문서에 핫스폿을 임베딩하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090616

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090622

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4332556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140626

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees