JPWO2006092957A1 - 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 - Google Patents
文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 Download PDFInfo
- Publication number
- JPWO2006092957A1 JPWO2006092957A1 JP2006532580A JP2006532580A JPWO2006092957A1 JP WO2006092957 A1 JPWO2006092957 A1 JP WO2006092957A1 JP 2006532580 A JP2006532580 A JP 2006532580A JP 2006532580 A JP2006532580 A JP 2006532580A JP WO2006092957 A1 JPWO2006092957 A1 JP WO2006092957A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- document
- feature
- points
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18143—Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(1)検索質問の文書・画像はデジタルカメラやスキャナなどで撮影されるため射影変換などの幾何学的変換の歪みを受け、また全体が撮像されているとは限らないことである。さらに、検索質問画像の解像度や照明条件がデータベース中の文書・画像とは大きく異なることも問題をより困難にする要因である。換言すれば、撮影する角度によって検索質問の文書・画像がデータベースに格納された文書・画像と違う画像と認識されてしまうため、同一性の判定が困難である。撮影角度の違いを吸収できる手法が望まれている。
(2)画像の特徴を精度よく検査するためには特徴を示す要素を数多く抽出する必要があるが、要素の数が多いと同一性の判定に多大な時間が必要になる。同一性の判定のために長時間を要することのない手法が望まれている。
(3)多数の文書・画像を扱うと、類似の文書・画像が多く存在し、その中から正解を取り出すことが困難になる。類似の文書・画像から高い精度で同一性が判定できる手法が望まれている。
(1)幾何学的変換の歪みによらない文書・画像の特徴量を得るため、幾何学的変換に対する不変量を用いて特徴量を計算する。この発明では、不変量の一例として、複比をとりあげる。複比は、直線上の4点または平面上の5点から求められる値で、幾何学的変換の一種である射影変換に対する不変量として知られている。複比を用いるためには、対象とする文書・画像の特徴を点(特徴点)であらわす必要がある。複比の計算に用いる特徴点には、例えば英文文書の場合には単語の重心を用いればよい。また、部分画像からの検索を可能にするため、文書・画像の部分ごとに得られる複比を用いて特徴量を計算すればよい。また、射影変換の他に、アフィン変換や相似変換についても触れる。
ここで、O(N)あるいはO(N3)は、問題を解くために必要なおおよその計算量の表記方法であって、O(N)はNが定まったときの計算量がaN+b以下で収まることを、O(N3)はaN3+bN2+cN+d以下で収まることを表す。ただしa,b,c,dは定数である。
換言すれば、この発明では、同一平面上のf点から計算される幾何学的不変量を用いて特徴量を計算する。幾何学的不変量の計算に要する点の数fは不変量の種類によって異なる。以下に、幾何学的不変量の例を挙げる。
2.アフィン不変量:アフィン不変量はアフィン変換における不変量である。アフィン変換とは、直線の平行性が維持される幾何変換であり、射影変換よりも自由度の低い変換である。射影変換を受けた平面においても、局所領域ではその変換がアフィン変換に近似されることがあるため、点の局所配置に基づく提案手法では複比の代わりにアフィン不変量を利用することが考えられる。
3.相似不変量:相似変換はアフィン変換よりもさらに自由度の低い変換であり、拡大・縮小、回転、並進のみからなる変換である。相似変換においては直線間の角度、距離の比、面積の比、距離の2乗と面積の比などが不変となる。例えば、3点ABC(f=3)からAC/ABで計算される距離の比を用いてもよい。
前記特徴点が、単語領域の重心であってもよい。単語領域の重心を特徴点とすることにより、例えば英語など、単語領域が互いに分離されて配置される言語で書かれた文書の特徴を精度よく識別することが可能である。
前記特徴点が、後述する黒画素の連結成分の重心であってもよい。
前記特徴点が、漢字の閉鎖空間であってもよい。漢字の閉鎖空間を特徴点とすることにより、単語領域が互いに分離されて配置されることのない言語、例えば日本語であっても文書の特徴を精度よく識別することが可能である。
前記不変量が複比であってもよい。複比を用いることによって、幾何学的変換を受けた画像から、元の画像を検索することができる。
撮影方法が、デジタルカメラあるいはスキャナによるデジタル方式の撮影方法であってもよい。
このようにすれば、特徴点の局所的な集合から特徴量を求めるので、全ての特徴点の全ての組み合わせについて計算する方法に比べて計算量を減らすことができ、同一性の判定に要する処理時間を短縮することができる。あるいは、局所的な特徴点から特徴量を求めるので、部分検索に対応することができる。
さらに、前記特徴量が、特徴点の一の組み合わせから得られる不変量を複数個組み合わせることによってその識別能力が高められた特徴量であってもよい。このようにすれば、複比を組み合わせた値を特徴量とするので、類似の文書・画像から高い精度で同一性を判定することができる。
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程であって、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて(a)の工程で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する工程、
の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法を提供する。
この登録方法によれば、各特徴点pの近傍にあるn個の特徴点を局所的な集合として決定し、各集合からm個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からm個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、m個の特徴点からd個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量を得ることができる。
また、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
あるいは、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
また、この発明は、前述の登録方法により登録された文書・画像の検索方法であって、撮影画像を読み取る工程と、読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、抽出された各特徴点について実行する(1)〜(2)の工程であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程であって、
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の工程で求めた特徴量と比較して特徴量が一致する文書IDに投票する工程と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する工程とをコンピュータに実行させることを特徴とする文書・画像の検索方法を提供する。
この検索方法によれば、各特徴点pの近傍にあるn個の特徴点を局所的な集合として決定し、各集合からm個の特徴点を選択する各組合せに対して特徴量を計算するので、全ての特徴点からm個を選択する場合に比べて特徴量を計算する組み合わせの数を削減することができ、従って、計算に要する時間を短縮することができる。あるいは、部分検索に対応することができる。
また、m個の特徴点からd個を選択する全ての組み合わせについて特徴量を求めることによって、識別力が高められた特徴量で検索することができる。
また、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
あるいはまた、前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
前記文書・画像登録方法あるいは文書・画像検索方法は、例えば、汎用のパーソナルコンピュータによって実行されるものであってもよい。
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理であって、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて(a)の処理で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラムを提供する。
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の処理で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム、文書・画像登録装置および検索装置を提供する。
さらに異なる観点から、この発明は、文書・画像を入力する入力部と、入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて(a)で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置を提供する。
前記文書・画像記憶装置は、汎用のファイルサーバーをハードウェアとして用いることができる。
(a)m個の特徴点からd個(dは予め定めたm以下の値(4や5など))を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理、
を行う投票処理部と、各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する文書ID特定部とを備えることを特徴とする文書・画像の検索装置を提供する。
さらにまた、「検索質問」とは、情報検索において、ユーザの検索要求を表すデータをいう。この発明の場合には、ユーザは画像を検索質問として入力する。即ち、ユーザは、「この画像と同じものをデータベースより取り出せ」という意味で画像を入力する。
3 検索装置
11 入力部
15 特徴点抽出部
17 特徴点選択部
19 特徴点登録部
21 読取部
23 特徴点抽出部
25 特徴点選択部
27 投票処理部
29 ID特定部
31 文書画像データベース
特徴点抽出
特徴点抽出で重要なことは、特徴点の再現性、すなわち幾何学的変換・ノイズ・低解像度の影響下でも同一の特徴点が得られることである。英文文書における単語の重心は、この条件を満たす特徴点の1つである。これは、英文文書では単語と単語の間に空白があり、分離が比較的容易なためである。
最初の処理はサイズ補正である。入力画像が携帯電話付属のカメラからのものであるときは、画像サイズが大きく異なるので画像を拡大し、サイズを補正する。
図36(c)のフローチャートについて説明する。上記が前処理であったので、次の処理は平滑化パラメータ推定である。これについては、前述のパラメータ推定と同様の処理を施す。次段の平滑化も前述と同様である。平滑化後の画像に対して再度適応2値化を施し、2値画像を得る。最終的には、前述の処理手順によって得た2値画像の連結成分を取り出し、その重心を特徴点とする。
登録、検索の鍵となるのは、複比を用いていかにハッシュのインデックスを計算するかである。ここでは、登録、検索の詳細について述べる前に、インデックスに用いる特徴量の計算方法についてまとめる。
(2)近傍n点からの5点の複比
(3)近傍n点からのm(<n)点の配置、およびm点からの5点の複比
この発明ではこのうち最も複雑な(3)を用いる。以下ではこれら3つの手法を単純なものから説明し、この発明における特徴量と、なぜ複雑な手法が必要になるかについて述べる。
近傍5点の複比
特徴点の近傍から複比を用いて特徴量を定義するとき、まず容易に思いつくのは最近傍5点から複比を計算する方法である。例えば、図8に示す特徴点pに対して最も近い1から5の5点を選び出し、そこから複比を計算して点pの特徴量とすることが考えられる。
近傍n点からの5点の複比
次に考えられるのは、近傍n点からあらゆる5点の組み合わせを選び出し、そこから複比を計算する方法である。
近傍n点からのm点の配置およびm点からの5点の複比
上記の問題を解決する一方策は、順序を含めて複比を考えることである。つまり、図10の例では、(0, 2, 0, 3)と(2, 3, 0, 0)を別のものとして区別することである。
登録
以上の準備に基づき、まず、登録処理の手順について述べる。データベース中に格納する文書・画像は、データベースに格納する際に、その特徴点を抽出して特徴量を計算し、文書・画像に対応付けて格納しておけばよい。撮影された画像データが得られたら、その特徴量を計算し、データベース中の各文書・画像に対応付けられた特徴量との一致を調べることにより撮影された画像データに対応する文書・画像をデータベース中の文書・画像から検索することができる。
文書画像が登録されるハッシュの構造を図13に示す。ここで、「文書画像」は、文書が画像として記録されたものをいう。登録処理では、5〜8行目でハッシュのインデックスを求め、9行目でインデックスを用いてハッシュに登録するという処理を繰り返す。
次に、8行目でハッシュテーブルのインデックスを計算する。ハッシュ関数を以下に
示す。
9行目でインデックスを用いて(文書ID、点ID、nCmパターンID)の組をハッシュに登録する。ハッシュで衝突が起きた場合、データは図13のようにリスト構造で付け加えられる。ここで、文書IDだけでなく、点IDおよびnCmパターンIDもハッシュに登録するのは、検索時に特徴量の比較を行う際、順序付けられた複比の一致する個数を、文書ID、点ID、nCmパターンIDごとに集計するためである。
検索
以上の処理により、最終的に2次投票テーブルで最も得票数の多い文書を検索結果とする。
この実施例では、実施の形態1に比べて、登録あるいは検索に要する処理時間をより短縮できる手法について説明する。
改善された登録ならびに検索方法を説明する前に、特徴量計算に関する説明を補足する。
1.特徴量の満たすべき条件
この明細書において、特徴量とは,文書画像の特徴点を表現する量である。検索質問および登録文書のそれぞれについて、特徴点から得られる特徴量を計算し、それらの値を比較することで検索質問と登録文書が対応しているか否かを判断する。
特徴量の評価基準としては,検索精度や検索に要する計算量が挙げられる。検索質問に対応する登録文書を正確に、かつ高速に検索できる特徴量が優れた特徴量であるといえる。ここでは、特徴量の精度に関する条件として以下の2条件を定義する。
第二の条件とは、異なる点からは異なる特徴量が得られなければならないということである。もし異なる文書から同じ特徴量が得られれば、検索の際に正しく対応する特徴点だけでなく、対応しない特徴点まで見つかることになる。この条件を「特徴量の識別性」と呼ぶ。
これら3つの条件が高速かつ高精度な文書画像検索における特徴量の満たすべき条件である。
前述の3つの条件のうち、まず特徴量の安定性について述べる。前述のように,提案手法では各特徴点の近傍点から不変量を用いて特徴量を計算する。そのため、特徴量が安定であるためには、射影歪みによって近傍点の座標が変化しても特徴量の計算に用いる点として同じ点が得られる必要がある。図8および図9に示すように、近傍点は射影歪みの影響で変化する。このため、特徴点pの近傍f点から計算される不変量を特徴量とすると、同じ特徴点pから同じ特徴量を得ることはできない。
次に、特徴量の識別性について述べる。提案手法では、1つの特徴量の計算に用いる特徴点の数mを増やすことで識別性を高める。m点の配置の表現方法としては、図42のようにm点から得られるすべてのf点の組み合わせから計算される不変量の列cr(0)、cr(1)、…、cr(mCf−1)を用いる。なお、cr(i)と前述のcriとは同じ複比を表しており同値である。mが大きければ大きいほど、計算される不変量の数が多くなるため、同じ特徴量が偶然に現れる可能性は低くなる。ただし、mが大き過ぎると特徴量の安定性が低下する。なぜなら、特徴量が一致するためには特徴量の不変量すべてが一致する必要があるが、mが大きいと不変量の数mCfが増加するので、誤差の影響で異なる不変量が計算される可能性が高くなるためである。
以上に述べたように、nを大きくすると広い範囲から複数の特徴量を計算するようになり、特徴量の安定性が向上する。また、mを大きくすると1つの特徴量の計算に用いる点の数が増加するため、特徴量の識別性が向上する。しかし、これらのパラメータを大きくし過ぎると計算量の面で問題が生じる。nおよびmが大き過ぎると、不変量の計算回数が増加する。そのため、登録および検索に要する処理時間が大きくなる。また、登録時には計算される特徴量を記憶しておく必要があるため、大きな記憶容量が必要となる。
安定性および識別性に影響するパラメータはn、mだけではない。不変量の量子化レベルkもこれらに影響する。kの値が大きい(不変量が細かく離散化される)と、誤差の影響で同じf点から計算される不変量が異なる値に離散化される可能性が高くなり、安定性が低下する。kの値が小さい(不変量が粗く離散化される)と、異なるf点から計算された不変量が同じ値に離散化される可能性が高くなり、識別性が低下する。以上のことから、高い検索精度と同時に高速な処理や小さい記憶容量を実現するには、n、mおよびkを適切に設定する必要があるといえる。
次に、実施の形態1と異なる登録手順の一例として、図28に示す登録処理の手順について説明する。
登録処理では、登録文書の各点について、その近傍n点からすべてのm点の組み合わせを生成し、そこから複比を用いたインデックスを求めて図29に示すハッシュに登録する。以下、処理に沿って説明する。図28に示す登録手順の1行目で特徴点の集合から1点を取り出してpとし、2行目でpの近傍n点を時計回りに取り出してPnとする。3行目ではPnからm点を取り出してPmとし、Pmから得られるすべての5点の組み合わせについて5行目で複比の値を計算し、離散化してcriを得る。m点から得られる5点の組み合わせの数はmC5であるので、iは0〜mC5−1の値をとる。
このようにして得られた複比criより、ハッシュ関数を用いて7行目でハッシュのインデックスHindexを求め、8行目でHindexを用いて文書ID(登録文書の識別番号)と点ID(点の識別番号)、cri(i=0,...,mC5−1)をハッシュに登録する。
ハッシュ関数を以下に示す。
次に検索について述べる。図30に実施の形態1と異なる検索手順の一例として、検索処理の手順を示す。登録と同様に、処理に沿って説明する。まず処理手順の5から8行目で登録時と同様の手法によりハッシュのインデックスを求め、9行目でハッシュを読んで図29にあるようなリストを得る。リストの各要素について、登録されている複比と検索質問の複比が完全に一致しているかどうか確認し、一致しているものについては文書IDの1次元配列である投票テーブルの該当するセルに投票を行う。
なお、4行目でPmから開始点を変えたP'mを作成し、すべてのP'mについて処理を行っているのは、Pmとして点ABCDEFGが与られたとき、P'mとしてBCDEFGA,CDEFGABのように巡回させたものをm通り作成することに相当する。これは、画像が回転している場合に対応するためである。
実験例の概要
実施の形態1に述べた手法の有効性を検証するために、通常のデジタルカメラと携帯電話付属のデジタルカメラそれぞれについて撮影された文書画像から対応するものを検索した。通常のデジタルカメラにはCANON(登録商標) EOS Kiss Digital(630万画素)と付属のレンズEF−S 18−55mm USMを、携帯電話付属のデジタルカメラには京セラTK31 付属のデジタルカメラ(18万画素)を使用した。
まず通常のデジタルカメラを用いた結果について述べる。3.で述べた処理のパラメータはn=8、m=7、k=9、l=10とした。ここで、前述したようにkは、特徴点から得られる複比の値を離散化する個数、lは、1次投票の得点に基づいて同一の点と認定するために一致しなければならない複比の個数であって、ハッシュの各要素を2次投票の対象とするか否かを判定する際の得点のしきい値である。検索質問には、異なる10ページに対して、図19〜図22に示すような4段階の撮影範囲で撮影した画像を計40枚用意した。ここで撮影範囲Aは文書全体、Bは文字領域全体、Cは文字領域半分程度、Dは文字領域1/4 程度とした。画像の撮影はやや傾いた角度から行った。対応する得票数が1位になったとき正答とし、正答率と処理時間の平均を調べた。
携帯電話で撮影した検索質問として図23〜図27を用いて検索を行った。その結果、図24〜図26で検索に成功、図23,図27では検索に失敗した。図23で検索に失敗した理由は、入力画像の解像度が低すぎると単語の分離ができず特徴点を正しく抽出できないためであり、図27で検索に失敗した理由は、画像に含まれる領域が狭すぎると近傍点が正しく得られないためである。以上により、携帯電話付属のデジタルカメラのように解像度が低い機器を利用する場合でも、撮影範囲の調整が必要になるものの検索は可能であることが示された。
実験例の概要
実施の形態2に述べた手法の有効性を検証するため、検索精度およびデータベースのサイズと検索速度の関係について調べた。検索質問の作成には、CANON EOS Kiss Digital(630万画素)と付属のレンズEF−S 18−55mm USMを使用し、文書を図32に示すような傾いた角度から撮影した。検索質問数は50である。一方、文書画像データベースには種々の英語論文のPDFファイルから変換して作成した文書画像1万ページを用いた。データベース中の文書画像の例を図17, 図18に示す。実験に用いた処理のパラメータはn=8,m=7,k=10, Hsize=1.28×108とした。なお、CPUが AMD Opteron(登録商標) 1.8GHz、メモリ4GBの計算機を用いた。
まず、データベースへの登録ページ数と検索精度の関係を調べた。実験結果を図33に示す。ページ数の増加に伴って、精度が低下していくことがわかる。
以下では、1万ページの場合について述べる。正しい文書画像の得票数が1位となったのは、50枚のうち49枚であり、検索精度は98%となった。残りの1枚の画像については、5位にランクされていた。検索時間は平均で137.7msであった。1位にならなかった検索質問の例を図34に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。
次に、登録ページ数が検索時間にどのように影響するかを調べた。結果を図35に示す。登録文書数が増加するに従って検索時間は少しずつ増加することがわかる。ハッシュにおけるリスト長の平均(平均リスト長)を同図に示す。ここで平均リスト長とは、ハッシュに値があるものについて、そのリスト長の平均をとったものである。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュで衝突が増加していることがわかる。これが検索時間の増加の理由と考えられる。
ア.複比を用いたときの検索性能
複比を用いた文書画像のインデクシングと検索の性能をより精密に評価するため、様々なパラメータを用いて実験を行った。
実験1:パラメータn,mと性能との関係
提案手法の性能は,量子化レベルkの値によっても変化する.そこで,データベースBおよび検索質問1を用いてパラメータをn=8,m=7と設定し、kと精度および処理時間の関係を調べた。結果を図49に示す。まず精度について考察する。kが小さいときの精度は低く、kの増加に伴って精度も急激に上昇した。これは、kが小さいときは特徴量の識別性が低いため、正しく対応する文書とそうでないものを区別できないことが原因と考えられる。また、kが大きくなり過ぎると、精度が急激に低下した。これは、特徴量の安定性が低下するためと考えられる。次に、処理時間について考察する。処理時間は、kの増加に伴って急激に減少した後、ほぼ一定の値に保たれている。これは、kが小さいときは特徴量の識別性が低くハッシュ表での衝突が多くなるため、検索時のハッシュアクセスに時間がかかることが原因と考えられる。以上のことから、高速かつ高精度な検索を実現するにはkの値を適切に設定することが必要といえる。
データベースA〜Dを用いて登録ページ数を10から10,000まで変化させたときの登録ページ数と検索精度の関係を調べた。検索質問は1および2を用いた。また、パラメータは両方の検索質問で統一し、n=8,m=7とした.このとき、kの値は表2、表3に示す値を用いた。実験結果を図50に示す。
ページ数の増加に伴って、精度が低下していくことがわかる。これは、データベースが大きいと、同じ特徴量をもつ異なる文書が登録されている可能性が高くなるためと考えられる。また、検索質問1に比べて検索質問2では精度が低くなっている。これは、射影歪みが大きいために近傍点の変動が大きく、特徴量を安定に得ることが困難であることが原因と考えられる。検索に失敗した検索質問の例を図51に示す。この画像のように、ページの大部分を図表が占め、テキストの量が少ない検索質問で検索に失敗した。これは、得られる特徴点の数が少ないために検索において正解の文書が十分な得票数を得られないことが原因と考えられる。
登録ページ数が処理時間にどのように影響するかを調べた。データベースはA〜D、検索質問は1、パラメータはn=8,m=7,k=12を用いた。結果を図52に示す。登録文書数が増加するに従って処理時間は少しずつ増加することがわかる。すでに述べたように、処理時間はパラメータn,mと平均リスト長lに影響される。この実験ではパラメータn,mは固定されているので、平均リスト長lを同図に示す。登録ページ数の増加に伴って平均リスト長が増加していることから、ハッシュ表で衝突が増加していることがわかる。これが処理時間の増加の理由と考えられる。
実験概要
この発明における相似不変量の有効性を検証するため、検索精度および処理時間の比較実験を行った。実験では、図53に示すような英語論文の電子文書を変換して得られた文書画像のデータベースと、印刷文書をデジタルカメラで撮影した検索質問を用いた。文書画像データベースとしては、それぞれ100、1,000、10,000ページの文書画像からなるデータベースA,B,Cを用いた。データベースCはデータベースBを、データベースBはデータベースAをその一部として含んでいる。また、電子文書としては主にCVPR、ICPR、ICCVなどの類似したレイアウトをもつ国際会議の予稿集のものを用いた。検索質問としては、データベースAを印刷したものを紙面に対してそれぞれ90°、60°、45°、30°程度の角度から撮影したものを用いた。画像の数はそれぞれ100枚である。検索質問の例を図54に示す。検索質問の作成には、CANON EOS Kiss Digital(630万画素)と付属のレンズEF-S 18-55mm USMを使用した。実験に用いたハッシュ表のサイズはHsize = 227−1とした。また、CPUが AMD Opteron 2.8GHz、メモリ16GBの計算機を用いた。
まず、特徴量の計算に複比または相似不変量を用いたときの検索質問の撮影角度と検索精度の関係を調べた。提案手法では、特徴量計算時の組み合わせ数を決めるパラメータnおよびmや、不変量の量子化レベル数kの値によって性能が大きく変化する。この実験では、n=10とし、m=10,9,8,7のそれぞれについて最も高い精度を与えたkを用いた。また、撮影角度90°〜30°の検索質問と100ページのデータベースAを用いた。
次に、不変量ごとに登録ページ数と検索精度の関係を調べた。N=8、m=7とし、kは登録ページ数100のときに最も高い精度を与えたものを用いた。表5に結果を示す。実験1と同様に、撮影角度の減少に伴って検索精度が低下した。また、登録ページ数が増加するに従って精度は低下した。これは、登録ページ数の増加に伴って類似した点の配置をもつ文書の登録される確率が増加することが原因と考えられる。実験1と同様に、複比の精度が高く、精度の低いものが相似不変量という結果になった。
各不変量での登録ページ数と処理時間の関係についても調べた。ここでの処理時間とは、1枚の検索質問について図44に示される検索処理のみに要した時間であり、その前段階の特徴点抽出処理は含まない。パラメータは実験2と同じものを用いた。例として、検索質問に撮影角度60°のものを用いたときの結果を表5に示す。
文書以外の対象への適用性を示すために、デジタルカメラで撮影したポスターや雑誌表紙を対象として実験を行った。
実験手法の概要
文書画像の場合とは異なり、特徴点としては、次の文献で提案されているPCA-SIFTを用いた(例えば、Y. Ke and R. Sukthankar. Pca-sift: representation for local image descriptors. Vol. 2, pages 506-513, 2004.参照)。
PCA-SIFTは、画像から特徴点を抽出するとともに、その特徴点を特徴づけるd次元の特徴ベクトルv=(v1,…,vd)を求めるものである。PCA-SIFTによって得られる特徴点、特徴ベクトルは、SIFTと呼ばれる手法に基づいている(例えば、D. G. Lowe. Distinctive image features from scale invariant keypoints. International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.参照)。
文書の場合と同様、本手法では、複数の特徴点を組み合わせて用いる。図56に概要を示す。ここでp0は現在注目している点、他の点p1…はp0の周囲の点である。この例は、周囲3点から2点を組み合わせる(n=3, m=2)を表している。いま、p0, p1, p2の3つの点を組み合わせるとしよう。各々のビットベクトルをw0,w1,w2とし、wi=(w1i,…,wdi)で表すとき、組合せの結果として得られるp0の特徴ベクトルw0'は、
w0'=(w0,w1,w2)=(w10,…,wd0,w11,…,wd1,w12,…,wd2)
のように3d次元のビットベクトルとなる。これを文書画像の場合と同様にハッシュのインデックスに変換する。具体的には、
本手法の有効性を検証するため、実験を行った。使用計算機はAMD Opteron 2.8GHz, メモリ16GBのものである。SIFTの特徴ベクトルの次元を128, PCA-SIFTの次元を36とした。また、本手法においてビットベクトルを組み合わせる際には、元のビットベクトルwiの次元を、9 ( d ( 36の間で変化させて用いた。これは、例えば、d=9の場合ならば、w1〜w9のみを用いることを意味する。また、点の組合せとしては、5 ( n ( 30, 1 ( m ( 3 の範囲で試した。また、特別な場合として特徴点を組み合わせないケース(n=0,m=0)も行った。
検索質問としては、45°、60°、75°の3つの水平方向の角度から撮影したもの、大、小2つの異なるサイズで正面から撮影したものの、合計5つの異なる見え方のものを用意した。ここで、大を除くすべての画像では、対象全体が画像に収まっていた。大の場合は、対象の概ね50%の領域が撮影されていた。平面物体の数が50, 見え方が5通りなので、合計200枚の画像を検索質問として用いたことになる。また、データベースには90°の角度から中の大きさで撮影した画像を格納した。したがって、データベースの画像は、検索質問の画像のいずれとも異なるものとなる。
処理精度と処理時間を表6に示す。
本手法では2つのパラメータ設定(d=24, n=0, m=0) および (d=16, n=28, m=1)の結果を示している。点を組み合わせない前者に比べて、点を組み合わせる後者の方が、処理精度が向上している。
誤検索の詳細を表7に示す。
この発明に係る文書画像を文書・画像データベースに登録する文書・画像登録装置の構成例を説明する。また、前記文書・画像登録装置を用いて文書・画像が登録された文書・画像データベースから、文書・画像を検索する検索装置の構成例を説明する。
この発明の画像検索方法によれば、物理的な実体(文書、パンフレット、ポスター、看板など)と電子データ(インターネットホームーページなどの関連情報)とをリンクさせ、実体の撮影画像からそれに対応する電子データを検索することができる。例えば、新聞、雑誌記事などのテキストメディアのデータがインターネット上のサーバーに格納されている場合に、ユーザが前記メディアの画像を撮影するだけでインターネット上のサーバーにアクセスしてデータを取得することができる。従って、この発明は、テキストメディアの画像検索方法として非常に有効である。
上記のリンクはサービスを提供するベンダ側で用意することが考えられる一方で、個人がリンクを私的に設定することも考えられる。例えば、ある書類に関連付けておきたい電子データがある場合、本技術を用いれば、カメラを用いてリンクを設定することが可能となる。
さらに、本発明の実時間性(高速で処理できる点)を利用すれば、カメラを通してみた物理的実体(文書、パンフレット、ポスターなど)に、電子データを実時間で重畳表示することも可能となる。これは、知的情報レンズとでもいうべき情報処理形態となる。
物理的な実体と電子データとのリンクについて前述したが、この発明の画像検索方法を用いて物理的な実体同士をリンクさせることも考えることができる。具体的には以下のような状況である。
(1)ある文書に関連する別の文書があるとき、それらが関連していることを記録しておきたい。
(2)物理的実体(文書、パンフレット、ポスター)に関連する人やモノ(製品など)を記録したい(文書を撮影することで、人やモノの写真を取り出す)。このような情報処理は、物理的な実体の、写真を通したリンク付けと考えることができる。
さらに、この発明の画像検索方法は、我々が日常的に行う文書への書き込みを電子文書へと反映させる処理に応用することができる。
図37は、文書への書き込みを電子文書に反映させるシステムの構成例を示す説明図である。図37に示すように、前記システムは、以下の構成を有する。
(1)原本となる書き込みのない文書をデータベースに格納しておく。
(2)書き込みのある文書をカメラで撮影し、書き込みのない文書を本技術により検索する。その結果、書き込みのない文書と書き込みのある文書で、特徴点の対応をとることができる。
(3)特徴点の対応に基づいて、カメラで撮影した画像を正対に戻すことができる(斜めから撮影した状態を、まっすぐな状態に戻すこと)。図38は、撮影画像を正対に戻す例を示す説明図である。
(4)正対に戻した画像から書き込みのない画像を引き算することにより、書き込みだけを抽出することができる。
(5)抽出した書き込みを、電子文書へのアノーテーションとして書き加えることにより、電子文書へ書き込みが反映される。
以上によって、紙文書と電子文書を境目なく(シームレスに)利用することが可能となる。
Claims (22)
- 撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から得られる特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する方法であって、
撮像されたデジタル画像から複数の特徴点を抽出し、
抽出された各特徴点に対して局所的な特徴点の集合を決定し、
決定された各集合から特徴点の部分集合を選択し、
選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せについて、幾何学的変換に対する不変量をそれぞれ求め、
求めた各不変量を組み合わせて特徴量を計算し、
予めその特徴量が得られた前記データベース中の文書・画像に対して投票を行うことにより、
撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する文書・画像検索方法。 - 前記特徴点が、画像の中に繰り返し現れる特定の部位であることを特徴とする請求項1に記載の文書・画像検索方法。
- 前記特徴点が、単語領域の重心であることを特徴とする請求項1に記載の文書・画像検索方法。
- 前記特徴点が、漢字の閉鎖空間であることを特徴とする請求項1に記載の文書・画像検索方法。
- 前記不変量が、複比であることを特徴とする請求項1に記載の文書・画像検索方法。
- 撮影方法が、デジタルカメラまたはスキャナによるデジタル方式の撮影方法である請求項1に記載の文書・画像検索方法。
- 前記不変量が、アフィン変換に対する不変量であることを特徴とする請求項1に記載の文書・画像検索方法。
- 前記不変量が、相似変換に対する不変量であることを特徴とする請求項1に記載の文書・画像検索方法。
- 文書・画像を入力する工程と、
入力された文書・画像にIDを付す工程と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する工程と、
抽出された各特徴点について実行する(1)〜(2)の工程であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて(a)の工程で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する工程、
の各工程をコンピュータに実行させることを特徴とする文書・画像の登録方法。 - 前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項9記載の登録方法。
- 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
- 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
である請求項9記載の登録方法。 - 請求項1記載の登録方法により登録された文書・画像の検索方法であって、
撮影画像を読み取る工程と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する工程と、
抽出された各特徴点について実行する(1)〜(2)の工程であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する工程、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の工程、
(a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める工程、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める工程、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の工程で求めた特徴量と比較して特徴量が一致する文書IDに投票する工程と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する工程と
をコンピュータに実行させることを特徴とする文書・画像の検索方法。 - 前記特徴量が、m個の点から5個の特徴点を選択する全ての組み合わせについて5個の特徴点の巡回置換のそれぞれについて求められる複比からなる請求項13記載の検索方法。
- 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
- 前記処理(b)において特徴量からハッシュのインデックスを求める計算が、
である請求項13記載の検索方法。 - 撮影された画像から特徴点を抽出し、その特徴点に係る不変量を用いて画像の特徴量を求め、文書・画像を格納するデータベース中にある求めた特徴量に一致する文書・画像に対して投票を行うことにより撮影された画像に対応する文書・画像をデータベースから検索する処理をコンピュータに実行させるプログラム。
- 文書・画像を入力する処理と、
入力された文書・画像にIDを付す処理と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する処理と、
抽出された各特徴点について実行する(1)〜(2)の処理であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて(a)の処理で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
の各処理をコンピュータに実行させることを特徴とする文書・画像の登録プログラム。 - 請求項18記載の登録プログラムを用いて入力された文書・画像の検索プログラムであって、
撮影画像を読み取る処理と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する処理と、
抽出された各特徴点について実行する(1)〜(2)の処理であって、
(1)対象とする特徴点pに最も距離の近いn個の特徴点を選択する処理、
(2)選択したn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて実行する(a)〜(c)の処理、
(a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求める処理、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求める処理、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)の処理で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理と、
各特徴点について(1)〜(2)の工程を実行した後、投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する処理とをコンピュータに実行させることを特徴とする文書・画像の検索プログラム。 - 文書・画像を入力する入力部と、
入力された文書・画像から画像の配置を示す複数の特徴点を抽出する特徴点抽出部と、
抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、
選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
(a)対象とするm個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて(a)で求めた特徴量と特徴点pに係るIDである点IDと特徴点pが抽出された文書・画像の文書IDとを対応付けてハッシュに登録する処理、
を行う特徴量登録部とを備えることを特徴とする文書・画像の登録装置。 - 請求項20記載の登録装置により登録された文書・画像を格納してなる文書・画像記憶装置。
- 請求項21記載の文書・画像記憶装置に格納された文書・画像を検索する検索装置であって、
撮影画像を読み取る読取部と、
読み取った撮影画像から画像の配置を表す複数の特徴点を抽出する特徴点抽出部と、
抽出した各特徴点について対象とする特徴点pに最も距離の近いn個の特徴点を選択する特徴点選択部と、
選択されたn個の特徴点からm個(ただしm<n)をさらに選択する全ての組合せについて次の(a)〜(c)の処理、
(a)m個の特徴点からd個(dは予め定めたm以下の値)を選択する全ての組合せについてd個の点に係る特徴量を求め、
(b)求めた特徴量から予め定められた計算によりハッシュのインデックスを求め、
(c)求められたハッシュのインデックスを用いて予め入力された文書・画像に係るハッシュに登録された各特徴量を得、(a)で求めた特徴量と比較して特徴量が一致する文書IDに投票する処理、
を行う投票処理部と、
各特徴点について投票された投票結果に基づいて撮影画像に対応する文書・画像の文書IDを特定する文書ID特定部とを備えることを特徴とする文書・画像の検索装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005056124 | 2005-03-01 | ||
JP2005056124 | 2005-03-01 | ||
JP2005192658 | 2005-06-30 | ||
JP2005192658 | 2005-06-30 | ||
PCT/JP2006/302669 WO2006092957A1 (ja) | 2005-03-01 | 2006-02-15 | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006092957A1 true JPWO2006092957A1 (ja) | 2008-08-07 |
JP4332556B2 JP4332556B2 (ja) | 2009-09-16 |
Family
ID=36940994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006532580A Expired - Fee Related JP4332556B2 (ja) | 2005-03-01 | 2006-02-15 | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1914680A4 (ja) |
JP (1) | JP4332556B2 (ja) |
CN (1) | CN101133429B (ja) |
WO (1) | WO2006092957A1 (ja) |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825682B2 (en) * | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8156115B1 (en) | 2007-07-11 | 2012-04-10 | Ricoh Co. Ltd. | Document-based networking with mixed media reality |
US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US7812986B2 (en) | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US9373029B2 (en) | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
JP2007299210A (ja) | 2006-04-28 | 2007-11-15 | Sharp Corp | 画像処理装置、画像形成装置、画像読取装置及び画像処理方法 |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
JP4257925B2 (ja) | 2006-08-24 | 2009-04-30 | シャープ株式会社 | 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
CN101536035B (zh) * | 2006-08-31 | 2012-09-26 | 公立大学法人大阪府立大学 | 图像识别方法、以及图像识别装置 |
US8107728B2 (en) | 2006-09-19 | 2012-01-31 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, computer program and recording medium |
JP2008102907A (ja) | 2006-09-19 | 2008-05-01 | Sharp Corp | 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
JP4957924B2 (ja) * | 2006-11-30 | 2012-06-20 | 日本電気株式会社 | 文書画像特徴量生成装置、文書画像特徴量生成方法及び文書画像特徴量生成用プログラム |
US8320683B2 (en) | 2007-02-13 | 2012-11-27 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus |
US8055079B2 (en) | 2007-03-06 | 2011-11-08 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, and image forming apparatus |
US7991189B2 (en) | 2007-03-28 | 2011-08-02 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
US8295603B2 (en) | 2007-03-28 | 2012-10-23 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
JP4988408B2 (ja) | 2007-04-09 | 2012-08-01 | 株式会社デンソー | 画像認識装置 |
US8131083B2 (en) | 2007-04-09 | 2012-03-06 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method having storage section, divided into a plurality of regions, for storing identification information for identifying reference image |
JP4765990B2 (ja) * | 2007-04-16 | 2011-09-07 | 日本ビクター株式会社 | デジタルコンテンツデータの管理システム、管理方法及び利用装置 |
US8103108B2 (en) | 2007-05-01 | 2012-01-24 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
JP4989308B2 (ja) * | 2007-05-16 | 2012-08-01 | キヤノン株式会社 | 画像処理装置及び画像検索方法 |
US8184912B2 (en) | 2007-06-06 | 2012-05-22 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
US8180159B2 (en) | 2007-06-06 | 2012-05-15 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
US8121414B2 (en) | 2007-06-13 | 2012-02-21 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, and image forming apparatus |
US8351706B2 (en) | 2007-07-24 | 2013-01-08 | Sharp Kabushiki Kaisha | Document extracting method and document extracting apparatus |
JP2009031876A (ja) | 2007-07-24 | 2009-02-12 | Sharp Corp | 画像処理装置およびそれを備えた画像形成装置、画像読取装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体 |
JP5004082B2 (ja) * | 2007-07-27 | 2012-08-22 | 公立大学法人大阪府立大学 | 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置 |
US8351707B2 (en) | 2007-07-31 | 2013-01-08 | Sharp Kabushiki Kaisha | Image processing apparatus, image forming apparatus, image processing system, and image processing method |
JP4487000B2 (ja) * | 2007-07-31 | 2010-06-23 | シャープ株式会社 | 画像処理装置、画像形成装置、画像処理方法、画像処理システム、画像処理プログラムおよびその記録媒体 |
US8050505B2 (en) | 2007-08-01 | 2011-11-01 | Sharp Kabushiki Kaisha | Image processing apparatus, image processing system, image processing method, and image forming apparatus |
JP4361946B2 (ja) | 2007-08-07 | 2009-11-11 | シャープ株式会社 | 画像処理装置、画像処理方法、画像処理プログラム、およびそのプログラムが格納された記録媒体 |
JP4469885B2 (ja) | 2007-09-07 | 2010-06-02 | シャープ株式会社 | 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体 |
JP4362528B2 (ja) | 2007-09-10 | 2009-11-11 | シャープ株式会社 | 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体 |
JP4958228B2 (ja) * | 2007-09-12 | 2012-06-20 | 公立大学法人大阪府立大学 | 文書および/または画像のデータベースへの登録方法およびその検索方法 |
US8260061B2 (en) | 2007-09-21 | 2012-09-04 | Sharp Kabushiki Kaisha | Image data output processing apparatus and image data output processing method |
JP4486987B2 (ja) | 2007-09-26 | 2010-06-23 | シャープ株式会社 | 画像データ出力処理装置、画像データ出力処理方法、プログラム及び記録媒体 |
JP4457140B2 (ja) | 2007-10-02 | 2010-04-28 | シャープ株式会社 | 画像処理方法、画像処理装置、画像形成装置、画像読取装置、コンピュータプログラム及び記録媒体 |
JP5487970B2 (ja) * | 2007-11-08 | 2014-05-14 | 日本電気株式会社 | 特徴点配置照合装置及び画像照合装置、その方法及びプログラム |
JP5142705B2 (ja) * | 2007-12-29 | 2013-02-13 | シャープ株式会社 | 画像検索装置 |
JP4970301B2 (ja) * | 2008-02-08 | 2012-07-04 | シャープ株式会社 | 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体 |
JP4588771B2 (ja) * | 2008-02-26 | 2010-12-01 | シャープ株式会社 | 画像処理方法、画像処理装置、画像形成装置、プログラム及び記憶媒体 |
JP4604100B2 (ja) | 2008-03-21 | 2010-12-22 | シャープ株式会社 | 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体 |
CN101551859B (zh) | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
JP4538507B2 (ja) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
US8144947B2 (en) * | 2008-06-27 | 2012-03-27 | Palo Alto Research Center Incorporated | System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints |
US8233722B2 (en) * | 2008-06-27 | 2012-07-31 | Palo Alto Research Center Incorporated | Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints |
US8139860B2 (en) * | 2008-07-31 | 2012-03-20 | Fuji Xerox Co., Ltd. | Retrieving and sharing electronic documents using paper |
EP2387003A1 (en) | 2008-11-10 | 2011-11-16 | NEC Corporation | Image matching device, image matching method, and image matching program |
JP5298830B2 (ja) * | 2008-12-19 | 2013-09-25 | 富士ゼロックス株式会社 | 画像処理プログラム、画像処理装置及び画像処理システム |
JP5522408B2 (ja) * | 2009-02-10 | 2014-06-18 | 公立大学法人大阪府立大学 | パターン認識装置 |
CN101853388B (zh) * | 2009-04-01 | 2013-07-17 | 中国科学院自动化研究所 | 一种基于几何不变量的视角不变的行为识别方法 |
US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US8281428B1 (en) | 2009-10-30 | 2012-10-09 | Shrewsbury William R | Disability shower |
JP5660574B2 (ja) * | 2011-03-02 | 2015-01-28 | 公立大学法人大阪府立大学 | 文書画像データベースの登録方法および検索方法 |
US8948518B2 (en) * | 2011-07-14 | 2015-02-03 | Futurewei Technologies, Inc. | Scalable query for visual search |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
KR101191223B1 (ko) * | 2011-11-16 | 2012-10-15 | (주)올라웍스 | 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 |
JP5821598B2 (ja) * | 2011-12-12 | 2015-11-24 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP5536124B2 (ja) * | 2012-03-05 | 2014-07-02 | 株式会社デンソーアイティーラボラトリ | 画像処理システム及び画像処理方法 |
US8935246B2 (en) * | 2012-08-08 | 2015-01-13 | Google Inc. | Identifying textual terms in response to a visual query |
JP6151141B2 (ja) * | 2013-09-18 | 2017-06-21 | 株式会社東芝 | 仕分装置および仕分方法 |
JP6134246B2 (ja) * | 2013-10-16 | 2017-05-24 | 日本電信電話株式会社 | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム |
US10063751B2 (en) | 2015-09-24 | 2018-08-28 | Qualcomm Incorporated | System and method for accessing images with a captured query image |
CN112368741B (zh) * | 2018-06-29 | 2024-06-11 | 祖克斯有限公司 | 传感器校准 |
CN110888993A (zh) * | 2018-08-20 | 2020-03-17 | 珠海金山办公软件有限公司 | 一种复合文档检索方法、装置及电子设备 |
JP7231529B2 (ja) * | 2019-11-20 | 2023-03-01 | Kddi株式会社 | 情報端末装置、サーバ及びプログラム |
CN110942064B (zh) * | 2019-11-25 | 2023-05-09 | 维沃移动通信有限公司 | 图像处理方法、装置和电子设备 |
KR102557912B1 (ko) * | 2020-12-28 | 2023-07-19 | 주식회사 포스코디엑스 | 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465353A (en) * | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
JP3469345B2 (ja) * | 1995-03-16 | 2003-11-25 | 株式会社東芝 | 画像のファイリング装置及びファイリング方法 |
US6104834A (en) * | 1996-08-01 | 2000-08-15 | Ricoh Company Limited | Matching CCITT compressed document images |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
JP2001101191A (ja) * | 1999-09-27 | 2001-04-13 | Cadix Inc | 画像識別装置及び画像識別に用いられるデータベースシステム |
JP2003178304A (ja) * | 2001-12-12 | 2003-06-27 | Mitsubishi Electric Corp | 顔画像検索装置、顔画像検索方法、およびその方法をコンピュータに実行させるプログラム |
US7200270B2 (en) * | 2001-12-13 | 2007-04-03 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus and method using distributed model representation of partial images |
-
2006
- 2006-02-15 EP EP06713810A patent/EP1914680A4/en not_active Withdrawn
- 2006-02-15 CN CN2006800069689A patent/CN101133429B/zh not_active Expired - Fee Related
- 2006-02-15 WO PCT/JP2006/302669 patent/WO2006092957A1/ja active Application Filing
- 2006-02-15 JP JP2006532580A patent/JP4332556B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4332556B2 (ja) | 2009-09-16 |
EP1914680A1 (en) | 2008-04-23 |
EP1914680A4 (en) | 2012-10-24 |
CN101133429B (zh) | 2010-10-06 |
CN101133429A (zh) | 2008-02-27 |
WO2006092957A1 (ja) | 2006-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4332556B2 (ja) | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 | |
US8036497B2 (en) | Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image | |
US8195659B2 (en) | Integration and use of mixed media documents | |
US7991778B2 (en) | Triggering actions with captured input in a mixed media environment | |
US7917554B2 (en) | Visibly-perceptible hot spots in documents | |
US8156427B2 (en) | User interface for mixed media reality | |
US9357098B2 (en) | System and methods for use of voice mail and email in a mixed media environment | |
US7672543B2 (en) | Triggering applications based on a captured text in a mixed media environment | |
US9171202B2 (en) | Data organization and access for mixed media document system | |
US8600989B2 (en) | Method and system for image matching in a mixed media environment | |
US7769772B2 (en) | Mixed media reality brokerage network with layout-independent recognition | |
US8838591B2 (en) | Embedding hot spots in electronic documents | |
US9405751B2 (en) | Database for mixed media document system | |
US8949287B2 (en) | Embedding hot spots in imaged documents | |
US9063953B2 (en) | System and methods for creation and use of a mixed media environment | |
US8335789B2 (en) | Method and system for document fingerprint matching in a mixed media environment | |
US7920759B2 (en) | Triggering applications for distributed action execution and use of mixed media recognition as a control input | |
KR100979457B1 (ko) | 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템 | |
US20070047780A1 (en) | Shared Document Annotation | |
US20060262976A1 (en) | Method and System for Multi-Tier Image Matching in a Mixed Media Environment | |
KR100960639B1 (ko) | 혼합 미디어 문서 시스템용의 데이터 구성 및 액세스 | |
KR100960640B1 (ko) | 전자 문서에 핫스폿을 임베딩하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090616 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090622 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4332556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140626 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |