WO2010101187A1 - 画像データベースの作成方法、作成プログラム及び画像検索方法 - Google Patents
画像データベースの作成方法、作成プログラム及び画像検索方法 Download PDFInfo
- Publication number
- WO2010101187A1 WO2010101187A1 PCT/JP2010/053448 JP2010053448W WO2010101187A1 WO 2010101187 A1 WO2010101187 A1 WO 2010101187A1 JP 2010053448 W JP2010053448 W JP 2010053448W WO 2010101187 A1 WO2010101187 A1 WO 2010101187A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vector
- image
- feature
- search
- representative
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Definitions
- the present invention relates to an image database creation method, a creation program, and an image search method. More specifically, the present invention relates to a method for creating an image database used for specific object recognition using local features, a program for a computer to execute the creation method, and an image search method using the image database.
- the specific object recognition is a process for determining which object in the image is exactly the same as the object in the other image.
- image recognition Such processing can be used for detection of excess and deficiency of parts, detection of counterfeit products, replacement of bar codes, etc., and can be said to be highly practical.
- the “object captured as an image” refers to an instance (search target) that is reflected in the image as a search question
- a process for determining which object is exactly the same is a number of processes in advance. It can also be referred to as a process of searching for an image in which the same instance appears from an image database in which images are registered, that is, an image search process.
- a method using a local feature is known.
- identification is performed by expressing the image with local feature values extracted from the image by a predetermined procedure and comparing or collating with local feature values extracted from other images.
- local feature amounts include SIFT (Scale-Invariant Feature Transform, for example, see Non-Patent Document 1) and PCA-SIFT (Principal Component Analysis-SIFT, for example, see Non-Patent Document 2). Since these local feature quantities are expressed as multidimensional vector quantities, they are also called feature vectors.
- the number of local features extracted from a single image is usually about several thousand for VGA-sized images, and several tens of thousands for large numbers. Therefore, when the size of the recognition target image is large or many, the processing time required for collating those local features and the memory capacity required for storage become a problem.
- Non-Patent Document 3 an approach of reducing the memory capacity necessary for recording individual local features has been proposed.
- the amount of memory required to register each local feature amount in the image database is reduced by scalar quantization that reduces the number of bits of multi-value data representing the value of each dimension of the feature vector, and the entire image database
- This method has an advantage that scalar quantization can be performed relatively easily by examining the distribution of values of each dimension of the feature vector in advance.
- the concept of vector quantization has also been proposed.
- D. Nister and others have proposed a method using a tree structure called Vocabulary Tree as one of vector quantization methods (see Non-Patent Document 4, for example).
- this method in order to maintain a high recognition rate, the height of the tree structure must be increased, and there is a problem that the reduction effect cannot be sufficiently expected.
- the present invention has been made in consideration of the above circumstances, and in the method of performing object recognition by neighborhood search using local features extracted from an image, the recognition rate of the object recognition is greatly reduced.
- the present invention provides a method for reducing the storage capacity of an image database related to the object recognition and a program for causing a computer to execute the method. Further, the present invention provides a method for performing an image search using an image database created based on the above method.
- the present invention corresponds to local features at different positions of a reference image to be matched with a search query image for object recognition, and represents the position and characteristics of each local feature as a vector position, vector length, and vector direction.
- An extraction step of extracting a reference feature vector from the reference image a clustering step of creating a plurality of clusters of different reference feature vectors so that each reference vector belongs to one of them, and a reference feature vector of each cluster Selecting a representative vector of the cluster from the image, and registering the representative vector in an image database for object recognition in association with a reference image, wherein the clustering step has the same reference feature vectors at close vector positions.
- Each cluster is created to belong to a cluster, and the selection process takes a long vector length reference.
- the representative vector is selected by giving priority to a feature vector, and the search query image and the reference image generate at least one query feature vector from the search query image, and between the query feature vector and the representative vector
- a method of creating an image database is provided in which a neighborhood search is applied and collated, and each process is executed by a computer.
- the present invention corresponds to local features at different positions of the reference image to be collated with the search query image for object recognition, and the position and characteristics of each local feature are represented by a vector position, a vector An extraction step of extracting a reference feature vector represented as a length and a vector direction from the reference image, a clustering step of creating a plurality of clusters of different reference feature vectors so that each reference vector belongs to each of the clusters, and each cluster A selection step of selecting a representative vector of the cluster from the reference feature vector, and a step of associating the representative vector with a reference image and registering the representative vector in an image database for object recognition, and the clustering step includes: Reference feature vectors at close vector positions belong to the same cluster Each cluster is created, and the selecting step selects the representative vector in preference to a reference feature vector having a long vector length, and the search question image and the reference image are at least one query from the search question image.
- the present invention provides at least one query feature representing a local feature from a search query image to be collated with a reference image registered in an image database for object recognition.
- An extraction step for extracting a vector a matching step for matching by applying a neighborhood search between the query feature vector and the representative vector associated with each reference image, and the query feature vector being in the vicinity by the matching
- the reference feature vector having a long vector length is preferentially selected from each cluster, and the image database stores the reference image and the representative vector extracted from the reference image in association with each other in advance.
- An image search method in which each process is executed by a computer is provided. The procedure for generating the query feature vector from the search query image is the same as the procedure for extracting the reference feature vector.
- each cluster is created so that reference feature vectors at close vector positions belong to the same cluster, and a predetermined number of representatives from each cluster is given priority over reference feature vectors having a long vector length. Since a vector is selected and matching is performed between the representative vector and the query feature vector, the memory capacity required for registering the feature vector in the image database can be saved as compared with the case where the representative vector is not selected. Can do. In addition, since each representative vector is registered from each cluster, that is, it is registered almost uniformly over the entire area without being biased to a part of the image, so the instances are unevenly distributed in the image or distortion due to geometric transformation. Even if it is received and received, it is possible to perform robust recognition.
- the image database creation program according to the present invention has the same advantages as the image database creation method described above.
- (d) is an example of an image obtained by capturing a part of a photograph of the instance. It is a graph which shows the result of the experiment example of this invention. The recognition rates for the search questions shown in FIGS. 3 (a), (b), (c), and (d) and their average recognition rates are shown.
- the clustering step may generate a predetermined number of clusters. Even if instances are unevenly distributed in the image or are received due to distortion caused by geometric transformation, robust recognition is possible if the representative vectors are distributed almost uniformly over the entire area of the image. It can be carried out. The more vectors that are generated, the more uniformly the representative vectors are distributed. If the cluster granularity for which sufficiently robust recognition is performed is determined in advance experimentally, for example, and the clustering step generates a predetermined number of clusters, sufficiently robust recognition is possible. Can be realized.
- one representative vector may be selected from each cluster.
- feature vectors may be divided using a k-means method.
- the feature vectors can be clustered so that they are evenly distributed over the entire area of the image.
- One characteristic aspect of the present invention is that a reduction in the memory capacity of an image database used for image recognition is studied from the viewpoint of selection of local feature values, and a solution is provided. More specifically, the local feature amount is selected in consideration of the vector length (scale) of the feature vector and the uniformity of dispersion in the image space. According to the embodiments and experimental examples described below, even when using an image database in which the memory capacity is reduced to about 10% with respect to the memory capacity of the image database when the selection of local features is not performed, 98% A recognition rate could be obtained, demonstrating the effectiveness of the present invention.
- the conventional memory capacity reduction method and image recognition processing by scalar quantization performed for specific object recognition will be described again.
- the memory capacity reduction method by scalar quantization is a method for reducing the memory capacity of the image database by an approach different from the method of the present invention, and can be combined with the method of the present invention, and it is effective to combine them.
- ⁇ Memory reduction method by scalar quantization
- Non-Patent Document 3 proposes an approach called scalar quantization in order to reduce the memory capacity required for specific object recognition. This is to reduce the memory capacity by limiting the values that can be taken by each dimension of the feature vector representing individual local feature values to discrete values. That is, the value of each dimension is limited to a predetermined bit length. Although the number of local feature amounts to be registered in the image database is not changed, the memory capacity required for registering individual local feature amounts is reduced, so that the memory amount necessary for the image database as a whole is reduced.
- each local feature is extracted from the reference image and the search query image by applying the PCA-SIFT technique.
- Non-Patent Document 3 states that the recognition rate of image recognition hardly changes even if each dimension of the feature vector is expressed by 2 bits in the feature vector obtained by applying PCA-SIFT.
- the value of each dimension of the feature vector extracted by PCA-SIFT is expressed by 16 bits when expressed by a short type integer. Therefore, if each dimension of the feature vector is scalar quantized and reduced to 2 bits, the feature vector alone has a memory capacity of about 1/8.
- As an image database there is a necessary memory capacity in addition to storing feature vectors. However, it is stated that the memory capacity of the image database can be reduced to about 1/3 by taking this into consideration.
- the image search is performed by collating the query feature vector with the reference feature vector.
- the matching process calculates a distance between a query feature vector extracted from a search query image and a reference feature vector registered in an image database, and obtains a reference feature vector that is a neighborhood for each query feature vector. decide. Then, an image ID associated with the determined reference feature vector is obtained.
- a process of determining the result of image recognition based on the result of collation is performed. In the process, voting is performed on the image ID for each query feature vector obtained by the matching process, and the reference image indicated by the image ID that has obtained the maximum vote is determined as a recognition result. As a result of scalar quantization, the accuracy of distance calculation is reduced. Still, the reason why the recognition rate hardly changes is that false image IDs are excluded thanks to the majority vote.
- the local feature amount is extracted using the PCA-SIFT method.
- the number of local feature amounts extracted from the reference image varies depending on the content of the reference image. All local feature values extracted from an image are registered in an unreduced image database in which selection of local feature values is not performed. For this reason, the number of registered local feature values differs greatly between different reference images. In a reference image from which a large number of local feature values are extracted, many similar local feature values may be extracted from a specific portion in the reference image. All similar local features need not be registered in the image database. Because it is similar, it is considered that it does not contribute much to the improvement of the recognition rate.
- the maximum value of the number of local feature amounts extracted from one image into the image database is limited to R, thereby preventing an increase in memory capacity necessary for storing the reference feature vector. If the number of extracted reference feature vectors does not exceed R, all the extracted local feature amounts are registered in the image database. When the number of reference feature vectors exceeds R, a local feature value to be registered is selected based on the following idea.
- a feature vector having a long vector length which is relatively resistant to changes in the shooting angle, is preferentially selected and registered in the image database. It can be said that the possibility that the entire search target is reflected in the reference image and the corresponding search question image to be the recognition result is not low. However, if a feature vector having a long vector length is unevenly distributed in a partial region of the reference image or the search question image, a portion other than the region becomes noise and it is difficult to search for a reference image corresponding to the search question. become. In order to deal with such uneven distribution of search targets, k-means clustering with the maximum number of clusters as R is performed on the coordinate value indicating the position of the reference feature vector in the reference image from which the reference feature vector has been extracted.
- the reference feature vector in each cluster obtained by k-means clustering is preferentially selected from those having the largest vector length.
- the selected reference feature vector is registered in the image database. That is, only representative vectors representing each class are registered in the image database. With this procedure, the reference feature vector is selected from the reference image substantially uniformly without deviation. Therefore, it is considered that the possibility of recognition can be increased even when only a part of the object to be searched is shown in the reference image.
- ANN Approximate Nearest Neighbor, for example, see Non-Patent Document 5
- ANN is a technique for performing an approximate nearest neighbor search at high speed using a tree structure. By performing the approximation, although the accuracy of vector matching is reduced, it is possible to reduce the processing time required for the search.
- the image database used in the experiment was the one with 100,000 images registered as reference images.
- the image database of 100,000 reference images is composed of three types of data sets A, B, and C.
- A consists of 3,100 images collected using Google Image Search. Search keywords used to collect images are poster, magazine, cover, etc.
- B consists of 18,500 images published on the PCA-SIFT site, and C is a photo sharing site. In flickr, it consists of 78,400 images collected by tags such as "animal", “birthday”, “food”, “japan”, etc. It mainly includes objects, nature photos, human photos, etc.
- FIG. 2 shows an example of reference images collected by the above procedure.
- centroid of the feature vector distributed in the divided feature space is obtained, and the feature vector in the space is replaced with the centroid vector.
- a centroid vector is recorded, and vector quantization is performed by re-adding the image ID assigned to the replaced feature vector to the centroid vector.
- This barycentric vector corresponds to a codeword of vector quantization and is often called a visual word.
- Table 1 shows the number of local feature values registered in the image database of 100,000 reference images for each value of R.
- FIG. 3 is an example of the obtained captured image.
- the angle ⁇ of the optical axis of the camera with respect to the paper surface was changed to 90 °, 75 °, and 60 ° to obtain captured images.
- a part of the paper was photographed at an angle of 90 °.
- four captured images were obtained for each search target.
- the captured image was reduced to 512 ⁇ 341 pixels to obtain a search query image, and a feature vector was obtained by PCA-SIFT. As a result, an average of 612 query feature vectors were obtained per search query image. [Determination of threshold value t]
- A is a method of performing k-means clustering and selecting a feature vector having a long vector length among them.
- B is a method of performing k-means clustering on an image space from each image and randomly selecting a local feature amount from the k-means clustering.
- C is a method of selecting from each image in order from a feature vector having a long vector length.
- D is a method of selecting a local feature amount randomly from each image.
- the vertical axis represents the recognition rate
- the horizontal axis represents the average recognition rate through the four data described below, with “average” at the left end.
- “60 °” is the average recognition rate of search question images with a shooting angle of 60 °
- “75 °” is the average recognition rate of search question images with a shooting angle of 75 °
- “90 °” is the shooting angle of 90 °
- the “partial” indicates the average recognition rate of the search question image obtained by photographing a part. From FIG. 4, when the whole image is shown, the method (A) has the best recognition rate.
- Table 3 shows the recognition rate when the value of R is changed for method (A).
- ⁇ indicates a case where the maximum number is not limited when the local feature amount is registered in the image database.
- the present invention is an image database for a case where specific object recognition is performed on a large-scale image database such as tens of thousands or hundreds of thousands using local feature quantities such as SIFT (Scale-Invariant Feature Transform).
- SIFT Scale-Invariant Feature Transform
- p 1 , p 2 , p 3 , p 4 , p 5 , p 6 image feature vectors in the image database
- q Search question feature vector
- r Distance between vector p 1 and q, radius
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
この発明に関連する他の文献として、非特許文献3、4、5がある。それらの文献とこの発明との具体的な関連については後述する。
また、前記画像データベースの作成方法に対応するものとして、この発明は、物体認識用の画像データベースに登録された参照画像と照合されるべき検索質問画像からその局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する抽出工程と、前記クエリ特徴ベクトルと各参照画像に関連する前記代表ベクトルとの間で近傍探索を適用して照合を行う照合工程と、前記照合により前記クエリ特徴ベクトルの近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、前記代表ベクトルは、前記参照画像の複数の局所的特徴の位置と特性をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するように複数のクラスタを作成し、それぞれのクラスタから長いベクトル長の参照特徴ベクトルを優先的に選択して得られ、前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、各工程がコンピュータより実行される画像検索方法を提供する。
なお、前記検索質問画像からクエリ特徴ベクトルを生成する手順は、参照特徴ベクトルを抽出する手順と同様である。
この発明による画像データベースの作成プログラムは、前述した画像データベースの作成方法と同様の利点を有する。
前記クラスタリング工程は、予め定められた数のクラスタを生成してもよい。画像中にインスタンスが偏在していたり幾何学的変換による歪みを受けて写されていたりしても、代表ベクトルが画像の全領域にわたり略均一に分散していれば、頑強(ロバスト)な認識を行うことができる。生成されるクラスタの数を多くすればするほど、代表ベクトルは均一に分散する。十分にロバストな認識が行われるクラスタの細かさを、例えば、実験的に予め決定しておき、前記クラスタリング工程が、予め定められた数のクラスタを生成するようにすれば、十分にロバストな認識が実現できる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
以下に述べる実施形態及び実験例により、局所特徴量の取捨選択を行わない場合の画像データベースのメモリ容量に対し10%程度にまでメモリ容量を削減した画像データベースを用いた場合においても、98%の認識率を得ることができ、この発明の有効性が実証された。
ここで、この発明による記憶容量の削減手法を説明に先立ち、特定物体認識に対して行われているスカラー量子化による従来のメモリ容量削減手法と画像認識処理について改めて述べておく。スカラー量子化によるメモリ容量削減手法は、この発明の手法と異なるアプローチで画像データベースのメモリ容量を削減する手法であって、この発明による手法と組み合わせることができ、また組み合わせることが効果的である。
≪スカラー量子化によるメモリ削減手法≫
この実施形態においては、PCA-SIFTの手法を適用して参照画像及び検索質問画像からそれぞれの局所特徴量(特徴ベクトル)を抽出する。
前記非特許文献3で、PCA-SIFTを適用して得られる特徴ベクトルは、特徴ベクトルの各次元を2bitで表現しても、画像認識の認識率はほとんど変化しない旨が述べられている。PCA-SIFTにより抽出される特徴ベクトルの各次元の値は、short型整数で表現した場合に16bitで表現される。従って、特徴ベクトルの各次元をスカラー量子化して2bitに削減すると、特徴ベクトル単体は、1/8程度のメモリ容量になる。画像データベースとしては、特徴ベクトルの格納の他に必要なメモリ容量があるが、それを考慮しても、画像データベースのメモリ容量を1/3程度に削減できる旨が述べられている。
画像検索は、クエリ特徴ベクトルと参照特徴ベクトルとを照合して行われる。前記照合処理は、検索質問画像から抽出されたクエリ特徴ベクトルと、画像データベースに登録されている参照特徴ベクトルとの間の距離計算を行い、各クエリ特徴ベクトルに対して近傍となる参照特徴ベクトルを決定する。そして、決定した参照特徴ベクトルに関連付けられた画像IDを得る。
〔認識結果としての参照画像の決定〕
照合の結果に基づき画像認識の結果を決定する処理を行う。前記処理は、前記照合処理によって得られた各クエリ特徴ベクトルに対する画像IDへの投票を行って、最大得票を得た画像IDが示す参照画像を認識結果として決定する。
スカラー量子化の結果、距離計算の精度は低下する。それでも認識率がほとんど変化しない理由として、投票による多数決のおかげで誤った画像IDが除外されることが挙げられる。
先に述べたスカラー量子化とは異なるアプローチによって画像データベースのメモリ容量を削減する手法として、発明者らは、特徴ベクトルの取捨選択を行うことに着目した。
〔取捨選択の方針〕
参照画像から抽出される局所特徴量の数は、参照画像の内容によって異なる。局所特徴量の取捨選択を行わない無削減状態の画像データベースでは画像から抽出された局所特徴量を全て登録する。そのため、異なる参照画像の間で、登録される局所特徴量の数が大きく異なる。数多くの局所特徴量が多抽出される参照画像では、参照画像中の特定の部分から類似した局所特徴量が多数抽出されることがある。類似した局所特徴量は、その全てを画像データベースに登録しておく必要はない。類似しているが故に、認識率の向上にはあまり寄与しないと考えられるからである。よって、画像1枚から画像データベースに抽出する局所特徴量の数の最大値をRに制限し、参照特徴ベクトルを格納するために必要なメモリ容量の増大を防ぐことにする。抽出された参照特徴ベクトルの数がRを越えない場合には、抽出された局所特徴量を全て画像データベースに登録する。参照特徴ベクトルの数がRを越えた場合には、以下の着想に基づき、登録する局所特徴量を選択する。
この発明では、撮影角度の変化に対する耐性が比較的強いとされる、長いベクトル長の特徴ベクトルを優先的に選択し、画像データベースに登録することとする。認識結果とされるべき参照画像及び対応する検索質問画像に、検索対象の全体が写っている可能性は低くないといえる。しかしながら、長いベクトル長の特徴ベクトルが、前記参照画像又は検索質問画像の一部領域に偏在していると、その領域以外の部分がノイズとなってしまい検索質問に対応する参照画像の検索が困難になる。こういった検索対象の偏在に対処するため、参照特徴ベクトルが抽出された参照画像の中で参照特徴ベクトルの位置を示す座標値について、最大クラスタ数をRとするk-meansクラスタリングを行う。
さらに、k-meansクラスタリングによって得られた各クラスタ内の参照特徴ベクトルの中からベクトル長が最も大きなものを優先して選択する。
選択した参照特徴ベクトルを画像データベースに登録する。即ち、各クラス他を代表する代表ベクトルだけを画像データベースに登録する。
この手順により、参照画像の中から偏りなく略均一に参照特徴ベクトルを選択することになる。よって、参照画像の中に検索対象の物体が一部分しか写っていない場合においても、認識できる可能性を高めることができると考えられる。
クエリ特徴ベクトルと参照特徴ベクトル(あるいは、代表ベクトル)との照合には、ANN(Approximate Nearest Neighbor、例えば、非特許文献5参照)の手法を用いることができる。ANNは、木構造を用いて、近似最近傍探索を高速に行う手法である。近似を行うことにより、ベクトル照合の精度は低下するものの、検索にかかる処理時間を削減することが可能となる。
この発明の手法では、局所特徴量の削減のため、あるクエリ特徴ベクトルに対し、最近傍の参照特徴ベクトル(正解となるべき参照特徴ベクトル)が対応づけられないことも考えられる。そのため、ANNによる照合の結果として対応付けられたクエリ特徴ベクトルと参照特徴ベクトルとの距離dが、予め定められた閾値tよりも近い場合にのみ、画像に投票を行う。
≪実験例≫
〔参照画像と画像データベース〕
図2に、上記の手順で収集された参照画像の例を示す。
そして、これらの参照画像に対し、PCA-SIFT(http://www.cs.cmu.edu/yke/pcasift/で提供されていたものを用いた)の手法を適用して局所特徴量を抽出した。抽出された局所特徴量の総数は、1.82×108である。そのサブセットである参照画像1万枚のデータベースにおいて抽出された局所特徴量の総数は、2.07×107である。
そして、各画像データベースに対して、比較のため前記非特許文献4のベクトル量子化による従来のメモリ削減手法、並びに、この発明による局所特徴量の取捨選択によるメモリ削減手法をそれぞれ適用し、合計で4つの画像データベースを作成した。
ここで、ベクトル量子化による従来のメモリ削減手法について簡単に説明する。
ベクトル量子化では、特徴空間上の一定領域に分布している特徴ベクトルをまとめることによって行う。そのため、何らかの方法により、特徴ベクトルをどのようにしてまとめるのかを定める必要がある。本稿では、以下のようにして、特徴ベクトルをまとめることにする。まず、kd-tree を作成するときに用いられている、standard kd-tree splitting rule を用いて特徴空間を分割する。これは、特徴空間上で、最も分散が大きい次元を選択し、その次元上に分布している点の座標の中央値で、空間を分割する方法である。分割空間に含まれる特徴ベクトルの最大数(バケットサイズ)b を設定し、各空間内に含まれる特徴ベクトルの数を、b 以下になるまで分割する。そして、分割された特徴空間に分布している特徴ベクトルの重心を求め、その空間上の特徴ベクトルを重心ベクトルに置換する。データベース中には、重心ベクトルを記録すると共に、置換した特徴ベクトルに付与されていた画像ID を、この重心ベクトルに付与し直すことで、ベクトル量子化を行う。
この重心ベクトルは、ベクトル量子化の符号語(codeword)に相当するものであり、しばしばvisual word と呼ばれる。
ベクトル量子化の方法で画像データベースを作成する際に用いたパラメータbの値は、b=1, 2, 3, 5, 10, 20 である。
一方、局所特徴量の取捨選択によるメモリ削減手法で画像データベースを作成する際に用いたパラメータRの値は、R = 300, 200, 100, 75, 50である。Rの各値に対して、参照画像10万枚の画像データベース内に登録された局所特徴量の数を表1に示す。
図3は、得られた撮影画像の例である。図3に示すとおり、検索対象の紙面全体が写る配置で、その紙面に対するカメラの光軸の角度θを90°, 75°, 60°に変化させてそれぞれ撮影画像を得た。また、角度を90°として紙面の一部分を撮影した。その結果、1つの検索対象につき、それぞれ4つの撮影画像を得た。さらに、撮影された撮影画像を512×341 pixelに縮小して検索質問画像とし、PCA-SIFTにより特徴ベクトルを求めた。その結果、検索質問画像1枚あたり平均612個のクエリ特徴ベクトルが得られた。
〔閾値tの決定〕
次に、以下の(A),(B),(C),(D)の4手法を比較した。(A)は、k-meansクラスタリングをして、その中で長いベクトル長の特徴ベクトルを選択する方法である。(B)は、各画像から画像空間上でk-meansクラスタリングをして、その中から、局所特徴量をランダムに選択する方法である。(C)は、各画像から、長いベクトル長の特徴ベクトルから順に選択する方法である。(D)は、各画像からランダムに局所特徴量を選択する方法である。
しかしながら、長いベクトル長の特徴ベクトルだけを登録した場合、手法(C)において、検索対象の一部分のみが写っている検索質問画像を用いると、認識率が著しく下がっている。この原因の一つとして、長いベクトル長の特徴ベクトルが、検索質問画像の撮影範囲外の部分に偏ってしまった結果、クエリ特徴ベクトルと参照特徴ベクトルとの照合がうまくできなかったと考えられる。
これに対して、k-means法を適用し、画像の各部分から満遍なく局所特徴量を選択する手法(A)を用いると、認識率が大きく回復していることがわかる。よって、画像上から長いベクトル長の特徴ベクトルを満遍なく選択することが重要であるといえる。
大規模特定物体認識の画像データベースでは、画像データベースに保持しておく局所特徴量(特徴ベクトル)の数が増大する。そのため、メモリ容量の削減が課題となる。この発明によれば、局所特徴量の取捨選択の方法を工夫することによって、局所特徴量を画像データベースに保持しておくのに要するメモリ容量を節約することができる。
q:検索質問の特徴ベクトル
r:ベクトルp1とqとの距離、半径
Claims (6)
- 物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、
異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、
各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、
前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録する工程とを備え、
前記クラスタリング工程は、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、
前記選択工程は、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、
前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合され、
各工程がコンピュータより実行される画像データベースの作成方法。 - 前記クラスタリング工程は、予め定められた数のクラスタを生成する請求項1に記載の方法。
- 前記選択工程は、各クラスタから一つの代表ベクトルを選択する請求項1または2に記載の方法。
- 前記クラスタリング工程は、ケーミーンズ・クラスタリングを用いて前記複数のクラスタを作成する請求項1から3のいずれか一つに記載の方法。
- 物体認識用の画像データベースに登録された参照画像と照合されるべき検索質問画像からその局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する抽出工程と、
前記クエリ特徴ベクトルと各参照画像に関連する前記代表ベクトルとの間で近傍探索を適用して照合を行う照合工程と、
前記照合により前記クエリ特徴ベクトルの近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、
前記代表ベクトルは、前記参照画像の複数の局所的特徴の位置と特性をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するように複数のクラスタを作成し、それぞれのクラスタから長いベクトル長の参照特徴ベクトルを優先的に選択して得られ、
前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、
各工程がコンピュータより実行される画像検索方法。 - 物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出ステップと、
異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリングステップと、
各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択ステップと、
前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録するステップとをコンピュータに実行させ、
前記クラスタリングステップは、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、
前記選択ステップは、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、
前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合される画像データベースの作成プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP10748781.1A EP2405392B1 (en) | 2009-03-04 | 2010-03-03 | Method and program for creating image database, and method for retrieving image |
JP2011502784A JP5527555B2 (ja) | 2009-03-04 | 2010-03-03 | 画像データベースの作成方法、作成プログラム及び画像検索方法 |
CN201080010386.4A CN102341824B (zh) | 2009-03-04 | 2010-03-03 | 图像数据库编辑方法、图像数据库编辑装置和图像检索方法 |
US13/254,347 US8649614B2 (en) | 2009-03-04 | 2010-03-03 | Method of compiling image database, image database compilation program, image retrieval method |
HK12105552.5A HK1165067A1 (zh) | 2009-03-04 | 2012-06-07 | 圖像數據庫編輯方法、圖像數據庫編輯裝置和圖像檢索方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009050637 | 2009-03-04 | ||
JP2009-050637 | 2009-03-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2010101187A1 true WO2010101187A1 (ja) | 2010-09-10 |
Family
ID=42709742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/053448 WO2010101187A1 (ja) | 2009-03-04 | 2010-03-03 | 画像データベースの作成方法、作成プログラム及び画像検索方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8649614B2 (ja) |
EP (1) | EP2405392B1 (ja) |
JP (1) | JP5527555B2 (ja) |
CN (1) | CN102341824B (ja) |
HK (1) | HK1165067A1 (ja) |
WO (1) | WO2010101187A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105373A (ja) * | 2011-11-15 | 2013-05-30 | Yahoo Japan Corp | データ取得装置、方法及びプログラム |
JP2021068004A (ja) * | 2019-10-18 | 2021-04-30 | 国立研究開発法人産業技術総合研究所 | 識別補助データ生成技術及び識別情報抽出技術 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136228A (zh) | 2011-11-25 | 2013-06-05 | 阿里巴巴集团控股有限公司 | 一种图片搜索方法以及图片搜索装置 |
US9734262B2 (en) * | 2012-09-05 | 2017-08-15 | Patrick DeLeFevre | Method and system for understanding text |
CN103324677B (zh) * | 2013-05-24 | 2017-02-01 | 西安交通大学 | 一种可分级的快速图像gps位置估计方法 |
GB2516037A (en) * | 2013-07-08 | 2015-01-14 | Univ Surrey | Compact and robust signature for large scale visual search, retrieval and classification |
EP3195146A4 (en) * | 2014-09-18 | 2018-04-18 | Empire Technology Development LLC | Three-dimensional latent semantic analysis |
CN105069457B (zh) * | 2015-07-15 | 2020-02-11 | 杭州易现先进科技有限公司 | 图像识别方法和装置 |
CN106933867B (zh) * | 2015-12-30 | 2020-02-21 | 杭州华为企业通信技术有限公司 | 一种图像查询方法和装置 |
CN105718858B (zh) * | 2016-01-13 | 2019-01-11 | 合肥工业大学 | 一种基于正负广义最大池化的行人识别方法 |
CN105718531B (zh) * | 2016-01-14 | 2019-12-17 | 广州市万联信息科技有限公司 | 图像数据库的建立方法及图像识别方法 |
US10489712B2 (en) * | 2016-02-26 | 2019-11-26 | Oath Inc. | Quality-based scoring and inhibiting of user-generated content |
US10437878B2 (en) * | 2016-12-28 | 2019-10-08 | Shutterstock, Inc. | Identification of a salient portion of an image |
US10503775B1 (en) * | 2016-12-28 | 2019-12-10 | Shutterstock, Inc. | Composition aware image querying |
US11042586B2 (en) * | 2016-12-29 | 2021-06-22 | Shutterstock, Inc. | Clustering search results based on image composition |
US10248663B1 (en) * | 2017-03-03 | 2019-04-02 | Descartes Labs, Inc. | Geo-visual search |
CN108536769B (zh) * | 2018-03-22 | 2023-01-03 | 深圳市安软慧视科技有限公司 | 图像分析方法、搜索方法及装置、计算机装置及存储介质 |
CN111177190B (zh) * | 2018-11-13 | 2023-05-30 | 杭州海康威视数字技术股份有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN110442749B (zh) * | 2019-07-18 | 2023-05-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 视频帧处理方法及装置 |
US11270155B2 (en) * | 2019-11-26 | 2022-03-08 | Dash Hudson | Duplicate image detection based on image content |
CN113159039A (zh) * | 2021-02-09 | 2021-07-23 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6100901A (en) * | 1998-06-22 | 2000-08-08 | International Business Machines Corporation | Method and apparatus for cluster exploration and visualization |
JP3873793B2 (ja) * | 2002-03-29 | 2007-01-24 | 日本電気株式会社 | 顔メタデータ生成方法および顔メタデータ生成装置 |
JP4217664B2 (ja) * | 2004-06-28 | 2009-02-04 | キヤノン株式会社 | 画像処理方法、画像処理装置 |
US7596618B2 (en) * | 2004-12-07 | 2009-09-29 | Hewlett-Packard Development Company, L.P. | Splitting a workload of a node |
US8046363B2 (en) * | 2006-04-13 | 2011-10-25 | Lg Electronics Inc. | System and method for clustering documents |
JP5096776B2 (ja) * | 2007-04-04 | 2012-12-12 | キヤノン株式会社 | 画像処理装置及び画像検索方法 |
CN100587715C (zh) | 2008-06-21 | 2010-02-03 | 华中科技大学 | 一种基于内容的鲁棒图像拷贝检测方法 |
-
2010
- 2010-03-03 WO PCT/JP2010/053448 patent/WO2010101187A1/ja active Application Filing
- 2010-03-03 EP EP10748781.1A patent/EP2405392B1/en not_active Not-in-force
- 2010-03-03 US US13/254,347 patent/US8649614B2/en active Active
- 2010-03-03 JP JP2011502784A patent/JP5527555B2/ja not_active Expired - Fee Related
- 2010-03-03 CN CN201080010386.4A patent/CN102341824B/zh not_active Expired - Fee Related
-
2012
- 2012-06-07 HK HK12105552.5A patent/HK1165067A1/zh not_active IP Right Cessation
Non-Patent Citations (7)
Title |
---|
D. G. LOWE: "Distinctive image features from scale-invariant keypoints", INTERNAL JOURNAL OF COMPUTER VISION, vol. 60, no. 2, 2004, pages 91 - 110 |
D. NISTER, H. STEWENIUS: "Scalable Recognition with a Vocabulary Tree", PROC. CVPR 2006, 2006, pages 775 - 781 |
NOGUCHI, KISE, IWAMURA: "Experimental Study of Memory Reduction for Object Recognition based on Local Descriptors", COLLECTION OF PAPERS IN MEETING ON IMAGE RECOGNITION AND UNDERSTANDING (MIRU 2008, vol. 10-.3, 2008, pages 251 - 258 |
S. ARYA, D. MOUNT, R. SILVERMAN, A. Y. WU: "An optimal algorithm for approximate nearest neighbor searching", JOURNAL OF THE ACM, vol. 45, no. 6, pages 891 - 923 |
See also references of EP2405392A4 * |
TAICHI JOTO ET AL.: "Bag-of-Keypoints Hyogen o Mochiita Web Gazo Bunrui", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2007, no. 42, 15 May 2007 (2007-05-15), pages 201 - 208, XP008167511 * |
Y. KE, R. SUKTHANKAR: "PCA-SIFT: A more distinctive representation for local image descriptors", PROC. CVPR' 04, vol. 2, 2004, pages 506 - 513 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105373A (ja) * | 2011-11-15 | 2013-05-30 | Yahoo Japan Corp | データ取得装置、方法及びプログラム |
JP2021068004A (ja) * | 2019-10-18 | 2021-04-30 | 国立研究開発法人産業技術総合研究所 | 識別補助データ生成技術及び識別情報抽出技術 |
JP7416400B2 (ja) | 2019-10-18 | 2024-01-17 | 国立研究開発法人産業技術総合研究所 | 識別補助データ生成技術及び識別情報抽出技術 |
Also Published As
Publication number | Publication date |
---|---|
US20110317923A1 (en) | 2011-12-29 |
JPWO2010101187A1 (ja) | 2012-09-10 |
HK1165067A1 (zh) | 2012-09-28 |
US8649614B2 (en) | 2014-02-11 |
CN102341824A (zh) | 2012-02-01 |
CN102341824B (zh) | 2016-05-18 |
EP2405392B1 (en) | 2015-08-05 |
EP2405392A4 (en) | 2014-09-10 |
EP2405392A1 (en) | 2012-01-11 |
JP5527555B2 (ja) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5527555B2 (ja) | 画像データベースの作成方法、作成プログラム及び画像検索方法 | |
JP4883649B2 (ja) | 画像認識方法、画像認識装置および画像認識プログラム | |
JP5294342B2 (ja) | 物体認識用画像データベースの作成方法、処理装置および処理用プログラム | |
Amato et al. | kNN based image classification relying on local feature similarity | |
Amato et al. | Fast image classification for monument recognition | |
US8891908B2 (en) | Semantic-aware co-indexing for near-duplicate image retrieval | |
Amato et al. | Geometric consistency checks for kNN based image classification relying on local features | |
Ali et al. | A leaf recognition approach to plant classification using machine learning | |
Khan et al. | A hybrid CBIR system using novel local tetra angle patterns and color moment features | |
Amato et al. | Aggregating binary local descriptors for image retrieval | |
Paliwal et al. | A score based indexing scheme for palmprint databases | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
Singh et al. | Ensemble visual content based search and retrieval for natural scene images | |
Giouvanakis et al. | Saliency map driven image retrieval combining the bag-of-words model and PLSA | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
Dang et al. | Srif: Scale and rotation invariant features for camera-based document image retrieval | |
Belhi et al. | CNN Features vs Classical Features for Largescale Cultural Image Retrieval | |
Guruprasad et al. | Multimodal recognition framework: an accurate and powerful Nandinagari handwritten character recognition model | |
Chen et al. | Mobile visual search from dynamic image databases | |
Rajput | Sketch based image retrieval using grid approach on large scale database | |
Amato et al. | On knn classification and local feature based similarity functions | |
Gaillard et al. | CNN features for reverse image search | |
He et al. | Clustering-based descriptors for fingerprint indexing and fast retrieval | |
Aly et al. | Bag of Words for Large scale object recognition | |
Brogan et al. | Needle in a haystack: A framework for seeking small objects in big datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 201080010386.4 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10748781 Country of ref document: EP Kind code of ref document: A1 |
|
DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2011502784 Country of ref document: JP Ref document number: 13254347 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010748781 Country of ref document: EP |