WO2010101187A1 - 画像データベースの作成方法、作成プログラム及び画像検索方法 - Google Patents

画像データベースの作成方法、作成プログラム及び画像検索方法 Download PDF

Info

Publication number
WO2010101187A1
WO2010101187A1 PCT/JP2010/053448 JP2010053448W WO2010101187A1 WO 2010101187 A1 WO2010101187 A1 WO 2010101187A1 JP 2010053448 W JP2010053448 W JP 2010053448W WO 2010101187 A1 WO2010101187 A1 WO 2010101187A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
image
feature
search
representative
Prior art date
Application number
PCT/JP2010/053448
Other languages
English (en)
French (fr)
Inventor
貴行 本道
浩一 黄瀬
古橋 幸人
峯 泰治
Original Assignee
公立大学法人大阪府立大学
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 公立大学法人大阪府立大学, オリンパス株式会社 filed Critical 公立大学法人大阪府立大学
Priority to EP10748781.1A priority Critical patent/EP2405392B1/en
Priority to JP2011502784A priority patent/JP5527555B2/ja
Priority to CN201080010386.4A priority patent/CN102341824B/zh
Priority to US13/254,347 priority patent/US8649614B2/en
Publication of WO2010101187A1 publication Critical patent/WO2010101187A1/ja
Priority to HK12105552.5A priority patent/HK1165067A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the present invention relates to an image database creation method, a creation program, and an image search method. More specifically, the present invention relates to a method for creating an image database used for specific object recognition using local features, a program for a computer to execute the creation method, and an image search method using the image database.
  • the specific object recognition is a process for determining which object in the image is exactly the same as the object in the other image.
  • image recognition Such processing can be used for detection of excess and deficiency of parts, detection of counterfeit products, replacement of bar codes, etc., and can be said to be highly practical.
  • the “object captured as an image” refers to an instance (search target) that is reflected in the image as a search question
  • a process for determining which object is exactly the same is a number of processes in advance. It can also be referred to as a process of searching for an image in which the same instance appears from an image database in which images are registered, that is, an image search process.
  • a method using a local feature is known.
  • identification is performed by expressing the image with local feature values extracted from the image by a predetermined procedure and comparing or collating with local feature values extracted from other images.
  • local feature amounts include SIFT (Scale-Invariant Feature Transform, for example, see Non-Patent Document 1) and PCA-SIFT (Principal Component Analysis-SIFT, for example, see Non-Patent Document 2). Since these local feature quantities are expressed as multidimensional vector quantities, they are also called feature vectors.
  • the number of local features extracted from a single image is usually about several thousand for VGA-sized images, and several tens of thousands for large numbers. Therefore, when the size of the recognition target image is large or many, the processing time required for collating those local features and the memory capacity required for storage become a problem.
  • Non-Patent Document 3 an approach of reducing the memory capacity necessary for recording individual local features has been proposed.
  • the amount of memory required to register each local feature amount in the image database is reduced by scalar quantization that reduces the number of bits of multi-value data representing the value of each dimension of the feature vector, and the entire image database
  • This method has an advantage that scalar quantization can be performed relatively easily by examining the distribution of values of each dimension of the feature vector in advance.
  • the concept of vector quantization has also been proposed.
  • D. Nister and others have proposed a method using a tree structure called Vocabulary Tree as one of vector quantization methods (see Non-Patent Document 4, for example).
  • this method in order to maintain a high recognition rate, the height of the tree structure must be increased, and there is a problem that the reduction effect cannot be sufficiently expected.
  • the present invention has been made in consideration of the above circumstances, and in the method of performing object recognition by neighborhood search using local features extracted from an image, the recognition rate of the object recognition is greatly reduced.
  • the present invention provides a method for reducing the storage capacity of an image database related to the object recognition and a program for causing a computer to execute the method. Further, the present invention provides a method for performing an image search using an image database created based on the above method.
  • the present invention corresponds to local features at different positions of a reference image to be matched with a search query image for object recognition, and represents the position and characteristics of each local feature as a vector position, vector length, and vector direction.
  • An extraction step of extracting a reference feature vector from the reference image a clustering step of creating a plurality of clusters of different reference feature vectors so that each reference vector belongs to one of them, and a reference feature vector of each cluster Selecting a representative vector of the cluster from the image, and registering the representative vector in an image database for object recognition in association with a reference image, wherein the clustering step has the same reference feature vectors at close vector positions.
  • Each cluster is created to belong to a cluster, and the selection process takes a long vector length reference.
  • the representative vector is selected by giving priority to a feature vector, and the search query image and the reference image generate at least one query feature vector from the search query image, and between the query feature vector and the representative vector
  • a method of creating an image database is provided in which a neighborhood search is applied and collated, and each process is executed by a computer.
  • the present invention corresponds to local features at different positions of the reference image to be collated with the search query image for object recognition, and the position and characteristics of each local feature are represented by a vector position, a vector An extraction step of extracting a reference feature vector represented as a length and a vector direction from the reference image, a clustering step of creating a plurality of clusters of different reference feature vectors so that each reference vector belongs to each of the clusters, and each cluster A selection step of selecting a representative vector of the cluster from the reference feature vector, and a step of associating the representative vector with a reference image and registering the representative vector in an image database for object recognition, and the clustering step includes: Reference feature vectors at close vector positions belong to the same cluster Each cluster is created, and the selecting step selects the representative vector in preference to a reference feature vector having a long vector length, and the search question image and the reference image are at least one query from the search question image.
  • the present invention provides at least one query feature representing a local feature from a search query image to be collated with a reference image registered in an image database for object recognition.
  • An extraction step for extracting a vector a matching step for matching by applying a neighborhood search between the query feature vector and the representative vector associated with each reference image, and the query feature vector being in the vicinity by the matching
  • the reference feature vector having a long vector length is preferentially selected from each cluster, and the image database stores the reference image and the representative vector extracted from the reference image in association with each other in advance.
  • An image search method in which each process is executed by a computer is provided. The procedure for generating the query feature vector from the search query image is the same as the procedure for extracting the reference feature vector.
  • each cluster is created so that reference feature vectors at close vector positions belong to the same cluster, and a predetermined number of representatives from each cluster is given priority over reference feature vectors having a long vector length. Since a vector is selected and matching is performed between the representative vector and the query feature vector, the memory capacity required for registering the feature vector in the image database can be saved as compared with the case where the representative vector is not selected. Can do. In addition, since each representative vector is registered from each cluster, that is, it is registered almost uniformly over the entire area without being biased to a part of the image, so the instances are unevenly distributed in the image or distortion due to geometric transformation. Even if it is received and received, it is possible to perform robust recognition.
  • the image database creation program according to the present invention has the same advantages as the image database creation method described above.
  • (d) is an example of an image obtained by capturing a part of a photograph of the instance. It is a graph which shows the result of the experiment example of this invention. The recognition rates for the search questions shown in FIGS. 3 (a), (b), (c), and (d) and their average recognition rates are shown.
  • the clustering step may generate a predetermined number of clusters. Even if instances are unevenly distributed in the image or are received due to distortion caused by geometric transformation, robust recognition is possible if the representative vectors are distributed almost uniformly over the entire area of the image. It can be carried out. The more vectors that are generated, the more uniformly the representative vectors are distributed. If the cluster granularity for which sufficiently robust recognition is performed is determined in advance experimentally, for example, and the clustering step generates a predetermined number of clusters, sufficiently robust recognition is possible. Can be realized.
  • one representative vector may be selected from each cluster.
  • feature vectors may be divided using a k-means method.
  • the feature vectors can be clustered so that they are evenly distributed over the entire area of the image.
  • One characteristic aspect of the present invention is that a reduction in the memory capacity of an image database used for image recognition is studied from the viewpoint of selection of local feature values, and a solution is provided. More specifically, the local feature amount is selected in consideration of the vector length (scale) of the feature vector and the uniformity of dispersion in the image space. According to the embodiments and experimental examples described below, even when using an image database in which the memory capacity is reduced to about 10% with respect to the memory capacity of the image database when the selection of local features is not performed, 98% A recognition rate could be obtained, demonstrating the effectiveness of the present invention.
  • the conventional memory capacity reduction method and image recognition processing by scalar quantization performed for specific object recognition will be described again.
  • the memory capacity reduction method by scalar quantization is a method for reducing the memory capacity of the image database by an approach different from the method of the present invention, and can be combined with the method of the present invention, and it is effective to combine them.
  • ⁇ Memory reduction method by scalar quantization
  • Non-Patent Document 3 proposes an approach called scalar quantization in order to reduce the memory capacity required for specific object recognition. This is to reduce the memory capacity by limiting the values that can be taken by each dimension of the feature vector representing individual local feature values to discrete values. That is, the value of each dimension is limited to a predetermined bit length. Although the number of local feature amounts to be registered in the image database is not changed, the memory capacity required for registering individual local feature amounts is reduced, so that the memory amount necessary for the image database as a whole is reduced.
  • each local feature is extracted from the reference image and the search query image by applying the PCA-SIFT technique.
  • Non-Patent Document 3 states that the recognition rate of image recognition hardly changes even if each dimension of the feature vector is expressed by 2 bits in the feature vector obtained by applying PCA-SIFT.
  • the value of each dimension of the feature vector extracted by PCA-SIFT is expressed by 16 bits when expressed by a short type integer. Therefore, if each dimension of the feature vector is scalar quantized and reduced to 2 bits, the feature vector alone has a memory capacity of about 1/8.
  • As an image database there is a necessary memory capacity in addition to storing feature vectors. However, it is stated that the memory capacity of the image database can be reduced to about 1/3 by taking this into consideration.
  • the image search is performed by collating the query feature vector with the reference feature vector.
  • the matching process calculates a distance between a query feature vector extracted from a search query image and a reference feature vector registered in an image database, and obtains a reference feature vector that is a neighborhood for each query feature vector. decide. Then, an image ID associated with the determined reference feature vector is obtained.
  • a process of determining the result of image recognition based on the result of collation is performed. In the process, voting is performed on the image ID for each query feature vector obtained by the matching process, and the reference image indicated by the image ID that has obtained the maximum vote is determined as a recognition result. As a result of scalar quantization, the accuracy of distance calculation is reduced. Still, the reason why the recognition rate hardly changes is that false image IDs are excluded thanks to the majority vote.
  • the local feature amount is extracted using the PCA-SIFT method.
  • the number of local feature amounts extracted from the reference image varies depending on the content of the reference image. All local feature values extracted from an image are registered in an unreduced image database in which selection of local feature values is not performed. For this reason, the number of registered local feature values differs greatly between different reference images. In a reference image from which a large number of local feature values are extracted, many similar local feature values may be extracted from a specific portion in the reference image. All similar local features need not be registered in the image database. Because it is similar, it is considered that it does not contribute much to the improvement of the recognition rate.
  • the maximum value of the number of local feature amounts extracted from one image into the image database is limited to R, thereby preventing an increase in memory capacity necessary for storing the reference feature vector. If the number of extracted reference feature vectors does not exceed R, all the extracted local feature amounts are registered in the image database. When the number of reference feature vectors exceeds R, a local feature value to be registered is selected based on the following idea.
  • a feature vector having a long vector length which is relatively resistant to changes in the shooting angle, is preferentially selected and registered in the image database. It can be said that the possibility that the entire search target is reflected in the reference image and the corresponding search question image to be the recognition result is not low. However, if a feature vector having a long vector length is unevenly distributed in a partial region of the reference image or the search question image, a portion other than the region becomes noise and it is difficult to search for a reference image corresponding to the search question. become. In order to deal with such uneven distribution of search targets, k-means clustering with the maximum number of clusters as R is performed on the coordinate value indicating the position of the reference feature vector in the reference image from which the reference feature vector has been extracted.
  • the reference feature vector in each cluster obtained by k-means clustering is preferentially selected from those having the largest vector length.
  • the selected reference feature vector is registered in the image database. That is, only representative vectors representing each class are registered in the image database. With this procedure, the reference feature vector is selected from the reference image substantially uniformly without deviation. Therefore, it is considered that the possibility of recognition can be increased even when only a part of the object to be searched is shown in the reference image.
  • ANN Approximate Nearest Neighbor, for example, see Non-Patent Document 5
  • ANN is a technique for performing an approximate nearest neighbor search at high speed using a tree structure. By performing the approximation, although the accuracy of vector matching is reduced, it is possible to reduce the processing time required for the search.
  • the image database used in the experiment was the one with 100,000 images registered as reference images.
  • the image database of 100,000 reference images is composed of three types of data sets A, B, and C.
  • A consists of 3,100 images collected using Google Image Search. Search keywords used to collect images are poster, magazine, cover, etc.
  • B consists of 18,500 images published on the PCA-SIFT site, and C is a photo sharing site. In flickr, it consists of 78,400 images collected by tags such as "animal", “birthday”, “food”, “japan”, etc. It mainly includes objects, nature photos, human photos, etc.
  • FIG. 2 shows an example of reference images collected by the above procedure.
  • centroid of the feature vector distributed in the divided feature space is obtained, and the feature vector in the space is replaced with the centroid vector.
  • a centroid vector is recorded, and vector quantization is performed by re-adding the image ID assigned to the replaced feature vector to the centroid vector.
  • This barycentric vector corresponds to a codeword of vector quantization and is often called a visual word.
  • Table 1 shows the number of local feature values registered in the image database of 100,000 reference images for each value of R.
  • FIG. 3 is an example of the obtained captured image.
  • the angle ⁇ of the optical axis of the camera with respect to the paper surface was changed to 90 °, 75 °, and 60 ° to obtain captured images.
  • a part of the paper was photographed at an angle of 90 °.
  • four captured images were obtained for each search target.
  • the captured image was reduced to 512 ⁇ 341 pixels to obtain a search query image, and a feature vector was obtained by PCA-SIFT. As a result, an average of 612 query feature vectors were obtained per search query image. [Determination of threshold value t]
  • A is a method of performing k-means clustering and selecting a feature vector having a long vector length among them.
  • B is a method of performing k-means clustering on an image space from each image and randomly selecting a local feature amount from the k-means clustering.
  • C is a method of selecting from each image in order from a feature vector having a long vector length.
  • D is a method of selecting a local feature amount randomly from each image.
  • the vertical axis represents the recognition rate
  • the horizontal axis represents the average recognition rate through the four data described below, with “average” at the left end.
  • “60 °” is the average recognition rate of search question images with a shooting angle of 60 °
  • “75 °” is the average recognition rate of search question images with a shooting angle of 75 °
  • “90 °” is the shooting angle of 90 °
  • the “partial” indicates the average recognition rate of the search question image obtained by photographing a part. From FIG. 4, when the whole image is shown, the method (A) has the best recognition rate.
  • Table 3 shows the recognition rate when the value of R is changed for method (A).
  • indicates a case where the maximum number is not limited when the local feature amount is registered in the image database.
  • the present invention is an image database for a case where specific object recognition is performed on a large-scale image database such as tens of thousands or hundreds of thousands using local feature quantities such as SIFT (Scale-Invariant Feature Transform).
  • SIFT Scale-Invariant Feature Transform
  • p 1 , p 2 , p 3 , p 4 , p 5 , p 6 image feature vectors in the image database
  • q Search question feature vector
  • r Distance between vector p 1 and q, radius

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

 物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録する工程とを備え、前記クラスタリング工程は、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、前記選択工程は、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合され、各工程がコンピュータより実行される画像データベースの作成方法。

Description

画像データベースの作成方法、作成プログラム及び画像検索方法
 この発明は、画像データベースの作成方法、作成プログラム及び画像検索方法に関する。より詳細には、局所特徴量を用いた特定物体認識に用いる画像データベースの作成方法、その作成方法をコンピュータが実行するためのプログラム及び前記画像データベースを用いた画像検索方法に関する。
 特定物体認識(specific object recognition)とは、画像として写された物体が、他の画像中のどの物体とまったく同じなのかを言い当てる処理のことである。この明細書では、画像認識とも呼ぶ。このような処理は、部品の過不足の検出、偽造品などの検出、バーコードの代替などへの用途が考えられ、実用性が高いといえる。ここで、「画像として写された物体」とは検索質問としての画像に写っているインスタンス(検索対象)のことを指し、「どの物体とまったく同じなのかを言い当てる処理」とは、予め多数の画像が登録された画像データベースの中から、同一のインスタンスが写っている画像を検索する処理、即ち、画像検索の処理ということもできる。
 前記特定物体認識の一手法として、局所特徴量(local feature)を用いる手法が知られている。この手法は、画像から所定の手順により抽出される局所特徴量でその画像を表現し、他の画像から抽出された局所特徴量と比較あるいは照合することにより、識別(認識)を行うものである。局所特徴量の例として、SIFT(Scale-Invariant Feature Transform、例えば、非特許文献1参照)や、PCA-SIFT(Principal Component Analysis-SIFT、例えば、非特許文献2参照)などがある。これらの局所特徴量は多次元のベクトル量として表現されるため、特徴ベクトルともいわれる。これらの手法の利点は、画像の局所的な特徴に基づいて多数の特徴ベクトルを抽出するため、検索質問中のインスタンスおよび/または前記画像データベースに登録された画像中のインスタンスに多少の隠れや変動があっても、高精度の認識ができる点にある。
 この発明に関連する他の文献として、非特許文献3、4、5がある。それらの文献とこの発明との具体的な関連については後述する。
D. G. Lowe, "Distinctive image features from scale-invariant keypoints", Internal Journal of Computer Vision, 60, 2, pp.91-110, 2004. Y. Ke, and R. Sukthankar, "PCA-SIFT: A more distinctive representation for local image descriptors", Proc. CVPR'04, vol.2, pp.506-513, 2004. 野口, 黄瀬, 岩村: "局所記述子に基づく物体認識のため のメモリ削減の実験的検討", 画像の認識・理解シンポジウム (MIRU2008)論文集, OS10-3, pp.251-258, 2008. D. Nister and H. Stewenius, "Scalable Recognition with a Vocabulary Tree", Proc. CVPR2006, pp.775-781, 2006. S. Arya, D. Mount, R. Silverman and A. Y. Wu, "An optimal algorithm for approximate nearest neighbor searching", Journal of the ACM, vol.45, no.6, pp.891-923, 1998.
 1枚の画像から抽出される局所特徴量の数は、VGAサイズの画像で通常は数千程度、多い場合には数万にもなる。そのため、認識対象の画像のサイズが大きかったり数が多かったりする場合は、それらの局所特徴量の照合に要する処理時間や、記憶に必要となるメモリ容量が問題となる。
 これらの問題を解決するため、個々の局所特徴量の記録に必要なメモリ容量を削減するというアプローチが提案されている(前記非特許文献3参照)。具体的には、特徴ベクトルの各次元の値を表す多値データのビット数を削減するスカラー量子化によって個々の局所特徴量を画像データベースに登録するために要するメモリ量を減らし、画像データベース全体のメモリ容量を削減している。この手法は、事前に特徴ベクトルの各次元の値の分布を調べておくことにより、スカラー量子化を比較的簡単に行うことができるというメリットがある。これに対して、ベクトル量子化という概念も提唱されている。D. Nisterらは、ベクトル量子化の方法の1つとして、Vocabulary Treeという木構造を使ったものを提唱している(例えば、非特許文献4参照)。しかしながら、この手法では高い認識率を維持するために、木構造の高さを高くしなければならず、削減効果が十分に見込めないという問題点もある。
 この発明は、以上のような事情を考慮してなされたものであって、画像から抽出される局所特徴量を用いた近傍探索によって物体認識を行う手法において、前記物体認識の認識率を大きく低下させずに前記物体認識に係る画像データベースの記憶容量を削減する方法、および、その方法をコンピュータが実行するためのプログラムを提供するものである。また、前記方法に基づいて作成された画像データベースを用いて画像検索を行う方法を提供するものである。
 この発明は、物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録する工程とを備え、前記クラスタリング工程は、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、前記選択工程は、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合され、各工程がコンピュータより実行される画像データベースの作成方法を提供する。
 また、異なる観点から、この発明は、物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出ステップと、異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリングステップと、各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択ステップと、前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録するステップとをコンピュータに実行させ、前記クラスタリングステップは、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、前記選択ステップは、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合される画像データベースの作成プログラムを提供する。
 また、前記画像データベースの作成方法に対応するものとして、この発明は、物体認識用の画像データベースに登録された参照画像と照合されるべき検索質問画像からその局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する抽出工程と、前記クエリ特徴ベクトルと各参照画像に関連する前記代表ベクトルとの間で近傍探索を適用して照合を行う照合工程と、前記照合により前記クエリ特徴ベクトルの近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、前記代表ベクトルは、前記参照画像の複数の局所的特徴の位置と特性をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するように複数のクラスタを作成し、それぞれのクラスタから長いベクトル長の参照特徴ベクトルを優先的に選択して得られ、前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、各工程がコンピュータより実行される画像検索方法を提供する。
 なお、前記検索質問画像からクエリ特徴ベクトルを生成する手順は、参照特徴ベクトルを抽出する手順と同様である。
 この発明の画像データベースの作成方法によれば、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、長いベクトル長の参照特徴ベクトルを優先して各クラスタから所定の数の代表ベクトルを選択し、前記代表ベクトルと前記クエリ特徴ベクトルとの間で照合が行われるので、前記代表ベクトルを選択しない場合に比べて、画像データベースへの特徴ベクトルの登録に要するメモリ容量を節約することができる。しかも、各クラスタからそれぞれの代表ベクトルが登録されるので、つまり、画像の一部に偏らず全領域にわたり略均一に登録されるので、画像中にインスタンスが偏在していたり幾何学的変換による歪みを受けて写されていたりしても、頑強(ロバスト)な認識を行うことができる。
 この発明による画像データベースの作成プログラムは、前述した画像データベースの作成方法と同様の利点を有する。
公知の近似最近傍探索手法であるANNの概念を示す説明図である。この実施形態の近似最近傍探索手法にはANNを適用している。 この発明の実験例で、画像データベースに登録された画像の一例を示す説明図である。(a)は、Googleイメージ検索を用いて収集した画像の例、(b)は、PCA-SIFTのWebサイトで公開されていた画像の例、(c)は写真共有サイトのflickrにおいて収集した画像の例である。 この発明の実験例で、検索質問として用いた画像の一例を示す説明図である。(a), (b), (c)は撮影角度がそれぞれ90°, 75°, 60°でインスタンスの写真を撮影した画像ある。(d)は、そのインスタンスの写真の一部分を撮影した画像の例である。 この発明の実験例の結果を示すグラフである。図3(a), (b), (c), (d)に示した検索質問に対する認識率およびそれらの平均の認識率を示す。
 以下、この発明の好ましい態様について説明する。
 前記クラスタリング工程は、予め定められた数のクラスタを生成してもよい。画像中にインスタンスが偏在していたり幾何学的変換による歪みを受けて写されていたりしても、代表ベクトルが画像の全領域にわたり略均一に分散していれば、頑強(ロバスト)な認識を行うことができる。生成されるクラスタの数を多くすればするほど、代表ベクトルは均一に分散する。十分にロバストな認識が行われるクラスタの細かさを、例えば、実験的に予め決定しておき、前記クラスタリング工程が、予め定められた数のクラスタを生成するようにすれば、十分にロバストな認識が実現できる。
 また、前記選択工程は、各クラスタから一つの代表ベクトルを選択してもよい。
 さらにまた、前記クラスタリング工程は、ケーミーンズ(k-means)法を用いて特徴ベクトルを分けてもよい。このようにすれば、k-means法を用いることによって画像の全領域に渡り満遍なく分散されるように特徴ベクトルをクラスタリングすることができる。
 ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
 以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
 この発明の特徴的な一側面は、画像認識に用いる画像データベースのメモリ容量の削減を、局所特徴量の取捨選択の観点から検討し、その解決手法を提供する点にある。より具体的には、特徴ベクトルのベクトル長(スケール)と画像空間上での分散の均一性とを考慮して局所特徴量の取捨選択を行う。
 以下に述べる実施形態及び実験例により、局所特徴量の取捨選択を行わない場合の画像データベースのメモリ容量に対し10%程度にまでメモリ容量を削減した画像データベースを用いた場合においても、98%の認識率を得ることができ、この発明の有効性が実証された。
 ここで、この発明による記憶容量の削減手法を説明に先立ち、特定物体認識に対して行われているスカラー量子化による従来のメモリ容量削減手法と画像認識処理について改めて述べておく。スカラー量子化によるメモリ容量削減手法は、この発明の手法と異なるアプローチで画像データベースのメモリ容量を削減する手法であって、この発明による手法と組み合わせることができ、また組み合わせることが効果的である。
 ≪スカラー量子化によるメモリ削減手法≫
 前記非特許文献3では、特定物体認識に必要なメモリ容量を削減するため、スカラー量子化というアプローチを提案している。これは、個々の局所特徴量を表す特徴ベクトルの各次元が取り得る値を離散値に制限することによって、メモリ容量の削減を実現するものである。即ち、各次元の値を所定のビット長に制限するものである。画像データベースに登録する局所特徴量の数は、変わらないものの、個々の局所特徴量の登録に要するメモリ容量が小さくなるため、全体として画像データベースに必要なメモリ量が削減される。
  〔特徴ベクトルの抽出〕
 この実施形態においては、PCA-SIFTの手法を適用して参照画像及び検索質問画像からそれぞれの局所特徴量(特徴ベクトル)を抽出する。
 前記非特許文献3で、PCA-SIFTを適用して得られる特徴ベクトルは、特徴ベクトルの各次元を2bitで表現しても、画像認識の認識率はほとんど変化しない旨が述べられている。PCA-SIFTにより抽出される特徴ベクトルの各次元の値は、short型整数で表現した場合に16bitで表現される。従って、特徴ベクトルの各次元をスカラー量子化して2bitに削減すると、特徴ベクトル単体は、1/8程度のメモリ容量になる。画像データベースとしては、特徴ベクトルの格納の他に必要なメモリ容量があるが、それを考慮しても、画像データベースのメモリ容量を1/3程度に削減できる旨が述べられている。
  〔クエリ特徴ベクトルと参照特徴ベクトルとの照合〕
 画像検索は、クエリ特徴ベクトルと参照特徴ベクトルとを照合して行われる。前記照合処理は、検索質問画像から抽出されたクエリ特徴ベクトルと、画像データベースに登録されている参照特徴ベクトルとの間の距離計算を行い、各クエリ特徴ベクトルに対して近傍となる参照特徴ベクトルを決定する。そして、決定した参照特徴ベクトルに関連付けられた画像IDを得る。
  〔認識結果としての参照画像の決定〕
 照合の結果に基づき画像認識の結果を決定する処理を行う。前記処理は、前記照合処理によって得られた各クエリ特徴ベクトルに対する画像IDへの投票を行って、最大得票を得た画像IDが示す参照画像を認識結果として決定する。
 スカラー量子化の結果、距離計算の精度は低下する。それでも認識率がほとんど変化しない理由として、投票による多数決のおかげで誤った画像IDが除外されることが挙げられる。
 ≪局所特徴量の取捨選択によるメモリ削減手法≫
 先に述べたスカラー量子化とは異なるアプローチによって画像データベースのメモリ容量を削減する手法として、発明者らは、特徴ベクトルの取捨選択を行うことに着目した。
  〔取捨選択の方針〕
 参局所特徴量の取捨選択によるメモリ削減手法においても、PCA-SIFTの手法を用いて局所特徴量を抽出するものとする。
 参照画像から抽出される局所特徴量の数は、参照画像の内容によって異なる。局所特徴量の取捨選択を行わない無削減状態の画像データベースでは画像から抽出された局所特徴量を全て登録する。そのため、異なる参照画像の間で、登録される局所特徴量の数が大きく異なる。数多くの局所特徴量が多抽出される参照画像では、参照画像中の特定の部分から類似した局所特徴量が多数抽出されることがある。類似した局所特徴量は、その全てを画像データベースに登録しておく必要はない。類似しているが故に、認識率の向上にはあまり寄与しないと考えられるからである。よって、画像1枚から画像データベースに抽出する局所特徴量の数の最大値をRに制限し、参照特徴ベクトルを格納するために必要なメモリ容量の増大を防ぐことにする。抽出された参照特徴ベクトルの数がRを越えない場合には、抽出された局所特徴量を全て画像データベースに登録する。参照特徴ベクトルの数がRを越えた場合には、以下の着想に基づき、登録する局所特徴量を選択する。
  〔クラスタリング〕
 この発明では、撮影角度の変化に対する耐性が比較的強いとされる、長いベクトル長の特徴ベクトルを優先的に選択し、画像データベースに登録することとする。認識結果とされるべき参照画像及び対応する検索質問画像に、検索対象の全体が写っている可能性は低くないといえる。しかしながら、長いベクトル長の特徴ベクトルが、前記参照画像又は検索質問画像の一部領域に偏在していると、その領域以外の部分がノイズとなってしまい検索質問に対応する参照画像の検索が困難になる。こういった検索対象の偏在に対処するため、参照特徴ベクトルが抽出された参照画像の中で参照特徴ベクトルの位置を示す座標値について、最大クラスタ数をRとするk-meansクラスタリングを行う。
  〔代表ベクトルの選択と画像データベースへの登録〕
 さらに、k-meansクラスタリングによって得られた各クラスタ内の参照特徴ベクトルの中からベクトル長が最も大きなものを優先して選択する。
 選択した参照特徴ベクトルを画像データベースに登録する。即ち、各クラス他を代表する代表ベクトルだけを画像データベースに登録する。
 この手順により、参照画像の中から偏りなく略均一に参照特徴ベクトルを選択することになる。よって、参照画像の中に検索対象の物体が一部分しか写っていない場合においても、認識できる可能性を高めることができると考えられる。
  〔照合に用いる近似最近傍探索の手法〕
 クエリ特徴ベクトルと参照特徴ベクトル(あるいは、代表ベクトル)との照合には、ANN(Approximate Nearest Neighbor、例えば、非特許文献5参照)の手法を用いることができる。ANNは、木構造を用いて、近似最近傍探索を高速に行う手法である。近似を行うことにより、ベクトル照合の精度は低下するものの、検索にかかる処理時間を削減することが可能となる。
 ANNによる近似最近傍探索の概念を図1に示す。ただし、簡単のため、説明に関与するセルのみを描いている。画像データベース中の参照特徴ベクトルは、幾つかのセルに分けられ木構造をなすようにして画像データベースに登録されている。いま、qを検索質問のクエリ特徴ベクトル、p1 からp6 を参照特徴ベクトルとし、現在、p1 が近傍のベクトルとして発見されているとする。rはクエリ特徴ベクトルqと参照特徴ベクトルp1 とがなす距離である。最近傍探索を実行する場合、実線で示される超球と重なるセルには、p1 より近傍の参照特徴ベクトル、即ち、qとの距離がrよりも近い参照特徴ベクトルが存在する可能性があるため、探索の対象となる。一方、近似最近傍探索を行う場合、p1 までの距離rに対して、許容誤差εを用いて定義される半径
Figure JPOXMLDOC01-appb-M000001
の超球を考え、それと交わるセルのみを探索の対象とする。これにより、最近傍の参照特徴ベクトル(図1の場合はp)を発見できない可能性は出てくるが、探索の対象となるセルの数が減少するため、探索時間を削減できる。
 この発明の手法では、局所特徴量の削減のため、あるクエリ特徴ベクトルに対し、最近傍の参照特徴ベクトル(正解となるべき参照特徴ベクトル)が対応づけられないことも考えられる。そのため、ANNによる照合の結果として対応付けられたクエリ特徴ベクトルと参照特徴ベクトルとの距離dが、予め定められた閾値tよりも近い場合にのみ、画像に投票を行う。
 ≪実験例≫
  〔参照画像と画像データベース〕
 局所特徴量の取捨選択の有効性を実証する実験を行った。実験に用いた画像データベースは、参照画像として10万枚が登録されたものを用いた。参照画像10万枚の画像データベースは、A, B, Cの3種類のデータセットで構成されている。Aは、Googleイメージ検索を用いて収集した、3,100枚の画像からなる。画像の収集に用いた検索キーワードは、ポスター"、"雑誌"、"表紙" などである。Bは、PCA-SIFTのサイトで公開されている18,500枚の画像からなる。Cは、写真共有サイトのflickrにおいて、"animal", "birthday", "food","japan"などのタグにより収集した78,400枚の画像からなる。主に物体や、自然の写真、人物の写真などを含む。
 図2に、上記の手順で収集された参照画像の例を示す。
 なお、参照画像収集の際には、600×600 pixel以下のサイズの画像は除外し、各参照画像の長辺が640pixel以下になるように縮小した。画像サイズは、およそVGAサイズである。
 そして、これらの参照画像に対し、PCA-SIFT(http://www.cs.cmu.edu/yke/pcasift/で提供されていたものを用いた)の手法を適用して局所特徴量を抽出した。抽出された局所特徴量の総数は、1.82×108である。そのサブセットである参照画像1万枚のデータベースにおいて抽出された局所特徴量の総数は、2.07×107である。
 そして、各画像データベースに対して、比較のため前記非特許文献4のベクトル量子化による従来のメモリ削減手法、並びに、この発明による局所特徴量の取捨選択によるメモリ削減手法をそれぞれ適用し、合計で4つの画像データベースを作成した。
  〔ベクトル量子化によるメモリ削減手法〕
 ここで、ベクトル量子化による従来のメモリ削減手法について簡単に説明する。
 ベクトル量子化では、特徴空間上の一定領域に分布している特徴ベクトルをまとめることによって行う。そのため、何らかの方法により、特徴ベクトルをどのようにしてまとめるのかを定める必要がある。本稿では、以下のようにして、特徴ベクトルをまとめることにする。まず、kd-tree を作成するときに用いられている、standard kd-tree splitting rule を用いて特徴空間を分割する。これは、特徴空間上で、最も分散が大きい次元を選択し、その次元上に分布している点の座標の中央値で、空間を分割する方法である。分割空間に含まれる特徴ベクトルの最大数(バケットサイズ)b を設定し、各空間内に含まれる特徴ベクトルの数を、b 以下になるまで分割する。そして、分割された特徴空間に分布している特徴ベクトルの重心を求め、その空間上の特徴ベクトルを重心ベクトルに置換する。データベース中には、重心ベクトルを記録すると共に、置換した特徴ベクトルに付与されていた画像ID を、この重心ベクトルに付与し直すことで、ベクトル量子化を行う。
この重心ベクトルは、ベクトル量子化の符号語(codeword)に相当するものであり、しばしばvisual word と呼ばれる。
  〔実験パラメータ〕
 ベクトル量子化の方法で画像データベースを作成する際に用いたパラメータbの値は、b=1, 2, 3, 5, 10, 20 である。
 一方、局所特徴量の取捨選択によるメモリ削減手法で画像データベースを作成する際に用いたパラメータRの値は、R = 300, 200, 100, 75, 50である。Rの各値に対して、参照画像10万枚の画像データベース内に登録された局所特徴量の数を表1に示す。
Figure JPOXMLDOC01-appb-T000002
  〔検索質問画像〕
 検索対象を得るために、データセットA, B, C のそれぞれから100、200、200枚の合計500枚の参照画像を無作為に選択した。よって、各検索対象は、認識されるべき参照画像が画像データベースに必ず存在する。次に、これらの検索対象をA4の用紙に印刷し、カメラを用いて撮影した。
 図3は、得られた撮影画像の例である。図3に示すとおり、検索対象の紙面全体が写る配置で、その紙面に対するカメラの光軸の角度θを90°, 75°, 60°に変化させてそれぞれ撮影画像を得た。また、角度を90°として紙面の一部分を撮影した。その結果、1つの検索対象につき、それぞれ4つの撮影画像を得た。さらに、撮影された撮影画像を512×341 pixelに縮小して検索質問画像とし、PCA-SIFTにより特徴ベクトルを求めた。その結果、検索質問画像1枚あたり平均612個のクエリ特徴ベクトルが得られた。
  〔閾値tの決定〕
 まず、前述のANNを用いた照合に係る距離の閾値tとして、どの程度の値を定めるのが適切かを調べる実験を行った。具体的には、作成した画像データベースに対してtの値を変化させて、認識率がどのように変化するかを調べた。得られた実験結果のうち、参照画像1枚の画像データベースから抽出する局所特徴量の最大数RをR = 50とした場合の結果を表2に示す。表2の結果から、閾値tの値が、およそ、t = 3873, 3162の場合に認識率がよくなっていることが分かる。Rの値を変化させたときにおいても、総じて、t = 3873, 3162のあたりで認識率がよくなっていることがわかった。この結果に基づいて、以下の実験では、閾値tは、t = 3873とした。
Figure JPOXMLDOC01-appb-T000003
  〔特徴量の取捨選択の有効性〕
 次に、以下の(A),(B),(C),(D)の4手法を比較した。(A)は、k-meansクラスタリングをして、その中で長いベクトル長の特徴ベクトルを選択する方法である。(B)は、各画像から画像空間上でk-meansクラスタリングをして、その中から、局所特徴量をランダムに選択する方法である。(C)は、各画像から、長いベクトル長の特徴ベクトルから順に選択する方法である。(D)は、各画像からランダムに局所特徴量を選択する方法である。
 前述の4手法について、同じRの値を用いて画像データベースを作成し、認識率を比較した。距離の閾値は、t = 3873である。R = 50のときの結果を図4に示す。
 図4で、縦軸は認識率を示しており、横軸は、左端の「平均」が、以降に述べる4つのデータを通した平均認識率を示す。「60°」は、撮影角度60°の検索質問画像の平均認識率を、「75°」は、撮影角度75°の検索質問画像の平均認識率を、「90°」は、撮影角度90°の検索質問画像の平均認識率を、「一部」は、一部分を撮影した検索質問画像の平均認識率を示す。図4より、画像全体が写っている場合においては、手法(A)が最もよい認識率となっている。
 図4の手法(A)と(C)を比較すると、特定平面物体全体が写っている画像を認識する場合、角度変化への耐性が強いとされる、長いベクトル長の特徴ベクトルが認識に有利であるといえる。
 しかしながら、長いベクトル長の特徴ベクトルだけを登録した場合、手法(C)において、検索対象の一部分のみが写っている検索質問画像を用いると、認識率が著しく下がっている。この原因の一つとして、長いベクトル長の特徴ベクトルが、検索質問画像の撮影範囲外の部分に偏ってしまった結果、クエリ特徴ベクトルと参照特徴ベクトルとの照合がうまくできなかったと考えられる。
 これに対して、k-means法を適用し、画像の各部分から満遍なく局所特徴量を選択する手法(A)を用いると、認識率が大きく回復していることがわかる。よって、画像上から長いベクトル長の特徴ベクトルを満遍なく選択することが重要であるといえる。
 続いて、手法(A)に対して、Rの値を変化させたときの認識率を表3に示す。∞は、局所特徴量を画像データベースに登録する際に、その最大数を制限しなかった場合を示している。
Figure JPOXMLDOC01-appb-T000004
 表3より、元の画像データベースの10%程度のメモリ容量でも、98%以上の認識率が実現されている。Rが小さくなるにつれ、一部分のみを拡大した検索質問に対しては、認識率の低下が現われ、次第に大きくなっている。これは、長いベクトル長の特徴ベクトルを選択したためであると考えられる。
 以上の実験例に示したように、特徴ベクトルのベクトル長と、画像空間上での分散の均一性を考慮して局所特徴量を取捨選択することで、無削減状態の1/10程度の画像データベースを用いた場合においても、98%の認識率を得ることができ、子の発明による面離削減手法の有効性が実証された。
 前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
 この発明は、SIFT(Scale-Invariant Feature Transform)などの局所特徴量を用いて、何万枚、何十万枚といった大規模な画像データベースを対象に特定物体認識を行うような場合の画像データベースの作成に極めて有効な手法である。
 大規模特定物体認識の画像データベースでは、画像データベースに保持しておく局所特徴量(特徴ベクトル)の数が増大する。そのため、メモリ容量の削減が課題となる。この発明によれば、局所特徴量の取捨選択の方法を工夫することによって、局所特徴量を画像データベースに保持しておくのに要するメモリ容量を節約することができる。
p1, p2, p3, p4, p5, p6:画像データベース中の画像の特徴ベクトル
q:検索質問の特徴ベクトル
r:ベクトルp1とqとの距離、半径

Claims (6)

  1.  物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、
    異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、
    各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、
    前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録する工程とを備え、
    前記クラスタリング工程は、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、
    前記選択工程は、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、
    前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合され、
    各工程がコンピュータより実行される画像データベースの作成方法。
  2.  前記クラスタリング工程は、予め定められた数のクラスタを生成する請求項1に記載の方法。
  3.  前記選択工程は、各クラスタから一つの代表ベクトルを選択する請求項1または2に記載の方法。
  4.  前記クラスタリング工程は、ケーミーンズ・クラスタリングを用いて前記複数のクラスタを作成する請求項1から3のいずれか一つに記載の方法。
  5.  物体認識用の画像データベースに登録された参照画像と照合されるべき検索質問画像からその局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する抽出工程と、
    前記クエリ特徴ベクトルと各参照画像に関連する前記代表ベクトルとの間で近傍探索を適用して照合を行う照合工程と、
    前記照合により前記クエリ特徴ベクトルの近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、
    前記代表ベクトルは、前記参照画像の複数の局所的特徴の位置と特性をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するように複数のクラスタを作成し、それぞれのクラスタから長いベクトル長の参照特徴ベクトルを優先的に選択して得られ、
    前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、
    各工程がコンピュータより実行される画像検索方法。
  6.  物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出ステップと、
    異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリングステップと、
    各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択ステップと、
    前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録するステップとをコンピュータに実行させ、
    前記クラスタリングステップは、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、
    前記選択ステップは、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、
    前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合される画像データベースの作成プログラム。
PCT/JP2010/053448 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法 WO2010101187A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP10748781.1A EP2405392B1 (en) 2009-03-04 2010-03-03 Method and program for creating image database, and method for retrieving image
JP2011502784A JP5527555B2 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法
CN201080010386.4A CN102341824B (zh) 2009-03-04 2010-03-03 图像数据库编辑方法、图像数据库编辑装置和图像检索方法
US13/254,347 US8649614B2 (en) 2009-03-04 2010-03-03 Method of compiling image database, image database compilation program, image retrieval method
HK12105552.5A HK1165067A1 (zh) 2009-03-04 2012-06-07 圖像數據庫編輯方法、圖像數據庫編輯裝置和圖像檢索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009050637 2009-03-04
JP2009-050637 2009-03-04

Publications (1)

Publication Number Publication Date
WO2010101187A1 true WO2010101187A1 (ja) 2010-09-10

Family

ID=42709742

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/053448 WO2010101187A1 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法

Country Status (6)

Country Link
US (1) US8649614B2 (ja)
EP (1) EP2405392B1 (ja)
JP (1) JP5527555B2 (ja)
CN (1) CN102341824B (ja)
HK (1) HK1165067A1 (ja)
WO (1) WO2010101187A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105373A (ja) * 2011-11-15 2013-05-30 Yahoo Japan Corp データ取得装置、方法及びプログラム
JP2021068004A (ja) * 2019-10-18 2021-04-30 国立研究開発法人産業技術総合研究所 識別補助データ生成技術及び識別情報抽出技術

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136228A (zh) 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 一种图片搜索方法以及图片搜索装置
US9734262B2 (en) * 2012-09-05 2017-08-15 Patrick DeLeFevre Method and system for understanding text
CN103324677B (zh) * 2013-05-24 2017-02-01 西安交通大学 一种可分级的快速图像gps位置估计方法
GB2516037A (en) * 2013-07-08 2015-01-14 Univ Surrey Compact and robust signature for large scale visual search, retrieval and classification
EP3195146A4 (en) * 2014-09-18 2018-04-18 Empire Technology Development LLC Three-dimensional latent semantic analysis
CN105069457B (zh) * 2015-07-15 2020-02-11 杭州易现先进科技有限公司 图像识别方法和装置
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
CN105718858B (zh) * 2016-01-13 2019-01-11 合肥工业大学 一种基于正负广义最大池化的行人识别方法
CN105718531B (zh) * 2016-01-14 2019-12-17 广州市万联信息科技有限公司 图像数据库的建立方法及图像识别方法
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
US10437878B2 (en) * 2016-12-28 2019-10-08 Shutterstock, Inc. Identification of a salient portion of an image
US10503775B1 (en) * 2016-12-28 2019-12-10 Shutterstock, Inc. Composition aware image querying
US11042586B2 (en) * 2016-12-29 2021-06-22 Shutterstock, Inc. Clustering search results based on image composition
US10248663B1 (en) * 2017-03-03 2019-04-02 Descartes Labs, Inc. Geo-visual search
CN108536769B (zh) * 2018-03-22 2023-01-03 深圳市安软慧视科技有限公司 图像分析方法、搜索方法及装置、计算机装置及存储介质
CN111177190B (zh) * 2018-11-13 2023-05-30 杭州海康威视数字技术股份有限公司 数据处理方法、装置、电子设备及可读存储介质
CN110442749B (zh) * 2019-07-18 2023-05-23 腾讯音乐娱乐科技(深圳)有限公司 视频帧处理方法及装置
US11270155B2 (en) * 2019-11-26 2022-03-08 Dash Hudson Duplicate image detection based on image content
CN113159039A (zh) * 2021-02-09 2021-07-23 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
JP3873793B2 (ja) * 2002-03-29 2007-01-24 日本電気株式会社 顔メタデータ生成方法および顔メタデータ生成装置
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
US7596618B2 (en) * 2004-12-07 2009-09-29 Hewlett-Packard Development Company, L.P. Splitting a workload of a node
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
JP5096776B2 (ja) * 2007-04-04 2012-12-12 キヤノン株式会社 画像処理装置及び画像検索方法
CN100587715C (zh) 2008-06-21 2010-02-03 华中科技大学 一种基于内容的鲁棒图像拷贝检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
D. G. LOWE: "Distinctive image features from scale-invariant keypoints", INTERNAL JOURNAL OF COMPUTER VISION, vol. 60, no. 2, 2004, pages 91 - 110
D. NISTER, H. STEWENIUS: "Scalable Recognition with a Vocabulary Tree", PROC. CVPR 2006, 2006, pages 775 - 781
NOGUCHI, KISE, IWAMURA: "Experimental Study of Memory Reduction for Object Recognition based on Local Descriptors", COLLECTION OF PAPERS IN MEETING ON IMAGE RECOGNITION AND UNDERSTANDING (MIRU 2008, vol. 10-.3, 2008, pages 251 - 258
S. ARYA, D. MOUNT, R. SILVERMAN, A. Y. WU: "An optimal algorithm for approximate nearest neighbor searching", JOURNAL OF THE ACM, vol. 45, no. 6, pages 891 - 923
See also references of EP2405392A4 *
TAICHI JOTO ET AL.: "Bag-of-Keypoints Hyogen o Mochiita Web Gazo Bunrui", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2007, no. 42, 15 May 2007 (2007-05-15), pages 201 - 208, XP008167511 *
Y. KE, R. SUKTHANKAR: "PCA-SIFT: A more distinctive representation for local image descriptors", PROC. CVPR' 04, vol. 2, 2004, pages 506 - 513

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105373A (ja) * 2011-11-15 2013-05-30 Yahoo Japan Corp データ取得装置、方法及びプログラム
JP2021068004A (ja) * 2019-10-18 2021-04-30 国立研究開発法人産業技術総合研究所 識別補助データ生成技術及び識別情報抽出技術
JP7416400B2 (ja) 2019-10-18 2024-01-17 国立研究開発法人産業技術総合研究所 識別補助データ生成技術及び識別情報抽出技術

Also Published As

Publication number Publication date
US20110317923A1 (en) 2011-12-29
JPWO2010101187A1 (ja) 2012-09-10
HK1165067A1 (zh) 2012-09-28
US8649614B2 (en) 2014-02-11
CN102341824A (zh) 2012-02-01
CN102341824B (zh) 2016-05-18
EP2405392B1 (en) 2015-08-05
EP2405392A4 (en) 2014-09-10
EP2405392A1 (en) 2012-01-11
JP5527555B2 (ja) 2014-06-18

Similar Documents

Publication Publication Date Title
JP5527555B2 (ja) 画像データベースの作成方法、作成プログラム及び画像検索方法
JP4883649B2 (ja) 画像認識方法、画像認識装置および画像認識プログラム
JP5294342B2 (ja) 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
Amato et al. kNN based image classification relying on local feature similarity
Amato et al. Fast image classification for monument recognition
US8891908B2 (en) Semantic-aware co-indexing for near-duplicate image retrieval
Amato et al. Geometric consistency checks for kNN based image classification relying on local features
Ali et al. A leaf recognition approach to plant classification using machine learning
Khan et al. A hybrid CBIR system using novel local tetra angle patterns and color moment features
Amato et al. Aggregating binary local descriptors for image retrieval
Paliwal et al. A score based indexing scheme for palmprint databases
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
Singh et al. Ensemble visual content based search and retrieval for natural scene images
Giouvanakis et al. Saliency map driven image retrieval combining the bag-of-words model and PLSA
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Dang et al. Srif: Scale and rotation invariant features for camera-based document image retrieval
Belhi et al. CNN Features vs Classical Features for Largescale Cultural Image Retrieval
Guruprasad et al. Multimodal recognition framework: an accurate and powerful Nandinagari handwritten character recognition model
Chen et al. Mobile visual search from dynamic image databases
Rajput Sketch based image retrieval using grid approach on large scale database
Amato et al. On knn classification and local feature based similarity functions
Gaillard et al. CNN features for reverse image search
He et al. Clustering-based descriptors for fingerprint indexing and fast retrieval
Aly et al. Bag of Words for Large scale object recognition
Brogan et al. Needle in a haystack: A framework for seeking small objects in big datasets

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080010386.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10748781

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2011502784

Country of ref document: JP

Ref document number: 13254347

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010748781

Country of ref document: EP