WO2008026414A1 - Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image - Google Patents

Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image Download PDF

Info

Publication number
WO2008026414A1
WO2008026414A1 PCT/JP2007/065086 JP2007065086W WO2008026414A1 WO 2008026414 A1 WO2008026414 A1 WO 2008026414A1 JP 2007065086 W JP2007065086 W JP 2007065086W WO 2008026414 A1 WO2008026414 A1 WO 2008026414A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
local
search
recognition
input image
Prior art date
Application number
PCT/JP2007/065086
Other languages
English (en)
French (fr)
Inventor
Kazuto Noguchi
Koichi Kise
Masakazu Iwamura
Original Assignee
Osaka Prefecture University Public Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University Public Corporation filed Critical Osaka Prefecture University Public Corporation
Priority to EP07791766A priority Critical patent/EP2063394A4/en
Priority to US12/439,493 priority patent/US8199973B2/en
Priority to JP2008532003A priority patent/JP4883649B2/ja
Priority to CN200780040849XA priority patent/CN101536035B/zh
Publication of WO2008026414A1 publication Critical patent/WO2008026414A1/ja
Priority to HK10102372.2A priority patent/HK1134364A1/xx

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space

Definitions

  • Image recognition method image recognition apparatus, and image recognition program
  • the present invention relates to an image recognition method that performs image recognition using a local descriptor that describes local features of an image, an image recognition apparatus that performs image recognition using a local descriptor, and an image recognition program.
  • the target force is not a 3 ⁇ 4-dimensional object but a pattern on the plane (planar object), and an instance (car) that does not recognize the object class (for example, whether the object in the photograph belongs to the category of car).
  • the service is already possible. For example, a service by Dai Nippon Printing Co., Ltd. that uses the technology of Clementec Co., Ltd. (US.
  • Patent ⁇ ⁇ 20040208372 a service of Olympus Co., Ltd., and NEC Corporation that uses the technology of Evolution Robotics, Inc. Services are known. If such a planar object can be recognized, it will open the way to automatic indexing of existing images and videos, rather than just taking pictures of posters and products.
  • a local descriptor describes the image by capturing local features of the image and extracting them as multidimensional feature vectors. Since the value is determined locally, it has the property of being relatively strong (robust) against hiding and image fluctuations.
  • “local” means a part of an image. It means that there is a “local descriptor” that represents a partial feature of an image. In this specification, a local descriptor is also called a feature vector.
  • the basic operation is to measure the distance between feature vectors obtained from two images and associate them with the nearest one.
  • a feature vector is then associated between the image obtained by the camera and a number of images in the database, and the images in the database are voted on. Finally, the label of the image with the largest number of votes is output as the “recognition result”.
  • the number of dimensions of the feature vector is on the order of several tens to several hundreds and several hundreds to several thousand per several power images, it is practical to simply calculate the distances of all combinations. I understand that it is not.
  • Non-Patent Documents 1 and 2 Recently, recent development of nearest neighbor search technology has made it possible to search a huge number of feature vectors in a short time (for example, see Non-Patent Documents 1 and 2).
  • ANN Appro ximate Nearest Neighbor
  • LSH Licality Sensitive Hashing
  • a high-speed search is realized.
  • SR-Tree for accurate nearest neighbor search
  • Non-Patent Document 5 there is distributed coding by Kobayashi et al. (For example, see Non-Patent Document 6) as a method of approximate nearest neighbor search.
  • Patent Document 1 International Publication No. 2006/092957 Pamphlet
  • Non-Patent Document 1 P.indyk, Nearest neighbors in hign-dimensional spaces, Handbook of discrete and computational geometry (Bds. By JE Goodman and J.O'Rourke), Chap man & Hall / CRC, pp.877-892, 2004.
  • Patent Document 2 Lr. Shakhnarovich, T. D rrell and P. Indyk Eds Nearest-neighbor meth ods in learning and vision, The MIT Press, 2005.
  • Patent Document 3 S. Arya, DM Mount, R. Silverman and AY Wu, ⁇ An optimal algorithm for approximate nearest neighbor searching, Journal of the ACM, vol. 45, no. 6, pp. 891-923, 1998.
  • Patent Document 4 M. Datar, N. Immorlica, P. Indyk and VS Mirrokni, Locality-sensitive hasning scheme based on p-staole distributions, Proc. Of the 20th annual symposium on Computational Geometry, pp.253-262, 2004 .
  • Non-Patent Document 5 Norio Katayama, Shinichi Sato, Indexing technique for similarity search, "Information processing, vol. 42, no. 10, pp.958-964, Oct., 2001.
  • Non-Patent Document 6 Takuo Kobayashi and Masaki Nakagawa, “High-dimensional nearest neighbor search by distributed coding,” IEICE Technical Report PRMU2006-41, June, 2006.
  • Non-patent document 7 Toshikazu Wada, learning using non-linear partitioning and learning of non-linear mapping (1) Accelerating nearest neighbor identification using spatial partitioning, "Information processing, vol.46, no.8, pp.912-918 , Aug., 2005.
  • Non-patent literature 8 Tomoyuki Shibata, Takekazu Kato, Toshikazu Wada, "Kd decision tree and its application-speeding up nearest neighbor classifier and saving memory," Science theory (D-II) , V01.J88-D-II, no.8, pp.1367-1 377, Aug., 2005.
  • the present invention provides
  • a search unit for searching for a local descriptor in the input image that is close to each local descriptor in the input image, and specifying a local descriptor in the vicinity for each local descriptor in the input image, and each local in the vicinity The image from which the descriptor was obtained Among them, an identification unit that identifies an image to be a recognition result using a statistical process is provided, and the limiting unit limits the search target to a number that can identify an image to be a recognition result.
  • An image recognition apparatus is provided.
  • a program that uses a computer V to realize a function for identifying an image including the object from an image database by searching for a local descriptor.
  • a feature deriving unit for deriving a plurality of local descriptors representing local features from the input image, and among the local descriptors obtained from the images in the image database, The search is limited to each target to be searched, and the search target that is close to each local descriptor of the input image is searched, and each local descriptor in the vicinity of each local descriptor of the input image is searched. Search unit to identify
  • the computer should function as an identification unit that identifies, using statistical processing, an image that should be recognized as a recognition result among images obtained from each local descriptor in the vicinity, and the limiting unit should be a recognition result.
  • An image recognition program characterized in that the search target is limited to a number that can identify an image.
  • a method for recognizing an image including an object based on a pattern of the object included in an input image from an image database organized using a hash table, wherein the local feature of the pattern A step of extracting one or more feature vectors representing a quantity, an index calculation step of calculating an index of a hash table from the extracted feature vector, and a candidate in the image database by referring to the hash table with the calculated index
  • a voting step of deciding an image and voting on the determined candidate image and a step of obtaining an image of a recognition result based on a voting result for each feature vector
  • the step of creating the hash table includes: For each feature vector extracted from each image registered in the database, a hash table index is calculated and identified from the feature vectors.
  • an image recognition method characterized by including steps of removing feature vectors having low ability and registering image reference data corresponding to each remaining feature vector.
  • the present invention (5) An apparatus for recognizing an image including the object based on a pattern of the object included in the input image from an image database organized using a hash table, wherein the local feature of the pattern A feature point extracting unit for extracting one or more feature vectors representing an index, an index calculating unit for calculating an index of a hash table from the extracted feature vector, and referring to the hash table with the calculated index in the image database A voting unit for determining candidate images and voting on the determined candidate images; and an image selection unit for obtaining images of recognition results based on the voting results for each feature vector.
  • an index of the hash table is taken into consideration for the variation of the feature value.
  • the image is characterized by including the steps of registering image reference data corresponding to each of the remaining feature vectors by removing the feature vectors from each feature vector and removing the feature vectors.
  • the limiting step limits the search target to a number that can identify an image to be a recognition result. Processing time required can be reduced. That is, an object can be recognized at high speed.
  • the limiting unit limits the search target to a number that can identify an image to be a recognition result.
  • the processing time required for recognition can be shortened.
  • the limiting unit limits the search target to a number that can identify an image that should be a recognition result, and thus requires recognition. Processing time can be shortened.
  • the image recognition method of (4) according to the present invention the low discrimination ability! / And the feature vector are excluded, and only the image reference data corresponding to the feature vector having the high discrimination ability is a hash table. Therefore, it is possible to perform image recognition in a short time using only feature vectors with high discrimination ability as processing targets.
  • the memory capacity required for the image database compared to registering image reference data corresponding to all feature vectors. The Save with power S.
  • the image recognition device of (5) since only the image reference data corresponding to the feature vector having a high identification capability is registered in the hash table, these are set as processing targets. Image recognition can be performed in a short time. In addition, since only the image reference data corresponding to the feature vector having high identification ability is registered in the hash table, the memory capacity of the image database can be saved.
  • the image recognition method of the present invention recognizes an image using a feature vector.
  • the basis of recognition is to collate the feature vectors registered in the database with the feature vectors of the input image. Since a feature vector represents a local feature of an image, a plurality of feature vectors are generally obtained from one image.
  • some of the feature vectors of objects (images) registered in the force database are those that express the characteristics of the object well (highly discriminating ability) and those that do not (lowly discriminating ability).
  • a well-characterized feature of an object is a feature vector that provides sufficient evidence that the input image can be said to be that object if the feature vector is present.
  • Feature vector exclusion refers to the latter, that is, the process of deleting feature vectors that cannot be evidence from the dictionary. More specifically,
  • the limiting step may be capable of varying a degree of limiting a search target according to an input image so that an image to be a recognition result is identified. . That is, the degree of approximation may be varied depending on the input image. In this way, the power S can be reduced by reducing the processing time by changing the degree of approximation used for recognition according to the image.
  • the degree of approximation balances recognition rate and efficiency. It is an important parameter for The stronger the approximation, the more processing time can be reduced. If the approximation is too strong, the nearest neighbors cannot be obtained for many feature vectors, resulting in false recognition.
  • One problem here is that the degree of approximation that causes misrecognition varies from image to image. While there are “simple” images that can be recognized even after a large approximation, there are also “difficult” images that are misrecognized. In order to secure a certain recognition rate by fixed approximation, it is difficult to recognize the degree of approximation! / And it is necessary to match the image, which hinders efficiency improvement.
  • a method of reducing processing is provided from the viewpoint that "the accuracy of nearest neighbor search necessary for recognition varies depending on images".
  • it is a technique that adaptively adjusts the degree of approximation to the image.
  • a plurality of discriminators having different degrees of approximation are prepared, and they are connected in cascade in a multi-stage manner from a high degree of approximation to one to a weak one.
  • an easily recognizable image can be recognized at a high speed by a large approximate classifier in the former part, and it cannot be recognized! /, Only the image is approximated in the latter part. This is because it is necessary to spend time and sensible words with a discriminator.
  • the limiting step relaxes the degree of limiting the search target and determines a new search target by excluding the search target first.
  • the search process and the identification process may be executed for the determined search target. In this way, even if the limiting process, search process, and identification process are executed in multiple stages by changing the degree of approximation, the search target in each stage is compared with the case of searching at once. Recognize in a processing time that is not inferior.
  • a feature of this method is a method for constructing a multi-stage discriminator.
  • the latter classifier only the difference due to the difference in approximation, that is, only the feature vector that was not targeted by the preceding classifier is used as the target of distance calculation, so that the last stage The ability to obtain the advantage of requiring almost the same amount of computation as when using a single classifier.
  • the degree of limiting the search target is relaxed in stages, and the limiting process, the searching process, and the search process. If the image that should be the recognition result cannot be identified even after repeating the identification process, the search result for the local descriptor may be rejected. In this way, the misrecognition rate can be suppressed compared to the case where no rejection is performed.
  • the image database includes a hash table in which each local descriptor derived from each image is classified by an index value calculated in a predetermined procedure, and the limiting step includes a feature amount Taking the fluctuation into account, the indentation value is calculated from each local descriptor of the input image by the above procedure, the local index belonging to the class is searched by referring to the hash table with the calculated index value, and the identification For each local descriptor specified in the search process, the process uses a statistical process for voting on the image from which it was obtained, and the hash table shows, for each class, the local descriptor belonging to that class. It may be created by excluding the search target power from the local descriptor of that kind when the number of data exceeds the threshold. In this way, if the number of local descriptors belonging to each class exceeds the threshold value, they are excluded from the search target, and the hash table is created. Descriptors are limited to those with high identification ability, enabling efficient recognition
  • each local descriptor is represented as a vector
  • the process of calculating the index value of the hash table in consideration of the variation of the feature amount is to set the error range to the discrete value obtained by discretizing the elements of each local descriptor.
  • the range of the error may be determined according to the variation. In other words, when calculating the index, if the value of the element, the estimated force of fluctuation, and the range of the calculated value span multiple sections used for discretization, the discrete values corresponding to each section are used, Multiple indexes Do it like that.
  • the pattern of the object in the image database is a pattern in which the object is viewed from an angle different from that of the input image, that is, if there is a change, the pattern between the image to be recognized and the input image
  • the value of the element of the local descriptor (feature vector) in the correspondence relationship changes.
  • the value of the local descriptor element is calculated according to a predetermined procedure, and the index value, which is the variance value, is calculated according to a predetermined procedure. If the element value of the feature vector fluctuates, a different discrete value is calculated. It can be said that there is a high possibility of being done.
  • Each element of the feature vector is a discrete value discretized with a predetermined threshold.
  • the search step calculates a distance between each local descriptor of the input image and each local descriptor in the hash table belonging to the class corresponding to the local descriptor within the predetermined distance or the shortest distance. It may be a process to identify.
  • the searching step may be a step in which each local descriptor in the hash table belonging to a class corresponding to each local descriptor of the input image is set as a local descriptor in the vicinity.
  • the processing time required for the search can be shortened compared to the case of performing the distance calculation.
  • the limiting unit varies the degree of limiting the search target according to the input image so that an image to be a recognition result is identified. You may get it. That is, the degree of approximation may be varied depending on the input image. In this way, it is possible to reduce the processing time by changing the degree of approximation used for recognition according to the image.
  • the limiting unit relaxes the degree of limiting the search target, and excludes the search target that has been previously set as a new search target.
  • the search unit further performs a process for determining the The local descriptor may be specified, and the identification unit may further identify an image to be a recognition result based on each specified local descriptor. In this way, even when the limiting unit, the search unit, and the identification unit execute multi-step processing by changing the degree of approximation, the search target at each step is searched at once. Compared to the processing time comparable to that of recognition.
  • the image is included in the image in the image database.
  • the pattern of the object to be displayed may be a pattern when the object is viewed from an angle different from that of the input image.
  • the image is included in the image in the image database.
  • a part of the pattern of the object to be processed may correspond to the pattern of the input image.
  • the identification ability is low! /
  • the feature vector is excluded when the feature vector having the same index exceeds a predetermined number is calculated by the index. It may be a process of excluding each feature vector to be registered in the hash table. If there are a large number of feature vectors to be registered for one index of the hash table, it can be said that these feature vectors have low identification ability.
  • an index is calculated from the feature vector extracted from the input image and the hash table is referred to by the calculated index, a large number of images that can be candidates are registered for that index! / It is.
  • Such an index does not contribute much to narrowing down the images to be recognized. Therefore, for each index, by removing those feature vectors from the registration target in the hash table, only the image reference data with high discriminating power can be registered in the hash table.
  • the index calculation step calculates an index by including a discrete value satisfying a range of error estimation in a discrete value obtained by discretizing elements of each feature vector. You may make it take out. In other words, when calculating the index, if the value of the element and the estimated value of fluctuation, and the range of the calculated value spans multiple sections used for discretization, a plurality of discrete values corresponding to each section are used. An index may be calculated.
  • the pattern of the object in the image database is a pattern in which the object is viewed from an angle different from that of the input image (there is variation)
  • a feature vector having a correspondence relationship between the image to be recognized and the input image The value of the element of changes.
  • the element values of the feature vector are discretized based on the threshold value.
  • the value of the element of the feature vector in the correspondence relation is near the threshold value, the value is changed if the value varies.
  • the possibility of discretization into different discrete values is high. Therefore, when the fluctuation estimation section centering on the value of the element of the feature vector extends over a plurality of sections used for discretization, the above calculation is performed by calculating a plurality of indexes using the discrete values corresponding to each section. A reduction in the recognition rate with respect to fluctuations can be suppressed. In other words, if an element of a feature vector is close to the discretization threshold when calculating the index, the recognition rate can be ensured by calculating the index considering the possibility of crossing the threshold. .
  • the image reference data registered in the hash table includes an image ID for identifying an image in the database including each feature vector and elements of the feature vector, and the voting process includes an input image.
  • the distance between each feature vector and the feature vector registered in the hash table index calculated from the feature vector is calculated! /, And the image identified by the image ID of the feature vector with the shortest distance is used. It may be a process of voting. In this case, the voting process may be performed only when the shortest distance is equal to or smaller than a certain threshold value.
  • the image reference data registered in the hash table includes an image ID for identifying an image in the database including each feature vector, and the voting process is calculated from each feature vector of the input image. It may be a process of voting for an image identified by an image ID registered in the index of the hash table. In this way, only the image ID is registered in the hash table, and it is not necessary to register the elements of each feature vector. Can save even more memory.
  • the hash table is referenced with the calculated index, and the recognition process is performed by a simple process that performs a voting process using the image ID registered in the index. Computation time can be further shortened compared to the case of performing.
  • the feature vectors with low identification ability are excluded when the feature vectors with the same index exceed a predetermined number, May be excluded from being registered in the hash table.
  • the index calculation unit may calculate the index by including a discrete value satisfying a range of error estimation in a scatter value obtained by discretizing elements of each feature vector.
  • a plurality of indexes may be calculated using discrete values corresponding to each section.
  • the image reference data registered in the hash table includes an image ID for identifying an image in the database including each feature vector and an element of the feature vector. Calculate the distance between each feature vector and each feature vector registered in the hash table index calculated from the feature vector! /, Vote for the image identified by the image ID of the feature vector with the shortest distance May be. In this case, voting may be performed only when the shortest distance is not more than a certain threshold.
  • the image reference data registered in the hash table includes an image ID for identifying an image in a database including each feature vector, and the voting unit is calculated from each feature vector of the input image. You may vote for the image identified by the image ID registered in the index of the hash table.
  • FIG. 1 is a graph showing a value distribution of a feature vector obtained by a conventional PCA-SIFT.
  • FIG. 2 is an explanatory diagram showing the concept of a prior art approximate nearest neighbor search by ANN.
  • FIG. 3 is an explanatory diagram showing processing when a collision occurs during data registration according to the present invention!
  • FIG. 5 An explanatory diagram showing an example of a search question image used in the experiment according to the present invention. 6] This is a graph showing the results of experiments on the recognition rate and processing time when the tolerance ⁇ was changed from 2 to 100 using the ANN of the prior art.
  • FIG. 12 is a graph in which various parameters are changed, the recognition rate is plotted on the horizontal axis, and the processing time is plotted on the vertical axis in order to compare the features of the methods of the present invention and the conventional methods.
  • FIG. 13 is a graph showing the relationship between the shooting angle and the recognition rate in each method of the present invention and in the conventional method.
  • FIG. 15 is a block diagram showing a configuration example corresponding to a method without distance calculation in the image recognition apparatus of the present invention.
  • This block is a block diagram showing a configuration example corresponding to the method with distance calculation in the image recognition apparatus of the present invention.
  • FIG. 17 is a diagram showing a discretization method for dealing with fluctuations in the value of each dimension of a feature vector in the present invention.
  • FIG. 18 is a block diagram showing a configuration in which discriminators are cascade-connected in multiple stages as one embodiment of the present invention.
  • FIG. 19 is a graph showing the relationship between the accuracy of approximate nearest neighbor search and the image recognition rate for the conventional method.
  • FIG. 20 is a graph showing the relationship between b, recognition rate, and processing time in the method with distance calculation according to the present invention.
  • FIG. 21 is a graph showing the relationship between b, the recognition rate, and the processing time in the method without distance calculation according to the present invention.
  • FIG. 22 is a graph showing the relationship between the recognition rate and the processing time for each method in order to compare the characteristics of the method according to the present invention and the conventional method in the case of rejecting! /.
  • FIG. 23 is a block diagram showing an image recognition apparatus according to the present invention in which classifiers with distance calculation are connected in cascade in multiple stages.
  • FIG. 24 is a block diagram showing an image recognition apparatus according to the present invention in which classifiers without distance calculation are connected in cascade in multiple stages.
  • Multi-stage method will be described.
  • the process of identifying an image corresponding to the input image is performed by a classifier.
  • the discriminator performs processing corresponding to the limiting step, the searching step, and the discriminating step in the method claims.
  • it is a part corresponding to a limiting part, a searching part, and an identifying part in the claim of the product and the claim of the program.
  • the performance limit is the recognition rate when no approximation is performed.
  • the ability to increase the speed with approximation can generally be realized.
  • the relationship between the degree of approximation and the recognition rate differs depending on the image to be recognized. Therefore, to reduce the processing time while maintaining the recognition rate, the degree of approximation is adaptively applied. there is a need force s to adjust.
  • FIG. 18 is a block diagram showing a configuration in which discriminators are connected in cascade in multiple stages.
  • a rectangle with numbers 1 to N represents a discriminator, and the smaller the number, the stronger the approximation.
  • Input image power of search query The set of feature vectors obtained is first recognized by the first classifier. If sufficient evidence is obtained at this stage, the recognition process is terminated by the reliability judgment unit and the result is returned. On the other hand, if sufficient evidence cannot be obtained, the set of feature vectors is recognized again by the weaker classifier of the next stage. If enough evidence is not obtained after repeating the process until reaching the last N levels, the maximum number of votes Either the answer or the image will be rejected. With the above processing, it is possible to expect significant efficiency for images whose processing is terminated at an early stage, and recognition over time can be performed as necessary.
  • ⁇ 1> it is desirable to judge as accurately as possible with a small amount of calculation.
  • ⁇ 2> is a measure for reducing the processing efficiency even for images that repeat the recognition process until the latter stage.
  • the amount of computation when processing progresses to s stages with multistage classifiers should be the same as when a classifier with the same degree of approximation as stage s is used alone. . Each will be described below.
  • t is the threshold for the number of votes
  • r is the threshold for the ratio of the first and second votes.
  • N approximate nearest neighbor searchers 1,..., ⁇ (hereinafter simply referred to as searchers) with different degrees of approximation. It is assumed that the degree of approximation is stronger for searcher (s-1) than for searcher s.
  • P ( S ) is a set of feature vectors obtained as a result of distance calculation as a result of an approximate nearest neighbor search performed on feature vector q using searcher s. Approximate nearest neighbor search usually has the property that the stronger the degree of approximation, the smaller the number of feature vectors for distance calculation! That is,
  • the searcher with monotonicity is used to construct the multi-stage classifier shown in Fig. 18, the difference P (S) — ⁇ ⁇ — ⁇ from the previous stage is not calculated in the s-th stage. It can be considered as a target of With this configuration, the union of feature vectors subject to distance calculation or voting from the first stage to the sth stage is the set P (S) when the searcher s is used alone. Therefore, the number of distance calculations or votes is the same. Furthermore, if the searcher has a differential search capability, the increase in the amount of calculation can be kept low even if multistage processing is performed.
  • the block in the frame with the reference numeral 10 shows the detailed configuration of each stage classifier constituting the multistage classifier.
  • the provisional nearest neighbor P * for each feature vector q is found and recorded in the provisional nearest neighbor database 16. Therefore, in the s-th stage, the differential feature vector pe (P ( s) — P ( s — D) is obtained by the differential hash key calculation, and the distance calculation with respect to q is performed only for them, and D If a near-field vector is found, it is newly registered in the provisional nearest neighbor database 16 as a provisional nearest neighbor 13 *, and voting is performed again.
  • the blocks in the frame denoted by reference numeral 10 in FIG. 24 indicate the detailed configuration of each stage of the classifier that constitutes the multistage classifier.
  • 23 and 24 includes the function of the image selection unit 23 shown in FIGS.
  • the reliability judgment unit 24 determines whether the voting results up to the sth stage are sufficient. When sufficient reliability is obtained, the image to be recognized is determined (corresponding to the function of the image selection unit 23). However, if sufficient reliability is not obtained, it is determined that the next stage (s + 1) should be further advanced. If sufficient reliability is not obtained even when the final stage (Nth stage) is reached, it is determined that the result will be rejected.
  • PCA-SIFT is used as a local descriptor.
  • the inventors propose a method that is faster than conventional ANN and LSH as one aspect of the present invention.
  • the nearest neighbor search method of the inventors has monotonicity and differential searchability as described later, and is very suitable for multi-stage. Therefore, in the multistage embodiment, a configuration in which the method of the inventors is applied as a discriminator will be described.
  • the above-described multi-stage method is not necessarily limited to the combination with the inventors' method, and the conventional nearest neighbor search is acceptable as long as it satisfies the monotonicity and the difference searchability. It is thought that a certain effect can be obtained even with a classifier to which the method is applied.
  • monotonicity can be satisfied by ANN and LSH.
  • ANN monotonicity is satisfied when the value of allowable error ⁇ described later is changed stepwise
  • LSH monotonicity is satisfied when the number L of hash tables to be searched is increased stepwise. That is, even with a conventional classifier, if it is multistaged, the object recognition processing time can be shortened compared to the case of one stage.
  • the inventors' method to be applied to the discriminator need not necessarily be multi-staged. Even a one-stage classifier can reduce the processing time compared to a conventional classifier. However, if the classifier to which the inventors' method is applied is multi-staged, faster object recognition can be realized. Therefore, it is highly desirable to combine the two.
  • the inventors' method applied to the classifier includes a method for performing distance calculation at the final stage of approximate nearest neighbor search (a method with distance calculation) and a method for eliminating distance calculation at all ( There is a method without distance calculation).
  • a method with distance calculation a method for performing distance calculation at the final stage of approximate nearest neighbor search
  • a method for eliminating distance calculation at all There is a method without distance calculation.
  • the inventors disclose two speed-up methods using a hash table.
  • One of the speed-up methods is a method of reducing the number of feature vector distance calculations. Specifically, when there are many feature vectors in the vicinity and many distance calculations are unavoidable, the speed is increased by discarding such feature vectors.
  • this method is referred to as “with distance calculation”.
  • the other is a method that does not perform any distance calculation. The only process is to draw a hash table and vote. Hereinafter, this method is referred to as “no distance calculation”.
  • processing for recognizing an object from an image captured by a camera can shorten more than technology.
  • processing can be performed with a smaller memory capacity than the conventional technology.
  • the calculation time required to achieve the same recognition rate may be shorter than in the case of using the conventional approximate nearest neighbor search method such as ANN or LSH.
  • the calculation time was reduced from 1/2 to 1/3 of the conventional technology. Also, the method without distance calculation is superior in terms of scalability because it uses less memory.
  • Fig. 15 and 16 are block diagrams showing an example of the configuration of the image recognition apparatus of the present invention.
  • Fig. 15 is a block diagram corresponding to the method without distance calculation
  • Fig. 16 is a block diagram corresponding to the method with distance calculation.
  • the image recognition method of the present invention is executed, for example, on the image recognition apparatus.
  • the hardware of the image recognition device includes, for example, a CPU and a storage device such as a hard disk device that stores a program indicating the processing procedure executed by the CPU, a RAM that provides a work area for the CPU, and an input / output circuit that inputs and outputs data. Etc. More specifically, for example, a personal computer having the above configuration may be used. Alternatively, as a different mode, the device built-in type device may be composed of a large-scale integrated circuit (LSI), a hard disk device, and a microcomputer that controls processing thereof.
  • LSI large-scale integrated circuit
  • the feature point extraction unit 11 performs feature analysis from the pattern of the object included in the input image. This is a block for extracting a tuttle.
  • the index calculation unit 13 is a block that calculates the index of the hash table from the feature vector by a predetermined calculation method.
  • the image database 15 a plurality of images with image IDs are registered. Further, the image database 15 has a hash table 17 for referring to images.
  • the image IDs of the images associated with the indexes are registered! /.
  • the image ID is associated with each index as follows. First, a feature vector is extracted from the image to be registered by the same processing as the feature point extraction unit 11. For each extracted feature vector, the index of the hash table is calculated by the same calculation method as the index calculation unit 13. The image ID of the image including the feature vector for which the index is calculated is registered in advance for the calculated index.
  • the voting unit 19 refers to the specific index of the hash table 17, and if there is an image ID registered in the hash table 17 for the referenced index, the voting unit 19 votes for that image It is. For voting, there is a voting table 21 that stores the number of votes for each image.
  • the image selection unit 23 is a block that refers to the vote table 21 and selects an image that has obtained the maximum number of votes.
  • the index calculation unit 13, the voting unit 19, and the voting table 21 are the target of multi-stage among the above-described blocks.
  • the feature point extraction unit 11, the index calculation unit 13, the voting unit 19, the voting table 21, and the image selection unit 23 have the same functions as in FIG.
  • the image database 35 is different from FIG. 15 in the configuration of the hash table 37. That is, in the index of the hash table 37, a vector element and an image ID of an image including the feature vector are registered in pairs for each feature vector of the registered image. The vector elements are used for distance calculations. Further, the image recognition apparatus in FIG. 16 includes a feature point matching unit 38.
  • the feature point matching unit 38 when a plurality of feature vectors are registered for one index, This block calculates the distance between the vector and the feature vector extracted from the input image, determines the shortest distance, and determines the image ID registered with the shortest distance feature vector as a candidate image.
  • the index calculation unit 13, the voting unit 19, the voting table 21, and the feature point matching unit 38 among the above-described blocks are multi-staged. It becomes a target.
  • SIFT Scale-Invariant Feature Transform
  • Lowe for example, DG Lowe, "Distinctive imag e features from scale-invariant keypoints, International Journal of Computer Vision, vol.60, no.2, pp.91-110, 2004.
  • GPU Graphic Processing Unit
  • feature points are extracted using software provided by Lowe (URL: http: ⁇ www.cs.web / Oowe / keypoints /).
  • the feature vector is a 128-dimensional vector of integer values (0-255).
  • PCA-SIFT that improves the stability and discriminability of SIF T by applying principal component analysis (PCA) to SIFT feature vectors (for example, Y. Ke and R. Sukthankar, Pca_sift: A more distinctive representation ror local image descriptors, and VPR2004, Vol.2, pp.506-513, 2004.).
  • PCA-SIFT is used as an image local descriptor.
  • the feature vector obtained by PCA-SIFT is a 36-dimensional real-valued vector. That is, for the feature vector obtained from SIFT power, URL: http: ⁇ ww Using the software provided in w.cs.cmu.edu/ke/pcasift/, it is converted into a 36-dimensional vector.
  • Figure 1 is a graph showing the feature vector value distribution. The horizontal axis is the value of each dimension, and the vertical axis is the frequency.
  • the first dimension is a bimodal distribution, and the second and subsequent dimensions are unimodal. Also, the variance decreases as the dimension increases. The average values are all near zero.
  • each image represents one object.
  • the object recognition task is defined as searching the database for an image that best matches the search question.
  • a voting method is used in the present embodiment.
  • the image of the search question is now Q, and the image in the database is p.
  • the d-dimensional feature vectors obtained from Q and p are expressed as q and. If p is obtained as the feature vector corresponding to q as a result of the approximate nearest neighbor search, one vote is cast on image P.
  • Such voting is performed for all feature vectors obtained from Q, and the image with the maximum number of votes is presented as the recognition result.
  • ANN Approximate Nearest Neighbor listed in Non-Patent Document 3 is a technique for performing a nearest neighbor search at high speed using a tree structure.
  • Tree nodes correspond to hyperrec tangles (hereinafter called cells) that divide the feature space, and feature vectors are also associated with leaf nodes.
  • the search time can be reduced because the number of messages is reduced.
  • LSH Location Sensitive Hashing listed in Non-Patent Document 4 is a method of nearest neighbor search using a hash table.
  • E 2 LSH Exact Euclidean LSH; hereinafter simply referred to as LSH
  • V is a function that converts V to an integer and has the following form.
  • a is a d-dimensional vector in which each dimension is independently generated according to normal random numbers
  • t Is a scalar defined by a uniform random number of [0, w].
  • the present invention achieves high-speed processing compared to the case of using ANN or LSH by applying a large approximation.
  • the speed-up problem is solved by using a hash function that has vitality in data characteristics.
  • the following two methods are considered.
  • One is a method of calculating the distance but reducing the number of target feature vectors. Specifically, when many collisions occur, that is, when many feature vectors having the same hash value are registered, they are deleted from the hash table in advance. This makes it possible to reduce the number of distance calculations per feature vector of the search query to a certain value or less.
  • the other is a method that does not calculate distance at all. If erasure is performed according to the number of collisions, a feature vector effective for identifying an image remains in the hash table. Therefore, these features If you use this method, you can expect to get correct results by voting alone.
  • the method of registering feature vectors in the hash table is as follows. Take the first through d-th dimensions of the 36-dimensional real-valued vector p obtained by PCA-SIFT,
  • the hash is obtained by and is registered in the hash table.
  • U is a discrete value Type (expressed in U base)
  • H is the size of the hash table. Data to be registered in the hash table
  • the data varies depending on whether distance is used.
  • distance in addition to the image ID for the feature vector, p itself is registered and used for the distance calculation during the search. On the other hand, if distance is not used, registration of p is unnecessary.
  • Table size The data registered in the hash table varies depending on whether distance is used. When using the distance, in addition to the image ID for the feature vector p, register p itself and use it for the distance calculation during the search. On the other hand, if distance is not used, registration of p is unnecessary.
  • a threshold value c for the list length n is provided, and when n> c is satisfied, the entire list is deleted from the hash table.
  • various weights used in information retrieval were also tested, and the recognition rate was not significantly different. Since the deletion is advantageous not only for the recognition rate but also for the speed, this embodiment employs deletion instead of weighting.
  • the feature vector does not contribute much to image identification. Therefore, even if it is deleted, the impact is considered to be relatively small! /.
  • Data registration is completed by performing the above processing on all feature vectors registered in the database.
  • a feature vector is searched from the above hash table. If the set of obtained feature vectors is P, then the feature vector p * that is closest to q is found from P.
  • the most important step in this process is the ability to search for feature vectors for les and cr.
  • the simplest method is to obtain a bit vector for q as in the case of registration, and to obtain a feature vector having the same hash value using a hash function.
  • the number of distance calculations can be reduced sufficiently, but a sufficient recognition rate cannot be obtained for the following reasons!
  • the value of each dimension of the feature vector is a force S that changes depending on the shooting conditions. If there is a fluctuation that exceeds the threshold, the bit vector will be different and the corresponding feature vector can no longer be obtained.
  • the value near the threshold is moved randomly by adding a uniform random number t to the value in equation (1).
  • the relative position of the threshold is changed by applying a rotation matrix to the feature vector.
  • the dimension number b to be processed is set to a value that is not so large.
  • the discrete value used for index calculation may be selected at random, and only 1 and 2 may be used.
  • the feature vector is searched. However, if such a process of “try both” is introduced without restriction, enormous calculation time is required. In this process, if the number of dimensions to be processed is b, the hash table is accessed using 2 b bit vectors. Therefore, in this embodiment, b is set to a value that is not so large.
  • the method uses a distance meter as described above for the feature vector q of the search query. All feature vectors that belong to the set P of feature vectors obtained from the schew table.
  • the parameter to be multistaged is not limited to b. Multiple stages with other parameters are possible.
  • the parameter d satisfies not only monotonicity but also differential searchability.
  • c and e There is the possibility of c and e.
  • the method without distance calculation belongs to the difference set P (s) — P (s — 1 > obtained by voting while updating the provisional nearest neighbor p * in each stage of processing. Vote for all features.
  • FIG. 4 is an explanatory diagram showing an example of a registered image used in the experiment.
  • A is 3,100 images collected using Google image search. Search keywords such as posters, magazines, and covers were used.
  • An example is shown in Fig. 4 (a).
  • B is an image published on the PCA-SIFT site (URL: http: ⁇ www.cs.cmu.edu/ ⁇ yke/pcasift/), and the number of images is 18,500.
  • This data is mainly composed of natural photographs and photographs of people.
  • An example is shown in Fig. 4 (b).
  • C consists of 78,400 images collected by tags such as a nimal, birthday, food, and japan on the photo sharing site flickr. Mainly includes objects, natural photographs, and human photographs as shown in Fig. 4 (c). During collection, images with a size of 600 X 600 pixels or less were excluded, and the image was reduced so that the long side of the image was 640 pixels or less. We also excluded images with 100 or fewer feature vectors. The average length of one side of the image was 498, 612, and 554 pixels, respectively.
  • a large database includes a small database as part of it.
  • An average of 2,069 feature vectors per image was extracted from DB3.
  • the captured image was reduced to 512 X 341 pixels, and the feature vector was obtained by PCA-SIFT. As a result, an average of 605 feature vectors was obtained per image.
  • OKI (Registered trademark) C5200n (color laser printer), CANON (registered trademark) EOS Kiss (registered trademark) Digital (6.3 million pixels) and attached lens EF-S 18_55mm USM were used for photographing.
  • ANN and LSH were used as comparison methods for approximate nearest neighbor search and compared with the method of the present invention.
  • ANN URL http: ⁇ www.cs.umd.edu/ ⁇ mount/ANN LSH URL: http: ⁇ ⁇ ⁇ ⁇ www.mit.edu/ ⁇ andoni/ Was used.
  • the recognition rate and processing time were used as evaluation criteria.
  • the recognition rate represents the rate at which search query images were correctly recognized.
  • the processing time represents the time required for the search per image box of the search question. However, the time required for feature vector extraction is not included.
  • the computer used in the experiment has a CPU power of S AMD Opteron (registered trademark) of 2.8 GHz and a memory of 16 GB.
  • the threshold d for the maximum distance in the method with distance calculation is fixed at 3,000.
  • Figure 6 shows the experimental results for the recognition rate and processing time when the tolerance ⁇ is varied from 2 to 100 using ANN. with increasing epsilon, recognition rate, that force s Such processing time is reduced.
  • Figure 7 shows the experimental results for the recognition rate and processing time when the number of vector dimensions k and the number of hash functions L are changed using LSH.
  • Figure 8 shows the experimental results of the recognition rate and processing time when c is changed to 24, 26, and 28. It can be seen that the processing time decreases as c decreases. However, the recognition rate decreased if c was too small. This is thought to be because the things that contributed to recognition were also deleted. On the other hand, when c was increased, the calculation time increased, but the recognition rate decreased little. This is because even if a feature vector that cannot be the nearest neighbor is searched, it can be excluded by distance calculation.
  • the horizontal axis represents the recognition rate
  • the vertical axis Figure 12 shows a graph depicting the processing time.
  • An ANN with parameters changed was drawn as a line and used as the evaluation standard. The higher the recognition rate is, the shorter the processing time is. Therefore, it can be said that the one plotted in the lower right is superior. LSH never crossed the ANN line.
  • the method of calculating the distance by the method of the present invention was superior to ANN when the recognition rate was 98% or less.
  • the method of the present invention that does not calculate distance was superior to ANN in most cases.
  • Figure 13 shows the processing time of about 10 ms and the best recognition rate.
  • Table 2 shows the recognition rate and processing time using typical values of various parameters.
  • the method with distance calculation achieves the same recognition rate as the ANN in about 1/3 of the processing time.
  • the average recognition rate does not reach ANN.
  • the recognition rate of about 96% is 4ms or less! /, Short! /, And it can be realized in processing time.
  • the method that does not use the distance calculation is an excellent method in terms of scalability when it can be satisfied with a certain degree of recognition rate, although it is inferior in terms of the recognition rate.
  • the processing is as simple as accessing the hash table and voting, there may be advantages in this aspect.
  • ANN and LSH which are conventional methods of approximate nearest neighbor search
  • a one-stage classifier is constructed using a method with distance calculation, and a multi-stage classifier using the inventors' technique is used. Compared with the case.
  • the local descriptor provided by the PCA-SIFT site was used.
  • the processing time shown below is for recognition per image of the search question.
  • the images in the image database were collected from the same source as in Experiment 1.
  • the number of images collected was 3,100 images collected using Google's image search.
  • Image power published on the PCA-SIFT site 3 ⁇ 4 450 images collected by tags such as animal, birthday, food on the photo sharing site flickr, 3,450 images, a total of 10,000 images.
  • Two types of search questions were created: those with and without images corresponding to the database.
  • a total of 500 images of 100, 200, and 200 images were randomly selected from the images included in the database for each collection method.
  • they were printed on A4 paper and photographed using a camera.
  • the camera's optical axis angle ⁇ relative to the paper surface is 90 °, 75 in an arrangement that captures the entire paper surface. , 60 °.
  • a part of the paper was photographed at an angle of 90 °.
  • a total of four images were obtained on the paper surface of the kite.
  • the captured image was reduced to 512 X 341 pixels, and feature vectors were obtained by PCA-SIFT. As a result, an average of 612 feature vectors per image ⁇ was obtained.
  • the accuracy of the nearest neighbor search necessary for image recognition was examined. Specifically, we measured the relationship between the accuracy of approximate nearest neighbor search and the recognition rate of the image by changing the parameters for the method without multi-step (method with ANN, LSH, distance calculation). The accuracy of the approximate nearest neighbor search is the rate at which the true nearest neighbor is found by the approximate nearest neighbor search.
  • a graph depicting the relationship between recognition rate and processing time with various parameters is shown in Fig. 22.
  • An ANN with an allowable error ⁇ changed is drawn as a line and used as a standard for evaluation. The higher the recognition rate is, the shorter the processing time is. Therefore, it can be said that the one plotted in the lower right is superior. LSH never crossed the ANN line.
  • the maximum recognition rate does not reach that of ANN. It has been realized.
  • the processing time is reduced to about 1/5 of the method with distance calculation by multi-stepping.
  • the evaluation scale is defined as follows. For search queries with corresponding images, recognition rate C, false recognition rate E, rejection rate R
  • the object recognition process using the present invention can be applied to a service that recognizes an object from an image captured by a camera and performs information processing according to the recognition result.
  • information processing there is a process of indexing an existing image or video image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

明 細 書
画像認識方法、画像認識装置および画像認識プログラム
技術分野
[0001] この発明は、画像の局所的な特徴を記述する局所記述子を用いて画像認識を行う 画像認識方法、局所記述子を用いて画像認識を行う画像認識装置および画像認識 プログラムに関する。
背景技術
[0002] デジタルカメラやカメラ付き携帯電話の普及に伴って、単にスナップ写真を撮るだけ ではなぐカメラを情報入力機器としても利用したいという要望が高まっている。一つ の可能性として、カメラで捉えた物体を認識し、それに応じた情報処理を行うことが考 x_られる。
[0003] 何も制限を設けずに物体を認識することは未だに困難といわざるを得ないが、近年 の技術的な発展により、対象に制約を加えることができれば物体認識は現実味を帯 びてきている。例えば、対象力 ¾次元物体ではなく平面上のパターン (平面物体)であ ること、物体のクラス(例えば、写真の物体が車というカテゴリに属するかどうか)を認 識するのではなぐインスタンス(車のあるモデルをある角度から撮影した写真力、どう 力、)を認識することなどが仮定できれば、すでにサービスが可能なレベルにある。例 えば、株式会社クレメンテックの技術 (US. Patent Νο·20040208372)を利用した大日本 印刷株式会社によるサービス、ォリンパス株式会社のサービス、 Evolution Robotics, I nc.の技術を利用した日本電気株式会社のサービスなどが知られている。このような 平面物体の認識が可能になれば、ポスターや商品の写真を撮影することによる誘導 だけではなぐ既存の画像やビデオの自動索引付けへの道も開けてくる。
[0004] さて、物体認識のためには、画像から特徴を抽出する必要がある。本発明では、平 面物体を対象とした局所記述子 (local descriptor)を用いる認識に着目する。局所記 述子とは、画像の局所的な特徴を捉えて多次元の特徴ベクトルとして抽出し、画像を 記述するものである。値が局所的に決定されるので、隠れや画像の変動に対して比 較的強い(ロバストである)という性質がある。ここで、「局所的」とは、画像の一部分で あることを意味し、「局所記述子」とは、画像の部分的な特徴を表現したものをいう。こ の明細書で、局所記述子は、特徴ベクトルともいう。
[0005] 局所記述子を用いた物体認識法では、 2つの画像から得た特徴ベクトル同士の距 離を測り、最近傍のものに対応付けることが基本演算となる。そして、カメラで得た画 像と、データベース中の多数の画像の間で特徴ベクトルを対応付け、データベース 中の画像に対して投票する。最後に、得票数の最も多い画像のラベルを「認識結果」 として出力する。ただし、特徴ベクトルの次元数が数十から数百、数力 画像あたり数 百から数千とレ、うオーダであることを考えると、単純に全ての組み合わせの距離を計 算することは実用的ではないことが分かる。
[0006] ところ力 近年の最近傍探索技術の発展により、膨大な数の特徴ベクトルを短時間 で探索することが可能となってきた (例えば、非特許文献 1,2参照)。特に ANN(Appro ximate Nearest Neighbor) (例えば、非特許文献 3参照)、 LSH (Locality Sensitive Has hing) (例えば、非特許文献 4参照)は、各々、木構造、ハッシュ表を用いて、近似的な 最近傍探索を行うことにより、高速な探索を実現している。国内では、例えば、正確な 最近傍探索に対する SR-Tree (例えば、非特許文献 5参照)に加え、近似最近傍探索 の手法として小林らの分散コーディング (例えば、非特許文献 6参照)がある。
[0007] さらに、物体認識という観点から、和田らは最近傍識別器 (例えば、非特許文献 7参 照)という概念とそれを具体化した KDDT (例えば、非特許文献 8参照)という手法を提 案している。各物体が一つの特徴ベクトルに対応しており、その物体のカテゴリを認 識する問題を考えるとき、認識対象の物体から得た特徴ベクトルがどのカテゴリの特 徴ベクトルに近いのかが分かればよぐ「最近傍」の特徴ベクトルを求める必要はない 。これにより、正確な最近傍探索を用いる場合に比べて、数倍から数百倍の高速化 が可能であることが示されて!/、る。
[0008] また、文書画像の索引付けに適した特徴量の抽出手法と、その特徴量に適した検 索アルゴリズムが知られてレ、る(例えば、特許文献 1参照)。
特許文献 1:国際公開第 2006/092957号パンフレット
非特許文 1: P.indyk, Nearest neighbors in hign-dimensional spaces, Handbook of discrete and computational geometry (Bds. by J.E. Goodman and J.O'Rourke), Chap man & Hall/CRC, pp.877-892, 2004.
特許文献 2 : Lr.Shakhnarovich, T.D rrell and P.Indyk Edsリ Nearest-neighbor meth ods in learning and vision, The MIT Press, 2005.
^特許文献 3 : S.Arya, D.M. Mount, R.Silverman and A.Y. Wu,〃An optimal algorith m for approximate nearest neighbor searching, Journal of the ACM, vol.45, no.6, p p.891-923, 1998.
^特許文献 4 : M.Datar, N.Immorlica, P.Indyk and V.S. Mirrokni, Locality-sensitive hasning scheme based on p-staole distributions, Proc. of the 20th annual symposium on Computational Geometry, pp.253-262, 2004.
非特許文献 5 :片山紀生、佐藤真一、〃類似検索のための索引技術、 "情報処理、 vol. 42, no.10, pp.958-964, Oct. , 2001.
非特許文献 6 :小林卓夫、中川正樹、 "分散コーディングによる高次元の最近傍探索 、 "信学技報 PRMU2006-41 , June, 2006.
非特許文献 7 :和田俊和、〃空間分割を用いた識別と非線形写像の学習(1)空間分割 による最近傍識別の高速化、 "情報処理、 vol.46, no.8, pp.912-918, Aug. , 2005. 非特許文献 8 :柴田智行、加藤丈和、和田俊和、 "K-d decision treeとその応用 ― 最近傍識別器の高速化と省メモリ化、 "信学論 (D-II)、 V01.J88-D-II, no.8, pp.1367-1 377, Aug. , 2005.
発明の開示
発明が解決しょうとする課題
[0009] 前述した局所記述子のように、各物体を多数の特徴ベクトルで表現する手法は、物 体認識に有効なアプローチである。しかし、多数の特徴ベクトルについて計算を実行 する必要があり、更なる計算時間の短縮が望まれている。即ち、より高速な物体認識 の処理手法が求められている。
[0010] 特許文献 1のように、特徴量の抽出手法を工夫することも高速な物体認識手法を実 現する有効なアプローチの一つであるが、従来の手法で抽出された特徴量を用いる 最近傍探索手法を工夫することも別の面からの有効なアプローチであり、そのような 手法が望まれている。 課題を解決するための手段
[0011] 統計的処理によって認識結果を決定する場合、最近傍識別器と同様、個々の特徴 ベクトルに対しては、最近傍の特徴ベクトルを求める必要はなぐ対応する画像がど れであるのかが分かればよい。さらに、別の物体の特徴べタトノレに誤って照合しても、 最終的に正解と不正解の得票数が逆転しなければよい。従って、特徴ベクトルの探 索の正確さを犠牲にして、大幅な近似最近傍探索を実施することにより、処理時間を 稼ぐことが可能である。
[0012] 発明者らは、前述の発想に基づレ、て検討を重ね、この発明に至った。
[0013] この発明は、
(1)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、 画像データベース中から前記対象物を含む画像を識別する画像認識方法であって 、入力画像からその局所的な特徴を表す複数の局所記述子を導出する工程と、前 記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所 記述子に対して探索を行う対象をそれぞれ限定する限定工程と、前記探索の対象中 力、ら入力画像の各局所記述子に近いものを探索し、入力画像の各局所記述子に対 する近傍の各局所記述子を特定する探索工程と、近傍の各局所記述子が得られた 画像のうち、認識結果とすべき画像を、統計的処理を用いて識別する識別工程とを 備え、前記限定工程は、認識結果とすべき画像を識別し得る程度の数に前記探索の 対象を限定し、各工程をコンピュータが実行することを特徴とする画像認識方法を提 供する。
[0014] また、異なる観点から、この発明は、
(2)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、 画像データベース中から前記対象物を含む画像を識別する装置であって、入力画 像からその局所的な特徴を表す複数の局所記述子を導出する特徴導出部と、前記 画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記 述子に対して探索を行う対象をそれぞれ限定する限定部と、前記探索の対象中から 入力画像の各局所記述子に近いものを探索し、入力画像の各局所記述子に対する 近傍の各局所記述子を特定する探索部と、近傍の各局所記述子が得られた画像の うち、認識結果とすべき画像を、統計的処理を用いて識別する識別部とを備え、前記 限定部は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を限定 することを特徴とする画像認識装置を提供する。
[0015] さらに、異なる観点から、この発明は、
(3)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、 画像データベース中から前記対象物を含む画像を識別する機能をコンピュータを用 V、て実現するプログラムであって、入力画像からその局所的な特徴を表す複数の局 所記述子を導出する特徴導出部と、前記画像データベース中の画像から得られる各 局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限 定する限定部と、前記探索の対象中から入力画像の各局所記述子に近いものを探 索し、入力画像の各局所記述子に対する近傍の各局所記述子を特定する探索部と
、近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処 理を用いて識別する識別部としてコンピュータを機能させ、前記限定部は、認識結果 とすべき画像を識別し得る程度の数に前記探索の対象を限定することを特徴とする 画像認識プログラムを提供する。
[0016] また、この発明の一側面は、
(4)ハッシュ表を用いて体系づけられた画像データベース中から、入力画像に含ま れる対象物のパターンに基づいて前記対象物を含む画像を認識する方法であって、 前記パターンの局所的な特徴量を表す 1以上の特徴ベクトルを抽出する工程と、抽 出された特徴ベクトルからハッシュ表のインデックスを算出するインデックス算出工程 と、算出されたインデックスで前記ハッシュ表を参照して画像データベース中の候補 画像を決定し、決定した候補画像に投票を行う投票工程と、各特徴ベクトルについて の投票結果に基づレ、て認識結果の画像を得る工程とを備え、前記ハッシュ表の作成 工程は、画像データベースに登録する各画像から抽出された各特徴ベクトルに対し て、ハッシュ表のインデックスを算出し、各特徴ベクトルのうち識別能力の低い特徴べ タトルの除外を行い、残された各特徴ベクトルに対応する画像参照用データを登録 する各工程を含むことを特徴とする画像認識方法を提供する。
[0017] また、異なる観点から、この発明は、 (5)ハッシュ表を用いて体系づけられた画像データベース中から、入力画像に含ま れる対象物のパターンに基づいて前記対象物を含む画像を認識する装置であって、 前記パターンの局所的な特徴を表す 1以上の特徴ベクトルを抽出する特徴点抽出部 と、抽出された特徴ベクトルからハッシュ表のインデックスを算出するインデックス算出 部と、算出されたインデックスで前記ハッシュ表を参照して画像データベース中の候 補画像を決定し、決定した候補画像に投票を行う投票部と、各特徴ベクトルについて の投票結果に基づ!/、て認識結果の画像を得る画像選択部とを備え、前記ハッシュ表 の作成工程は、画像データベースに登録する各画像から抽出された各特徴べクトノレ に対して、特徴量の変動を考慮してハッシュ表のインデックスを算出し、各特徴べタト ルのうち識別能力の低!/、特徴ベクトルの除外を行い、残された各特徴ベクトルに対 応する画像参照用データを登録する各工程を含むことを特徴とする画像認識装置を 提供する。
発明の効果
[0018] この発明による前記(1)の画像認識方法にお!/、て、前記限定工程は認識結果とす べき画像を識別し得る程度の数に前記探索の対象を限定するので、認識に要する 処理時間を短縮することができる。即ち、高速に物体を認識することができる。
[0019] また、この発明による前記(2)の画像認識装置にお!/、て、前記限定部は認識結果 とすべき画像を識別し得る程度の数に前記探索の対象を限定するので、認識に要す る処理時間を短縮することができる。
[0020] さらに、この発明による前記(3)の画像認識プログラムにおいて、前記限定部は認 識結果とすべき画像を識別し得る程度の数に前記探索の対象を限定するので、認 識に要する処理時間を短縮することができる。
[0021] この発明による前記 (4)の画像認識方法によれば、識別能力の低!/、特徴べクトノレ は除外され、識別能力の高い特徴ベクトルに対応する画像参照用データだけがハツ シュ表に登録されるので、識別能力の高い特徴ベクトルだけを処理対象として短時 間で画像認識を行うことができる。また、識別能力の高い特徴ベクトルに対応する画 像参照用データだけがハッシュ表に登録されるので、全ての特徴ベクトルに対応する 画像参照用データを登録する場合に比べて画像データベースに要するメモリ容量を 節約すること力 Sでさる。
[0022] また、この発明による前記(5)の画像認識装置によれば、識別能力の高い特徴べク トルに対応する画像参照用データだけがハッシュ表に登録されるので、それらを処理 対象として短時間で画像認識を行うことができる。また、識別能力の高い特徴べタト ルに対応する画像参照用データだけがハッシュ表に登録されるので、画像データべ ースのメモリ容量を節約することができる。
ここで、特徴ベクトルの除外について、そのアイデアを判り易く説明する。この発明 の画像認識方法は、特徴ベクトルを用いて画像を認識するものである。認識の基本 は,データベースに登録された特徴ベクトルと入力画像の特徴ベクトルの照合にある 。特徴ベクトルは画像の局所的な特徴を表すので、一般に、一つの画像から複数の 特徴ベクトルを得る。ところ力 データベースに登録された物体(画像)の特徴べタト ルの中には,その物体の特徴をよく表す (識別能力の高い)ものと、そうでない (識別 能力の低い)ものがある。物体の特徴をよく表すものとは、その特徴ベクトルがあれば 、入力画像はその物体であるといえるような、十分な証拠となる特徴ベクトルである。 一方,そうでない特徴ベクトルというのは、様々な物体の画像に表れるため、その特 徴ベクトルがあるからとレ、つて、どの物体であるのかの判断には使えな!/、ものである。 特徴ベクトルの除外とは、後者、すなわち、証拠となりえない特徴ベクトルを辞書から 削除する処理をいう。より具体的には、
i)どれほど似た特徴ベクトルが多!/、のかを計算し、
ii)一定の閾値を超えたものを不要とする
と!/、う流れで処理を行い、識別能力の低!/、特徴ベクトルを削除する。
[0023] 以下、この発明の好ましい態様について説明する。
前記(1 )の画像認識方法において、前記限定工程は、認識結果とすべき画像が識 別されるように、入力画像に応じて探索対象を限定する程度を異ならせ得るものであ つてもよい。即ち、近似の程度を入力画像に応じて異ならせてもよい。このようにすれ ば、認識に用いる近似の程度を画像に応じて変更することによって処理時間を短縮 すること力 Sでさる。
[0024] 近似最近傍探索を用いた物体認識では、近似の程度が認識率と効率をバランスす るための重要なパラメータとなる。近似を強くすればするほど処理時間を削減できる 、近似を強くし過ぎると多くの特徴ベクトルに対して最近傍が求まらなくなり、結果と して誤認識を引き起こしてしまう。ここでの問題の一つは、誤認識を引き起こす近似 の程度が画像によって異なる点である。大幅な近似を行っても認識できる「簡単な」 画像がある反面、それでは誤認識となる「難しい」画像もある。固定的な近似によって 一定の認識率を確保するには、近似の程度を認識の難し!/、画像に合わせる必要が あり、効率向上の妨げとなっている。
[0025] そこで、この発明の好ましい一態様として、「認識に必要な最近傍探索の精度は画 像によって異なる」という観点から処理を削減する手法を提供する。即ち、近似の程 度を画像に対して適応的に調節する手法である。前記手法によれば、近似の程度が 異なる識別器を複数用意し、それらを近似の程度が強!/、ものから弱!/、ものへと多段 階に縦列接続することで実現できる。これによつて、簡単に認識できる画像は、前段 の部分で大幅な近似の識別器によって高速に認識することができ、それでは認識で きな!/、画像に対してのみ、後段の部分で近似の弱レ、識別器によって時間をかけて精 密に言忍識することカでさる。
また、認識結果とすべき画像が識別できなかったとき、前記限定工程は、探索対象 を限定する程度を緩め、かつ、先に探索対象とされたものを除外して新たな探索対 象を決定する処理をさらに行い、決定された探索対象について探索工程および識別 工程を実行するようにしてもよい。このようにすれば、近似の程度を変えて限定工程、 探索工程および識別工程を多段階で実行した場合であっても、各段階で探索対象と なったものを一度に探索した場合に比べてあまり遜色のない処理時間で認識を行う こと力 Sでさる。
[0026] この手法の特徴は、多段階化する識別器の構成方法にある。後段の識別器では、 近似の違いによる差分のみ、すなわち、それより前段の識別器で対象とならなかった 特徴ベクトルのみを距離計算の対象とすることによって、最後段まで処理が進んでも 、最後段の識別器を単独で用いる場合とほぼ同等の計算量しかかからないという利 点、を得ること力 Sできる。
さらに、検索対象を限定する程度を段階的に緩めて前記限定工程、探索工程およ び識別工程を繰り返しても認識結果とすべき画像が識別できないとき、その局所記 述子についての探索結果をリジェクトするしてもよい。このようにすれば、リジェクトを 行わない場合に比べて誤認識率を抑制することができる。
[0027] また、前記画像データベースは、各画像から導出される各局所記述子をそれから 所定手順で算出されるインデックス値で分類してなるハッシュ表を含んでなり、前記 限定工程は、特徴量の変動を考慮して入力画像の各局所記述子から前記手順でィ ンデッタス値を算出し、算出されたインデックス値で前記ハッシュ表を参照してその類 に属する局所記述子を探索対象とし、前記識別工程は、探索工程により特定された 近傍の各局所記述子について、それが得られた画像に投票を行う統計的処理を用 い、前記ハッシュ表は、各類について、その類に属する局所記述子の数が閾値を超 える場合にその類の局所記述子を探索対象力 除外して作成されるものであっても よい。このようにすれば、各類に属する局所記述子の数が閾値を超える場合はそれら を探索対象から除外してハッシュ表が作成されるので、限定工程にぉレ、て探索対象 とされる局所記述子が識別能力の高いものに限定され、効率的な認識が実現される
[0028] ハッシュ表の一つの類 (インデックス)に属する局所記述子(特徴ベクトル)の数が多 い場合、それらの局所記述子は識別能力が低いといえる。即ち、入力画像の局所記 述子からインデックス値を算出してハッシュ表を参照した場合、その類に属する候補 が多数登録されているわけである。それらの局所記述子は、認識対象の絞込みにあ まり貢献しておらず、識別能力が低いといえる。識別能力の低い局所記述子を探索 対象から除外しておけば、識別能力の高!/、局所識別子だけを参照して、効率的な認 識が fiわれる。
さらに、各局所記述子はベクトルとして表現され、特徴量の変動を考慮してハッシュ 表のインデックス値を算出する処理は、各局所記述子の要素を離散化して得られる 離散値に誤差の範囲を含めてインデックス値を算出する処理であり、前記誤差の範 囲は、前記変動に応じて決定されるものであってもよい。即ち、インデックスを算出す る際、要素の値と変動の推定値力、ら算出した値の範囲が、離散化に用いる複数の区 間にまたがる場合、各区間に対応する離散値を用レ、て複数のインデックスを算出す るようにしてあよレヽ。
[0029] 例えば、画像データベース中の対象物のパターンが、入力画像と異なる角度から 対象物をみたパターンである場合、即ち、変動がある場合、認識されるべき画像と入 力画像との間で対応関係にある局所記述子(特徴ベクトル)の要素の値は変化する。 ノ、ッシュ表は、所定手順に従って局所記述子の要素の値力も所定の算出手順で離 散値であるインデックス値を算出する力 特徴ベクトルの要素の値に変動があると、 異なる離散値が算出されてしまう可能性が高いといえる。特徴ベクトルの各要素は、 所定の閾値で離散化された離散値である。そこで、特徴ベクトルの各要素の値を中 心とする変動の推定区間が離散化の閾値を超えた複数の区間にまたがる場合、各 区間に対応する離散値を要素の値として複数のインデックスを算出する。このように すれば、上記変動に対する認識率の低下を抑制することができる。換言すれば、特 徴ベクトルのある要素が離散化の閾値に近!/、場合、閾値をまたぐ可能性も考慮して インデックスを計算することによって、認識率を確保することができる。
また、前記探索工程は、入力画像の各局所記述子とそれに対応する類に属するハ ッシュ表中の各局所記述子との間の距離計算を行い、所定距離内または最短距離 にある局所記述子を特定する工程であってもよレ、。
[0030] あるいは、前記探索工程は、入力画像の各局所記述子に対応する類に属するハツ シュ表中の各局所記述子をいずれも近傍の局所記述子とする工程であってもよい。 このようにすれば、特徴ベクトルの距離計算を行わずに探索を行うことができるので、 距離計算を行う場合に比べて探索に要する処理時間を短縮することができる。
[0031] 前記(2)の画像認識装置にお!/、て、前記限定部は、認識結果とすべき画像が識別 されるように、入力画像に応じて探索対象を限定する程度を異ならせ得るものであつ てもよい。即ち、近似の程度を入力画像に応じて異ならせてもよい。このようにすれば 、認識に用いる近似の程度を画像に応じて変更することによって処理時間を短縮す ること力 Sでさる。
[0032] また、認識結果とすべき画像が識別できなかったとき、前記限定部は、探索対象を 限定する程度を緩め、かつ、先に探索対象とされたものを除外して新たな探索対象 を決定する処理をさらに行い、探索部は、決定された探索対象についてさらに近傍 の各局所記述子を特定し、識別部は、特定された各局所記述子に基づいて認識結 果とすべき画像をさらに識別するようにしてもよい。このようにすれば、近似の程度を 変えて限定部、探索部および識別部が多段階の処理を実行した場合であっても、各 段階で探索対象となったものを一度に探索した場合に比べて遜色のない処理時間 で認識を行うことができる。
[0033] また、前記(1)および (4)の発明の画像認識方法、前記(2)および(5)の画像認識 装置、前記(3)の画像認識プログラムにおいて、画像データベース中の画像に含ま れる前記対象物のパターンは、入力画像と異なる角度から対象物をみたときのバタ ーンであってもよい。
[0034] また、前記(1)および (4)の発明の画像認識方法、前記(2)および(5)の画像認識 装置、前記(3)の画像認識プログラムにおいて、画像データベース中の画像に含ま れる前記対象物のパターンは、その一部分が入力画像のパターンに対応するもので あってもよい。
[0035] ここで示した種々の好まし!/、態様は、それら複数を組み合わせることもできる。
さらに、この発明の好ましい態様について説明する。
[0036] 前記 (4)の発明の画像認識方法にお!/、て、識別能力の低!/、特徴ベクトルの除外は 、互いにインデックスの等しい特徴ベクトルが所定数を超える場合、当該インデックス が算出される各特徴ベクトルをハッシュ表への登録対象から除外する処理であっても よい。ハッシュ表の一つのインデックスに対して登録対象となる特徴ベクトルの数が多 い場合、それらの特徴ベクトルは識別能力が低いといえる。即ち、入力画像から抽出 された特徴ベクトルからインデックスを算出し、算出されたインデックスでハッシュ表を 参照した場合、そのインデックスにつ!/、て候補となり得る画像が多数登録されて!/、る わけである。このようなインデックスは、認識対象の画像の絞込みにあまり貢献してい ない。従って、各インデックスについて、それらの特徴ベクトルをハッシュ表への登録 対象から除外することによって、識別力の高い画像参照用データだけをハッシュ表に 登録すること力 Sでさる。
[0037] また、前記インデックス算出工程は、各特徴ベクトルの要素を離散化して得られる 離散値に、誤差の見積もりの範囲を満たす離散値を含めることによりインデックスを算 出するようにしてもよい。即ち、インデックスを算出する際、要素の値と変動の推定値 力、ら算出した値の範囲が、離散化に用いる複数の区間にまたがる場合、各区間に対 応する離散値を用いて複数のインデックスを算出するようにしてもよい。
例えば、画像データベース中の対象物のパターンが、入力画像と異なる角度から 対象物をみたパターンである(変動がある)場合、認識されるべき画像と入力画像と の間で対応関係にある特徴ベクトルの要素の値は変化する。
[0038] インデックス算出工程において、閾値を基準に特徴ベクトルの要素の値を離散化し ているが、対応関係にある特徴ベクトルの要素の値が閾値付近の場合は、値に変動 があると、離散化の結果、異なる離散値に離散化されてしまう可能性が高いといえる 。そこで、特徴ベクトルの要素の値を中心とした変動の推定区間が離散化に用いる 複数の区間にまたがる場合、各区間に対応する離散値を用レ、て複数のインデックス を算出することによって、上記変動に対する認識率の低下を抑制することができる。 換言すれば、特徴ベクトルのある要素が、インデックスを計算する際の離散化の閾値 に近い場合、閾値をまたぐ可能性も考慮してインデックスを計算することによって、認 識率を確保することができる。
[0039] また、前記ハッシュ表に登録される画像参照用データは、各特徴ベクトルを含むデ ータベース中の画像を識別する画像 IDと当該特徴ベクトルの要素とからなり、投票ェ 程は、入力画像の各特徴ベクトルと当該特徴ベクトルから算出されるハッシュ表のィ ンデッタスに登録された各特徴ベクトルとの間の距離計算を行!/、、最短距離の特徴 ベクトルの画像 IDで識別される画像に投票する処理であってもよい。また、この際に は、最短距離が一定の閾値以下の場合のみに投票する処理であってもよい。
このようにすれば、特徴ベクトルの距離計算の回数をインデックスに登録されたもの だけに絞り込んで距離計算の回数を減らすことができる。
[0040] あるいは、前記ハッシュ表に登録される画像参照用データは、各特徴ベクトルを含 むデータベース中の画像を識別する画像 IDからなり、投票工程は、入力画像の各特 徴ベクトルから算出されるハッシュ表のインデックスに登録された画像 IDで識別され る画像に投票する処理であってもよい。このようにすれば、ハッシュ表には、画像 ID だけが登録され、各特徴ベクトルの要素を登録する必要がないので、画像データべ ースのメモリをさらに節約することができる。また、入力画像の各特徴ベクトルについ て、算出されたインデックスでハッシュ表を参照し、当該インデックスに登録された画 像 IDを用いて投票処理を行う単純な処理で認識処理を行うので、距離計算を行う場 合に比べて計算時間をさらに短縮することができる。
[0041] また、前記(5)の発明の画像認識装置において、識別能力の低い特徴ベクトルの 除外は、互いにインデックスの等しい特徴ベクトルが所定数を超える場合、当該イン デッタスが算出される各特徴ベクトルをハッシュ表への登録対象から除外する処理で あってもよい。
[0042] さらにまた、インデックス算出部は、各特徴ベクトルの要素を離散化して得られる離 散値に、誤差の見積もりの範囲を満たす離散値を含めることによりインデックスを算出 するようにしてもよい。即ち、各特徴ベクトルの要素の値と変動の推定値から算出した 値の範囲が、複数の区間にまたがる場合、各区間に対応する離散値を用いて複数 のインデックスを算出するようにしてもよい。
[0043] 前記ハッシュ表に登録される画像参照用データは、各特徴ベクトルを含むデータべ ース中の画像を識別する画像 IDと当該特徴ベクトルの要素とからなり、投票部は、入 力画像の各特徴ベクトルと当該特徴ベクトルから算出されるハッシュ表のインデックス に登録された各特徴ベクトルとの間の距離計算を行!/、、最短距離の特徴ベクトルの 画像 IDで識別される画像に投票してもよい。また、この際には、最短距離が一定の 閾値以下の場合のみに投票してもよい。
[0044] あるいはまた、前記ハッシュ表に登録される画像参照用データは、各特徴べクトノレ を含むデータベース中の画像を識別する画像 IDからなり、投票部は、入力画像の各 特徴ベクトルから算出されるハッシュ表のインデックスに登録された画像 IDで識別さ れる画像に投票してもよい。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。 図面の簡単な説明
[0045] [図 1]従来技術の PCA-SIFTによって得られる特徴ベクトルの値分布を示すグラフで ある。
[図 2]従来技術の ANNによる近似最近傍探索の概念を示す説明図である。 [図 3]この発明に係るデータ登録にお!/、て、ハッシュへの登録時に衝突が生じた場合 の処理を示す説明図である。
園 4]この発明に係る実験に用いた登録画像の一例を示す説明図である。
園 5]この発明に係る実験に用いた検索質問画像の一例を示す説明図である。 園 6]従来技術の ANNを用いて、許容誤差 εを 2から 100まで変化させたときの認識率 ならびに処理時間の実験結果を示すグラフである。
園 7]従来技術の LSHを用いて、変換後のベクトルの次元数 kとハッシュ関数の数 Lを 変化させたときの認識率ならびに処理時間の実験結果を示すグラフである。
園 8]距離計算ありの本発明の手法を用いて、衝突の閾値 cを変化させたときの認識 率ならびに処理時間の実験結果を示すグラフである。
園 9]距離計算ありの本発明の手法を用いて、処理の対象となる次元数 bを変化させ たときの認識率ならびに処理時間の実験結果を示すグラフである。
園 10]距離計算なしの本発明の手法を用いて、衝突の閾値 cを変化させたときの認 識率ならびに処理時間の実験結果を示すグラフである。
園 11]距離計算なしの本発明の手法を用いて、処理の対象となる次元数 bを変化さ せたときの認識率ならびに処理時間の実験結果を示すグラフである。
[図 12]本発明の各手法と従来技術の各手法の特徴を比較するため、パラメータをさ まざまに変え、横軸に認識率、縦軸に処理時間を描いたグラフである。
[図 13]本発明の各手法ならびに従来手法における撮影角度と認識率との関係を示 すグラフである。
園 14]距離計算なしの本発明の手法を用いて、登録画像数と認識率ならびに処理時 間との関係を示すグラフである。
[図 15]本発明の画像認識装置のうち、距離計算なしの手法に対応する構成例を示 すブロックである。
園 16]本発明の画像認識装置のうち、距離計算ありの手法に対応する構成例を示す プ'ロックである。
[図 17]本発明において、特徴ベクトルの各次元の値の変動に対処した離散化の方法 を示す図である。 [図 18]本発明の一態様として、識別器を多段階に縦列接続した構成を示すブロック 図である。
[図 19]従来の手法について、近似最近傍探索の精度と画像の認識率との関係を示 すグラフである。
[図 20]本発明による距離計算ありの手法において、 bと認識率、処理時間の関係を示 すグラフである。
[図 21]本発明による距離計算なしの手法において、 bと認識率、処理時間の関係を示 すグラフである。
[図 22]リジェクトをしな!/、場合、本発明による手法と従来手法との特性比較をするため 、各手法につ!/、て認識率と処理時間との関係を示すグラフである。
[図 23]距離計算ありの識別器を多段階に縦列接続して構成する、本発明による画像 認識装置を示すブロック図である。
[図 24]距離計算なしの識別器を多段階に縦列接続して構成する、本発明による画像 認識装置を示すブロック図である。
符号の説明
[0046] 10 識別器
11 特徴点抽出部
13 インデックス算出部
15、 35 画像データベース
16 暫定最近傍データベース
17、 37 ハッシュ表
19 投票部
21 投票テーブル
23 画像選択部
24 信頼性判定部
38 特徴点照合部
発明を実施するための最良の形態
[0047] 以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点 で例示であって、この発明を限定するものと解されるべきではない。
[0048] この実施形態では、まず、近似の程度を入力画像に応じて段階的に調節する手法
(多段階化の手法)について説明する。各段階において、入力画像に応じた画像を 識別する処理は、識別器によってなされるものとする。前記識別器は、方法の請求項 でいうところの限定工程、探索工程および識別工程に相当する処理を行うものである 。また、物の請求項およびプログラムの請求項でいうところの限定部、探索部および 識別部に相当する部分である。
次に、前記識別器のより詳細な構成につ!/、て説明する。
[0049] «多段階化の手法》
1.構成と要件
一画像を複数の特徴ベクトルで表現し、特徴ベクトルの近似最近傍探索と投票によ つて認識する場合、性能の限界は近似を行わない場合の認識率である。近似を行え ばそれだけ高速化が実現できる力 一般に認識率は低下する。先に述べたように、こ のような近似の程度と認識率の関係は、認識対象の画像によって異なるため、認識 率を保ちつつ処理時間を短縮するためには、近似の程度を適応的に調整する必要 力 sある。
[0050] 問題は、認識に必要な近似の程度を、認識の前に推定することが容易ではな!/ヽ点 である。この問題に対処する一手法は、近似の程度が異なる多数の識別器を用意し て、それらの識別器の出力を見ながら、適切なものを選択することであろう。
処理効率を保ちつつ複数の識別器を利用する具体的な手法としては、近似最近傍 探索に基づく識別器を多段階に縦列接続する構成が考えられる。図 18は、識別器を 多段階に縦列接続した構成を示すブロック図である。
[0051] ここで、 1から Nの数字が付けられた矩形は識別器を表し、数字が若いほど近似が 強いものとする。検索質問の入力画像力 得た特徴べ外ルの集合は、まず 1段目の 識別器によって認識される。この段階で十分な証拠が得られれば、信頼性判定部で 認識処理を打ち切って結果を回答する。一方、十分な証拠が得られなければ、特徴 ベクトルの集合を、次段の、より近似の弱い識別器にかけて再度認識する。処理を繰 り返して最後の N段まで到達しても十分な証拠が得られない場合には、最大得票数 のものを回答するか、その画像についてはリジェクトするかのいずれかをとる。以上の 処理によって、早い段階で処理が打ち切られる画像については大幅な効率化が期 待できると共に、必要に応じて時間をかけた認識が可能となる。
[0052] このような構成を採用する場合、要件となる事項は、
く 1〉認識処理打ち切りの判定方法
く 2〉「難し!/、」画像に対しても処理効率を保つ方法
の 2点である。く 1〉については、少ない計算量で、なるべく正確に判定することが望ま れる。く 2〉は、後段まで認識処理を繰り返す画像についても、処理効率を低下させな V、ための方策である。理想的には、多段階化した識別器で s段まで処理が進んだ場 合の計算量が、 s段目と同じ近似の程度を持つ識別器を単独で使った場合と同等で あればよい。以下、各々について述べる。
[0053] 2.認識処理打ち切りの判定方法
認識誤りを引き起こす画像には、そもそも得票数が少ない、得票数がある程度得ら れる場合でも第 2位の候補と得票数に開きが殆どない、という性質がある。これらの点 に着目すると、信頼性判定部の処理として,得票数を用いた次のような簡便な判定 方法が考えられる。 1位の得票数を V、 2位の得票数を Vとすると、 V〉t, rV >Vを同
1 2 1 1 2 時に満たすならば、処理を打ち切って 1位得票の画像を回答とする。ここで、 tは得票 数の閾値、 rは 1位と 2位の得票数の比の閾値である。なお、最終段については、上式 にかかわらず得票数最大の画像を認識結果とする場合と、上式を満たさない場合に はリジェクトとする場合の 2通りがある。
[0054] 3. 「難しい」画像に対しても処理効率を保つ方法
近似の程度が異なる N個の近似最近傍探索器 1,· · ·,Ν (以後、単に探索器と呼ぶ)を 考える。近似の程度は、探索器(s-1)の方が探索器 sよりも強いとする。探索器 sを用 いて、特徴ベクトル qに対して近似最近傍探索を行った結果、距離計算の対象として 得られる特徴ベクトルの集合を P (S)とする。近似最近傍探索では、通常、近似の程度 が強レ、ほど、距離計算の対象となる特徴ベクトル数が少な!/、と!/、う性質がある。すな わち、すべての iと sに対して |P(S) |P(S— "Iが成り立つ。
[0055] いま、これらの探索器に対して、次の 2つの性質を考える。 定義 1.単調性すべての iと sについて、 が成り立つとき、近似最近傍探索器には単調性があるという。
定義 2.差分検索性近似最近傍探索器が差集合
p (Sp (S- ϋ (2) を効率的に求められるとき、差分検索性があるという。
[0056] 単調性を持つ探索器を用いて、図 18の多段階識別器を構成する場合、 s段目では 、 ではなぐ前段との差分 P(S)— Ρβϋを距離計算あるいは投票の対象とすることが 考えられる。このように構成すると、 1段目から s段目までで距離計算あるいは投票の 対象となった特徴べ外ルの和集合は、探索器 sを単独で用いた際の集合 P(S)と等し くなるため、距離計算あるいは投票の回数は同一となる。さらに、探索器が差分探索 性を持つ場合には、多段階化を行っても計算量の増加を低く抑えることができる。
[0057] 距離計算を用いる場合の認識のプロセスを図 23に沿って具体的に述べる。図 23で 符号 10が付された枠内のブロックは、多段階識別器を構成する各段の識別器の詳細 な構成を示す。処理が (s-1)段目まで進んでいるときには、各特徴ベクトル qに対する 暫定最近傍 P *が見つかつており,それが暫定最近傍データベース 16に記録されてい る。従って、 s段目では、差分ハッシュキー計算によって p e (P(s)— P(s— D)という差分の 特徴ベクトルを得、それらに対してのみ qとの距離計算を行い、 D *よりも距離の近いべ タトルが見つかれば、それを新たに暫定最近傍 13 *として暫定最近傍データベース 16 に登録するとともに、投票をやり直せばよい。
[0058] 距離計算を用いない場合の認識のプロセスを図 24に沿って具体的に述べる。処理 が (s-1)段目まで進んでいるときには、各特徴ベクトル αに対してその段までで得られ たハッシュキーによって投票が終了している。従って、 s段目では、差分ハッシュキー 計算によって ρ ^ (Ρ^— Ρ6—")という差分の特徴ベクトルを得、それらに対してのみ追 加で投票を行えばよい。
なお、図 24で符号 10が付された枠内のブロックは、多段階識別器を構成する各段 の識別器の詳細な構成を示す。また、図 23、 24の信頼性判定部 24は、図 15、 16の画 像選択部 23の機能を包含している。信頼性判定部 24は、 s段目までの投票結果で十 分な信頼性が得られた場合、認識結果とすべき画像を決定する(画像選択部 23の機 能に対応)。しかし、十分な信頼性が得られなかった場合は、さらに次の段(s+1)段目 に進むべきであると判定する。最終段(N段目 )まで進んでも十分な信頼性が得られ なかった場合はその結果をリジェクトすると判定する。
[0059] 《識別器の構成》
識別器として、以下の概念に基づく手法を提供する。この実施形態では、局所記述 子として PCA-SIFTを用いる。 PCA-SIFTを用いる場合の最近傍探索手法として、発 明者らは、従来の ANNや LSHよりも高速な手法をこの発明の一側面として提案する。 発明者らの最近傍探索手法は、後述するように単調性ならびに差分検索性を持った め、多段階化にも極めて好適である。そこで、多段階化の実施形態においては、発 明者らの手法を識別器として適用した構成について説明する。
[0060] ただし、前述の多段階化の手法は、発明者らの手法との組み合わせに必ずしも限 定されるものでなぐ単調性ならびに差分検索性を満足するものであれば、従来の最 近傍探索手法を適用した識別器でもある程度の効果が得られるものと考えられる。た とえば、単調性は ANNや LSHでも満たされる。 ANNでは、後述する許容誤差 εの値 を段階的に変更する場合に単調性が満足され、 LSHでは、検索するハッシュ表の数 Lを段階的に増やす場合に単調性が満足される。即ち、従来の手法による識別器で あっても、それを多段階化すれば 1段階の場合よりも物体認識の処理時間を短縮し 得る。また逆に、識別器に適用すべき発明者らの手法は、必ずしも多段階化する必 要はない。 1段階の識別器であっても、従来の手法による識別器に比べて処理時間 を短縮すること力 Sできる。しかし、発明者らの手法を適用した識別器を多段階化すれ ば、より高速な物体認識が実現できる。従って、両者を組み合わせることが極めて好 ましい。
[0061] 識別器に適用する発明者らの手法には、近似最近傍探索の最終段階で距離計算 を行う手法 (距離計算ありの手法)に加えて、距離計算を全く行わずに済ませる手法 ( 距離計算なしの手法)がある。以下では、まず、距離計算ありの手法、距離計算なし の手法に共通のデータ登録について述べたあと、各々の手法、多段階化の方法に ついて述べる。 [0062] 発明者らは、ハッシュ表を用いた 2通りの高速化手法を開示する。
高速化の一つは、特徴ベクトルの距離計算の回数を減らす方法である。具体的に は、近傍に多数の特徴ベクトルがあって、多くの距離計算が避けられないような場合 、そのような特徴ベクトルを破棄することによって高速化を図る。以下、この手法を「距 離計算あり」の手法という。もう一つは、距離計算を一切行わない手法である。処理と してはハッシュ表を引いて投票することだけを行う。以下、この手法を「距離計算なし」 の手法という。
[0063] この実施形態によれは、カメラで捉えた画像から物体を認識する処理、詳細には、 局所記述子を用いた物体認識法にお!/、て、認識処理に要する計算時間を従来技術 より短縮すること力できる。あるいは、従来技術よりも少ないメモリ容量で処理を行うこ と力 Sできる。
また、この実施形態によれば、 ANNや LSHという従来の近似最近傍探索法を用いる 場合と比べて、同じ認識率を達成するために必要な計算時間が短くてよい。後述す る実験例では、計算時間が、従来技術の 1/2から 1/3に短縮された。また、距離計算 なしの手法は、メモリの使用量が少ないため、スケーラビリティという点でも優れている
[0064] 《構成の概要》
図 15および図 16は、この発明の画像認識装置の構成例を示すブロック図である。 図 15は、距離計算なしの手法に対応するブロック図であり、図 16は、距離計算ありの 方法に対応するブロック図である。この発明の画像認識方法は、例えば、前記画像 認識装置上で実行される。画像認識装置のハードウェアは、例えば、 CPUと、 CPU が実行する処理手順を示すプログラムを格納したハードディスク装置などの記憶装 置、 CPUにワークエリアを提供する RAM、データを入出力する入出力回路などから 構成される。より具体的には、例えば、上記構成を有するパーソナルコンピュータで あってもよい。あるいは、異なる態様として、機器組み込み型の装置として、大規模集 積回路(LSI)とハードディスク装置およびそれらの処理を制御するマイクロコンピュー タから構成されてもよい。
[0065] 図 15で、特徴点抽出部 11は、入力画像に含まれる対象物のパターンから特徴べ タトルを抽出するブロックである。
インデックス算出部 13は、特徴ベクトルから所定の算出方法でハッシュ表のインデ ックスを算出するブロックである。画像データベース 15には、画像 IDが付された複数 の画像が登録されている。また、画像データベース 15は、画像を参照するためのハ ッシュ表 17を有する。
[0066] ノ、ッシュ表 17は、複数のインデックスに対して、そのインデックスに対応付けられた 画像の画像 IDが登録されて!/、る。各インデックスへの画像 IDの対応付けは次のよう にしておこなわれる。まず、登録対象の画像は、特徴点抽出部 11と同様の処理によ つて特徴ベクトルが抽出される。抽出された各特徴ベクトルについて、インデックス算 出部 13と同様の算出方法でハッシュ表のインデックスが算出される。このようにして 算出されたインデックスに対して、インデックスを算出した特徴ベクトルを含む画像の 画像 IDが予め登録されて!/、る。
[0067] 投票部 19は、前記ハッシュ表 17の特定のインデックスを参照し、参照したインデッ タスに対してハッシュ表 17に登録されている画像 IDがあれば、その画像に対して投 票するブロックである。投票のために、各画像について得票数を記憶する得票テー ブル 21が設けられている。
画像選択部 23は、得票テーブル 21を参照し、最大得票数を得た画像を選択する プ'ロックである。
[0068] 図 15の画像認識装置に多段階化の手法を適用する場合、前述の各ブロックのうち 、インデックス算出部 13、投票部 19および投票テーブル 21が多段階化の対象となる
[0069] 図 16で、特徴点抽出部 11、インデックス算出部 13、投票部 19、投票テーブル 21、 画像選択部 23は図 15と同様の機能を有している。画像データベース 35は、ハッシュ 表 37の構成が図 15と異なる。即ち、ハッシュ表 37のインデックスには、登録された画 像の各特徴ベクトルにつレ、て、ベクトルの要素とその特徴ベクトルが含まれる画像の 画像 IDとが組で登録されている。ベクトルの要素は、距離計算に使用される。また、 図 16の画像認識装置は、特徴点照合部 38を備える。特徴点照合部 38は、一つのィ ンデッタスに対して複数の特徴ベクトルが登録対象になつている場合、それらの特徴 ベクトルと入力画像から抽出された特徴ベクトルとの距離計算を行って最短距離のも のを決定し、最短距離の特徴ベクトルと共に登録された画像 IDを候補画像として決 定するプ'ロックである。
[0070] 図 16の画像認識装置に多段階化の手法を適用する場合、前述の各ブロックのうち 、インデックス算出部 13、投票部 19、投票テーブル 21および特徴点照合部 38が多 段階化の対象となる。
なお、図 15の画像認識装置では、参照されたインデックスに対して登録された全て の画像 IDに投票を行うので、特徴点照合部 38に対応するブロックは存在しない。
[0071] 《特徴ベクトル》
本実施形態で利用する特徴ベクトルについて述べる。
1. SIFT
SIFT (Scale-Invariant Feature Transform)とは、 Loweによって提案された特徴点と それに付随する特徴ベクトルの抽出法である(例えば、 D.G. Lowe, "Distinctive imag e features from scale-invariant keypoints, International Journal of Computer Vision , vol.60, no.2, pp.91-110, 2004.参照)。その名が示す通り、画像の拡大縮小、回転 や視点のずれに対して、ロバストであるという特徴を持つ。従来は処理時間が問題視 されてきたが、 GPU(Graphical Processing Unit)の利用によって、高速な処理が可能と なりつつある。
[0072] 本実施形態では、 Loweによって提供されているソフトウェア(URL : http:〃 www.cs.u b ca/Oowe/keypoints/参照)を用いて特徴点を抽出する。特徴ベクトルは、 128次元 の整数値 (0-255)のベクトルである。
[0073] 2. PCA-SIFT
Keらは、 SIFTの特徴ベクトルに対して、主成分分析 (PCA)を適用することにより、 SIF Tの安定性や識別性を向上させる PCA-SIFTを提案している(例えば、 Y.Ke and R.Su kthankar, Pca_sift: A more distinctive representation ror local image descriptors, し VPR2004, Vol.2, pp.506-513, 2004.参照)。本実施形態では、この PCA-SIFTを画像 の局所記述子として利用する。 PCA-SIFTによって得られる特徴ベクトルは、 36次元 の実数値ベクトルである。即ち、 SIFT力、ら得た特徴ベクトルに対して、 URL : http:〃 ww w.cs.cmu.edu/ ke/ pcasift/で提供されているソフトウェアを用いることにより, 36次 元のベクトルに変換される。
[0074] 後述する実験例に使った画像を用いて PCA-SIFTを計算すると、各次元は図 1に示 すような値の分布を持つことが分力、つた。図 1は、特徴ベクトルの値分布を示すグラフ である。横軸は各次元の値、縦軸は頻度である。
1次元目は双峰性の分布であり、 2次元目以降は単峰性の分布を示す。また、次元 が大きくなるにつれて分散が小さくなる。平均値はいずれも 0の付近である。
[0075] «物体認識と近似最近傍探索》
1.投票による物体認識
画像データベースに多数の画像が納められており、各々の画像は 1つの物体を表 すものとする。認識対象の画像(以下、検索質問と呼ぶ)が与えられたとき、物体認識 のタスクを、検索質問に最もマッチする画像をデータベースから検索することと定義 する。
[0076] この目的のため、本実施形態では投票方式を用いる。いま検索質問の画像を Q、 データベース中の画像を pと表す。また、 Q, pから得た d次元特徴ベクトルを、 q, と 表す。近似最近傍探索の結果、 qに対応する特徴ベクトルとして、 pが得られたとする と、画像 Pに 1票を投じる。このような投票を Qから得られた全ての特徴ベクトルに対し て実行し、最終的に得票数が最大となった画像を認識結果として提示する。
[0077] このように、検索質問から得た個々の特徴ベクトルに対して、データベース中の全 ての画像から得た特徴ベクトルとの間で近似最近傍探索を行うため、近似最近傍探 索をどのように高速化するかがポイントとなる。本実施形態の説明の前に、まず、従来 技術の代表的な手法である ANNと LSHについて簡単に述べる。
[0078] 2. ANN
非特許文献 3に挙げた ANN(Approximate Nearest Neighbor)は、木構造を用いて近 似最近傍探索を高速に行う手法である。木のノードは、特徴空間を分割した hyperrec tangle (以後、セルと呼ぶ)に対応しており、葉ノードには特徴ベクトルも対応つけられ ている。
[0079] ANNによる近似最近傍探索の概念を図 2に示す。ただし、簡単のため、説明に関与 しないセルは描いていない。いま、 qを検索質問の特徴ベクトル、 , p , をデータべ
1 2 3
ース中の画像の特徴ベクトルとし、現在、 pが近傍のベクトルとして発見されていると
1
する。最近傍探索を実行する場合、実線で示される超球と重なるセルには、 pより近
1 傍の特徴ベクトルが存在する可能性があるため、探索の対象となる。一方、近似最近 傍探索を行う場合、 pまでの距離 rに対して、許容誤差 εを用いて定義される半径 r/
1
(1+ ε )の超球を考え、それと交わるセルのみを探索の対象とする。これにより、最近 傍の特徴ベクトル (図 2の場合は ρ )を発見できない可能性は出てくる力 対象となるセ
3
ルの数が減少するため、探索時間を削減できる。
[0080] 3. LSH
非特許文献 4に挙げた LSH(Locality Sensitive Hashing)は、ハッシュ表を用いた近 似最近傍探索の手法である。ここでは、実験で用いる E2LSH (Exact Euclidean LSH; 以後単に LSHと呼ぶ)につ!/、て述べる。
d次元ベクトル p=(x,· · ·, X )を考える。 LSHでは、一つの特徴ベクトルを L通りの k次元
1 d
ベクトルに変換し、各々に対応する L個のハッシュ表に登録する。検索時には、検索 質問の特徴ベクトル qを用いて、全てのハッシュ表を検索し、得られた特徴ベクトル p,
1
…, の中から qとのユークリッド距離が最小のものを結果とする。このように複数のハ ッシュを用いることによって、良い近似最近傍の特徴ベクトルが安定的に求められる。
[0081] もう少し具体的に見てみょう。処理は検索質問の特徴ベクトル、データベース中の 特徴ベクトルに共通するので、一般に特徴ベクトルを Vで表す。 Vは、次の手順で生成 された L個の関数 g (v),... ,g (v)を用いて、対応する L個のハッシュ表に格納される。個
1 し
々の g (v)は、 Vを g (v)=(h (v), - - - ,h (v》のように k次元ベクトルに変換するものである。 h ( j j 1 k i
V)は、 Vを整数に変換する関数であり、次のような形を持つ。
[0082] [数 1]
h, (v; " ) =
Figure imgf000026_0001
ここで、 aは、各次元が独立に正規乱数に従って生成された d次元ベクトルであり、 t は [0,w]の一様乱数によって定められるスカラである。このような値を用いることによつ て、 Vと Vのユークリッド距離が小さければ、それだけ h (v )=h (v )となる可能性が高い という効果を実現できる。
LSHでは、 i=l,' ,kの k個の異なる a , tを用いて k次元ベクトルとすることにより、ユーク リツド距離の離れた Vが同じベクトルとならないようにしている。一方で、 L個の gを用い
j ることにより、ユークリッド距離の近い Vが対象から漏れてしまうことを防いでいる。 以上が、従来技術を代表する ANNならびに LSHの説明である。次に、この発明の手 法について説明する。
[0083] 《衝突の削減による高速近似近傍探索》
1.考え方
物体の局所的な特徴を捉えた特徴ベクトルを用いて、投票処理によって物体を認 識する場合、検索質問の特徴ベクトルに対して、必ずしも最近傍の特徴ベクトルをデ ータベースから発見する必要はなぐ特徴ベクトルに付与された画像のラベルが正解 のものであればよい。さらに、認識結果が投票によって決定されるため、正解の得票 数が逆転しなければ、誤った票が他の画像に入っても問題は生じない。このような特 性を活力もて、本発明では、大幅な近似を施すことにより、 ANNや LSHを用いる場合 と比べて高速な処理を実現する。
[0084] ANNや LSHを用いる場合、最も計算時間が必要な部分は、 qと pの距離計算である
J
。従って、これをいかに削減するかがポイントとなる。ただし、検索の精度 (認識率)が 著しく低下したり、必要なメモリ量が大幅に増大すると問題となる。
[0085] 本発明では、データの特性を活力もたハッシュ関数を用いることによって、高速化 の問題を解決する。手法としては次の 2通りを考える。一つは、距離計算を行うが、そ の対象となる特徴ベクトルの数を削減する方法である。具体的には、多数の衝突が 生じている場合、すなわち、同じハッシュ値を持つ特徴ベクトルが多数登録されてい るとき、それらを予めハッシュ表から消去する。これにより、検索質問の特徴ベクトルあ たりの距離計算回数を一定値以下に削減することが可能となる。もう一つは、全く距 離計算を行わない方法である。衝突回数に応じた消去を行うと、ハッシュ表には画像 を識別する上で効果的な特徴ベクトルが残ることになる。そこで、これらの特徴べタト ルを用いれば、投票のみでも正しい結果が得られると期待できる。
[0086] 2.データ登録
まず、本発明の 2通りの手法に共通のデータ登録について述べる。本発明の手法と 一一
同様にハッシ oュ表を用いる LSHでは、ハッシュ表の数が多くなると大量のメモリを消費 する。 1 •
そこで本実施形態では f、メモリ量を削減するため、ハッシュ表を 1つだけ使うこととする
特徴ベクトルをハッシュ表に登録 <する方法は次のとおりである。 PCA-SIFTによって 得られた 36次元の実数値ベクトル pの第 1次元から第 d次元までをとり、
[0087] [数 2]
P = V 1,ぶ 2,* ", ίί ) とする。次に、
[0088] [数 3]
0
U = j + 1 if Τ; ≤ χ · < Τ· によって各次元を離散化し、自然数を要素とするベクトル u=(u る。そ
1,· · ·,11 )を作成す
d
して、
mod H e
Figure imgf000028_0001
[0090] によってハッシュ 求め、ハッシュ表に登録する。ここで、 Uは離散値の 種類 (U進数で表現)、 H はハッシュ表のサイズである。ハッシュ表に登録するデー
size
タは、距離を用いるか否かによって異なる。距離を用いる場合には、特徴ベクトル に 対する画像 IDのほか、 pそのものを登録し、検索時の距離計算に用いる。一方、距離 を用いない場合には、 pの登録は不要である。
特に、 2値で離散化する場合 (2進数で表現する場合)には、閾値 T =0を用いて、
0
[0091] [数 5]
Figure imgf000029_0001
, によって各次元を 2値化し、ビットベクトル u=(u ,· · ·,υ )を作成する。そして、
1 d
[0092] [数 6]
Figure imgf000029_0002
[0093] によってハッシュのインデックスを求め、ハッシュ表に登録する。ここで H は、ハツシ
size
ュ表のサイズである。ハッシュ表に登録するデータは、距離を用いるか否かによって 異なる。距離を用いる場合には、特徴ベクトル pに対する画像 IDのほか、 pそのものを 登録し、検索時の距離計算に用いる。一方、距離を用いない場合には、 pの登録は 不要である。
[0094] 登録時に衝突が生じた場合は、図 3のように、チェイン法により複数の特徴べクトノレ をリストとして登録する。このとき、リストが長くなりすぎると、距離計算のコストがかかり すぎるという問題が生じる。そこで本実施形態では、リスト長 nに対する閾値 cを設け、 n >cを満たすとリスト全体をハッシュ表から削除する。なお、予備実験として、情報検 索で用いられる各種の重み付けも試したところ、認識率にあまり大きな差はなかった。 削除は認識率だけではなぐ速度にも有利であるため、本実施形態では重み付けで はなく削除を採用している。同じハッシュ値を持つ特徴ベクトルが多いということは、 その特徴ベクトルが画像の識別にあまり寄与しないことを意味する。従って、削除をし ても影響は比較的少な!/、と考えられる。
以上の処理を、データベースに登録する全ての特徴ベクトルに対して施すことによ り、データの登録は完了する。
[0095] 3.距離計算を用いる方法
次に距離計算を用いる検索について述べる。本実施形態では、検索質問 Qから得 た各特徴ベクトル qに対して、上記のハッシュ表から特徴ベクトルを検索する。得られ た特徴ベクトルの集合を Pとすると、次に Pの中から qの最近傍となる特徴ベクトル p*を 求める。
そして、 2つの特徴ベクトルの距離 dist(q,p*)が
[0096] [数 7] dist(q5 p*)≤dm^ を満たす場合、 p*に対応する画像 IDに投票する。ここで d は距離の閾値である。た max
だし、 d =∞とすると、距離によらず p*に投票する。
max
[0097] この処理にお!/、て、最も重要なステップは、レ、かに qに対する特徴ベクトルを検索す る力、にある。最も単純な手法は、登録時と同様に qに対してもビットベクトルを求め、ハ ッシュ関数によって同じハッシュ値を持つ特徴ベクトルを求めることである。ところが、 このような処理では、距離の計算回数は十分削減できるものの、次の理由によって十 分な認識率を得ることができな!/、。特徴ベクトルの各次元の値は撮影条件によって変 動すること力 Sある。もし、閾値を超えるような変動があると、ビットベクトルが異なるもの となり、もはや対応する特徴ベクトルを得ることができなくなる。
[0098] LSHでは同様の問題に対処するため、式 (1)において、一様乱数 tを値に加えること により、閾値付近の値をランダムに移動させている。また、前記非特許文献 6に挙げ た小林らの手法では、特徴ベクトルに回転行列をかけることで、閾値の相対的な位置 を変化させている。
本実施形態では、値の変動幅 eをパラメータとして、変動への対処を施す。具体的 には、 q=(x,· · ·, x )とし、離散化のための閾値を Τ (ί=0,1,· · ·,ζ)とするとき、区間
1 d i
[0099] [数 8]
[qj — , + e)
Figure imgf000031_0001
と区間
[0100] [数 9]
(-∞, Γ0) (4)
Figure imgf000031_0002
ζ ,∞) (6 )
[0101] が重なりを持つとき、各区間に対応する離散値 (式 (4)の場合は 0,式 (5)の場合は i+l、 dの場合は z+1)を割り当てる。ここで、 zは iの最大値である。また、 eの値によっては、 割り当てられる離散値が複数であることに注意する。
[0102] 図 17に示す例を考える。この場合、重なりを持つ区間は [T,T ),[Τ,Τ ),[Τ,Τ )の 3
0 1 1 2 2 3 個になるため、 qに割り当てられる離散値としては、各々対応する 1,2,3の 3通りとなる j
ただし、このような「様々な可能性を試す」という処理を制限なく導入すると、膨大な計 算時間が必要となってしまう。そこで本実施形態では、処理の対象となる次元数 bを あまり大きくない値に留めることとする。なお、 3値以上に離散化した場合、必ずしも 処理対象の次元の可能な全ての離散値をインデックスの計算に用いる必要はない。 例えば、図 17においてインデックス計算に用いる離散値をランダムに選び、 1と 2の みを用いる処理であってもよレ、。
特に特徴ベクトルの各次元の値を 2値に離散化する場合には、各次元 qの値が [0103]
9; を満たす次元 jに対しては、 uだけではなく
[0104] [数 11]
« '. = (« . + 1) mod 2
( 0ならば 1, 1ならば 0 )
[0105] も用いて、特徴ベクトルを検索する。ただし、このような「両方試す」という処理を制限 なく導入すると、膨大な計算時間が必要となってしまう。この処理では、処理の対象と なる次元数を bとすると、 2b通りのビットベクトルを用いてハッシュ表にアクセスすること になる。そこで本実施形態では、 bをあまり大きくない値に留めることとする。
[0106] [数 12]
[0107] を満たす次元の数力 ¾を上回るときには、次元のインデックスが小さいものから b個を 採用する。なお、対象となる次元を、確率的に決めることも考えられる。ただし、実際 に試したところ、認識率にはほとんど差が出ず、計算時間が余分に必要であった。 なお、このような変動への対処は、検索時ではなく登録時に行うことも可能である。 具体的には、登録の際に同様にビットベクトルを 2b個作成し、ノ、ッシュ表に登録する。 こうすると、検索時に複数のビットベクトルを用いてハッシュ表にアクセスする必要が なくなるため、処理時間の短縮が期待できる。し力、しながら、多数の特徴ベクトルを登 録するため、メモリへの負担は大きくなる。予備実験の結果、処理時間には大きな差 がなぐメモリへの負担が目立ったため、本実施形態では、検索時に変動に対処する こととした。
[0108] 4.距離計算を用いない方法
距離を用いな!/、方法では、検索質問の特徴ベクトル qに対して上記のような距離計 算を施して近似最近傍を求めるのではなぐノ、ッシュ表から得た特徴ベクトルの集合 Pに属する全ての特徴ベクトル
[0109] [数 13] p≡P に対して投票処理を施す。処理のパラメータは、距離を用いない方法と同様、特徴量 の変動幅 e、変動に対処する次元の数 bの 2つである。
[0110] 《bによる多段階化》
発明者らの手法のパラメータは b,c,d,eの 4つである。この実施形態では、このうち bを 変更することで近似の程度を調整する。具体的には、第 s段では b=s_lとした識別器 を用いる。発明者らの手法は、 bの増加に伴ってハッシュ表のアクセスに用いるインデ ッタスが増加するだけである。そのため、単調性だけではなく差分探索性も満たす。
[0111] ただし、多段化するパラメータは、 bに限定されるものではない。他のパラメータによ る多段化も可能である。例えば、ノ ラメータ dは、単調性だけではなく差分探索性も満 たすことが明らかである。 c,eについてもその可能性がある。
[0112] なお、距離計算なしの手法では、各段の処理で、暫定最近傍 p *を更新しつつ投票 するのではなぐ得られた差集合 P (s)— P (s1〉に属する特徴べ外ルすべてに対して投 票する。
[0113] (実験例)
本発明の手法の有効性を検証するため実験を行った。まず、発明者らの手法を適 用した識別器と、従来の手法による識別器との比較実験を説明する。
[0114] 《実験 1》
1.実験条件
1.1.画像データベース
最初に、実験に用いる画像について説明する。まず、収集方法の異なる A, B,じの 3種類のデータセットを準備した。図 4は、実験に用いた登録画像の一例を示す説明 図である。 Aは、 Googleのイメージ検索を用いて収集した 3, 100枚の画像である。検索 キーワードとしては、ポスター、雑誌、表紙などを用いた。図 4(a)に例を示す。 [0115] Bは PCA-SIFTのサイト(URL: http:〃 www.cs.cmu.edu/~yke/pcasift/)で公開されて いる画像であり、画像数は 18,500枚である。このデータは主に自然写真や人物の写 真などで構成されている。図 4(b)に例を示す。 Cは、写真共有サイトの flickrにおいて a nimal, birthday, food, japanなどのタグにより収集した 78,400枚の画像からなる。主に 図 4(c)に示すような物体や自然の写真、人物の写真などを含む。なお、収集の際に は、 600 X 600 pixel以下のサイズの画像は除外し、画像の長辺が 640 pixel以下にな るように縮小した。また、特徴ベクトルが 100個以下の画像も除外した。画像の一辺の 長さの平均は A, B, Cそれぞれ 498, 612, 554 pixelであった。
[0116] 次に、 A, B, Cの画像を用いて、表 1に示した画像数からなるデータベース、 DB1, ... , DB5を作成し、実験に用いた。
[0117] [表 1]
森 1 デ タペースに含まれる睡^
Figure imgf000034_0001
ここで、大きいデータベースは、小さいデータベースをその一部として含む。なお、 D B3からは、一画像あたり平均 2,069個の特徴ベクトルが抽出された。
[0118] 1.2.検索質問画像
検索質問として、次の手順で作成した画像を 2,000枚用いた。まず、 DB1に含まれる 画像の中で A, B, Cから、それぞれ 100, 200, 200枚を無作為に選択し、 A4の紙面に 印刷した。次に、カメラを用いて印刷した紙面を撮影した。撮影した画像 (検索質問 画像)の例を図 5に示す。図に示す通り、紙面全体が写る配置で、紙面に対するカメ ラの光軸の角度 Θを 90° , 75° , 60° に変化させた。また、角度を 90° として紙面の 一部分を撮影した。その結果、 夂の紙面に対して、合計 4通りの画像を得た。さらに 、撮影した画像を 512 X 341pixelに縮小し、 PCA-SIFTにより特徴ベクトルを求めた。そ の結果、画像一枚あたり平均 605個の特徴ベクトルが得られた。なお、印刷には OKI ( 登録商標) C5200n (カラーレーザプリンタ)、撮影には CANON (登録商標) EOS Kiss (登録商標) Digital (630万画素)と付属のレンズ EF-S 18_55mm USMを用いた。
[0119] 1.3.評価
実験では、近似最近傍探索の比較手法として ANNと LSHを用い、本発明の手法と 比較した。なお、 ANNとしては URL : http:〃 www.cs.umd.edu/~mount/ANNん LSHとし ては URL: http:〃 www.mit.edu/~andoni/で提供されて!/、るプログラムを用いた。評価 基準としては、認識率と処理時間を用いた。認識率は、検索質問の画像が正しく認 識できた割合を表す。また、処理時間は、検索質問の画像 夂あたりの検索に要した 時間を表す。ただし、特徴ベクトルの抽出に必要な時間は含めていない。なお、実験 に用いた計算機は、 CPU力 S AMD Opteron (登録商標) 2.8GHz、メモリが 16GBのもの である。
なお、実験を通して、本発明の手法では、離散化はすべて 2値 (U=2)とし、 T =0とし
0 た。また、距離計算ありの手法での距離の最大値の閾値 d は 3,000に固定した。
max
[0120] 2. DB3を用いた比較実験
まず、 DB3を用いて各手法のパラメータと認識率、処理速度の関係について述べる。
2.1. ANN
ANNを用いて、許容誤差 εを 2から 100まで変化させたとき認識率および処理時間 の実験結果を図 6に示す。 εの増加に伴って、認識率、処理時間が減少していること 力 s カゝる。
εが 2から 10程度までは、処理時間の減少に比べ、認識率の減少は緩やかである。
[0121] 2.2. LSH
図 7に、 LSHを用いて変換後のベクトルの次元数 kとハッシュ関数の数 Lを変化させ たときの認識率および処理時間の実験結果を示す。まず、 Lの増加に伴って、認識 率、処理時間が増加していることが分かる。 Lを更に増加させると、認識率を向上させ ること力 Sできると考えられる力 メモリ不足により実行できな力 た。また、図示されて いるもの以外にも種々の kについて試したところ、 kを減少させると、認識率は改善す るものの、処理時間が増大することが分力、つた。この理由は、 kが小さいと、距離計算 の対象となる特徴ベクトルの数が増加するためであると考えられる。 [0122] 2.3.本発明の手法 (距離計算あり)
距離計算ありの本発明の手法を用いて、衝突の閾値 cと認識率、処理時間の関係 について調べた。このとき、ハッシュ表のサイズとしては H =2dとした。 e=200, b=7, d= size
24,26, 28とし、 cを変化させたときの認識率および処理時間の実験結果を図 8に示す 。 cが減少するにつれ、処理時間が減少していることが分かる。ただし、 cを小さくしす ぎると、認識率が低下した。これは、認識に寄与していたものも削除してしまったため と考えられる。一方、 cを増加させた場合に、計算時間は増加するものの、認識率が 減少することはほとんどな力 た。これは、最近傍にはなり得ない特徴ベクトルを検索 したとしても、距離計算によって排除可能なためと考えられる。
[0123] また、 bと認識率、処理時間の関係について調べた。ハッシュのインデックスを求め るために使用する次元を d=26とした上で、 e=200, 500, 1000、 c=∞とし、 bを変化させ た結果を図 9に示す。 bを増加させると処理時間は増加するものの、認識率が向上す ること力 S分力、る。 bが比較的小さい場合は、 e=200の場合に認識率が高い。
[0124] 2.4.本発明の手法 (距離計算なし)
次に、距離計算なしの本発明の手法を用いて、 cと認識率、処理時間の関係につい て調べた。 d=24, 26,28、 e=200、 b=5とし、 cを変化させた結果を図 10に示す。 d=24, 26 , 28の値について、それぞれ c=2, 3, 4という小さい値のときに認識率が最大となった。 これは、距離計算を用いない手法では、 cが大きくなるにつれて、最近傍にはならな い特徴ベクトルが多数投票に関与するためと思われる。図 8に示した距離計算を用い る場合と好対照であることが分かる。
[0125] また、 bと認識率、処理時間の関係についても調べた。 d=28, e=200, c=2とし、 bを変 化させた結果を図 11に示す。 b=5までは、 bの増加に伴って認識率が向上しているが 、それ以上 bが増加すると、認識率は低下している。これは、 bの増加によって、最近 傍とはなり得ない不適切な特徴ベクトルを介した投票が増大したためと考えられる。 図 9の距離を計算するものでは、 bを増加させた場合に、認識率が減少することはな 力、つた点を考えると、同様に好対照であるとレ、える。
[0126] 2.5.各手法の比較
各手法の特徴を比較するため、ノ ラメータをさまざまに変え、横軸に認識率、縦軸 に処理時間を描いたグラフを図 12に示す。 ANNでパラメータを変化させたものを線で 描き、評価の基準とした。右にプロットされているものほど認識率が高ぐ下にプロット されているものほど処理時間が短い。そのため、右下にプロットされているものほど優 れていると言える。 LSHは、ほぼ ANNの線を越えることはなかった。本発明の手法で 距離の計算を行うものは、認識率が 98%以下の場合は、 ANNよりも優れていた。本発 明の手法で距離の計算を行わないものは、ほとんどの場合で ANNより優れていた。
[0127] 次に、各手法における撮影角度と認識率の関係を調べた。処理時間がおよそ 10ms で認識率の最も良いものを図 13に示す。ノ ラメータは、 ANN e=40、 LSH k=20, L=15 、距離計算ありの手法 e=200, b=4, c=8, d=24、距離計算なしの手法 e=200, b=5, c=2 , d=28である。ただし、距離計算なしの手法による処理時間は 3.4msのものを示してい る。距離計算ありの手法は、同じ処理時間で、 ANN, LSHと比べ高い認識率が得られ ていることが分かる。距離計算なしの手法では、 θ =60° の場合を除くと、 1/3の処理 時間で ANNと同程度の認識率を得られることが分かる。
各種パラメータの代表的な値を用いた認識率と処理時間を表 2に示す。
[0128] [表 2]
Figure imgf000038_0001
[0129] 距離計算ありの手法は、 ANNに比べ同程度の認識率を、 1/3程度の処理時間で実現 していること力 S分力、る。一方、距離計算なしの手法では、平均の認識率は ANNに及ば ない。ただし、その原因は Θ =60° の場合に認識率が低いことにある。 Θ≥75。 に限 定できる状況では、 96%程度の認識率を 4ms以下と!/、う短!/、処理時間で実現可能で ること力分力ゝる。
[0130] 3. DB1-DB5を用いた実験
距離計算なしの手法を除く全ての手法では、検索のために元の特徴ベクトルのデ ータを保持しなければならないため、 DB4, DB5のデータについては、メモリ不足で検 索を実行できな力、つた。一方、距離計算を用いない手法は、ハッシュ表に画像 IDの みを登録すればよいため、メモリへの負担が少なぐ 10万画像までの実験を行うこと ができた。そこで、 e=200, d=28とし、 bと cを変化させ、登録画像数と認識率、処理時 間の関係について調べた。最も認識率のよいものを図 14に示す。そのときの bは、 DB 1から順に 5, 6, 5, 6, 5で、 cは 1, 1, 2, 4, 5であった。登録画像数を 10万件に増加させ た場合でも、認識率 87.3%、処理時間 20.6msを得た。 Θ =60° の場合を除外すると認 識率は 91.4%となる。
[0131] このように、距離計算を用いない手法は、認識率という点では他に及ばないものの 、ある程度の認識率で満足できる場合には、スケーラビリティという点で優れた手法と いえる。また、処理がハッシュ表へのアクセスと投票という単純なものであるため、この 面での利点もあると考えられる。
続いて、近似最近傍探索の従来法である ANN、 LSHに加え、距離計算ありの手法 を用いて 1段の識別器を構成し、発明者らの手法を適用した多段階の識別器を用い る場合と比較した。
[0132] 《実験 2》
1.実験条件
局所記述子としては、 PCA-SIFTのサイトで提供されるものを用いた。ハッシュ表の サイズは H =2dとした。以下に示す処理時間は、検索質問の画像 女あたりの認識に
size
要した時間を表す。ただし、特徴ベクトルの抽出に必要な時間は含めない。使用計 算機は、実験 1と同じ構成のものである。また、この実験では、図 23に示す多段階識 別器を用いた。
[0133] 1.1.画像データベース
画像データベースの画像は、実験 1と同様の出所から収集した力 その数は、 Goog leのイメージ検索を用いて収集した画像が 3, 100枚、 PCA-SIFTのサイトで公開されて いる画像力 ¾,450枚、写真共有サイトの flickrにおいて animal, birthday, foodなどのタ グにより収集した画像が 3,450枚、合計 10,000枚の画像である。
[0134] 1.2.検索質問画像
検索質問としては、データベースに対応する画像のあるものとないものの 2種類を作 成した。前者については、データベースに含まれる画像の中から、収集方法ごとに 10 0, 200, 200枚の合計 500枚を無作為に選択した。後者については、画像データべ一 スには含まれない画像を 199枚用意した。次に、これらを A4の用紙に印刷し、カメラを 用いて撮影した。実験 1と同様、紙面全体が写る配置で、紙面に対するカメラの光軸 の角度 Θを 90° ,75。 ,60° に変化させた。また、角度を 90° として紙面の一部分を 撮影した。その結果、 夂の紙面に対して、合計 4通りの画像を得た。さらに、撮影した 画像を 512 X 341pixelに縮小し、 PCA-SIFTにより特徴ベクトルを求めた。その結果、 画像 夂あたり平均 612個の特徴ベクトルが得られた。
[0135] 2.リジェクトをしない場合
まず、対応する画像がデータベースにある検索質問のみを用いて、実験を行った。
2.1.近似最近傍探索の精度と画像の認識率の関係
最初に、予備実験として、画像を認識するために必要な最近傍探索の精度を調べ た。具体的には、多段階化なしの手法 (ANN, LSH,距離計算ありの手法)について、 ノ ラメータをさまざまに変え、近似最近傍探索の精度と画像の認識率の関係を計測 した。近似最近傍探索の精度とは、近似最近傍探索によって真の最近傍が求まった 割合である。
[0136] 結果を図 19に示す。この結果から、近似最近傍探索の精度が 100%から 20%あたりま では、近似最近傍探索の精度が減少しても、認識率はほとんど減少しなレ、ことが分か る。これは、間違って他の画像に投票されてしまっても、正解の画像と他の画像の得 票数が逆転するまでには至らないためであると考えられる。また、近似最近傍探索の 精度と認識率には、手法に依存しない関係があることも伺える。
2.2.多段階化による処理の削減
[表 3]
Figure imgf000042_0001
Figure imgf000042_0002
次に多段階化の効果を検証する。まず、距離計算ありの手法を用いて、 bと認識率 と処理時間の関係について調べた。 e=200,c=5,d=28,t=2,r=0.5とし、 bを変化させた結 果を図 20に示す。多段階化を行う場合は、行わない場合と比較し、ほとんど認識率が 低下せずに、処理時間を削減できることが分かる。また、多段階化の段数 (N=b+1)が 多くなるにつれて、処理時間削減の効果が大きくなつていることが分力、つた。
同様に、距離計算なしの手法を用いて、 bと認識率と処理時間の関係について調べ た。 e=200,c=3,d=28,t=2,r=0.5とし、 bを変化させた結果を図 21に示す。距離計算なし の手法でも、処理時間を削減できることが分力、つた。
[0139] 2.3.各手法の比較
各手法の特徴を比較するため、ノ ラメータをさまざまに変え、認識率と処理時間の 関係を描いたグラフを図 22に示す。 ANNで許容誤差 εを変化させたものを線で描き 、評価の基準とした。右にプロットされているものほど認識率が高ぐ下にプロットされ ているものほど処理時間が短い。そのため、右下にプロットされているものほど優れて いるといえる。 LSHは、ほぼ ANNの線を越えることはなかった。距離計算ありの手法で は、最大認識率は ANNに及ばないものの、認識率が 98%以下の場合には、同じ認識 率を、 ANNに比べて 1/10から 1/40程度の処理時間で実現できている。提案手法では 、多段階化を行うことで、処理時間が距離計算ありの手法の 1/5程度にまで削減され ている。
[0140] 3.リジェクトをする場合
次に、リジェクトをする場合の実験結果について述べる。評価尺度を次の様に定め る。対応する画像のある検索質問に対しては、認識率 C、誤認識率 E、リジェクト率 R
1 1 1
(C +E +R =1)とする。対応する画像のない検索質問に対しては、誤認識率 E、リジェ
1 1 1 2 タト率 R (E +R =1)とする。
[0141] まず、距離計算ありの提案手法を用いて、 10-fold cross validationにより、実験を行 つた。学習サンプルに対し、 E =0, E =0という条件の下で、 Rが最小となるパラメータ
1 2 1
を求め、テストサンプルに適用した (基準 A)。また、これとは別に、 E +E +Rが最小とな
1 2 1 るパラメータも学習サンプルに対して求め、テストサンプルに適用した (基準 B)。 ノ ラメ ータとしては b=5,10,d=24,28,e=200,400, c=5, t=4,8,12, Γ=0·2,0·4,0·6のすベての組 み合わせについて試した。距離計算なしの提案手法については、ノ ラメータに c=2を 追加し、同様に実験を行った。
[0142] 結果を表 3に示す。基準 Aでパラメータを設定した場合、距離計算ありの提案手法 では、リジェクト率 Rが 12.15%の場合に誤認識率 Eを 0%とすることができた。このときに
1 2
誤認識率 Eは 0%とはならなかったものの、 0.25%と低い値を得ることができた。また、基 準 Bでパラメータを設定した場合には、誤認識率の微少な増加と引き替えに、リジエタ ト率 Rを 1/3に抑えることができた。一方、距離計算なしの提案手法では、距離計算あ
1
りの提案手法と比べて劣る結果となった。
[0143] 処理時間については、対応する画像のない検索質問の方力 4から 9倍程度長くな つた。これは、多段階化によって、対応する画像のない検索質問のほとんどは、最終 段まで処理されてリジェクトされるのに対し、対応する画像のある検索質問は、最終 段まで到達せずに回答が出力されているためである。
[0144] なお、この発明について、前述した実施の形態の他にも、この発明について種々の 変形例があり得ることは明らかである。例えば、この発明は、平面物体以外にも適用 することも考えられる。
本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変 更とが含まれることが意図される。
産業上の利用可能性
[0145] この発明を用いた物体認識処理は、カメラで捉えた画像から物体を認識し、認識結 果に応じた情報処理を行うサービスに適用することができる。前記情報処理の具体 例としては、既存の画像やビデオ画像などに索引付けをおこなう処理などが考えられ

Claims

請求の範囲
[1] 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画 像データベース中から前記対象物を含む画像を識別する画像認識方法であって、 入力画像からその局所的な特徴を表す複数の局所記述子を導出する工程と、 前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局 所記述子に対して探索を行う対象をそれぞれ限定する限定工程と、
前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の 各局所記述子に対する近傍の各局所記述子を特定する探索工程と、
近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理 を用いて識別する識別工程とを備え、
前記限定工程は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象 を限定し、
各工程をコンピュータが実行することを特徴とする画像認識方法。
[2] 前記限定工程は、認識結果とすべき画像が識別されるように、入力画像に応じて探 索対象を限定する程度を異ならせ得る請求項 1記載の画像認識方法。
[3] 認識結果とすべき画像が識別できな力、つたとき、前記限定工程は、探索対象を限 定する程度を緩め、かつ、先に探索対象とされたものを除外して新たな探索対象を 決定する処理をさらに行い、
決定された探索対象について探索工程および識別工程を実行する請求項 2記載の 画像認識方法。
[4] 検索対象を限定する程度を段階的に緩めて前記限定工程、探索工程および識別 工程を繰り返しても認識結果とすべき画像が識別できな!/、とき、その局所記述子につ いての探索結果をリジェクトする請求項 3記載の画像認識方法。
[5] 前記画像データベースは、各画像から導出される各局所記述子をそれから所定手 順で算出されるインデックス値で分類してなるハッシュ表を含んでなり、
前記限定工程は、特徴量の変動を考慮して入力画像の各局所記述子から前記手順 でインデックス値を算出し、算出されたインデックス値で前記ハッシュ表を参照してそ の類に属する局所記述子を探索対象とし、 前記識別工程は、探索工程により特定された近傍の各局所記述子について、それが 得られた画像に投票を行う統計的処理を用い、
前記ハッシュ表は、各類について、その類に属する局所記述子の数が閾値を超える 場合にその類の局所記述子を探索対象力 除外して作成されるものである請求項 1 〜4の何れか一つに記載の画像認識方法。
[6] 各局所記述子はベクトルとして表現され、
特徴量の変動を考慮してハッシュ表のインデックス値を算出する処理は、各局所記 述子の要素を離散化して得られる離散値に誤差の範囲を含めてインデックス値を算 出する処理であり、
前記誤差の範囲は、前記変動に応じて決定されるものである請求項 5記載の画像認 識方法。
[7] 前記探索工程は、入力画像の各局所記述子とそれに対応する類に属するハッシュ 表中の各局所記述子との間の距離計算を行い、所定距離内または最短距離にある 局所記述子を特定する工程である請求項 5または 6記載の画像認識方法。
[8] 前記探索工程は、入力画像の各局所記述子に対応する類に属するハッシュ表中 の各局所記述子をいずれも近傍の局所記述子とする工程である請求項 5または 6記 載の画像認識方法。
[9] 画像データベース中の画像に含まれる前記対象物のパターンは、入力画像と異な る角度から対象物をみたときのパターンである請求項 1〜8のいずれか一つに記載の 画像認識方法。
[10] 画像データベース中の画像に含まれる前記対象物のパターンは、その一部分が入 力画像のパターンに対応するものである請求項 1〜8のいずれか一つに記載の画像 認識方法。
[11] 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画 像データベース中から前記対象物を含む画像を識別する装置であって、 入力画像からその局所的な特徴を表す複数の局所記述子を導出する特徴導出部と 前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局 所記述子に対して探索を行う対象をそれぞれ限定する限定部と、
前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の 各局所記述子に対する近傍の各局所記述子を特定する探索部と、
近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理 を用いて識別する識別部とを備え、
前記限定部は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を 限定することを特徴とする画像認識装置。
[12] 前記限定部は、認識結果とすべき画像が識別されるように、入力画像に応じて探索 対象を限定する程度を異ならせ得る請求項 11記載の画像認識装置。
[13] 認識結果とすべき画像が識別できな力、つたとき、前記限定部は、探索対象を限定 する程度を緩め、かつ、先に探索対象とされたものを除外して新たな探索対象を決 定する処理をさらに行い、
探索部は、決定された探索対象についてさらに近傍の各局所記述子を特定し、識別 部は、特定された各局所記述子に基づレ、て認識結果とすべき画像をさらに識別する 請求項 12記載の画像認識装置。
[14] 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画 像データベース中から前記対象物を含む画像を識別する機能をコンピュータを用い て実現するプログラムであって、
入力画像からその局所的な特徴を表す複数の局所記述子を導出する特徴導出部と 前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局 所記述子に対して探索を行う対象をそれぞれ限定する限定部と、
前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の 各局所記述子に対する近傍の各局所記述子を特定する探索部と、
近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理 を用いて識別する識別部としてコンピュータを機能させ、
前記限定部は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を 限定することを特徴とする画像認識プログラム。
PCT/JP2007/065086 2006-08-31 2007-08-01 Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image WO2008026414A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP07791766A EP2063394A4 (en) 2006-08-31 2007-08-01 IMAGE RECOGNITION METHOD, IMAGE RECOGNITION DEVICE, AND IMAGE RECOGNITION PROGRAM
US12/439,493 US8199973B2 (en) 2006-08-31 2007-08-01 Image recognition method, image recognition device, and image recognition program
JP2008532003A JP4883649B2 (ja) 2006-08-31 2007-08-01 画像認識方法、画像認識装置および画像認識プログラム
CN200780040849XA CN101536035B (zh) 2006-08-31 2007-08-01 图像识别方法、以及图像识别装置
HK10102372.2A HK1134364A1 (en) 2006-08-31 2010-03-05 Image recognition method and image recognition device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006236113 2006-08-31
JP2006-236113 2006-08-31
JP2007129737 2007-05-15
JP2007-129737 2007-05-15

Publications (1)

Publication Number Publication Date
WO2008026414A1 true WO2008026414A1 (fr) 2008-03-06

Family

ID=39135700

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/065086 WO2008026414A1 (fr) 2006-08-31 2007-08-01 Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image

Country Status (6)

Country Link
US (1) US8199973B2 (ja)
EP (1) EP2063394A4 (ja)
JP (1) JP4883649B2 (ja)
CN (1) CN101536035B (ja)
HK (1) HK1134364A1 (ja)
WO (1) WO2008026414A1 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009133856A1 (ja) 2008-04-28 2009-11-05 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
WO2010101186A1 (ja) 2009-03-04 2010-09-10 公立大学法人大阪府立大学 画像検索方法、画像検索プログラム及び画像登録方法
WO2010143573A1 (ja) 2009-06-10 2010-12-16 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、作成装置および作成処理プログラム
WO2011092865A1 (ja) * 2010-02-01 2011-08-04 株式会社モルフォ 物体検出装置及び物体検出方法
WO2011136276A1 (ja) * 2010-04-28 2011-11-03 公立大学法人大阪府立大学 三次元物体認識用画像データベースの作成方法および作成装置
JP2012043437A (ja) * 2010-08-17 2012-03-01 Fujitsu Ltd 画像処理方法及び画像処理装置
JP2012160047A (ja) * 2011-02-01 2012-08-23 Denso It Laboratory Inc 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
CN102722554A (zh) * 2012-05-28 2012-10-10 中国人民解放军信息工程大学 位置敏感哈希随机性减弱方法
US8306315B2 (en) 2008-04-30 2012-11-06 Osaka Prefecture University Public Corporation Method of compiling three-dimensional object identifying image database, processing apparatus and processing program
JP2012531130A (ja) * 2009-06-26 2012-12-06 インテル・コーポレーション ビデオコピーを検知する技術
CN103678660A (zh) * 2013-12-24 2014-03-26 北京邮电大学 一种图像检索方法
JP2014203289A (ja) * 2013-04-05 2014-10-27 キヤノン株式会社 ハッシュ値生成装置、システム、判定方法、プログラム、記憶媒体
US9116961B2 (en) 2011-05-06 2015-08-25 Fujitsu Limited Information processing device, information processing system and search method
JP2017049815A (ja) * 2015-09-02 2017-03-09 トヨタ自動車株式会社 物体認識方法、物体認識装置及びプログラム
JPWO2017072890A1 (ja) * 2015-10-28 2018-05-17 株式会社東芝 データ管理システム、データ管理方法およびプログラム
WO2021025092A1 (ja) * 2019-08-06 2021-02-11 学校法人明星学苑 圧縮データ検索エンジンを用いた情報処理装置およびその情報処理方法

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129337A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 三次元類似形状検索装置
US8140448B2 (en) 2008-05-09 2012-03-20 International Business Machines Corporation System and method for classifying data streams with very large cardinality
US8429216B2 (en) * 2008-09-23 2013-04-23 Hewlett-Packard Development Company, L.P. Generating a hash value from a vector representing a data object
JP5714599B2 (ja) * 2009-12-02 2015-05-07 クゥアルコム・インコーポレイテッドQualcomm Incorporated イメージ認識のための記述子パッチの高速部分空間射影
US8352494B1 (en) * 2009-12-07 2013-01-08 Google Inc. Distributed image search
CN101790064A (zh) * 2010-02-23 2010-07-28 公安部第三研究所 具有视频结构化描述功能的硬盘录像设备及其方法
US9058561B2 (en) 2010-03-22 2015-06-16 Aptima, Inc. Systems and methods of cognitive patterns knowledge generation
US9530073B2 (en) 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
JP5782037B2 (ja) * 2010-09-10 2015-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 排他的分類器による一般物体の画像認識装置及び方法
US8548237B2 (en) 2010-10-18 2013-10-01 Hewlett-Packard Development Company, L.P. Ordinal and spatial local feature vector based image representation
KR101675785B1 (ko) 2010-11-15 2016-11-14 삼성전자주식회사 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치
US8612441B2 (en) * 2011-02-04 2013-12-17 Kodak Alaris Inc. Identifying particular images from a collection
US9122705B1 (en) * 2011-03-15 2015-09-01 Google Inc. Scoring hash functions
JP5692725B2 (ja) * 2011-05-27 2015-04-01 公立大学法人大阪府立大学 近似最近傍探索に係るデータベースの登録方法および登録装置
CN102855498B (zh) * 2011-07-01 2016-08-31 富士通株式会社 字符识别方法和装置
JP5485954B2 (ja) * 2011-09-06 2014-05-07 東芝テック株式会社 店舗システム及びプログラム
US9400945B2 (en) * 2011-09-23 2016-07-26 GM Global Technology Operations LLC System and method of fast object detection using parts to whole fragment detection
US10152674B2 (en) 2012-01-16 2018-12-11 Texas Instruments Incorporated Accelerated decision tree execution
CN103377373A (zh) * 2012-04-25 2013-10-30 佳能株式会社 图像特征产生方法及设备、分类器、系统和捕获设备
US9165068B2 (en) * 2012-08-03 2015-10-20 Adobe Systems Incorporated Techniques for cloud-based similarity searches
CN102930529B (zh) * 2012-09-24 2014-04-16 南京工业大学 一种基于非对称模板搜索的快速伪造区域盲检测方法
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
US9286549B1 (en) 2013-07-15 2016-03-15 Google Inc. Sublinear time classification via feature padding and hashing
JP5808371B2 (ja) * 2013-08-28 2015-11-10 ヤフー株式会社 画像認識装置、画像認識方法及び画像認識プログラム
JP6151141B2 (ja) * 2013-09-18 2017-06-21 株式会社東芝 仕分装置および仕分方法
US9569692B2 (en) * 2014-10-31 2017-02-14 The Nielsen Company (Us), Llc Context-based image recognition for consumer market research
US9600524B2 (en) 2014-12-22 2017-03-21 Blackberry Limited Method and system for efficient feature matching
CN104732221A (zh) * 2015-03-30 2015-06-24 郑州师范学院 一种基于OpenCL并行加速的SIFT特征匹配方法
CN104933407A (zh) * 2015-05-28 2015-09-23 成都佳发安泰科技股份有限公司 基于sift变换的指纹识别方法
US10885098B2 (en) 2015-09-15 2021-01-05 Canon Kabushiki Kaisha Method, system and apparatus for generating hash codes
US10424072B2 (en) 2016-03-01 2019-09-24 Samsung Electronics Co., Ltd. Leveraging multi cues for fine-grained object classification
US10579860B2 (en) 2016-06-06 2020-03-03 Samsung Electronics Co., Ltd. Learning model for salient facial region detection
US10740646B2 (en) * 2017-10-30 2020-08-11 The Aerospace Corporation Programmable cellular automata for memory search, recall, simulation, and improvisation
US10832180B2 (en) 2017-10-30 2020-11-10 The Aerospace Corporation Artificial intelligence system that employs windowed cellular automata to create plausible alternatives
US10762431B2 (en) 2017-10-30 2020-09-01 The Aerospace Corporation Low probability transitions and boundary crossing into disallowed states for a more optimal solution
CN108805157B (zh) * 2018-04-11 2022-02-18 南京理工大学 基于部分随机监督离散式哈希的遥感图像分类方法
JP7207862B2 (ja) * 2018-04-26 2023-01-18 株式会社日立製作所 物体認識装置および方法
CN110471942B (zh) * 2018-05-08 2022-04-15 北京大学 一种基于均衡哈希编码的飞行器查询方法及系统
US11120070B2 (en) * 2018-05-21 2021-09-14 Microsoft Technology Licensing, Llc System and method for attribute-based visual search over a computer communication network
CN109389148B (zh) * 2018-08-28 2021-11-23 昆明理工大学 一种基于改进DHash算法的图像相似判定方法
EP3899789A4 (en) * 2018-12-20 2022-10-05 Tracxone Ltd. SYSTEM AND METHOD FOR CLASSIFIER LEARNING AND RECOVERY FROM A CLASSIFIER DATABASE FOR LARGE-SCALE PRODUCT IDENTIFICATION
CN110134804B (zh) * 2019-05-20 2021-09-17 北京达佳互联信息技术有限公司 图像检索方法、装置及存储介质
CN112529921A (zh) * 2019-09-24 2021-03-19 上海壹品仓软件科技有限公司 一种线上线下多渠道商品库存共享系统和方法
CN110751188B (zh) * 2019-09-26 2020-10-09 华南师范大学 基于多标记学习的用户标签预测方法、系统及存储介质
CN111008210B (zh) * 2019-11-18 2023-08-11 浙江大华技术股份有限公司 商品识别方法、装置、编解码器及存储装置
US12087027B2 (en) * 2020-01-31 2024-09-10 Nec Corporation Object recognition apparatus, object recognition method, and recording medium
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
WO2022093263A1 (en) * 2020-10-30 2022-05-05 Hewlett-Packard Development Company, L.P. Multi-modal hierarchical semantic search engine
US20240078270A1 (en) * 2022-09-07 2024-03-07 Sage Global Services Limited Classifying documents using geometric information

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60142788A (ja) * 1983-12-29 1985-07-27 Hitachi Ltd パターン認識における特微量評価方法および装置
JPS63132381A (ja) * 1986-11-25 1988-06-04 Hitachi Ltd 画像デ−タ検索・表示システム
JPH0484277A (ja) * 1990-07-26 1992-03-17 Nec Corp 特徴量選択方法及び装置と高速識別方法及び装置
JPH05233881A (ja) * 1992-02-21 1993-09-10 Fujitsu Ltd 文字認識装置における認識文字テーブル作成方法
JPH06168277A (ja) * 1992-11-30 1994-06-14 Canon Inc 画像検索装置及び方法
JP2000285190A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
JP2003242509A (ja) * 2001-12-13 2003-08-29 Toshiba Corp パターン認識装置及びその方法
JP2004133629A (ja) * 2002-10-09 2004-04-30 Ricoh Co Ltd 特定マーク検出用辞書作成装置、特定マーク検出装置、特定マーク認識装置並びにプログラムおよび記録媒体
US20040208372A1 (en) 2001-11-05 2004-10-21 Boncyk Wayne C. Image capture and identification system and process
WO2006092957A1 (ja) 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658429A (en) * 1983-12-29 1987-04-14 Hitachi, Ltd. System and method for preparing a recognition dictionary
US7200270B2 (en) * 2001-12-13 2007-04-03 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method using distributed model representation of partial images
US7684029B2 (en) * 2004-10-29 2010-03-23 Avago Technologies General Ip (Singapore) Pte. Ltd. Method and apparatus for identifying a sensed light environment

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60142788A (ja) * 1983-12-29 1985-07-27 Hitachi Ltd パターン認識における特微量評価方法および装置
JPS63132381A (ja) * 1986-11-25 1988-06-04 Hitachi Ltd 画像デ−タ検索・表示システム
JPH0484277A (ja) * 1990-07-26 1992-03-17 Nec Corp 特徴量選択方法及び装置と高速識別方法及び装置
JPH05233881A (ja) * 1992-02-21 1993-09-10 Fujitsu Ltd 文字認識装置における認識文字テーブル作成方法
JPH06168277A (ja) * 1992-11-30 1994-06-14 Canon Inc 画像検索装置及び方法
JP2000285190A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 帳票識別方法および帳票識別装置および記憶媒体
US20040208372A1 (en) 2001-11-05 2004-10-21 Boncyk Wayne C. Image capture and identification system and process
JP2003242509A (ja) * 2001-12-13 2003-08-29 Toshiba Corp パターン認識装置及びその方法
JP2004133629A (ja) * 2002-10-09 2004-04-30 Ricoh Co Ltd 特定マーク検出用辞書作成装置、特定マーク検出装置、特定マーク認識装置並びにプログラムおよび記録媒体
WO2006092957A1 (ja) 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
"Nearest-neighbor methods in learning and vision", 2005, THE MIT PRESS
D.G. LOWE: "Distinctive image features from scale-invariant keypoints", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 60, no. 2, 2004, pages 91 - 110, XP019216426, DOI: doi:10.1023/B:VISI.0000029664.99615.94
KATAYAMA NORIO; SATO SHINICHI: "Indexing Technique for Similarity Retrieval", JOURNAL OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 42, no. 10, October 2001 (2001-10-01), pages 958 - 964
KOBAYASHI TAKUO; NAKAGAWA MASAKI: "Higher-dimensional Nearest Neighbor Search by Distributed Coding", IEICET TECHNICAL REPORT PRMU2006, June 2006 (2006-06-01), pages 41
M. DATAR ET AL.: "Locality-sensitive hashing scheme based on p-stable distributions", PROC. OF THE 20TH ANNUAL SYMPOSIUM ON COMPUTATIONAL GEOMETRY, 2004, pages 253 - 262, XP058169711, DOI: doi:10.1145/997817.997857
P. LNDYK: "Handbook of discrete and computational geometry", 2004, CHAPMAN & HALL/CRC, article "Nearest neighbors in high-dimensional spaces", pages: 877 - 892
S. ARYA ET AL.: "An optimal algorithm for approximate nearest neighbor searching", JOURNAL OF THE ACM, vol. 45, no. 6, 1998, pages 891 - 923, XP058146321, DOI: doi:10.1145/293347.293348
See also references of EP2063394A4
SHIBATA TOMOYUKI; KATO TAKEKAZU; WADA TOSHIKAZU: "K-D Decision tree: An Accelerated and Memory Efficient Nearest Neighbor Classifier", IEICE TRANSACTIONS (D-II), vol. J88-D-II, no. 8, August 2005 (2005-08-01), pages 1367 - 1377
WADA TOSHIKAZU: "Acceleration Method for Nearest Neighbor Classification based on Space Decomposition", JOURNAL OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 46, no. 8, August 2005 (2005-08-01), pages 912 - 918
Y. KE; R. SUKTHANKAR: "Pca-sift: A more distinctive representation for local image descriptors", CVPR2004, vol. 2, 2004, pages 506 - 513

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009133856A1 (ja) 2008-04-28 2009-11-05 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
JP5294342B2 (ja) * 2008-04-28 2013-09-18 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
KR101247891B1 (ko) * 2008-04-28 2013-03-26 고리츠다이가쿠호징 오사카후리츠다이가쿠 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램
US8340451B2 (en) 2008-04-28 2012-12-25 Osaka Prefecture University Public Corporation Method for constructing image database for object recognition, processing apparatus and processing program
JP5278881B2 (ja) * 2008-04-30 2013-09-04 公立大学法人大阪府立大学 3次元物体認識用画像データベースの作成方法、処理装置および処理用プログラム
KR101257999B1 (ko) * 2008-04-30 2013-04-24 고리츠다이가쿠호징 오사카후리츠다이가쿠 3차원 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램
US8306315B2 (en) 2008-04-30 2012-11-06 Osaka Prefecture University Public Corporation Method of compiling three-dimensional object identifying image database, processing apparatus and processing program
CN102422319A (zh) * 2009-03-04 2012-04-18 公立大学法人大阪府立大学 图像检索方法、图像检索程序和图像登记方法
US8818103B2 (en) 2009-03-04 2014-08-26 Osaka Prefecture University Public Corporation Image retrieval method, image retrieval program, and image registration method
CN102422319B (zh) * 2009-03-04 2014-04-30 公立大学法人大阪府立大学 图像检索方法和图像存储方法
WO2010101186A1 (ja) 2009-03-04 2010-09-10 公立大学法人大阪府立大学 画像検索方法、画像検索プログラム及び画像登録方法
WO2010143573A1 (ja) 2009-06-10 2010-12-16 公立大学法人大阪府立大学 物体認識用画像データベースの作成方法、作成装置および作成処理プログラム
JP2012531130A (ja) * 2009-06-26 2012-12-06 インテル・コーポレーション ビデオコピーを検知する技術
US8693791B2 (en) 2010-02-01 2014-04-08 Morpho, Inc. Object detection apparatus and object detection method
CN102216958A (zh) * 2010-02-01 2011-10-12 株式会社摩如富 物体检测装置以及物体检测方法
WO2011092865A1 (ja) * 2010-02-01 2011-08-04 株式会社モルフォ 物体検出装置及び物体検出方法
WO2011136276A1 (ja) * 2010-04-28 2011-11-03 公立大学法人大阪府立大学 三次元物体認識用画像データベースの作成方法および作成装置
JP5818327B2 (ja) * 2010-04-28 2015-11-18 オリンパス株式会社 三次元物体認識用画像データベースの作成方法および作成装置
US8971610B2 (en) 2010-04-28 2015-03-03 Osaka Prefecture University Public Corporation Method and apparatus of compiling image database for three-dimensional object recognition
JP2012043437A (ja) * 2010-08-17 2012-03-01 Fujitsu Ltd 画像処理方法及び画像処理装置
JP2012160047A (ja) * 2011-02-01 2012-08-23 Denso It Laboratory Inc 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
US9116961B2 (en) 2011-05-06 2015-08-25 Fujitsu Limited Information processing device, information processing system and search method
CN102722554B (zh) * 2012-05-28 2014-07-02 中国人民解放军信息工程大学 位置敏感哈希随机性减弱方法
CN102722554A (zh) * 2012-05-28 2012-10-10 中国人民解放军信息工程大学 位置敏感哈希随机性减弱方法
JP2014203289A (ja) * 2013-04-05 2014-10-27 キヤノン株式会社 ハッシュ値生成装置、システム、判定方法、プログラム、記憶媒体
CN103678660A (zh) * 2013-12-24 2014-03-26 北京邮电大学 一种图像检索方法
CN103678660B (zh) * 2013-12-24 2017-01-11 北京邮电大学 一种图像检索方法
JP2017049815A (ja) * 2015-09-02 2017-03-09 トヨタ自動車株式会社 物体認識方法、物体認識装置及びプログラム
JPWO2017072890A1 (ja) * 2015-10-28 2018-05-17 株式会社東芝 データ管理システム、データ管理方法およびプログラム
US11281645B2 (en) 2015-10-28 2022-03-22 Kabushiki Kaisha Toshiba Data management system, data management method, and computer program product
WO2021025092A1 (ja) * 2019-08-06 2021-02-11 学校法人明星学苑 圧縮データ検索エンジンを用いた情報処理装置およびその情報処理方法

Also Published As

Publication number Publication date
HK1134364A1 (en) 2010-04-23
JPWO2008026414A1 (ja) 2010-01-14
JP4883649B2 (ja) 2012-02-22
US20100027895A1 (en) 2010-02-04
EP2063394A4 (en) 2011-08-03
EP2063394A1 (en) 2009-05-27
CN101536035B (zh) 2012-09-26
US8199973B2 (en) 2012-06-12
CN101536035A (zh) 2009-09-16

Similar Documents

Publication Publication Date Title
WO2008026414A1 (fr) Procédé de reconnaissance d&#39;image, dispositif de reconnaissance d&#39;image et programme de reconnaissance d&#39;image
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US10235623B2 (en) Accurate tag relevance prediction for image search
Tolias et al. Visual query expansion with or without geometry: refining local descriptors by feature aggregation
JP5294342B2 (ja) 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
US20210158164A1 (en) Finding k extreme values in constant processing time
EP2284791B1 (en) Method of creating three-dimensional object identifying image database, processing apparatus and processing program
WO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
US20120084305A1 (en) Compiling method, compiling apparatus, and compiling program of image database used for object recognition
Jégou et al. Exploiting descriptor distances for precise image search
US12118813B2 (en) Continuous learning for document processing and analysis
Yang et al. Smart library: Identifying books on library shelves using supervised deep learning for scene text reading
Sadovnik et al. Finding your lookalike: Measuring face similarity rather than face identity
Tian et al. Image classification based on the combination of text features and visual features
Amato et al. Aggregating binary local descriptors for image retrieval
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Zhang et al. Neural ranking for automatic image annotation
CN113920303B (zh) 一种基于卷积神经网络弱监督类别无关的图像相似性检索系统及其控制方法
Xu et al. Learning multi-task local metrics for image annotation
Weng et al. Random VLAD based deep hashing for efficient image retrieval
Voloshynovskiy et al. On accuracy, robustness, and security of bag-of-word search systems
Lulu et al. TMNIO: Triplet merged network with involution operators for improved few‐shot image classification
Maier et al. Image auto-annotation with automatic selection of the annotation length
da Costa et al. Deep convolutional features for fingerprint indexing

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780040849.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07791766

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008532003

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWE Wipo information: entry into national phase

Ref document number: 2007791766

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12439493

Country of ref document: US