WO2014166376A1 - 获取图像的紧凑全局特征描述子的方法及图像检索方法 - Google Patents

获取图像的紧凑全局特征描述子的方法及图像检索方法 Download PDF

Info

Publication number
WO2014166376A1
WO2014166376A1 PCT/CN2014/074919 CN2014074919W WO2014166376A1 WO 2014166376 A1 WO2014166376 A1 WO 2014166376A1 CN 2014074919 W CN2014074919 W CN 2014074919W WO 2014166376 A1 WO2014166376 A1 WO 2014166376A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature descriptor
probability density
density function
global feature
Prior art date
Application number
PCT/CN2014/074919
Other languages
English (en)
French (fr)
Inventor
段凌宇
林杰
陈杰
杨爽
李冰
黄铁军
高文
Original Assignee
北京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201310127331.7A external-priority patent/CN103226589B/zh
Application filed by 北京大学 filed Critical 北京大学
Publication of WO2014166376A1 publication Critical patent/WO2014166376A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the embodiments of the present invention relate to the field of computers, and in particular, to a method for acquiring a compact global feature descriptor of an image and an image retrieval method.
  • an image retrieval method based on an intelligent terminal includes: 1) extracting a local feature descriptor of an image on a mobile client; 2) compressing the extracted local feature descriptor; 3) compressing the local feature descriptor through the network Transferred to the server, so that the server looks up the database based on the local feature descriptor and sends the result of the lookup to the mobile client.
  • the local feature compression of the image retrieval method and the calculation of the index file such as the inverted row are relatively high.
  • the local feature descriptor acquired in the image retrieval method occupies a large space, thereby, according to the current network bandwidth.
  • the mobile client has a problem that the local feature descriptor cannot be sent to the server relatively quickly.
  • the process of the server searching for the matching according to the local feature transmitted by the mobile client is also very slow, which seriously affects the query response time of the retrieval system and reduces the query. effectiveness.
  • the prior art also proposes a method for image retrieval using global visual features.
  • the feature dimension reduction method and descriptor compression method used require a large amount of storage space for The storage dimension reduction matrix and the quantization table cannot be implemented on a mobile terminal with low memory.
  • the length of the global feature descriptor is a fixed length, which cannot be applied to various retrieval conditions, thereby affecting the performance of the image search. Summary of the invention
  • embodiments of the present invention provide a method for acquiring a compact global feature descriptor of an image and an image retrieval method.
  • an embodiment of the present invention provides a method for acquiring a compact global feature descriptor of an image, including: acquiring at least one local feature descriptor of an image, where the at least one local feature descriptor forms a set;
  • the global feature descriptor is data compressed to obtain a compact global feature descriptor of the image.
  • the local feature descriptors in the first subset are dimension-reduced, and the reduced-dimensional local feature descriptors are obtained, including: using a dimensionality reduction matrix to reduce local feature descriptors in the first subset Dimension, the local feature descriptor after the dimension reduction is obtained; wherein the dimension reduction matrix is a matrix obtained by training the preset first image data set in the dimension reduction manner.
  • the converting the reduced local feature descriptor to the global feature descriptor for expressing the image visual feature according to the preset first rule includes:
  • the cumulative gradient vector set is processed according to a Fi sher vector sparsity discrimination rule, and a global feature descriptor for expressing the visual feature of the image is generated.
  • the Fi sher vector generation rule includes an offline step and an online step.
  • Fi sher vector generation rule converting the reduced-dimensional local feature descriptors to obtain a cumulative gradient vector set, and constructing a first Fisher vector from the cumulative gradient vectors in the cumulative gradient vector set, includes:
  • the offline step of the Fisher vector generation rule includes: training a preset second image data set to obtain a probability distribution model for generating a Fi sher vector, wherein the probability distribution model is linearly superimposed by M independent probability density functions Obtained, wherein M is a natural number greater than or equal to 1;
  • the online step of the Fisher vector generation rule includes: converting each reduced-dimensional local feature descriptor into a gradient vector according to each probability density function in the probability distribution model, and obtaining a function for each probability density Gradient vector set;
  • the cumulative gradient vectors corresponding to the M probability density functions of the probability distribution model constitute a cumulative gradient vector set, and the ⁇ 'Fi sher vector is constructed from the cumulative gradient vectors in the cumulative gradient vector set;
  • the online steps of the Fisher vector generation rule are:
  • the average values of all the gradient vectors of each type are respectively obtained, and one or more different types of cumulative gradient vectors corresponding to each probability density function are obtained;
  • One or more different types of cumulative gradient vectors corresponding to each of the M probability density functions of the probability distribution model constitute a cumulative gradient vector set, and a first Fisher vector is constructed from the cumulative gradient vectors in the cumulative gradient vector set;
  • the Fi sher vector sparsity discrimination rule is a statistic-based sparsity discrimination rule or a probability-based sparsity discrimination rule
  • the cumulative gradient vector set is processed according to a Fi sher vector sparsity discriminating rule, and a global feature descriptor for expressing the visual feature of the image is generated, including:
  • the statistics of all accumulated gradient vectors are sorted in order from large to small, and the cumulative gradient vectors corresponding to the first K statistic in the sorting are selected, and the selected K cumulative gradient vectors are used to express the global features of the visual features of the image.
  • the statistics of all the cumulative gradient vectors of each type are sorted in order from largest to smallest, and the cumulative gradient vectors corresponding to the first K statistices in the ranking of the statistics of all the cumulative gradient vectors of each type are selected.
  • Each of the K cumulative gradient vectors of each type constitutes a global feature descriptor for expressing an image visual feature
  • the statistic of all the cumulative gradient vectors of the certain type is sorted in order from large to small, and the cumulative gradient vectors corresponding to the first K statistic in the ranking are selected, and the selected K cumulative gradient vectors and corresponding probability density functions are correspondingly selected.
  • Other types of cumulative gradient vectors constitute a global feature descriptor for expressing visual features of the image;
  • the local feature of the dimensionality reduction describes a probability value corresponding to the child, and the probability value constitutes a probability value set of each probability density function;
  • the probability density function is selected
  • the selected cumulative gradient vector corresponding to the selected probability density function is retained, and all the retained cumulative gradient vectors are used to represent a global feature descriptor of the visual feature of the image;
  • the probability density function is selected
  • the byte size of the global feature descriptor changes according to a change of a parameter value in the first rule, and correspondingly, when the byte size of the global feature descriptor changes, the compact global The byte size of the feature descriptor also changes accordingly.
  • performing the data compression on the global feature descriptor to obtain a compact global feature descriptor of the image including: using, according to a data compression rule, a value of each dimension in the global feature descriptor Bit representation.
  • the method for acquiring a compact global feature descriptor of an image in the embodiment of the present invention reduces the dimension of the selected local feature descriptor by selecting some local feature descriptors in all local feature descriptors of the image, and The reduced-dimensional local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image.
  • the compact global feature descriptor obtained by the above method utilizes the statistical characteristics of the image visual feature, is more compact and has scalability, and solves the defect of insufficient space on the mobile terminal with low memory in the prior art.
  • the compact global feature descriptor described above is a scalable compact global feature descriptor, and the scalability is manifested in that the compact global feature descriptor is structurally progressive, that is, by progressively adding new features.
  • the image is more and more accurate.
  • an embodiment of the present invention provides a method for generating a bitstream by using a compact global feature descriptor, including: a method for acquiring a compact global feature descriptor of an image, as described above, And, also includes:
  • a bitstream for expressing an image visual feature is generated according to a preset first rule and a global feature descriptor, a compact global feature descriptor.
  • the bit stream includes a header and a non-header
  • the offline step of the Fi sher vector generation rule in the first rule includes: training a preset second image data set to obtain a Fi sher vector. a probability distribution model obtained by linearly superimposing M independent probability density functions, wherein M is a natural number greater than or equal to 1;
  • the compact global feature descriptor includes:
  • the length of all dimensions of the head of the bitstream is the same as the number of probability density functions in the probability distribution model, and a probability density function in the probability distribution model corresponds to one of the heads of the bitstream Dimension
  • the value of the corresponding dimension of the head of the bit stream corresponding to the probability density function is 1, otherwise 0;
  • the first several dimensions of the header of the bitstream are used to indicate the number of classes of the cumulative gradient vector corresponding to the probability density function, and the length of the remaining dimension of the head of the bitstream is in the probability distribution model.
  • the number of probability density functions is the same, and a probability density function in the probability distribution model corresponds to a dimension of the head of the bit stream;
  • the value of the corresponding dimension of the head of the bit stream corresponding to the probability density function is 1, otherwise 0;
  • the first several dimensions of the header of the bitstream are used to indicate the number of classes of the cumulative gradient vector corresponding to the probability density function, and the length of the remaining dimension of the bitstream header is in the probability distribution model.
  • a product of a number of probability density functions and a number of categories of cumulative gradient vectors corresponding to the probability density function, and each cumulative gradient vector corresponding to a probability density function in the probability distribution model corresponds to a head of the bit stream
  • the compact global feature descriptors are grouped into non-headers of the bitstream.
  • the method for generating a bit stream by using a compact global feature descriptor in the embodiment of the present invention by selecting some local features of all local feature descriptors of the image
  • the descriptor is used to describe the dimension reduction of the selected local feature, and the reduced local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is compressed to obtain an image.
  • the compact global feature descriptor which in turn generates a bitstream that expresses the global visual features of the image.
  • the bit stream obtained by the above method takes up very little space, and solves the problem that the image retrieval capability is low when the network bandwidth is limited in the prior art.
  • an embodiment of the present invention provides a method for performing image matching based on a bitstream, including:
  • Whether the target image matches the image to be matched is determined based on the similarity based on the Hamming distance.
  • the image matching method based on the bit stream in the embodiment of the present invention reduces the dimension of the selected local feature descriptor by selecting some local feature descriptors in all local feature descriptors of the image, and The post-dimensional local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image, thereby generating a bit stream expressing the visual feature of the image.
  • the bit stream is characterized in that bit streams of different byte sizes can be compared, interoperability in the image matching process is realized, and the flexibility of the image matching process is increased.
  • an embodiment of the present invention provides an image retrieval method, including:
  • the client obtains a bitstream for expressing a visual feature of the target image by using a compact global feature description sub-generating bitstream as described above, and further includes:
  • the server compares the bit stream of the target image with a bit stream of any image in the image library in the server, and obtains a server with the highest similarity based on the Hamming distance of the previous Q bit streams of the target image a bitstream of an image in an image library within;
  • the server selectively performs post-processing on the image corresponding to the bit stream of the image in the image library in the top Q based on the Hamming distance and the largest similarity;
  • the server transmits an image in an image library in the server obtained through the post-processing to the client.
  • the server compares a bitstream of the target image with a bitstream of any image in the image library in the server, and obtains a Hamming distance similarity of the bitstreams of the first Q and the target image.
  • the bit stream of the image in the image library in the server having the largest degree, comprising: the head of the bit stream of the image stream according to the header of the target image and the image stream of any image in the image library in the server, Determining whether the global feature descriptor of the target image and the global feature descriptor of any image in the image library in the server contain the same type of cumulative gradient vector corresponding to the same probability density function;
  • the bit stream of the image in the image library in the server with the largest similarity between the previous Q and the bit stream of the target image based on the Hamming distance is obtained.
  • the image retrieval method in the embodiment of the present invention selects partial local feature descriptors in all local feature descriptors of the image, reduces the dimension of the selected local feature descriptors, and reduces the dimensionality of the local features.
  • the descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image, and then a bit stream expressing the visual feature of the image is generated and sent to the server, Make the server look for similar images.
  • the above method can meet the requirements of different image search applications in terms of memory consumption and scalability, and can further improve the performance of image search and matching, and can be better applied to image search based on mobile terminals.
  • FIG. 1 is a schematic flowchart diagram of a method for acquiring a compact global feature descriptor of an image according to an embodiment of the present invention
  • FIG. 2 to FIG. 5 are schematic flowcharts of a method for acquiring a compact global feature descriptor of an image according to another embodiment of the present invention.
  • FIG. 6 and FIG. 7 are schematic flowcharts of a method for generating a bitstream using a compact global feature descriptor according to another embodiment of the present invention.
  • FIG. 8 is a schematic flowchart of a method for performing image matching based on a bitstream according to an embodiment of the present invention
  • FIG. 9 is a schematic structural diagram of an apparatus for acquiring a compact global feature descriptor of an image according to an embodiment of the present invention.
  • FIG. 10 is a schematic structural diagram of a bit stream generating apparatus according to an embodiment of the present invention
  • FIG. 11 is a schematic structural diagram of an image retrieving system according to an embodiment of the present invention.
  • FIG. 1 is a schematic flowchart of a method for acquiring a compact global feature descriptor of an image according to an embodiment of the present invention. As shown in FIG. 1, the method for acquiring a compact global feature descriptor of an image in this embodiment is as follows: .
  • compact global feature description in this embodiment may be performed on any device, and the embodiment does not limit whether the execution entity is a client or a server.
  • the image mentioned above may be any image, for example, the image may be a photo with a file, or a hand-drawn image, an oil painting image, a frame taken from a video, a landmark photo, or an article photo, etc.
  • This embodiment does not limit the types and figures of the above images. Like the content.
  • the manner of obtaining at least one local feature descriptor of the image is an existing manner.
  • the local feature descriptor may be a Scal e Invar iant Feature Transform (SIFT).
  • SIFT Scal e Invar iant Feature Transform
  • the local feature descriptor described above may be a fast and robust Scale in Up Robust Feature (SURF), or other local feature descriptor.
  • the extraction method of S IFT or SURF may be an existing extraction mode, which is not described in detail in this embodiment.
  • the SIFT dimension is 128 dimensions and the SURF dimension is 64 dimensions.
  • 300 local feature descriptors may be selected to form the first subset.
  • 150 local feature descriptors may be composed into the first subset.
  • the local feature description of the image as exemplified in Figure 2 is selected as follows.
  • the compact global feature descriptor in this embodiment is a compact global feature descriptor of scalability.
  • the byte size of the global feature descriptor may change according to a change of a parameter value in the first rule, and a byte size of the compact global feature descriptor may also change accordingly.
  • the method for acquiring a compact global feature descriptor of an image in the embodiment of the present invention reduces the dimension of the selected local feature descriptor by selecting some local feature descriptors in all local feature descriptors of the image, and The reduced-dimensional local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image.
  • the compact global feature descriptor obtained by the above method utilizes the statistical characteristics of the image visual feature, is more compact and scalable, and solves the defect of insufficient space on the mobile terminal with low memory in the prior art.
  • the compact global feature descriptor described above is a scalable compact global feature description, and the scalability is characterized in that the compact global feature descriptor is structurally progressive, that is, by progressively adding new features, the image can be achieved. The more accurate the description.
  • FIG. 2 is a schematic flowchart of a method for acquiring a compact global feature descriptor of an image according to another embodiment of the present invention. Based on the embodiment shown in FIG. 1 , in the embodiment, the foregoing step 102 is performed. The following substeps 1021 through 1023 may be included.
  • one or more SIFTs are extracted, and a subset of N SIFTs is selected from all SIFTs, and the SIFT in the subset is used for generation of subsequent global feature descriptors, where N is greater than zero.
  • N is 300.
  • the matching image pair refers to two images containing the same object or the same scene
  • the non-matching image pair refers to two images containing different objects or different scenes.
  • different characteristics can include, for example, scale, direction, peak of Gaussian difference, distance to the center of the image, and so on.
  • one or more SIFTos are selected from all SIFTs of the image of the operation to be performed in step 101 according to the probability.
  • the probability of the correct matching of the SIFT is based on the product of the probability of correct matching of SIFT calculated by different characteristics, and is used as a basis for selecting elements in the SIFT subset.
  • FIG. 3 is a schematic flowchart diagram of a method for acquiring a compact global feature descriptor of an image according to another embodiment of the present invention.
  • the foregoing step 103 may include the following sub-step 1031.
  • the dimension reduction matrix is a matrix obtained by training a preset first image data set in a dimensionality reduction manner.
  • the dimensionality reduction method may be a principal component analysis or a linear discriminant analysis method, and the principal component analysis method may refer to "Jol l iffe, I. T. (1986). Pr inc ipal Component Analysi s. Spr inger-Ver The content disclosed in lag. pp. 487.,,.
  • the dimension reduction method may mainly adopt a principal component analysis method.
  • the first image data set described above does not include the image mentioned in the above step 101 for generating a compact global feature descriptor.
  • the sub-steps of 103 described above may be sub-steps 103 ⁇ not shown in the following figures.
  • the dimension reduction method may mainly adopt a principal component analysis method.
  • the purpose of describing the sub-dimension reduction of the local feature in the selected first subset is to reduce the dimension of the global feature descriptor of the generated image, thereby reducing the compact global feature of the finally generated image. Descriptive sub-dimensions; Further, through the dimensionality reduction operation, the redundant information in the local feature descriptors of the selected first subset can be eliminated, thereby improving the performance of image search and matching.
  • FIG. 4 is a schematic flowchart of a method for acquiring a compact global feature descriptor of an image according to another embodiment of the present invention.
  • the foregoing step 104 is performed.
  • Sub-steps 1041 and 1042 can be included as follows.
  • the Fi sher vector generation rule in the above step 1041 may include an offline step and an online step:
  • the offline steps of the Fi sher vector generation rule include:
  • the online steps of the Fi sher vector generation rule include:
  • the cumulative gradient vectors corresponding to the M probability density functions of the probability distribution model constitute a cumulative gradient vector set, and the first Fi sher vector is constructed from the cumulative gradient vectors in the cumulative gradient vector set.
  • the online steps of the aforementioned Fi sher vector generation rule may also be as follows:
  • the average values of all the gradient vectors of each type are respectively obtained, and one or more different types of cumulative gradient vectors corresponding to each probability density function are obtained;
  • One or more different types of cumulative gradient vectors corresponding to the M probability density functions of the probability distribution model constitute a cumulative gradient vector set, and a first Fi sher vector is constructed from the cumulative gradient vectors in the cumulative gradient vector set.
  • the gradient vector in this embodiment may be a plurality of different types, and each type corresponds to one gradient vector.
  • the aforementioned one or more different types of gradient vectors specifically mean a gradient vector of a certain type, or a plurality of gradient vectors of a plurality of different types.
  • the cumulative gradient vector in this embodiment may also be a plurality of different types, each The type corresponds to a cumulative gradient vector.
  • the aforementioned one or more different types of cumulative gradient vectors specifically mean one cumulative gradient vector of a certain type, or a plurality of cumulative gradient vectors of a plurality of different types.
  • a probability distribution model for generating a Fi sher vector can be trained offline using the second image data set.
  • the probability distribution model can be a Gaussian mixture model.
  • the probability distribution model in practical applications can also apply other probability distribution models, not limited to Gaussian mixture models.
  • the second image data set described above also does not include the image mentioned in the above step 101 for generating a compact global feature descriptor.
  • the first image data set described above and the second image data set described above may be the same or different.
  • Bu sher vector generation rules lj can refer to " Florent Perronnin
  • the Fi sher vector sparsity discriminant rule may be a statistic-based sparsity discriminant rule, or the Fi sher vector sparsity discriminant rule may be a probability-based sparsity discriminant rule.
  • the statistics may include statistics such as variance, expectation, etc.
  • the statistics-based sparsity discrimination rule may be specifically applied in practice as a variance-based sparsity discrimination rule.
  • the Fi sher vector sparsity discrimination rule is a variance-based sparsity discrimination rule lj
  • the above step 1042 may specifically include steps 10421 and 10422 not shown in the following figure.
  • the variance-based sparsity discrimination rule may also be steps 10421a and 10422a not shown in the following figures:
  • the cumulative gradient vector corresponding to the variance is composed of each type of ⁇ cumulative gradient vectors selected for expressing the global feature descriptor of the visual feature of the image.
  • variance-based sparsity discrimination rule may also be steps 10421b and 10422b which are not shown in the following figures:
  • the types of cumulative gradient vectors can be of three types: for example, for a desired cumulative gradient vector, a cumulative gradient vector for variance, or a cumulative gradient vector for weights (note that the type of cumulative gradient vector is not Limited to the above three). If the variance of the values of all dimensions of each cumulative gradient vector is selected for the desired cumulative gradient vector, the first K cumulative gradient vectors are obtained according to the variance order, and the probability corresponding to the K cumulative gradient vectors is also selected.
  • the cumulative gradient vector for the variance obtained by the density function and the cumulative gradient vector for the weight constitute a global feature descriptor for expressing the visual features of the image.
  • the Fi sher vector sparsity discriminant rule can be a probability-based sparsity discriminating rule
  • the step 1042 may specifically include the steps 1042 ⁇ and 10422 ' not shown in the following figure.
  • the probability density function is selected
  • the cumulative gradient vector corresponding to the selected probability density function is retained, and all of the retained cumulative gradient vectors are used to represent global feature descriptors of the visual features of the image.
  • steps 1042 ⁇ and 10422 ' may also be steps 1042 ⁇ a and 10422 ' a: not shown in the following figures:
  • the probability density function is selected
  • the sparsity in the Fisher vector sparsity discrimination rule refers to: When most of the dimensions of the first Fisher vector have little effect on the retrieval-oriented discriminative power of the expression image, the first Fisher vector is called Sparse.
  • the foregoing first Fisher vector may be an adaptive Fisher vector described in the field, and the adaptive refers to generating a Fisher vector according to the statistical characteristics of the image visual feature, which is convenient for description in the embodiment of the present invention, and is used in some places.
  • a Fisher vector in some embodiments, uses an adaptive Fisher vector where the first Fisher vector and the adaptive Fisher vector are identical except that the name is different.
  • the Gaussian mixture model is trained using the second image data set, and the Gaussian mixture model is used to generate an adaptive Fisher vector for the image in step 101, which specifically includes:
  • the parameter set of the Gaussian mixture model trained by the SOU through the second image data set is a parameter including ⁇ a Gaussian component, including the mixed weight, K, 3 ⁇ 4 ], the mean vector
  • JC " I 1 JV ⁇ , A is the first dimension-reduced SIFT, and the dimension is d.
  • the log-likelihood function obtains a partial derivative of the mean vector of the first Gaussian component
  • the cumulative gradient vector & , g ' to the first Gaussian component can be any type of cumulative gradient vector in equation (2a) or (2b), or from the cumulative gradient vector in equations (2a) and (2b)
  • the combination is obtained, and is not limited to the two types of cumulative gradient vectors in the equations (2a) and (2b), and may be other types of cumulative gradient vectors.
  • is the standard deviation of the first Gaussian component
  • ri (i) is in the first
  • the water Gaussian component produces the probability of the first dimensionally reduced SIFT.
  • the step subsequent to S01 to S05 is a statistic-based sparsity discrimination rule.
  • the statistic may include statistics such as variance and expectation.
  • the statistic-based sparsity discriminant rule may be specifically applied in practice as a variance-based sparsity discriminating rule such as S06 and S07:
  • a variance-based sparsity discriminant rule for the adaptive Fisher vector, calculating a variance of values of all dimensions of the cumulative gradient vector of each Gaussian component
  • the steps S06 and S07 after the foregoing S01 to S05 may also be steps S06a and S07a not shown in the following figures: S06a. Obtain a variance of values of all dimensions of each of the cumulative gradient vectors of each type in the set of cumulative gradient vectors;
  • steps S06 and S07 subsequent to S01 to S05 described above may also be steps S06b and S07b not shown in the following figures:
  • S06b a variance-based sparsity discriminant rule, for an adaptive Fisher vector, calculating a variance of values of all dimensions of a certain type of cumulative gradient vector of each Gaussian component
  • the advantage of this kind of Fisher vector sparsity discriminant rule is that it can generate scalable global feature descriptors for different performance requirements in different application scenarios, thereby improving the efficiency of image search and matching.
  • the second method is a sparsity discrimination rule based on the probability of generating the dimensionally reduced SIFT under Gaussian components.
  • a scalable global feature descriptor can be generated by modifying the preset threshold in different application scenarios. It should be understood that, in a statistical sense, the greater the maximum probability of generating all of the dimensionally reduced SIFTs under the first Gaussian component, the greater the variance of the values of all dimensions of the cumulative gradient vector of the first Gaussian component. Therefore, the results of the two rules are basically the same.
  • FIG. 5 is a schematic flowchart diagram of a method for acquiring a compact global feature descriptor of an image according to another embodiment of the present invention.
  • the foregoing step 105 The following substep 1051 can be included.
  • values of each dimension in the global feature descriptor are represented by one bit.
  • data compression rules can include the following:
  • the binary value is 1; if the value of a dimension in the global feature descriptor is negative and zero, the binary value is
  • the simplest binarization method can be used to perform data compression on the scalable global feature descriptor
  • the corresponding position is 1, otherwise the corresponding position is 0.
  • the method for obtaining a compact global feature descriptor of an image may include the above-described step 101 - step 1021 - step 1022 - step 1023 - step 1031 - step 1041 - step 1042 - Step 1051.
  • the above step 1031 may be replaced by 103 ;; or, the above step 1042 may be replaced by 1042 ⁇ , 10422 '; or the above step 1042 may be replaced by 10421, 10422; or, the above step 1041 - Step 1042 can be replaced by S01 to S07.
  • the method described in this embodiment selects a local feature descriptor having a decision power according to the statistical characteristics of the local feature descriptor, and uses the principal component analysis method to select the selected feature.
  • the local feature descriptor is used for dimensionality reduction.
  • the localized feature descriptors of the reduced dimension are used to generate the adaptive Fisher's vector.
  • the adaptive Fisher's vector is further compressed according to the sparsity of the Fisher vector, and the scalable global is obtained.
  • the feature descriptor, and finally a compact global feature descriptor is obtained by sub-binarization of the global feature descriptor.
  • the search-oriented global feature descriptor provided by this embodiment can meet different applications and global features.
  • the scalable global visual feature descriptor provided by this embodiment can interoperate between global feature descriptors of different byte sizes, and has better flexibility.
  • FIG. 6 is a schematic flowchart of a method for generating a bit stream by using a compact global feature descriptor according to another embodiment of the present invention. As shown in FIG. 6, the method for generating a bit stream by using a compact global feature descriptor in this embodiment is shown in FIG. As described below.
  • the image mentioned above may be any image, for example, the image may be a photo with a file, or a hand-drawn image, an oil painting image, a frame taken from a video, a landmark photo, or an article photo, etc.
  • the embodiment does not limit the type of the above image and the content of the image.
  • the manner of obtaining at least one local feature descriptor of the image is an existing method.
  • the local feature descriptor may be a scale invariant descriptor (Scal e
  • SIFT Invar iant Feature Transform
  • SURF Up Robust Features
  • the extraction method of S IFT or SURF may be an existing extraction mode, which is not described in detail in this embodiment.
  • the SIFT dimension is 128 dimensions and the SURF dimension is 64 dimensions.
  • the total number of local feature descriptors of the image is 1000, then 300 local feature descriptors may be selected to form the first subset.
  • the total number of local feature descriptors of the image is 150, 150 local feature descriptors may be composed into the first subset.
  • the local feature description of the image as exemplified in FIG. 2 is selected.
  • the content of the reduced-dimensional local feature descriptor is obtained as exemplified in FIG. 3 .
  • the content of the global feature descriptor is obtained as exemplified in FIG. 4 . 605.
  • the byte size of the global feature descriptor may be changed according to a parameter value in the first rule. Changes, the byte size of the compact global feature descriptor will also change accordingly.
  • the content of the compact global feature descriptor is obtained as exemplified in FIG.
  • the method for generating a bit stream by using a compact global feature descriptor in this embodiment selects a partial local feature descriptor in all local feature descriptors of the image, and reduces the dimension of the selected local feature descriptor, and The reduced-dimensional local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image, thereby generating a global visual feature of the expressed image.
  • Bit stream The bit stream obtained by the above method takes up very little space, and solves the problem that the limited image transmission feature in the prior art causes the server image retrieval capability to be low.
  • step 602 can be implemented by using the steps 1021, 1022, and 1023 shown in FIG.
  • step 603 can be implemented by using the step 1031 shown in FIG. 3.
  • step 603 may be specifically implemented by using the method 103 ⁇ exemplified in the foregoing embodiment.
  • step 604 can be implemented by using the steps 1041 and 1042 shown in FIG. 4 .
  • step 604 may be specifically implemented by using step 1041 and steps 10421, step 10422; or, optionally, step 604 may specifically employ step 1041 and step 1042, step 10422'
  • step 604 can be implemented by using steps S01 through S07.
  • step 605 can be implemented by using steps 1051 and 1052.
  • FIG. 7 is a schematic flowchart of a method for generating a bit stream by using a compact global feature descriptor according to another embodiment of the present invention.
  • the foregoing step 606 may include the following steps. Sub-step 6061 to sub-step 6063.
  • the bitstream includes a header and a non-header, and an offline step of the Fi sher vector generation rule in the first rule includes training a preset second image data set to obtain a probability distribution model for generating a Fi sher vector.
  • the probability distribution model is a linear stack of M independent probability density functions. Added, where M is a natural number greater than or equal to 1;
  • the length of all dimensions of the header of the bitstream is the same as the number of probability density functions in the probability distribution model, and a probability density function in the probability distribution model corresponds to a header of the bitstream.
  • step 6061 may also be: the first several dimensions of the header of the bitstream are used to indicate the number of classes of the cumulative gradient vector corresponding to the probability density function, the head of the bitstream The length of the remaining dimension is the same as the number of probability density functions in the probability distribution model, and a probability density function in the probability distribution model corresponds to a dimension of the head of the bitstream.
  • step 6061 may be: the first several dimensions of the header of the bitstream are used to indicate the number of categories of the cumulative gradient vector corresponding to the probability density function, and the remaining dimensions of the bitstream header
  • the length is the product of the number of probability density functions in the probability distribution model and the number of categories of cumulative gradient vectors corresponding to the probability density function, and each accumulation corresponding to a probability density function in the probability distribution model
  • the gradient vector corresponds to a dimension of the head of the bitstream.
  • a cumulative gradient vector corresponding to a probability density function in the probability distribution model is used to form the global feature descriptor, a corresponding dimension of a header of the bitstream corresponding to the probability density function The value is 1, otherwise it is 0.
  • the head of the bit stream is composed of several 0s and 1s, and the length of all the dimensions is equal to the number of probability density functions in the probability distribution model, and each probability density function of the probability distribution model corresponds to a dimension of the bit stream header. If the cumulative gradient vector corresponding to the probability density function is used to splicing into a scalable global feature descriptor, the corresponding dimension of the bitstream header is set to 1, otherwise it is set to 0.
  • the head of the bit stream is composed of a number of 0s and 1s.
  • the first few dimensions are used to indicate the number of categories of cumulative gradient vectors corresponding to the probability density function, and the lengths of the remaining dimensions are equal to the number of probability density functions in the probability distribution model, probability.
  • Each probability density function of the distribution model corresponds to a dimension of the bit stream header. If the cumulative gradient vector corresponding to the probability density function is used to be spliced into a scalable global feature descriptor, the corresponding dimension of the bit stream header is set to 1, otherwise set to 0.
  • the head of the bit stream is composed of a number of 0s and 1s, and the first several dimensions are used to indicate the number of categories of cumulative gradient vectors corresponding to the probability density function, and the lengths of the remaining dimensions are equal to the probability distribution.
  • Each cumulative gradient vector corresponding to a probability density function in the probability distribution model corresponds to a dimension of the bit stream head. If the cumulative gradient vector is used to stitch into a scalable global feature descriptor, the corresponding dimension of the bitstream header is set to 1, otherwise it is set to zero.
  • FIG. 8 is a schematic flowchart diagram of a method for performing image matching based on a bit stream according to another embodiment of the present invention. As shown in FIG. 8, the method for performing image matching based on a bit stream in this embodiment is as follows.
  • the image mentioned above may be any image, for example, the image may be a photo with a file, or a hand-drawn image, an oil painting image, a frame taken from a video, a landmark photo, or an article photo, etc.
  • the embodiment does not limit the type of the above image and the content of the image.
  • the manner of obtaining at least one local feature descriptor of the image is an existing manner.
  • the local feature descriptor may be a Scal e Invar iant Feature Transform (SIFT).
  • SIFT Scal e Invar iant Feature Transform
  • the local feature descriptor described above may be a fast and robust Scale in Up Robust Feature (SURF), or other local feature descriptor.
  • the extraction method of S IFT or SURF may be an existing extraction mode, which is not described in detail in this embodiment.
  • the SIFT dimension is 128 dimensions and the SURF dimension is 64 dimensions.
  • the 300 local feature descriptors form the first subset.
  • 150 local feature descriptors may be composed into the first subset.
  • the local feature description of the image as exemplified in FIG. 2 is selected. 803. Perform dimension reduction on the local feature descriptors in the first subset to obtain a local feature descriptor after the dimension reduction.
  • the content of the reduced-dimensional local feature descriptor is obtained as exemplified in FIG. 3 . 804. Convert, according to the preset first rule, the reduced local feature descriptor into A global feature descriptor for expressing the visual features of the image.
  • the content of the global feature descriptor is obtained as exemplified in FIG.
  • the byte size of the global feature descriptor may change according to a change of a parameter value in the first rule, and a byte size of the compact global feature descriptor may also change accordingly.
  • the content of the compact global feature descriptor is obtained as exemplified in FIG.
  • the content of the bitstream is generated as exemplified in FIG.
  • the calculation method based on the similarity of the Hamming distance is:
  • the all bits of the target image are XORed with the bit subsegments of the all bits of the image to be matched that can correspond to the same probability density function, and the bits with the value of 1 in the XOR operation result are calculated.
  • the number of the bits is recorded as the Hamming distance between the bit sub-segment of the target image and the bit sub-segment of the image to be matched;
  • the distance weight is learned by a machine learning method based on a plurality of matching image pairs and non-matching image pairs, or is set according to experience;
  • the manner of determining whether the target image matches the matched image according to the similarity of the Hamming distance may include the following examples:
  • Manner 2 implementing the image matching process on the third data set, and establishing a coordinate system according to the matching situation on the third data set, wherein the horizontal axis is the target density image of the third data set corresponding to the probability density function used by the image to be matched.
  • the total number of cumulative gradient vectors, and the vertical axis is the similarity based on the Hamming distance.
  • the method for determining whether the target image matches the image to be matched based on the Hamming distance similarity is not limited to the above two types, and other determination methods may be used.
  • the image matching method based on the bit stream in the embodiment of the present invention reduces the dimension of the selected local feature descriptor by selecting some local feature descriptors in all local feature descriptors of the image, and The post-dimensional local feature descriptor is converted into a global feature descriptor for expressing the visual feature of the image, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image, thereby generating a bit stream expressing the visual feature of the image.
  • the bit stream is characterized in that bit streams of different byte sizes can be compared, interoperability in the image matching process is realized, and the flexibility of the image matching process is increased.
  • interoperability means that bit streams of different byte sizes can be compared.
  • the present invention also provides an image retrieval method, as follows
  • the method of image retrieval in the present embodiment is as follows, as shown in steps S901 to S906.
  • the client acquires a bitstream for expressing a visual feature of the target image according to any method shown in FIG. 6 or FIG. 7.
  • the compressed local feature descriptors may be simultaneously sent to the server for dynamic invariance-based reordering of the initial image retrieval results, if conditions such as mobile device performance and unlimited network bandwidth allow.
  • geometric invariance means that for a similar image, although an image undergoes image transformation such as rotation, translation, and the like with respect to another image, the relative geometric position of the feature points has an invariance.
  • the client transmits the bit stream of the target image to a server.
  • the server acquires a bitstream for expressing a visual feature of any image in the image library in the server according to any of the methods shown in FIG. 6 or FIG. 7 above.
  • S904 The server compares a bit stream of the target image with a bit stream of any image in the image library in the server, and obtains a maximum similarity based on a Hamming distance of the bit streams of the first Q and the target image. a bitstream of an image in an image library within the server;
  • the server selectively performs post-processing on the image corresponding to the bit stream of the image in the image library in the image server in the top Q based on the Hamming distance;
  • post processing can be reordering based on geometric invariance and the like.
  • S906 The server sends an image in an image library in the server obtained through the post-processing to the client.
  • the above Q is a natural number greater than or equal to 1.
  • the image retrieval method in this embodiment selects a partial local feature descriptor in all local feature descriptors of the image, reduces the dimension of the selected local feature descriptor, and describes the local feature after the dimension reduction.
  • the sub-conversion is used to express the global feature descriptor of the image visual feature, and then the global feature descriptor is data-compressed to obtain a compact global feature descriptor of the image, thereby generating a bit stream expressing the visual feature of the image and transmitting it to the server, so that The server looks for similar images.
  • the above method can meet the requirements of different image search applications in terms of memory consumption and scalability, and can further improve the performance of image search and matching, and can be better applied to image search based on mobile terminals.
  • step S904 can include:
  • the server determines, according to a header of a bitstream of the target image and a header of a bitstream of any image in an image library in the server, a global feature descriptor of the target image and the server Whether the global feature description of any image in the image library is a cumulative gradient vector of the same type corresponding to the same probability density function;
  • S9043 Calculate a Hamming distance-based similarity between the all bits extracted from a bitstream of the target image and the all bits extracted from a bitstream of a corresponding image in the image library in the server;
  • the calculation method based on the similarity of the Hamming distance is:
  • the all bits of the target image are XORed with the bit subsegments of the all bits of the image to be matched that can correspond to the same probability density function, and the bits with the value of 1 in the XOR operation result are calculated.
  • the number of the bits is recorded as the Hamming distance between the bit sub-segment of the target image and the bit sub-segment of the image to be matched;
  • the distance weight is learned by a machine learning method based on a plurality of matching image pairs and non-matching image pairs, or is set according to experience;
  • M is the number of probability density functions in the probability distribution model
  • d is the dimension of the cumulative gradient vector corresponding to the probability density function, and whether the global feature descriptors representing the image X and the image Y respectively are used
  • the cumulative gradient vector corresponding to the i-th probability density function, a y) is the distance weight obtained by the machine learning method based on a plurality of matching image pairs and non-matching image pairs or empirically set, H « , ) is the image X
  • the image retrieval method provided by the embodiment can better reduce the query response time during image search, and improve the efficiency of image search.
  • the local feature descriptors integrate the scalable compact global feature descriptors, which reduces the memory overhead and eliminates the redundant information contained in the descriptors, improving the accuracy of the search results, and Compact global feature descriptors of different byte sizes enable efficient interoperability with greater flexibility.
  • FIG. 9 is a schematic structural diagram of an apparatus for acquiring a compact global feature descriptor of an image according to an embodiment of the present invention. As shown in FIG. 9, the apparatus for acquiring a compact global feature descriptor of an image includes: an obtaining unit 91, a descriptor Selection unit 92, descriptor sub-dimension unit 93, conversion unit 94, and compression unit 95;
  • the obtaining unit 91 is configured to acquire at least one local feature descriptor of the image, and the at least one local feature descriptor forms a set;
  • a description sub-selecting unit 92 configured to select one or more local feature descriptors from all local feature descriptors according to a selection manner of the local feature descriptor, the selected one or more local feature descriptors to form the The first subset of the collection;
  • a sub-dimension reduction unit 93 configured to perform dimension reduction on the local feature descriptors in the first subset, and obtain a local feature descriptor after the dimension reduction;
  • the converting unit 94 is configured to convert the reduced-dimensional local feature descriptor into a global feature descriptor for expressing the image visual feature according to a preset first rule;
  • a compression unit 95 configured to perform data compression on the global feature descriptor to obtain a compact global feature descriptor of the image
  • the byte size of the global feature descriptor may change according to a change of a parameter value in the first rule, and a byte size of the compact global feature descriptor may also change accordingly.
  • the device for acquiring the compact global feature descriptor of the image may be located in the client or in the server. This embodiment is merely an example.
  • FIG. 10 is a schematic structural diagram of a bit stream generating apparatus according to an embodiment of the present invention.
  • the bit stream generating apparatus in this embodiment includes the compact global feature descriptor of the acquired image shown in FIG. Acquisition unit 91, descriptor selection unit 92, descriptor sub-dimension unit 93, conversion unit 94, and compression unit 95; and a bit stream generation unit 96;
  • the bitstream generating unit 96 is configured to generate a bitstream for expressing an image visual feature according to the preset first rule and the global feature descriptor and the compact global feature descriptor.
  • the bit stream includes a header and a non-header
  • an offline step of the Fi sher vector generation rule in the first rule includes training a preset second image data set to obtain a probability for generating a Fi sher vector.
  • a distribution model wherein the probability distribution model is obtained by linear superposition of M independent probability density functions, wherein M is a natural number greater than or equal to 1;
  • the bitstream generating unit 96 can be specifically configured to:
  • the length of all dimensions of the head of the bitstream is the same as the number of probability density functions in the probability distribution model, and a probability density function in the probability distribution model corresponds to one of the heads of the bitstream a dimension, if a cumulative gradient vector corresponding to a probability density function in the probability distribution model is used to form the global feature descriptor, a value of a corresponding dimension of a header of the bit stream corresponding to the probability density function is 1, otherwise 0, the compact global feature descriptor is composed of non-headers of the bitstream.
  • bitstream generation unit can also be used to:
  • the first several dimensions of the header of the bitstream are used to indicate the number of categories of cumulative gradient vectors corresponding to the probability density function, the length of the remaining dimensions of the head of the bitstream and the probability in the probability distribution model
  • the number of density functions is the same, and a probability density function in the probability distribution model corresponds to a dimension of the head of the bit stream; if a cumulative gradient vector corresponding to a probability density function in the probability distribution model is used Forming the global feature descriptor, the value of the corresponding dimension of the header of the bitstream corresponding to the probability density function is 1, otherwise 0; the compact global feature descriptor is formed into the bitstream Non-head.
  • the first several dimensions of the header of the bitstream are used to indicate the number of classes of the cumulative gradient vector corresponding to the probability density function, and the length of the remaining dimension of the bitstream header is in the probability distribution model.
  • a product of a number of probability density functions and a number of categories of cumulative gradient vectors corresponding to the probability density function, and each cumulative gradient vector corresponding to a probability density function in the probability distribution model corresponds to a head of the bit stream
  • the value of the corresponding dimension of the head of the bit stream corresponding to the cumulative gradient vector is 1, Otherwise 0, the compact global feature descriptor is composed of non-headers of the bitstream.
  • FIG. 11 is a schematic structural diagram of an image retrieval system according to an embodiment of the present invention. As shown in FIG. 11, the image retrieval system in this embodiment includes: a client and a server;
  • the client includes the bit stream generating device 01 1 shown in FIG. 10, the sending unit 012, and the receiving unit 013, where the sending unit 012 is configured to send the bit stream generated by the bit stream generating device to the server, where the receiving unit 013 is used. Receiving the image returned by the server;
  • the server includes: a receiving unit 021, a comparing unit 022, a transmitting unit 023, and further comprising: means for acquiring a compact global feature descriptor of the image and/or comprising the bit stream generating device 024 shown in FIG.
  • the server includes the structure of the bit stream generating means 024 shown in Fig. 10.
  • the bitstream generating device 024 acquires a bitstream of each image in the image library in the server; wherein the receiving unit 021 is configured to receive a bitstream of the target image sent by the client; the comparing unit 022 is configured to use the target Comparing the bit stream of the image with the bit stream of any image in the image library in the server, and acquiring the image in the image library in the server with the largest similarity between the previous Q and the bit stream of the target image based on the Hamming distance a bitstream; and selectively performing post-processing on the image corresponding to the bitstream of the image in the image library in the server of the top Q based on the Hamming distance; the transmitting unit 023 is configured to perform the post-processing An image in the obtained image library in the server is sent to the client.
  • the above Q is a natural number greater than or equal to 1.
  • the aforementioned program can be stored in a computer readable storage medium.
  • the program when executed, performs the steps including the foregoing method embodiments; and the foregoing storage medium includes: a medium that can store program codes, such as ROM, RAM, disk or optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种获取图像的紧凑全局特征描述子的方法及图像检索方法,其中,该方法包括:获取图像的至少一个局部特征描述子,从所有的局部特征描述子中选取一个或多个局部特征描述子,将所选取的局部特征描述子进行降维,获得降维后的局部特征描述子;根据第一规则,将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子;将全局特征描述子进行数据压缩,得到图像的紧凑全局特征描述子;其中,全局特征描述子的字节大小可根据第一规则中的参数值的变化而变化。上述方法获取的全局视觉特征更加紧凑并具有可伸缩性,解决了现有技术中内存较低的移动终端上空间不足的缺陷。

Description

获取图像的紧凑全局特征描述子的方法及图像检索方法 技术领域
本发明实施例涉及计算机领域, 尤其涉及一种获取图像的紧凑全局 特征描述子的方法及图像检索方法。
背景技术
随着智能终端的发展, 移动视觉搜索应用越来越多。 当前, 基于智 能终端的图像检索方法包括: 1 ) 在移动客户端提取图像的局部特征描述 子; 2 )对提取到的局部特征描述子进行压缩; 3 )通过网络将压缩后的局 部特征描述子传输给服务器, 以使服务器根据局部特征描述子在服务器 的数据库中进行査找, 并将査找的结果发送至移动客户端。
然而, 上述图像检索方法的局部特征压缩以及建立倒排等索引文件 的计算量较高, 特别地, 图像检索方法中获取的局部特征描述子占用较 大的空间, 由此, 根据当前的网络带宽, 移动客户端存在无法较快地将 局部特征描述子发送至服务器的问题。 另外, 由于局部特征描述子占用 的较大的空间, 故服务器根据移动客户端传送的局部特征描述子査找匹 配的过程也非常迟缓, 进而严重影响了检索系统的査询响应时间, 降低 了査询效率。
此外, 现有技术还提出一种利用全局视觉特征进行图像检索的方 法, 该方法在提取全局特征描述子的过程中, 所使用的特征降维方法和 描述子压缩方法需要大量的存储空间用于存储降维矩阵和量化表等, 在 内存较低的移动终端上无法实现, 同时, 全局特征描述子的长度为固定 长度, 其无法应用于各种检索条件下, 进而影响图像搜索的性能。 发明内容
针对上述缺陷,本发明实施例提供一种获取图像的紧凑全局特征描述子 的方法及图像检索方法。
一方面, 本发明实施例提供一种获取图像的紧凑全局特征描述子的方 法, 包括: 获取图像的至少一个局部特征描述子, 所述至少一个局部特征 描述子形成一集合;
根据局部特征描述子的选择方式, 从所有的局部特征描述子中选取 一个或多个局部特征描述子, 所述选取的一个或多个局部特征描述子组 成所述集合的第一子集; 将所述第一子集中的局部特征描述子进行降维, 获得降维后的局部 特征描述子;
根据预设的第一规则, 将所述降维后的局部特征描述子转换为用于 表达所述图像视觉特征的全局特征描述子;
将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全局特 征描述子。
可选地, 将所述第一子集中的局部特征描述子进行降维, 获得降维 后的局部特征描述子, 包括: 采用降维矩阵对所述第一子集中的局部特 征描述子进行降维, 获得降维后的局部特征描述子; 其中, 所述降维矩 阵为采用降维方式训练预设的第一图像数据集之后得到的矩阵。
可选地, 所述根据预设的第一规则, 将所述降维后的局部特征描述 子转换为用于表达所述图像视觉特征的全局特征描述子, 包括:
根据 Fi sher向量生成规则, 对所述降维后的局部特征描述子进行转 换, 得到累积梯度向量集合, 并由所述累积梯度向量集合中的累积梯度 向量构造第一 Fi sher向量; 以及
根据 Fi sher向量稀疏性判别规则, 对所述累积梯度向量集合进行处 理, 并生成用于表达所述图像视觉特征的全局特征描述子。
可选地, 所述 Fi sher向量生成规则包括离线歩骤和在线歩骤。
相应地, 根据 Fi sher向量生成规则, 对所述降维后的局部特征描述 子进行转换, 得到累积梯度向量集合, 并由所述累积梯度向量集合中的 累积梯度向量构造第一 Fi sher向量, 包括:
所述 Fi sher向量生成规则的离线歩骤包括: 训练预设的第二图像数 据集得到用于产生 Fi sher向量的概率分布模型, 所述概率分布模型是由 M个独立的概率密度函数线性叠加得到的, 其中, M为大于等于 1的自然 数;
所述 Fi sher向量生成规则的在线歩骤包括: 根据所述概率分布模型 中的每一概率密度函数, 将每一降维后的局部特征描述子转换为梯度向 量, 得到针对每一概率密度函数的梯度向量集合;
针对每一概率密度函数的梯度向量集合, 求所有所述梯度向量的平 均值, 得到每一概率密度函数对应的累积梯度向量;
所述概率分布模型的 M个概率密度函数各自对应的累积梯度向量组成 累积梯度向量集合, 并由所述累积梯度向量集合中的累积梯度向量构造 第 ^ ' Fi sher向量; 或者, 所述 Fi sher向量生成规则的在线歩骤为:
根据所述概率分布模型中的每一概率密度函数, 将每一降维后的局 部特征描述子转换为一个或多个不同类型的梯度向量, 得到针对每一概 率密度函数的梯度向量集合;
针对每一概率密度函数的梯度向量集合, 分别求每种类型的所有梯 度向量的平均值, 得到每一概率密度函数对应的一个或多个不同类型的 累积梯度向量;
所述概率分布模型的 M个概率密度函数各自对应的一个或多个不同类 型的累积梯度向量组成累积梯度向量集合, 并由所述累积梯度向量集合 中的累积梯度向量构造第一 Fi sher向量;
所述 Fi sher向量稀疏性判别规则为基于统计量的稀疏性判别规则, 或者基于概率的稀疏性判别规则;
相应地, 所述根据 Fi sher向量稀疏性判别规则, 对所述累积梯度向 量集合进行处理, 并生成用于表达所述图像视觉特征的全局特征描述 子, 包括:
获取所述累积梯度向量集合中的每一累积梯度向量的所有维度的数 值的统计量;
将所有累积梯度向量的统计量按照从大到小依次排序, 选取排序中 前 K个统计量对应的累积梯度向量, 将选取的 K个所述累积梯度向量组成 用于表达图像视觉特征的全局特征描述子;
或者, 获取所述累积梯度向量集合中的每种类型的每一累积梯度向 量的所有维度的数值的统计量;
将每种类型的所有累积梯度向量的统计量按照从大到小依次排序, 选取所述每种类型的所有累积梯度向量的统计量的排序中前 K个统计量对 应的累积梯度向量, 将选取的每种类型的 K个累积梯度向量组成用于表达 图像视觉特征的全局特征描述子;
或者, 获取所述累积梯度向量集合中的某一类型的每一所述累积梯 度向量的所有维度的数值的统计量;
将所述某一类型的所有累积梯度向量的统计量按照从大到小依次排 序, 选取排序中前 K个统计量对应的累积梯度向量, 将选取的 K个累积梯 度向量及相应概率密度函数对应的其他类型的累积梯度向量组成用于表 达图像视觉特征的全局特征描述子;
或者, 针对所述概率分布模型中的每一概率密度函数求得每一所述 降维后的局部特征描述子对应的概率值, 所述概率值构成所述每一概率 密度函数的概率值集合;
若概率密度函数的所述概率值集合中的最大概率值大于预设的第一 阈值, 则选取所述概率密度函数;
将选取的所述概率密度函数对应的所述累积梯度向量保留, 并将所 有保留的所述累积梯度向量组成用于表达图像视觉特征的全局特征描述 子;
或者, 针对所述概率分布模型中的每一概率密度函数求得每一所述 降维后的局部特征描述子对应的概率值, 所述概率值构成所述每一概率 密度函数的概率值集合;
若概率密度函数的所述概率值集合中的最大概率值大于预设的第一 阈值, 则选取该概率密度函数;
将选取的所述概率密度函数对应的一个或多个不同类型的累积梯度 向量保留, 并将所有保留的所述一个或多个不同类型的累积梯度向量组 成用于表达图像视觉特征的全局特征描述子。
可选地, 所述全局特征描述子的字节大小根据所述第一规则中的参 数值的变化而变化, 相应地, 在所述全局特征描述子的字节大小变化 时, 所述紧凑全局特征描述子的字节大小也相应变化。
可选地, 所述将所述全局特征描述子进行数据压缩, 得到所述图像 的紧凑全局特征描述子, 包括: 根据数据压缩规则, 将所述全局特征描 述子中各维度的数值均用 1个比特位表示。
由上述技术方案可知, 本发明实施例的获取图像的紧凑全局特征描 述子的方法, 通过选取图像的所有局部特征描述子中的部分局部特征描 述子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述子转 换为用于表达图像视觉特征的全局特征描述子, 进而对全局特征描述子 进行数据压缩, 得到图像的紧凑全局特征描述子。 上述方法获取的紧凑 全局特征描述子利用了图像视觉特征的统计特性, 更加紧凑并具有可伸 缩性, 解决了现有技术中内存较低的移动终端上空间不足的缺陷。 特别 地, 上述的紧凑全局特征描述子为可伸缩的紧凑全局特征描述子, 该可 伸缩性表现在该紧凑全局特征描述子在结构上具有渐进性, 即通过累进 式地追加新特征可以实现对图像越来越准确的描述。
另一方面,本发明实施例提供一种采用紧凑全局特征描述子生成比特流 的方法, 包括: 如上任一所述的获取图像的紧凑全局特征描述子的方法, 以 及, 还包括:
根据预设的第一规则和全局特征描述子、 紧凑全局特征描述子生成用于 表达图像视觉特征的比特流。
可选地, 所述比特流包括头部和非头部, 所述第一规则中 Fi sher向 量生成规则的离线歩骤包括: 训练预设的第二图像数据集得到用于产生 Fi sher向量的概率分布模型, 所述概率分布模型是由 M个独立的概率密 度函数线性叠加得到的, 其中, M为大于等于 1的自然数;
相应地, 根据预设的第一规则和全局特征描述子、 紧凑全局特征描 述子生成用于表达图像视觉特征的比特流, 包括:
所述比特流的头部的所有维度的长度与所述概率分布模型中的概率 密度函数的个数相同, 且所述概率分布模型中的一概率密度函数对应所 述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则所述与该概率密度函数对应的所述比特流 的头部的相应维度的数值为 1, 否则为 0 ;
或者, 所述比特流的头部的前若干个维度用于标示所述概率密度函 数对应的累积梯度向量的类别数, 所述比特流的头部的剩余维度的长度 与所述概率分布模型中的概率密度函数的个数相同, 且所述概率分布模 型中的一概率密度函数对应所述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则所述与该概率密度函数对应的所述比特流 的头部的相应维度的数值为 1, 否则为 0 ;
或者, 所述比特流的头部的前若干个维度用于标示所述概率密度函 数对应的累积梯度向量的类别数, 所述比特流头部的剩余维度的长度为 所述概率分布模型中的概率密度函数的个数与所述概率密度函数对应的 累积梯度向量的类别数的乘积, 且所述概率分布模型中的一概率密度函 数对应的每一累积梯度向量对应所述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的一累积梯度向量用 于组成所述全局特征描述子, 则所述与该累积梯度向量对应的所述比特 流的头部的相应维度的数值为 1, 否则为 0 ;
将所述紧凑全局特征描述子组成所述比特流的非头部。
由上述技术方案可知, 本发明实施例的采用紧凑全局特征描述子生 成比特流的方法, 通过选取图像的所有局部特征描述子中的部分局部特 征描述子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述 子转换为用于表达图像视觉特征的全局特征描述子, 进而对全局特征描 述子进行数据压缩, 得到图像的紧凑全局特征描述子, 进而生成表达图 像全局视觉特征的比特流。 上述方法获取的比特流占用空间非常小, 解 决了现有技术中网络带宽限制时图像检索能力低下的问题。
第三方面, 本发明实施例提供一种基于比特流进行图像匹配的方 法, 包括:
如上任一所述的采用紧凑全局特征描述子生成比特流的方法, 以 及, 还包括:
根据目标图像的比特流的头部和待匹配图像的比特流的头部, 确定 所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是 否包含相同的概率密度函数对应的同种类型的累积梯度向量;
若包含, 则分别从目标图像的比特流的非头部与待匹配图像的比特 流的非头部中取出二者共同使用的概率密度函数对应的同种类型的累积 梯度向量经数据压缩后生成的全部比特位;
计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹 配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的 相似度;
根据所述基于汉明距离的相似度判定目标图像与待匹配图像是否匹 配。
由上述技术方案可知, 本发明实施例的基于比特流进行图像匹配的 方法, 通过选取图像的所有局部特征描述子中的部分局部特征描述子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述子转换为用 于表达图像视觉特征的全局特征描述子, 进而对全局特征描述子进行数 据压缩, 得到图像的紧凑全局特征描述子, 进而生成表达图像视觉特征 的比特流, 所述比特流的特点是可以对不同字节大小的比特流进行比 较, 实现了图像匹配过程中的互操作, 增加了图像匹配过程的灵活性。
第四方面, 本发明实施例提供一种图像检索方法, 包括:
客户端采用如上任一所述的采用紧凑全局特征描述子生成比特流的 方法获取用于表达目标图像视觉特征的比特流, 以及, 还包括:
所述客户端将所述目标图像的比特流传输至服务器;
所述服务器根据上述任一所述的采用紧凑全局特征描述子生成比特 流的方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特 流;
所述服务器将所述目标图像的比特流与所述服务器内的图像库中任 一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基于汉明距 离的相似度最大的服务器内的图像库中图像的比特流;
所述服务器选择性地对所述前 Q个基于汉明距离的相似度最大的服 务器内的图像库中图像的比特流对应的图像进行后期处理;
所述服务器将经过所述后期处理获得的服务器内的图像库中图像发 送至所述客户端。
可选地, 所述服务器将所述目标图像的比特流与所述服务器内的图 像库中任一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基 于汉明距离的相似度最大的服务器内的图像库中图像的比特流, 包括: 所述服务器根据所述目标图像的比特流的头部和所述服务器内的图 像库中的任一图像的比特流的头部, 确定所述目标图像的全局特征描述 子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相 同的概率密度函数对应的同种类型的累积梯度向量;
若包含, 则从目标图像的比特流的非头部与所述服务器内的图像库 中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应 的同种类型的累积梯度向量经数据压缩生成的全部比特位;
计算从目标图像的比特流取出的所述全部比特位和从所述服务器内 的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距 离的相似度;
获取前 Q个与目标图像的比特流的基于汉明距离的相似度最大的服务 器内的图像库中图像的比特流。
由上述技术方案可知, 本发明实施例的图像检索方法, 通过选取图 像的所有局部特征描述子中的部分局部特征描述子, 对选取的局部特征 描述子降维, 并将降维后的局部特征描述子转换为用于表达图像视觉特 征的全局特征描述子, 进而对全局特征描述子进行数据压缩, 得到图像 的紧凑全局特征描述子, 进而生成表达图像视觉特征的比特流并发送至 服务器, 以使服务器査找相似的图像。 上述方法可以在内存消耗和可伸 缩性上满足不同图像搜索应用的需求, 并且能够进一歩提升图像搜索和 匹配的性能, 能更好地应用于基于移动终端的图像搜索。
附图说明
为了更清楚地说明本发明的技术方案, 下面将对实施例中所需要使用的 附图作一简单地介绍, 显而易见地: 下面附图只是本发明的一些实施例的附 图, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得同样能实现本发明技术方案的其它附图。
图 1 为本发明一实施例提供的获取图像的紧凑全局特征描述子的方法 的流程示意图;
图 2至图 5为本发明另一实施例提供的获取图像的紧凑全局特征描述子 的方法的流程示意图;
图 6和图 7为本发明另一实施例提供的采用紧凑全局特征描述子生成比 特流的方法的流程示意图;
图 8为本发明一实施例提供的基于比特流进行图像匹配的方法的流程 示意图;
图 9为本发明一实施例提供的获取图像的紧凑全局特征描述子的装置的 结构示意图;
图 10为本发明一实施例提供的比特流生成装置的结构示意图; 图 11为本发明一实施例提供的图像检索系统的结构示意图。
具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面将结合本发明 实施例中的附图, 对本发明的技术方案进行清楚、 完整地描述。 显然, 下述的各个实施例都只是本发明一部分的实施例。 基于本发明下述的各 个实施例, 本领域普通技术人员即使没有作出创造性劳动, 也可以通过 等效变换部分甚至全部的技术特征, 而获得能够解决本发明技术问题, 实现本发明技术效果的其它实施例, 而这些变换而来的各个实施例显然 并不脱离本发明所公开的范围。
图 1示出了本发明一实施例提供的获取图像的紧凑全局特征描述子的 方法的流程示意图, 如图 1所示, 本实施例中的获取图像的紧凑全局特征 描述子的方法如下所述。
需要说明的是, 本实施例中的紧凑全局特征描述子可以是在任一设 备上进行, 本实施例不限制其执行主体为客户端还是服务器。
101、 获取图像的至少一个局部特征描述子, 所述至少一个局部特征 描述子形成一集合。
举例来说, 上述提及的图像可以是任意一幅图像, 如, 该图像可以 是具有文件的照片, 或者是手绘的图片, 油画图像, 从视频中截取的 帧, 地标照片、 或者物品照片等, 本实施例不限定上述图像的类型和图 像的内容。
特别地, 获取图像的至少一个局部特征描述子的方式为现有的方 式, 举例来说, 上述的局部特征描述子可为尺度不变描述子 (Scal e Invar iant Feature Transform , 简称: SIFT ) , 或者, 上述的局部特征 描述子可为快速鲁棒的尺度不变特征描述子 (Speeded Up Robust Features , 简称: SURF ) , 或其他局部特征描述子。
应了解的是, S IFT或 SURF的提取方式可为现有的提取方式, 本实施 例不再详述。 通常, SIFT的维度为 128维, SURF的维度为 64维。
102、 根据局部特征描述子的选择方式, 从所有的局部特征描述子中 选取一个或多个局部特征描述子, 所述选取的一个或多个局部特征描述 子组成所述集合的第一子集。
举例来说, 若图像的局部特征描述子的总数为 1000个, 则可以选取 300个局部特征描述子组成第一子集。
另外, 若图像的局部特征描述子的总数为 150个, 则可以将 150个局 部特征描述子组成第一子集。
可选地, 如下图 2中所举例的图像的局部特征描述子的选择方式。
103、 将所述第一子集中的局部特征描述子进行降维, 获得降维后的 局部特征描述子。
104、 根据预设的第一规则, 将所述降维后的局部特征描述子转换为 用于表达所述图像视觉特征的全局特征描述子。
105、 将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全 局特征描述子。
可以理解的是, 本实施例中的紧凑全局特征描述子为可伸缩性的紧 凑全局特征描述子。 例如, 在具体的实现过程中, 所述全局特征描述子 的字节大小可根据所述第一规则中的参数值的变化而变化, 紧凑全局特 征描述子的字节大小也会相应变化。
由上述技术方案可知, 本发明实施例的获取图像的紧凑全局特征描 述子的方法, 通过选取图像的所有局部特征描述子中的部分局部特征描 述子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述子转 换为用于表达图像视觉特征的全局特征描述子, 进而对全局特征描述子 进行数据压缩, 得到图像的紧凑全局特征描述子。 上述方法获取的紧凑 全局特征描述子利用了图像视觉特征的统计特性, 更加紧凑并具有可伸 缩性, 解决了现有技术中内存较低的移动终端上空间不足的缺陷。 特别 地, 上述的紧凑全局特征描述子为可伸缩的紧凑全局特征描述, 该可伸 缩性表现在该紧凑全局特征描述子在结构上具有渐进性, 即通过累进式 地追加新特征可以实现对图像越来越准确的描述。
图 2示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子 的方法的流程示意图, 在上述图 1所示的实施例的基础上, 在本实施例 中, 上述歩骤 102可包括如下的子歩骤 1021至子歩骤 1023。
本实施例中对于一幅图像, 提取一个以上 SIFT, 从所有 SIFT中选取 包含 N个 SIFT的子集, 所述子集中的 SIFT用于后续的全局特征描述子的 生成使用, 其中 N大于 0。 本实施例中 N为 300。
需要注意的是, 当上述图像提取的 SIFT的个数小于 N时, 则选取图 像的所有 SIFT作为子集中的元素。
1021、 分别对若干匹配图像对和非匹配图像对提取所述 SIFT。
其中, 匹配图像对是指包含同一个物体或同一个场景的两幅图像, 非匹配图像对是指包含不同物体或不同场景的两幅图像。 这些匹配图像 对和非匹配图像对不包括上述歩骤 101中的待执行操作的图像。
1022、 通过统计, 获得所述 SIFT的不同特性在正确匹配的 SIFT和误 匹配 SIFT中的概率分布;
其中, 不同特性可以包括, 如: 尺度、 方向、 高斯差分的峰值、 到 图像中心的距离等。
1023、 基于上述概率分布, 计算当歩骤 101中的待执行操作的图像的
SIFT的各个特性分别处于某一取值范围时, 所述 SIFT正确匹配的概率, 根据所述概率从歩骤 101中的待执行操作的图像的所有 SIFT中选取一个 或多个 SIFTo
其中, 假设所述 SIFT的不同特性统计独立, 所述 SIFT正确匹配的概 率为基于不同特性计算的 SIFT正确匹配的概率的乘积, 并以此作为选取 SIFT子集中的元素的依据。
在实际应用中, 也可以采用其他局部特征描述子的选择方法, 不限 于上述举例的歩骤 1021至歩骤 1023。
需要说明的是, 若干匹配图像对和非匹配图像对与待生成紧凑全局 特征描述子的图像是不同的。 特别地, 上述歩骤 1021和歩骤 1022是可以 预先获取的, 即离线获取然后存储在设备中的。
图 3示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子 的方法的流程示意图, 在上述图 1所示的实施例的基础上, 在本实施例 中, 上述歩骤 103可包括如下的子歩骤 1031。
103、 将所述第一子集中的局部特征描述子进行降维, 获得降维后的 局部特征描述子, 包括:
1031、 采用降维矩阵对所述第一子集中的局部特征描述子进行降 维, 获得降维后的局部特征描述子;
其中, 所述降维矩阵为采用降维方式训练预设的第一图像数据集之 后得到的矩阵。
举例来说, 降维方式可以是主成分分析、 线性判别分析等方式, 其 中主成分分析方式可以参考 " Jol l iffe, I . T. ( 1986) . Pr inc ipal Component Analysi s. Spr inger-Ver lag. pp. 487.,, 中所公开的内容。
本发明的实施例中, 降维方式可主要采用主成分分析方式。
需要说明的是, 上述的第一图像数据集不包括上述歩骤 101中提及的 用于生成紧凑全局特征描述子的图像。
进一歩地, 在图 2所示的实施例的基础上, 上述的 103的子歩骤可为 如下的图中未示出的子歩骤 103 Γ 。
103 Γ , 利用降维矩阵分别对选取的 N个 SIFT进行降维, 将 S IFT的 维度从 128维降至 32维。
本发明的实施例中, 降维方式可主要采用主成分分析方式。
需要注意的是, 不同的局部特征描述子的维度可能不同。 特别地, 可以将不同的局部特征描述子选择降至不同的维度, 该维度由上述的降 维矩阵决定。 上述仅为举例说明, 本实施例不对其进行限定。
在本实施例中, 对选取的第一子集中的局部特征描述子降维的目的 在于, 可以减小生成的图像的全局特征描述子的维度, 进而可以减小最 终生成的图像的紧凑全局特征描述子的维度; 进一歩地, 通过降维操 作, 可以消除选取的第一子集中的局部特征描述子中的冗余信息, 进而 提升图像搜索和匹配的性能。
图 4示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子 的方法的流程示意图, 在上述图 1所示的实施例的基础上, 在本实施例 中, 上述歩骤 104可包括如下的子歩骤 1041和 1042。
104、 根据预设的第一规则, 将所述降维后的局部特征描述子转换为 用于表达所述图像视觉特征的全局特征描述子, 包括:
1041、 根据 Fi sher向量 (Fi sher Vector ) 生成规则, 对所述降维后 的局部特征描述子进行转换, 得到累积梯度向量集合, 并由所述累积梯 度向量集合中的累积梯度向量构造第一 Fi sher向量。
1042、 根据 Fi sher向量稀疏性判别规则, 对所述累积梯度向量集合 进行处理, 并生成用于表达所述图像视觉特征的全局特征描述子。
举例来说, 上述歩骤 1041中的所述 Fi sher向量生成规则可包括离线 歩骤和在线歩骤:
其中, 所述 Fi sher向量生成规则的离线歩骤包括:
训练预设的第二图像数据集得到用于产生 Fi sher向量的概率分布模 型, 所述概率分布模型是由 M个独立的概率密度函数线性叠加得到的, 其 中, M为大于等于 1的自然数;
所述 Fi sher向量生成规则的在线歩骤包括:
根据所述概率分布模型中的每一概率密度函数, 将每一所述降维后 的局部特征描述子转换为梯度向量, 得到针对所述每一概率密度函数的 梯度向量集合;
针对所述每一概率密度函数的梯度向量集合, 求所有所述梯度向量 的平均值, 得到每一概率密度函数对应的累积梯度向量。
所述概率分布模型的 M个概率密度函数各自对应的所述累积梯度向量 组成累积梯度向量集合, 并由所述累积梯度向量集合中的累积梯度向量 构造第一 Fi sher向量。
在其他实施例中, 前述的 Fi sher向量生成规则的在线歩骤也可以如 下:
根据所述概率分布模型中的每一概率密度函数, 将每一降维后的局 部特征描述子转换为一个或多个不同类型的梯度向量, 得到针对每一概 率密度函数的梯度向量集合;
针对每一概率密度函数的梯度向量集合, 分别求每种类型的所有梯 度向量的平均值, 得到每一概率密度函数对应的一个或多个不同类型的 累积梯度向量;
所述概率分布模型的 M个概率密度函数各自对应的一个或多个不同类 型的累积梯度向量组成累积梯度向量集合, 并由所述累积梯度向量集合 中的累积梯度向量构造第一 Fi sher向量。
其中, 本实施例中的梯度向量可以为多个不同类型, 每种类型对应 一个梯度向量。 前述的一个或多个不同类型的梯度向量具体含义为, 某 一种类型的一个梯度向量, 或者多种不同类型的多个梯度向量。
相应地, 本实施例中的累积梯度向量也可以为多个不同类型, 每种 类型对应一个累积梯度向量。 前述的一个或多个不同类型的累积梯度向 量具体含义为, 某一种类型的一个累积梯度向量, 或者多种不同类型的 多个累积梯度向量。
在实际应用中, 利用第二图像数据集, 可离线训练用于产生 Fi sher 向量的概率分布模型。 举例来说, 概率分布模型可为高斯混合模型。 当 然, 实际应用中的概率分布模型也可以应用其他概率分布模型, 不限于 高斯混合模型。
需要说明的是, 上述的第二图像数据集也不包括上述歩骤 101中提及 的用于生成紧凑全局特征描述子的图像。 当然, 上述的第一图像数据集 和上述的第二图像数据集可以相同, 也可以不同。
it匕夕卜, Fi sher向量生成规贝 lj可以参考 " Florent Perronnin,
Chri stopher Dance (2007) . Fi sher Kernel s on Vi sual Vocabulari es for Image Categori zat ion, CVPR. "所公开的内容, 本实施例通过采用 Fi sher向量生成规则构造第一 Fi sher向量。
针对上述的歩骤 1042中的 Fi sher向量稀疏性判别规则, 该处的
Fi sher向量稀疏性判别规则可为基于统计量的稀疏性判别规则, 或者 Fi sher向量稀疏性判别规则可为基于概率的稀疏性判别规则。
通常, 统计量可包括方差、 期望等统计量, 举例来说, 基于统计量 的稀疏性判别规则可在实际中具体应用为基于方差的稀疏性判别规则。
相应地, 若 Fi sher向量稀疏性判别规则为基于方差的稀疏性判别规 贝 lj, 则上述歩骤 1042可具体包括如下的图中未示出的歩骤 10421和 10422。
10421、 获取所述累积梯度向量集合中的每一所述累积梯度向量的所 有维度的数值的方差;
10422、 将所有累积梯度向量的所述方差按照从大到小依次排序, 选 取排序中前 K个方差对应的所述累积梯度向量, 将选取的 K个所述累积梯 度向量组成用于表达所述图像视觉特征的全局特征描述子。
在其他实施例中, 基于方差的稀疏性判别规则也可以是如下的图中 未示出的歩骤 10421a和 10422a:
10421a, 获取所述累积梯度向量集合中的每种类型的每一所述累积 梯度向量的所有维度的数值的方差;
10422a, 将所述每种类型的所有累积梯度向量的方差按照从大到小 依次排序, 选取所述每种类型的所有累积梯度向量的方差的排序中前 K个 方差对应的累积梯度向量, 将选取的每种类型的 κ个累积梯度向量组成用 于表达图像视觉特征的全局特征描述子。
另外, 基于方差的稀疏性判别规则也可以是如下的图中未示出的歩 骤 10421b和 10422b :
10421b, 获取所述累积梯度向量集合中的某一类型的每一累积梯度 向量的所有维度的数值的方差;
10422b, 将所述某一类型的所有累积梯度向量的方差按照从大到小 依次排序, 选取排序中前 κ个方差对应的累积梯度向量, 将选取的 K个累 积梯度向量及相应概率密度函数对应的其他类型的累积梯度向量组成用 于表达图像视觉特征的全局特征描述子。
举例来说, 若累积梯度向量的类型可为三种类型: 例如, 针对期望 的累积梯度向量、 针对方差的累积梯度向量或针对权重的累积梯度向量 (需要注意的是, 累积梯度向量的类型不限于以上三种) 。 如果选择针对 期望的累积梯度向量用于计算每一累积梯度向量所有维度的数值的方 差, 那么根据方差排序得到前 K个累积梯度向量, 同时还要选择由与这 K 个累积梯度向量对应的概率密度函数获得的针对方差的累积梯度向量和 针对权重的累积梯度向量组成用于表达图像视觉特征的全局特征描述 子。
相应地, 若 Fi sher向量稀疏性判别规则可为基于概率的稀疏性判别 规则, 则上述歩骤 1042可具体包括如下的图中未示出的歩骤 1042 Γ 和 10422 ' 。
1042 Γ 、 针对所述概率分布模型中的每一概率密度函数求得每一所 述降维后的局部特征描述子对应的概率值, 所述概率值构成所述每一概 率密度函数的概率值集合;
10422 ' 、 若概率密度函数的所述概率值集合中的最大概率值大于预 设的第一阈值, 则选取所述概率密度函数;
将选取的所述概率密度函数对应的所述累积梯度向量保留, 并将所 有保留的所述累积梯度向量组成用于表达图像视觉特征的全局特征描述 子。
或者, 在其他实施例中, 上述的歩骤 1042 Γ 和 10422 ' 还可为如下 的图中未示出的歩骤 1042 Γ a和 10422 ' a:
1042 Γ a、 针对所述概率分布模型中的每一概率密度函数求得每一 降维后的局部特征描述子对应的概率值, 所述概率值构成所述每一概率 密度函数的概率值集合;
10422' a、 若概率密度函数的所述概率值集合中的最大概率值大于 预设的第一阈值, 则选取该概率密度函数;
将选取的所述概率密度函数对应的一个或多个不同类型的累积梯度 向量保留, 并将所有保留的所述一个或多个不同类型的累积梯度向量组 成用于表达图像视觉特征的全局特征描述子。
需要说明的是, 上述 Fisher向量稀疏性判别规则中的稀疏性是指: 第一 Fisher向量的大部分维度对于表达图像的面向检索的区分力的作用 不大时, 称这样的第一 Fisher向量是稀疏的。
另外, 上述的第一 Fisher向量可为本领域所述的自适应 Fisher向 量, 自适应是指根据图像视觉特征的统计特性生成 Fisher向量, 本发明 实施例中为描述方便, 在某些地方使用第一 Fisher向量, 在某些实施例 中使用自适应 Fisher向量, 该处的第一 Fisher向量和自适应 Fisher向 量是一致的, 只是叫法不同。
为进一歩详细描述上述的歩骤 104, 在其他实施例中, 上述的歩骤
104可包括如下的子歩骤:
利用第二图像数据集训练高斯混合模型, 所述高斯混合模型将用于 为歩骤 101中的图像生成自适应 Fisher向量, 具体包括:
SOU 通过第二图像数据集训练得到的高斯混合模型的参数集合为 Α包括 Μ个高斯分量的参数, 其中包括混合权重 ,K,¾]、 均值向量
…… 和标准差 [ …― 即 二^.,〃',^) Ζ· = 1ΚΜ。
S02、 目标图像 X可以表示为包含 N个所述降维后的 SIFT的集合, 即 X =|JC"I = 1 JV}, A为第 个降维后的 SIFT, 维度为 d。 本实施例中, N=300, d=32。
S03、 用对数似然函数£^|/1)表示目标图像, 如式(1)所示,
Figure imgf000017_0001
其中: 为高斯混合模型的参数集合, /Η^Ι^=∑;^Α^Ι^为高斯 混合模型的似然函数, ρ' 1 )为第 个高斯分量的概率密度函数。
S04、 对数似然函数 对第 个高斯分量的均值向量求偏导, 得 到第 个高斯分量的累积梯度向量 & , g' 可以是式 (2a) 或式 (2b ) 中的 任一类型累积梯度向量, 也可以由式 (2a) 和式 (2b ) 中的累积梯度向量 组合得到, 并且不限于式(2a)和式(2b )中的两种类型的累积梯度向量, 也可以是其他类型的累积梯度向量,
基于均值的累积梯度向量,
Figure imgf000018_0001
基于标准差的累积梯度向
Figure imgf000018_0002
(2b) 其中, 为第 个高斯分量的混合权重, A为第 ζ·个高斯分量的均值向
:, σ,为第 个高斯分量的标准差, ri (i) 为在第
Figure imgf000018_0003
水高斯分量产生第 个降维后的 SIFT 的概率。
505、 将 128个高斯分量各自对应的累积梯度向量依次连接起来, 得 到所述自适应 Fisher向量。
举例来说, 在另一应用场景中, 接续前述的 S01至 S05之后的歩骤为 基于统计量的稀疏性判别规则。 通常, 统计量可包括方差、 期望等统计 量, 基于统计量的稀疏性判别规则可在实际中具体应用为基于方差的稀 疏性判别规则如 S06和 S07:
506、 基于方差的稀疏性判别规则, 对于自适应 Fisher向量, 计算每 个高斯分量的累积梯度向量所有维度的数值的方差;
507、 将所有方差按照从大到小依次排序, 选取前 K个方差较大的高 斯分量的累积梯度向量, K大于 1 ; 将所述选取的高斯分量的累积梯度向 量拼接成可伸缩的全局特征描述子, 即用于表达图像视觉特征的全局特 征描述子。
在其他实施例中, 在前述的 S01至 S05之后的歩骤 S06和歩骤 S07还 可为如下的图中未示出的歩骤 S06a和 S07a: S06a、 获取所述累积梯度向量集合中的每种类型的每一累积梯度向 量的所有维度的数值的方差;
S07a、 将所述每种类型的所有累积梯度向量的方差按照从大到小依 次排序, 选取所述每种类型的所有累积梯度向量的方差的排序中前 K个方 差对应的累积梯度向量, 将选取的每种类型的 K个累积梯度向量组成用于 表达图像视觉特征的全局特征描述子。
除此之外, 在前述的 S01至 S05之后的歩骤 S06和歩骤 S07还可为如 下的图中未示出的歩骤 S06b和 S07b:
S06b、 基于方差的稀疏性判别规则, 对于自适应 Fisher向量, 计算 每个高斯分量的某一类型的累积梯度向量所有维度的数值的方差;
S07b, 将所述某一类型的所有累积梯度向量的方差按照从大到小依 次排序, 选取排序中前 K个方差对应的累积梯度向量, 将选取的 K个累积 梯度向量及相应概率密度函数对应的其他类型的累积梯度向量组成用于 表达图像视觉特征的全局特征描述子。
需要了解的是, 若所述高斯分量的累积梯度向量所有维度的数值方 差较小 (趋近于 0 ) , 则该所述累积梯度向量对于表达图像的面向搜索的 区分力的作用很小。
该种 Fisher向量稀疏性判别规则的优势是可以针对不同应用场景下 对性能的不同要求生成可伸缩的全局特征描述子, 进而提高图像搜索和 匹配的效率。
举例来说, 在另一应用场景中, 第二种是基于高斯分量下产生所述 降维后的 SIFT的概率的稀疏性判别规则, 具体的,
对最大概率
Figure imgf000019_0001
度向量 的公式 (2a) 和 (2b ) 做如下更!
)
Figure imgf000019_0002
其中, 为预置阈值。 在不同应用场景下可以通过修改所述预置阈值 生成可伸缩的全局特征描述子。 需要了解的是, 在统计意义上, 第 个高斯分量下产生所有所述降维 后的 SIFT的最大概率越大, 第 个高斯分量的累积梯度向量所有维度的数 值的方差就越大。 因此, 两种规则产生的结果基本一致。
图 5示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子 的方法的流程示意图, 在上述图 1所示的实施例的基础上, 在本实施例 中, 上述歩骤 105可包括如下的子歩骤 1051。
105、 将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全 局特征描述子, 包括:
1051、 根据数据压缩规则, 将所述全局特征描述子中各维度的数值 均用 1个比特位表示。
举例来说, 数据压缩规则可包括如下内容:
若全局特征描述子中某一维度的数值为正数, 则二进制数值为 1 ; 若全局特征描述子中某一维度的数值为负数和零, 则二进制数值为
0。
本实施例中可采用最简单的二值化 (Binar iz ing ) 方法, 对所述可伸 缩的全局特征描述子进行数据压缩;
例如, 若可伸缩的全局特征描述子某一维度的数值为非负值, 则将 对应位置为 1, 否则将对应位置为 0。
在实际应用中, 也可以采用其他将实数向量二值化的方法, 如采用 哈希映射函数等。
在一种优选的实现场景中, 获取图像的紧凑全局特征描述子的方法 可包括上述的歩骤 101—歩骤 1021—歩骤 1022—歩骤 1023—歩骤 1031— 歩骤 1041—歩骤 1042—歩骤 1051。
或者, 上述的歩骤 1031可采用 103 Γ 代替; 或者, 上述的歩骤 1042 可采用 1042 Γ 、 10422 ' 代替; 或者, 上述的歩骤 1042可采用 10421、 10422代替; 或者, 上述的歩骤 1041—歩骤 1042可采用 S01至 S07代替。
由上述图 2至图 5所示的技术方案可知, 本实施例所述的方法, 通过 根据局部特征描述子的统计特性选择具有判决力的局部特征描述子, 并 采用主成分分析方法对选取的局部特征描述子进行降维, 利用降维后的 局部特征描述子生成图像的自适应 Fi sher向量, 根据 Fi sher向量的稀疏 性对自适应 Fi sher向量进行进一歩压缩, 进而得到可伸缩的全局特征描 述子, 最终通过对全局特征描述子二值化得到紧凑全局特征描述子。 本 实施例提供的面向搜索的全局特征描述子, 可以满足不同应用对全局特 征描述子字节大小的要求, 并且能够进一歩提升图像搜索和匹配的性 能, 减少内存的消耗, 能更好地应用于基于移动设备的图像搜索。 另 夕卜, 本实施例提供的可伸缩的全局视觉特征描述子, 可以在不同字节大 小的全局特征描述子之间进行互操作, 具有更好的灵活性。
图 6示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比 特流的方法的流程示意图, 如图 6所示, 本实施例中的采用紧凑全局特征 描述子生成比特流的方法如下所述。
601、 获取图像的至少一个局部特征描述子, 所述至少一个局部特征 描述子形成一集合。
举例来说, 上述提及的图像可以是任意一幅图像, 如, 该图像可以 是具有文件的照片, 或者是手绘的图片, 油画图像, 从视频中截取的 帧, 地标照片、 或者物品照片等, 本实施例不限定上述图像的类型和图 像的内容。
特别地, 获取图像的至少一个局部特征描述子的方式为现有的方 式, 举例来说, 上述的局部特征描述子可为尺度不变描述子 (Scal e
Invar iant Feature Transform , 简称: SIFT ) , 或者, 上述的局部特征 描述子可为快速鲁棒的尺度不变特征描述子 (Speeded Up Robust Features , 简称: SURF ) , 或其他局部特征描述子。
应了解的是, S IFT或 SURF的提取方式可为现有的提取方式, 本实施 例不再详述。 通常, SIFT的维度为 128维, SURF的维度为 64维。
602、 根据局部特征描述子的选择方式, 从所有的局部特征描述子中 选取一个或多个局部特征描述子, 所述选取的一个或多个局部特征描述 子组成所述集合的第一子集。
举例来说, 若图像的局部特征描述子的总数为 1000个, 则可以选取 300个局部特征描述子组成第一子集。 另外, 若图像的局部特征描述子的 总数为 150个, 则可以将 150个局部特征描述子组成第一子集。
可选地, 如图 2中所举例的图像的局部特征描述子的选取方式。
603、 将所述第一子集中的局部特征描述子进行降维, 获得降维后的 局部特征描述子。
可选地, 如图 3中所举例的获取降维后的局部特征描述子的内容。
604、 根据预设的第一规则, 将所述降维后的局部特征描述子转换为 用于表达所述图像视觉特征的全局特征描述子。
可选地, 如图 4中所举例的获取全局特征描述子的内容。 605、 将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全 局特征描述子; 其中, 所述全局特征描述子的字节大小可根据所述第一 规则中的参数值的变化而变化, 紧凑全局特征描述子的字节大小也会相 应变化。
可选地, 如图 5中所举例的获取紧凑全局特征描述子的内容。
606、 根据预设的第一规则和全局特征描述子、 紧凑全局特征描述子 生成用于表达图像视觉特征的比特流。
由上述实施例可知, 本实施例的采用紧凑全局特征描述子生成比特 流的方法, 通过选取图像的所有局部特征描述子中的部分局部特征描述 子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述子转换 为用于表达图像视觉特征的全局特征描述子, 进而对全局特征描述子进 行数据压缩, 得到图像的紧凑全局特征描述子, 进而生成表达图像全局 视觉特征的比特流。 上述方法获取的比特流占用空间非常小, 解决了现 有技术中网络带宽限制时发送有限特征导致服务端图像检索能力低下的 问题。
在一种应用场景中, 上述的歩骤 602可具体采用图 2中所示的歩骤 1021、 歩骤 1022和歩骤 1023实现。
在第二种应用场景中, 上述的歩骤 603可具体采用图 3所示的歩骤 1031实现。 或者, 可选地, 歩骤 603可具体采用上述实施例中举例的歩 骤 103 Γ 实现。
在第三种应用场景中, 上述的歩骤 604可具体采用图 4所示的歩骤 1041和歩骤 1042实现。 或者, 可选地, 歩骤 604可具体采用歩骤 1041 和歩骤 10421、 歩骤 10422实现; 或者, 可选地, 歩骤 604可具体采用歩 骤 1041和歩骤 1042 Γ 、 歩骤 10422 ' 实现; 在一种更优选的实现方式 中, 歩骤 604可具体采用歩骤 S01至歩骤 S07来实现。
在第四种应用场景中, 上述的歩骤 605可具体采用歩骤 1051和歩骤 1052来实现。
图 7示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比 特流的方法的流程示意图, 在图 7所示的基础上, 在本实施例中, 上述歩 骤 606可包括如下的子歩骤 6061至子歩骤 6063。
所述比特流包括头部和非头部, 所述第一规则中 Fi sher向量生成规 则的离线歩骤包括训练预设的第二图像数据集得到用于产生 Fi sher向量 的概率分布模型, 所述概率分布模型是由 M个独立的概率密度函数线性叠 加得到的, 其中, M为大于等于 1的自然数;
606、 根据预设的第一规则和全局特征描述子、 紧凑全局特征描述子 生成用于表达图像视觉特征的比特流, 包括:
6061、 所述比特流的头部的所有维度的长度与所述概率分布模型中 的概率密度函数的个数相同, 且所述概率分布模型中的一概率密度函数 对应所述比特流的头部的一维度;
在其他实施例中, 歩骤 6061也可以是: 所述比特流的头部的前若干 个维度用于标示所述概率密度函数对应的累积梯度向量的类别数, 所述 比特流的头部的剩余维度的长度与所述概率分布模型中的概率密度函数 的个数相同, 且所述概率分布模型中的一概率密度函数对应所述比特流 的头部的一维度。
除此之外, 歩骤 6061还可以是: 所述比特流的头部的前若干个维度 用于标示所述概率密度函数对应的累积梯度向量的类别数, 所述比特流 头部的剩余维度的长度为所述概率分布模型中的概率密度函数的个数与 所述概率密度函数对应的累积梯度向量的类别数的乘积, 且所述概率分 布模型中的一概率密度函数对应的每一累积梯度向量对应所述比特流的 头部的一维度。
6062、 若所述概率分布模型中的一概率密度函数对应的一累积梯度 向量用于组成所述全局特征描述子, 则与所述概率密度函数对应的所述 比特流的头部的相应维度的数值为 1, 否则为 0。
也就是说, 比特流的头部由若干 0、 1组成, 其所有维度的长度等于 概率分布模型中概率密度函数的个数, 概率分布模型的每一个概率密度 函数对应比特流头部的一维度, 如果该概率密度函数对应的累积梯度向 量被用于拼接成可伸缩的全局特征描述子, 那么比特流头部的相应维度 置成 1, 否则置成 0。
或者, 比特流的头部由若干 0、 1组成, 前若干个维度用于标示概率 密度函数对应的累积梯度向量的类别数, 其余维度的长度等于概率分布 模型中概率密度函数的个数, 概率分布模型的每一个概率密度函数对应 比特流头部的一维度, 如果该概率密度函数对应的累积梯度向量被用于 拼接成可伸缩的全局特征描述子, 那么比特流头部的相应维度置成 1, 否 则置成 0。
或者, 比特流的头部由若干 0、 1组成, 前若干个维度用于标示概率 密度函数对应的累积梯度向量的类别数, 其余维度的长度等于概率分布 模型中概率密度函数的个数与所述概率密度函数对应的累积梯度向量的 类别数的乘积, 概率分布模型中的一概率密度函数对应的每一累积梯度 向量对应比特流头部的一维度, 如果该累积梯度向量被用于拼接成可伸 缩的全局特征描述子, 那么比特流头部的相应维度置成 1, 否则置成 0。
6063、 将所述紧凑全局特征描述子组成所述比特流的非头部。
图 8示出了本发明另一实施例提供的基于比特流进行图像匹配的方法 的流程示意图, 如图 8所示, 本实施例中的基于比特流进行图像匹配的方 法如下所述。
801、 获取图像的至少一个局部特征描述子, 所述至少一个局部特征 描述子形成一集合。
举例来说, 上述提及的图像可以是任意一幅图像, 如, 该图像可以 是具有文件的照片, 或者是手绘的图片, 油画图像, 从视频中截取的 帧, 地标照片、 或者物品照片等, 本实施例不限定上述图像的类型和图 像的内容。
特别地, 获取图像的至少一个局部特征描述子的方式为现有的方 式, 举例来说, 上述的局部特征描述子可为尺度不变描述子 (Scal e Invar iant Feature Transform , 简称: SIFT ) , 或者, 上述的局部特征 描述子可为快速鲁棒的尺度不变特征描述子 (Speeded Up Robust Features , 简称: SURF ) , 或其他局部特征描述子。
应了解的是, S IFT或 SURF的提取方式可为现有的提取方式, 本实施 例不再详述。 通常, SIFT的维度为 128维, SURF的维度为 64维。
802、 根据局部特征描述子的选择方式, 从所有的局部特征描述子中 选取一个或多个局部特征描述子, 所述选取的一个或多个局部特征描述 子组成所述集合的第一子集。
举例来说, 若图像的局部特征描述子的总数为 1000个, 则可以选取
300个局部特征描述子组成第一子集。
另外, 若图像的局部特征描述子的总数为 150个, 则可以将 150个局 部特征描述子组成第一子集。
可选地, 如图 2中所举例的图像的局部特征描述子的选取方式。 803、 将所述第一子集中的局部特征描述子进行降维, 获得降维后的 局部特征描述子。
可选地, 如图 3中所举例的获取降维后的局部特征描述子的内容。 804、 根据预设的第一规则, 将所述降维后的局部特征描述子转换为 用于表达所述图像视觉特征的全局特征描述子。
可选地, 如图 4中所举例的获取全局特征描述子的内容。
805、 将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全 局特征描述子;
其中, 所述全局特征描述子的字节大小可根据所述第一规则中的参 数值的变化而变化, 紧凑全局特征描述子的字节大小也会相应变化。
可选地, 如图 5中所举例的获取紧凑全局特征描述子的内容。
806、 根据预设的第一规则和全局特征描述子、 紧凑全局特征描述子 生成用于表达图像视觉特征的比特流。
可选地, 如图 7中所举例的生成比特流的内容。
807、 根据目标图像的比特流的头部和待匹配图像的比特流的头部, 确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述 子是否包含相同的概率密度函数对应的同种类型的累积梯度向量。
808、 若包含, 则分别从目标图像的比特流的非头部与待匹配图像的 比特流的非头部中取出二者共同使用的概率密度函数对应的同种类型的 累积梯度向量经数据压缩后生成的全部比特位。
809、 计算从目标图像的比特流的非头部取出的所述全部比特位和从 待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距 离的相似度。
本实施例中, 基于汉明距离的相似度的计算方法为:
目标图像的所述全部比特位与待匹配图像的所述全部比特位中能够 对应到同一概率密度函数的比特位子段之间做异或操作, 并计算异或操 作结果中值为 1的比特位的个数, 记为目标图像的所述比特位子段与待匹 配图像的所述比特位子段之间的汉明距离;
用预先学习的距离权重乘以所述比特位子段之间的汉明距离, 得到 所述比特位子段之间的加权汉明距离;
其中, 距离权重是通过机器学习方法基于若干匹配图像对和非匹配 图像对学习得到的, 或者根据经验设置的;
将所述目标图像的全局特征描述子与所述待匹配图像的全局特征描 述子共同使用的所有概率密度函数对应的所述比特位子段之间的加权距 离累加, 并做归一化操作, 得到所述基于汉明距离的相似度, 如式(3)所 示, s ,^—2* « )、 其中, M为所述概率分布模型中概率密度函数的个数, d为所述概率 密度函数对应的累积梯度向量的维度, 和 分别表示图像 X和图像 Y的 所述全局特征描述子是否使用了第 i个概率密度函数对应的累积梯度向 习得到的或者根据经验设置的距离权重, H« , )为图像 X的所述全部 比特位和图像 γ的所述全部比特位中对应第 i个概率密度函数的比特位子 段之间的汉明距离。
810、 根据所述基于汉明距离的相似度判定目标图像与待匹配图像是 否匹配。
具体地, 根据汉明距离的相似度判定目标图像与带匹配图像是否匹 配的方式可以包括以下举例的几种:
方式一: 若所述基于汉明距离的相似度大于预置的第二阈值, 则判 定目标图像与待匹配图像匹配, 否则不匹配。
方式二: 在第三数据集上实施上述图像匹配过程, 根据第三数据集 上的匹配情况建立坐标系, 其中横轴为第三数据集中目标图像与待匹配 图像所使用的概率密度函数对应的累积梯度向量的总数, 纵轴为基于汉 明距离的相似度。 根据第三数据集的匹配结果在所述坐标系下的分布, 得到用于拟合所述分布的分段函数或者连续函数, 以及找到本实施例中 的目标图像与待匹配图像在所述坐标系中对应的点, 如果该点在所述分 段函数或者连续函数的上方, 则判断目标图像与待匹配图像匹配, 否则 不匹配。
需要注意的是: 根据所述基于汉明距离相似度判定目标图像与待匹 配图像是否匹配的方法不限于以上两种, 也可以使其他判定方法。
由上述技术方案可知, 本发明实施例的基于比特流进行图像匹配的 方法, 通过选取图像的所有局部特征描述子中的部分局部特征描述子, 对选取的局部特征描述子降维, 并将降维后的局部特征描述子转换为用 于表达图像视觉特征的全局特征描述子, 进而对全局特征描述子进行数 据压缩, 得到图像的紧凑全局特征描述子, 进而生成表达图像视觉特征 的比特流, 所述比特流的特点是可以对不同字节大小的比特流进行比 较, 实现了图像匹配过程中的互操作, 增加了图像匹配过程的灵活性。
其中, 互操作是指不同字节大小的比特流之间可以进行比较。
根据本发明的另一方面, 本发明还提供一种图像检索方法, 如下的 歩骤 S901至 S906所示, 本实施例中的图像检索的方法如下所述。
S901、 客户端根据图 6或图 7所示的任意方法获取用于表达目标图像 视觉特征的比特流。
在移动设备性能、 无限网络带宽等条件允许的情况下, 可以同时将 压缩后的局部特征描述子发送至服务器, 用于对初歩图像检索结果进行 基于几何不变性的重排序。
其中, 几何不变性是指对于相似图像, 虽然一幅图像相对于另一幅 图像发生了旋转、 平移等图像变换, 但是其特征点的相对几何位置具有 不变性。
S902、 客户端将所述目标图像的比特流传输至服务器。
5903、 服务器根据上述图 6或图 7所示的任意方法获取用于表达所述 服务器内图像库中任一图像视觉特征的比特流。
5904、 所述服务器将所述目标图像的比特流与所述服务器内的图像 库中任一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基于 汉明距离的相似度最大的服务器内的图像库中图像的比特流;
5905、 所述服务器选择性地对所述前 Q个基于汉明距离的相似度最大 的服务器内的图像库中图像的比特流对应的图像进行后期处理;
其中, 后期处理可以为基于几何不变性的重排序等。
5906、 所述服务器将经过所述后期处理获得的服务器内的图像库中 图像发送至所述客户端。
上述的 Q为大于等于 1的自然数。
由上述实施例可知, 本实施例的图像检索方法, 通过选取图像的所 有局部特征描述子中的部分局部特征描述子, 对选取的局部特征描述子 降维, 并将降维后的局部特征描述子转换为用于表达图像视觉特征的全 局特征描述子, 进而对全局特征描述子进行数据压缩, 得到图像的紧凑 全局特征描述子, 进而生成表达图像视觉特征的比特流并发送至服务 器, 以使服务器査找相似的图像。 上述方法可以在内存消耗和可伸缩性 上满足不同图像搜索应用的需求, 并且能够进一歩提升图像搜索和匹配 的性能, 能更好地应用于基于移动终端的图像搜索。
举例来说, 上述歩骤 S904可包括:
S904K 所述服务器根据所述目标图像的比特流的头部和所述服务器 内的图像库中的任一图像的比特流的头部, 确定所述目标图像的全局特 征描述子和所述服务器内的图像库中的任一图像的全局特征描述子是否 包含相同的概率密度函数对应的同种类型的累积梯度向量;
S9042、 若包含, 则从目标图像的比特流的非头部与所述服务器内的 图像库中相应图像的比特流的非头部中取出二者共同使用的概率密度函 数对应的同种类型的累积梯度向量经数据压缩生成的全部比特位;
S9043、 计算从目标图像的比特流取出的所述全部比特位和从所述服 务器内的图像库中相应图像的比特流取出的所述全部比特位之间的基于 汉明距离的相似度;
本实施例中, 基于汉明距离的相似度的计算方法为:
目标图像的所述全部比特位与待匹配图像的所述全部比特位中能够 对应到同一概率密度函数的比特位子段之间做异或操作, 并计算异或操 作结果中值为 1的比特位的个数, 记为目标图像的所述比特位子段与待匹 配图像的所述比特位子段之间的汉明距离;
用预先学习的距离权重乘以所述比特位子段之间的汉明距离, 得到 所述比特位子段之间的加权汉明距离;
其中, 距离权重是通过机器学习方法基于若干匹配图像对和非匹配 图像对学习得到的, 或者根据经验设置的;
将所述目标图像的全局特征描述子与所述待匹配图像的全局特征描 述子共同使用的所有概率密度函数对应的所述比特位子段之间的加权距 离累加, 并做归一化操作, 得到所述基于汉明距离的相似度, 如式(3)所
Figure imgf000028_0001
其中, M为所述概率分布模型中概率密度函数的个数, d为所述概率 密度函数对应的累积梯度向量的维度, 和 分别表示图像 X和图像 Y的 所述全局特征描述子是否使用了第 i个概率密度函数对应的累积梯度向 量, ay)为通过机器学习方法基于若干匹配图像对和非匹配图像对学 习得到的或者根据经验设置的距离权重, H« , )为图像 X的所述全部 比特位和图像 Y的所述全部比特位中对应第 i个概率密度函数的比特位子 段之间的汉明距离。
S9044、 获取前 Q个与目标图像的比特流的基于汉明距离的相似度最 大的服务器内的图像库中图像的比特流。
由于上述计算基于汉明距离的相似度只涉及到比特位操作, 因此可 以有效减少全局特征描述子之间的比较时间, 目前的计算机在硬件上对 该操作的支持, 可以实现更有效的全局特征描述子的比较。
由上述实施例可知, 本实施例提供的图像检索方法, 可较好的降低 图像搜索时的査询响应时间, 使得图像搜索的效率提高。 通过选取并压 缩局部特征描述子, 由局部特征描述子集成可伸缩的紧凑全局特征描述 子, 降低了内存开销, 并消除了描述子包含的冗余信息, 提高了搜索结 果的准确性, 并且对于不同字节大小的紧凑全局特征描述子, 可以进行 有效的互操作, 具有较好的灵活性。
图 9示出了本发明一实施例提供的获取图像的紧凑全局特征描述子的装 置的结构示意图; 如图 9所示, 获取图像的紧凑全局特征描述子的装置包括: 获取单元 91、 描述子选择单元 92、 描述子降维单元 93、 转换单元 94和压 缩单元 95 ;
其中, 获取单元 91, 用于获取图像的至少一个局部特征描述子, 所 述至少一个局部特征描述子形成一集合;
描述子选择单元 92, 用于根据局部特征描述子的选择方式, 从所有 的局部特征描述子中选取一个或多个局部特征描述子, 所述选取的一个 或多个局部特征描述子组成所述集合的第一子集;
描述子降维单元 93, 用于将所述第一子集中的局部特征描述子进行 降维, 获得降维后的局部特征描述子;
转换单元 94, 用于根据预设的第一规则, 将所述降维后的局部特征 描述子转换为用于表达所述图像视觉特征的全局特征描述子;
压缩单元 95, 用于将所述全局特征描述子进行数据压缩, 得到所述 图像的紧凑全局特征描述子;
其中, 所述全局特征描述子的字节大小可根据所述第一规则中的参 数值的变化而变化, 紧凑全局特征描述子的字节大小也会相应变化。
上述的获取图像的紧凑全局特征描述子的装置可以位于客户端中, 也可以位于服务器中, 本实施例仅为举例说明。
图 10示出了本发明一实施例提供的比特流生成装置的结构示意图,如图 10 所示, 本实施例中的比特流生成装置包括上述图 9所示的获取图像的紧凑全 局特征描述子的装置中的获取单元 91、 描述子选择单元 92、 描述子降维单 元 93、 转换单元 94和压缩单元 95 ; 以及还包括比特流生成单元 96 ; 其中, 比特流生成单元 96, 用于根据预设的第一规则和全局特征描 述子、 紧凑全局特征描述子生成用于表达图像视觉特征的比特流。
举例来说, 所述比特流包括头部和非头部, 所述第一规则中 Fi sher 向量生成规则的离线歩骤包括训练预设的第二图像数据集得到用于产生 Fi sher向量的概率分布模型, 所述概率分布模型是由 M个独立的概率密 度函数线性叠加得到的, 其中, M为大于等于 1的自然数;
比特流生成单元 96可具体用于:
所述比特流的头部的所有维度的长度与所述概率分布模型中的概率 密度函数的个数相同, 且所述概率分布模型中的一概率密度函数对应所 述比特流的头部的一维度, 若所述概率分布模型中的一概率密度函数对 应的累积梯度向量用于组成所述全局特征描述子, 则与该概率密度函数 对应的所述比特流的头部的相应维度的数值为 1, 否则为 0, 将所述紧凑 全局特征描述子组成所述比特流的非头部。
在其他实施例中, 比特流生成单元也可以用于:
所述比特流的头部的前若干个维度用于标示所述概率密度函数对应 的累积梯度向量的类别数, 所述比特流的头部的剩余维度的长度与所述 概率分布模型中的概率密度函数的个数相同, 且所述概率分布模型中的 一概率密度函数对应所述比特流的头部的一维度; 若所述概率分布模型 中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述 子, 则所述与该概率密度函数对应的所述比特流的头部的相应维度的数 值为 1, 否则为 0 ; 将所述紧凑全局特征描述子组成所述比特流的非头 部。
或者, 所述比特流的头部的前若干个维度用于标示所述概率密度函 数对应的累积梯度向量的类别数, 所述比特流头部的剩余维度的长度为 所述概率分布模型中的概率密度函数的个数与所述概率密度函数对应的 累积梯度向量的类别数的乘积, 且所述概率分布模型中的一概率密度函 数对应的每一累积梯度向量对应所述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则与该累积梯度向量对应的所述比特流的头 部的相应维度的数值为 1, 否则为 0, 将所述紧凑全局特征描述子组成所 述比特流的非头部。
本实施例中的比特流生成装置通常位于移动终端 /移动设备中, 当然 也可以位于任何一个服务器中, 本实施例不对其进行限定。 图 11示出了本发明一实施例提供的图像检索系统的结构示意图, 如 图 11所示, 本实施例中的图像检索系统包括: 客户端和服务器;
其中, 客户端包括图 10所示的比特流生成装置 01 1、 发送单元 012、 接收单元 013, 该发送单元 012用于将比特流生成装置生成的比特流发送 至服务器, 该接收单元 013用于接收服务器返回的图像;
服务器包括: 接收单元 021, 比较单元 022、 发送单元 023, 以及还 包括: 图 9所述获取图像的紧凑全局特征描述子的装置和 /或包括图 10所 示的比特流生成装置 024,
图 1 1中仅举例的是服务器包括图 10所示的比特流生成装置 024的结 构。
其中, 比特流生成装置 024获取服务器内的图像库中的每一图像的比 特流; 其中接收单元 021用于接收客户端发送的目标图像的比特流; 所述比较单元 022用于将所述目标图像的比特流与所述服务器内的图 像库中任一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基 于汉明距离的相似度最大的服务器内的图像库中图像的比特流; 以及选 择性地对所述前 Q个基于汉明距离的相似度最大的服务器内的图像库中 图像的比特流对应的图像进行后期处理; 发送单元 023用于将经过所述 后期处理获得的服务器内的图像库中图像发送至所述客户端。 上述的 Q为 大于等于 1的自然数。
本领域普通技术人员可以理解: 实现上述各方法实施例的全部或部分歩 骤可以通过程序指令相关的硬件来完成。 前述的程序可以存储于一计算机可 读取存储介质中。 该程序在执行时, 执行包括上述各方法实施例的歩骤; 而 前述的存储介质包括: R0M、 RAM, 磁碟或者光盘等各种可以存储程序代码的 介质。 最后应说明的是: 以上各实施例仅用以说明本发明的技术方案, 而非 对其限制; 尽管参照前述各实施例对本发明进行了详细的说明, 本领域的普 通技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修 改, 或者对其中部分或者全部技术特征进行等同替换; 而这些修改或者替 换, 并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权 利 要 求 书
1、 一种获取图像的紧凑全局特征描述子的方法, 其特征在于, 包 括:
获取图像的至少一个局部特征描述子, 所述至少一个局部特征描述 子形成一集合;
根据局部特征描述子的选择方式, 从所有的局部特征描述子中选取 一个或多个局部特征描述子, 所述选取的一个或多个局部特征描述子组 成所述集合的第一子集;
将所述第一子集中的局部特征描述子进行降维, 获得降维后的局部 特征描述子;
根据预设的第一规则, 将所述降维后的局部特征描述子转换为用于 表达所述图像视觉特征的全局特征描述子;
将所述全局特征描述子进行数据压缩, 得到所述图像的紧凑全局特 征描述子。
2、 根据权利要求 1所述的方法, 其特征在于, 将所述第一子集中的 局部特征描述子进行降维, 获得降维后的局部特征描述子, 包括:
采用降维矩阵对所述第一子集中的局部特征描述子进行降维, 获得 降维后的局部特征描述子;
其中, 所述降维矩阵为采用降维方式训练预设的第一图像数据集之 后得到的矩阵。
3、 根据权利要求 1所述的方法, 其特征在于, 所述根据预设的第一 规则, 将所述降维后的局部特征描述子转换为用于表达所述图像视觉特 征的全局特征描述子, 包括:
根据 Fi sher向量生成规则, 对所述降维后的局部特征描述子进行转 换, 得到累积梯度向量集合, 并由所述累积梯度向量集合中的累积梯度 向量构造第一 Fi sher向量; 以及
根据 Fi sher向量稀疏性判别规则, 对所述累积梯度向量集合进行处 理, 并生成用于表达所述图像视觉特征的全局特征描述子。
4、 根据权利要求 3所述的方法, 其特征在于,
所述 Fi sher向量生成规则包括: 离线歩骤和在线歩骤;
相应地, 根据 Fi sher向量生成规则, 对所述降维后的局部特征描述 子进行转换, 得到累积梯度向量集合, 并由所述累积梯度向量集合中的 累积梯度向量构造第一 Fi sher向量, 包括:
所述 Fi sher向量生成规则的离线歩骤包括:
训练预设的第二图像数据集得到用于产生 Fi sher向量的概率分布模 型, 所述概率分布模型是由 M个独立的概率密度函数线性叠加得到的, 其 中, M为大于等于 1的自然数;
所述 Fi sher向量生成规则的在线歩骤为:
根据所述概率分布模型中的每一概率密度函数, 将每一降维后的局 部特征描述子转换为梯度向量, 得到针对每一概率密度函数的梯度向量 隹
采 A π .;
针对每一概率密度函数的梯度向量集合, 求所有所述梯度向量的平 均值, 得到每一概率密度函数对应的累积梯度向量;
所述概率分布模型的 M个概率密度函数各自对应的累积梯度向量组成 累积梯度向量集合, 并由所述累积梯度向量集合中的累积梯度向量构造 第 ^ ' Fi sher向量;
或者,
所述 Fi sher向量生成规则的在线歩骤为:
根据所述概率分布模型中的每一概率密度函数, 将每一降维后的局 部特征描述子转换为一个或多个不同类型的梯度向量, 得到针对每一概 率密度函数的梯度向量集合;
针对每一概率密度函数的梯度向量集合, 分别求每种类型的所有梯 度向量的平均值, 得到每一概率密度函数对应的一个或多个不同类型的 累积梯度向量;
所述概率分布模型的 M个概率密度函数各自对应的一个或多个不同类 型的累积梯度向量组成累积梯度向量集合, 并由所述累积梯度向量集合 中的累积梯度向量构造第一 Fi sher向量; 所述 Fi sher向量稀疏性判别规则为基于统计量的稀疏性判别规则, 或者基于概率的稀疏性判别规则;
相应地, 所述根据 Fi sher向量稀疏性判别规则, 对所述累积梯度向 量集合进行处理, 并生成用于表达所述图像视觉特征的全局特征描述 子, 包括:
获取所述累积梯度向量集合中的每一累积梯度向量的所有维度的数 值的统计量;
将所有累积梯度向量的统计量按照从大到小依次排序, 选取排序中 前 K个统计量对应的累积梯度向量, 将选取的 K个累积梯度向量组成用于 表达图像视觉特征的全局特征描述子;
或者,
获取所述累积梯度向量集合中的每种类型的每一累积梯度向量的所 有维度的数值的统计量;
将每种类型的所有累积梯度向量的统计量按照从大到小依次排序, 选取所述每种类型的所有累积梯度向量的统计量的排序中前 K个统计量对 应的累积梯度向量, 将选取的每种类型的 K个累积梯度向量组成用于表达 图像视觉特征的全局特征描述子;
或者,
获取所述累积梯度向量集合中的某一类型的每一累积梯度向量的所 有维度的数值的统计量;
将所述某一类型的所有累积梯度向量的统计量按照从大到小依次排 序, 选取排序中前 κ个统计量对应的累积梯度向量, 将选取的 K个累积梯 度向量及相应概率密度函数对应的其他类型的累积梯度向量组成用于表 达图像视觉特征的全局特征描述子;
或者,
针对所述概率分布模型中的每一概率密度函数求得每一所述降维后 的局部特征描述子对应的概率值, 所述概率值构成所述每一概率密度函 数的概率值集合;
若概率密度函数的所述概率值集合中的最大概率值大于预设的第一 阈值, 则选取该概率密度函数;
将选取的所述概率密度函数对应的所述累积梯度向量保留, 并将所 有保留的所述累积梯度向量组成用于表达图像视觉特征的全局特征描述 子;
或者,
针对所述概率分布模型中的每一概率密度函数求得每一所述降维后 的局部特征描述子对应的概率值, 所述概率值构成所述每一概率密度函 数的概率值集合;
若概率密度函数的所述概率值集合中的最大概率值大于预设的第一 阈值, 则选取该概率密度函数;
将选取的所述概率密度函数对应的一个或多个不同类型的累积梯度 向量保留, 并将所有保留的所述一个或多个不同类型的累积梯度向量组 成用于表达图像视觉特征的全局特征描述子。
5、 根据权利要求 1至 4任一所述的方法, 其特征在于,
所述全局特征描述子的字节大小根据所述第一规则中的参数值的变 化而变化; 相应地, 在所述全局特征描述子的字节大小变化时, 所述紧 凑全局特征描述子的字节大小也相应变化。
6、 根据权利要求 1所述的方法, 其特征在于, 所述将所述全局特征 描述子进行数据压缩, 得到所述图像的紧凑全局特征描述子, 包括: 根据数据压缩规则, 将所述全局特征描述子中各维度的数值均用 1个 比特位表示。
7、 一种采用紧凑全局特征描述子生成比特流的方法, 其特征在于, 包括如上权利要求 1至 6任一所述的方法, 还包括:
根据预设的第一规则和全局特征描述子、 紧凑全局特征描述子生成 用于表达图像全局视觉特征的比特流。
8、 根据权利要求 7所述的方法, 其特征在于,
所述比特流包括头部和非头部, 所述第一规则中 Fi sher向量生成规 则的离线歩骤包括:
训练预设的第二图像数据集得到用于产生 Fi sher向量的概率分布模 型, 所述概率分布模型是由 M个独立的概率密度函数线性叠加得到的, 其 中, M为大于等于 1的自然数;
相应地, 根据预设的第一规则和全局特征描述子、 紧凑全局特征描 述子生成用于表达图像视觉特征的比特流, 包括:
所述比特流的头部的所有维度的长度与所述概率分布模型中的概率 密度函数的个数相同, 且所述概率分布模型中的一概率密度函数对应所 述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则所述与该概率密度函数对应的所述比特流 的头部的相应维度的数值为 1, 否则为 0 ;
或者,
所述比特流的头部的前若干个维度用于标示所述概率密度函数对应 的累积梯度向量的类别数, 所述比特流的头部的剩余维度的长度与所述 概率分布模型中的概率密度函数的个数相同, 且所述概率分布模型中的 —概率密度函数对应所述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则所述与该概率密度函数对应的所述比特流 的头部的相应维度的数值为 1, 否则为 0 ;
或者,
所述比特流的头部的前若干个维度用于标示所述概率密度函数对应 的累积梯度向量的类别数, 所述比特流头部的剩余维度的长度为所述概 率分布模型中的概率密度函数的个数与所述概率密度函数对应的累积梯 度向量的类别数的乘积, 且所述概率分布模型中的一概率密度函数对应 的每一累积梯度向量对应所述比特流的头部的一维度;
若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于 组成所述全局特征描述子, 则所述与该累积梯度向量对应的所述比特流 的头部的相应维度的数值为 1, 否则为 0 ;
将所述紧凑全局特征描述子组成所述比特流的非头部。
9、 一种基于比特流进行图像匹配的方法, 其特征在于, 包括如上权 利要求 7至 8任一所述的方法, 还包括:
根据目标图像的比特流的头部和待匹配图像的比特流的头部, 确定 所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是 否包含相同的概率密度函数对应的同种类型的累积梯度向量;
若包含, 则分别从目标图像的比特流的非头部与待匹配图像的比特 流的非头部中取出二者共同使用的概率密度函数对应的同种类型的累积 梯度向量经数据压缩后生成的全部比特位;
计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹 配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的 相似度;
根据所述基于汉明距离的相似度判定目标图像与待匹配图像是否匹 配。
10、 一种图像检索方法, 其特征在于, 包括:
客户端采用如上权利要求 7或 8所述的方法获取目标图像视觉特征的 比特流;
所述客户端将所述目标图像的比特流传输至服务器;
所述服务器根据上述权利要求 7或 8所述的方法获取用于表达所述服 务器内图像库中任一图像视觉特征的比特流;
所述服务器将所述目标图像的比特流与所述服务器内的图像库中任 一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基于汉明距 离的相似度最大的服务器内的图像库中图像的比特流;
所述服务器选择性地对所述前 Q个基于汉明距离的相似度最大的服务 器内的图像库中图像的比特流对应的图像进行后期处理;
所述服务器将经过所述后期处理获得的服务器内的图像库中图像发 送至所述客户端。
11、 根据权利要求 10所述的方法, 其特征在于,
所述服务器将所述目标图像的比特流与所述服务器内的图像库中任 一图像的比特流进行比较, 获取前 Q个与目标图像的比特流的基于汉明距 离的相似度最大的服务器内的图像库中图像的比特流, 包括: 所述服务器根据所述目标图像的比特流的头部和所述服务器内的图 像库中的任一图像的比特流的头部, 确定所述目标图像的全局特征描述 子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相 同的概率密度函数对应的同种类型的累积梯度向量;
若包含, 则从目标图像的比特流的非头部与所述服务器内的图像库 中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应 的同种类型的累积梯度向量经数据压缩生成的全部比特位;
计算从目标图像的比特流取出的所述全部比特位和从所述服务器内 的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距 离的相似度;
获取前 Q个与目标图像的比特流的基于汉明距离的相似度最大的服务 器内的图像库中图像的比特流。
PCT/CN2014/074919 2013-04-12 2014-04-08 获取图像的紧凑全局特征描述子的方法及图像检索方法 WO2014166376A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310127331.7A CN103226589B (zh) 2012-10-15 2013-04-12 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN201310127331.7 2013-04-12

Publications (1)

Publication Number Publication Date
WO2014166376A1 true WO2014166376A1 (zh) 2014-10-16

Family

ID=51690141

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/074919 WO2014166376A1 (zh) 2013-04-12 2014-04-08 获取图像的紧凑全局特征描述子的方法及图像检索方法

Country Status (1)

Country Link
WO (1) WO2014166376A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850636A (zh) * 2015-05-25 2015-08-19 上海卓易科技股份有限公司 移动终端上动植物识别方法及系统
CN116503390A (zh) * 2023-06-25 2023-07-28 深圳市智宇精密五金塑胶有限公司 一种基于计算机视觉的五金零件缺陷检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980250A (zh) * 2010-10-15 2011-02-23 北京航空航天大学 基于降维局部特征描述子和隐条件随机场的目标识别方法
CN102521618A (zh) * 2011-11-11 2012-06-27 北京大学 局部描述子的提取方法、图片检索方法及图像匹配方法
CN102945289A (zh) * 2012-11-30 2013-02-27 苏州搜客信息技术有限公司 基于cgci-sift局部特征的图像检索方法
CN102968632A (zh) * 2012-10-15 2013-03-13 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980250A (zh) * 2010-10-15 2011-02-23 北京航空航天大学 基于降维局部特征描述子和隐条件随机场的目标识别方法
CN102521618A (zh) * 2011-11-11 2012-06-27 北京大学 局部描述子的提取方法、图片检索方法及图像匹配方法
CN102968632A (zh) * 2012-10-15 2013-03-13 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN102945289A (zh) * 2012-11-30 2013-02-27 苏州搜客信息技术有限公司 基于cgci-sift局部特征的图像检索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850636A (zh) * 2015-05-25 2015-08-19 上海卓易科技股份有限公司 移动终端上动植物识别方法及系统
CN116503390A (zh) * 2023-06-25 2023-07-28 深圳市智宇精密五金塑胶有限公司 一种基于计算机视觉的五金零件缺陷检测方法
CN116503390B (zh) * 2023-06-25 2023-09-22 深圳市智宇精密五金塑胶有限公司 一种基于计算机视觉的五金零件缺陷检测方法

Similar Documents

Publication Publication Date Title
CN103226589B (zh) 获取图像的紧凑全局特征描述子的方法及图像检索方法
Yue et al. Cloud-based image coding for mobile devices—Toward thousands to one compression
Bergamo et al. Leveraging structure from motion to learn discriminative codebooks for scalable landmark classification
JP5950864B2 (ja) スケール不変の画像特徴の量子化された埋込みを用いて画像を表現する方法
Chen et al. Residual enhanced visual vectors for on-device image matching
Duan et al. Compact descriptors for visual search
US9396409B2 (en) Object based image processing
Lin et al. Hnip: Compact deep invariant representations for video matching, localization, and retrieval
EP2710518B1 (en) Scalable query for visual search
US11914645B2 (en) Systems and methods for generating improved content based on matching mappings
Lou et al. Compact deep invariant descriptors for video retrieval
JP2015170358A (ja) シーンから取得されるビデオの低階数記述子を抽出する方法
Zhang et al. Large‐scale video retrieval via deep local convolutional features
US8755605B2 (en) System and method for compact descriptor for visual search
Li et al. Quantized embeddings of scale-invariant image features for mobile augmented reality
Eggert et al. Improving VLAD: hierarchical coding and a refined local coordinate system
Chandrasekhar et al. Compact global descriptors for visual search
CN111382305B (zh) 一种视频去重方法、装置、计算机设备和存储介质
WO2014166376A1 (zh) 获取图像的紧凑全局特征描述子的方法及图像检索方法
Amin et al. Application of Laplacian mixture model to image and video retrieval
Wu et al. Codebook-free compact descriptor for scalable visual search
Barsellotti et al. Fossil: Free open-vocabulary semantic segmentation through synthetic references retrieval
JP5959446B2 (ja) コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
Su et al. Enabling low bitrate mobile visual recognition: a performance versus bandwidth evaluation
Liang et al. 3D action recognition using depth-based feature and locality-constrained affine subspace coding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14783155

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21.01.2016)

122 Ep: pct application non-entry in european phase

Ref document number: 14783155

Country of ref document: EP

Kind code of ref document: A1