WO2015051629A1 - 图片排序方法及装置 - Google Patents

图片排序方法及装置 Download PDF

Info

Publication number
WO2015051629A1
WO2015051629A1 PCT/CN2014/075489 CN2014075489W WO2015051629A1 WO 2015051629 A1 WO2015051629 A1 WO 2015051629A1 CN 2014075489 W CN2014075489 W CN 2014075489W WO 2015051629 A1 WO2015051629 A1 WO 2015051629A1
Authority
WO
WIPO (PCT)
Prior art keywords
anchor text
concept
picture
pictures
initial
Prior art date
Application number
PCT/CN2014/075489
Other languages
English (en)
French (fr)
Inventor
邱石
王晓刚
鞠汶奇
刘健庄
汤晓鸥
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP14852510.8A priority Critical patent/EP3048540A4/en
Priority to EP18195060.1A priority patent/EP3486804A1/en
Publication of WO2015051629A1 publication Critical patent/WO2015051629A1/zh
Priority to US15/094,675 priority patent/US10521469B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to the field of computer technologies, and in particular, to a picture sorting method and apparatus. Background technique
  • CBIR Content Based Image Retr ieva l
  • the current image retrieval method can not bring satisfactory results to the users.
  • the existing images can be reorganized and sorted, so that the user can see more images that meet the requirements with as little effort as possible. Become an important requirement. Summary of the invention
  • the invention provides a picture sorting method and device, which makes the sorting result of the picture more accurate and more in line with the user's search intention.
  • a first aspect of the present invention provides a picture ordering method, where the method includes:
  • the calculating, by the search result corresponding to the initial keyword, the anchor text concept set is calculated, specifically:
  • the candidate word set The largest M 3 ⁇ 4 candidate words are combined with the initial keywords (?, combined to obtain ⁇ 1 3 ⁇ 4 anchor text concepts, forming an anchor text concept set ⁇ , where ⁇ is the preset initial keyword (? The number of elements in the corresponding anchor text concept set.
  • the weight calculation is performed on each of the candidate words in the candidate word set ⁇ The weight of the candidate word r!
  • the method further includes: calculating, according to the size of the frequency of occurrence of the candidate word cd, a weight r! [ ⁇ ] of the candidate word cd, the greater the frequency of occurrence of the candidate word, the more the weight (6 ⁇ ) Big.
  • the calculating an anchor text concept in the anchor text concept set The weight of the association between the specificities includes:
  • the anchor text concept automatically acquires a training positive sample, and uses the training positive sample training classifier to obtain a trained classifier, which specifically includes:
  • the classifier is trained to obtain the trained classifier using the feature set of the positive samples corresponding to the anchor text concept.
  • the conceptual projection is performed by using the ACG and the classifier to obtain a conceptual projection vector, and the initial keyword is calculated according to the conceptual projection vector.
  • the ACG distance between each picture in the corresponding search result includes:
  • An ACG distance between the pictures is calculated based on the initial concept projection vector.
  • the calculating, according to the initial concept projection vector, the ACG distance between the pictures specifically:
  • an initial concept projection vector representing the i-th picture corresponding to the initial keyword represents an i-th smoothed concept projection vector
  • the initial After reordering each picture in the search result corresponding to the keyword the method further includes:
  • the reordering results of the pictures are displayed in a logical organization of pictures with similar visual and semantic information.
  • the logical organization of the image with the similar visual and semantic information includes:
  • the difference in the size of the distance is used to represent the pictures in the respective pictures belonging to different categories of the anchor text concept
  • the anchor text concept is marked in the form of a text
  • the size of the relationship between the picture and the category of the anchor text concept is represented by a number or a length of the bar, the number The larger or the longer the strip, the greater the degree of association.
  • a ninth possible implementation manner of the first aspect When the image of the category to which the text concept belongs is anchored, when the region of the category to which the anchor text concept belongs is selected, the image in the category to which the anchor text concept belongs in the selected region is displayed at the forefront of the display screen for the user. View all the images in this category.
  • the present invention further provides a picture sorting apparatus, where the apparatus includes: a graph structure establishing module, configured to perform a picture search by using an initial keyword, and calculating a search result according to the search result corresponding to the initial keyword An anchor text concept set of the search result, and calculating an association weight between the anchor text concepts in the anchor text concept set, the anchor text concept in the anchor text concept set being a vertex, and the vertex
  • the line connecting is the edge of the vertex, and the edge of the vertex has the weight of the association between the anchor text concepts, and constitutes the anchor text concept map structure
  • Anchor Concep t Graph ACG Anchor Concep t Graph ACG; the anchor text ⁇ between the contextual weights represents the semantic relevance between the anchor text concepts;
  • a training module configured to acquire a training positive sample by using the anchor text concept obtained by the graph structure establishing module, and use the positive sample training classifier to obtain a trained classifier
  • a sorting module configured to perform conceptual projection using the ACG composed of the graph structure establishing module and the trained classifier obtained by the training module to obtain a conceptual projection vector, and calculate the initial key according to the conceptual projection vector
  • An ACG distance between each picture in the search result corresponding to the word, and each picture in the search result corresponding to the initial keyword is sorted according to the ACG distance.
  • the figure structure establishing module specifically includes:
  • a first search unit configured to obtain a search result by using an initial keyword (?, performing a picture search, where the search result includes the initial keyword (? corresponding picture set I and text for the picture in the picture set I) Collection 7;
  • a first extracting unit configured to extract, for each picture in the picture set ⁇ ⁇ obtained by the first searching unit, a picture visual feature, and for the picture/ fc in the picture set r, the visual feature and the said image / fc is most similar to the K image composed of the image / fc set of images and
  • is a preset positive integer
  • a weight calculation unit configured to perform weight calculation on each of the candidate words in the candidate word set ⁇ obtained by the first extraction unit, to obtain a weight of the candidate word; r weight calculation result of the weight calculation unit, the set of candidate words in ⁇ , () ⁇ 3 ⁇ 4 largest candidate words are combined with the initial keyword, combined to give ⁇ 1.
  • Anchor text concept forming anchor text concept collection C. Where ⁇ ⁇ is the preset number of elements in the initial keyword (? corresponding anchor text concept set ⁇ ).
  • the weight calculation unit calculates a weight of the candidate word ⁇ according to an appearance frequency of the candidate word ⁇ )
  • the figure structure establishing module further includes:
  • a statistical unit in a statistical webpage, a word that appears in a document at the same time as the anchor text concept, and finds the first N1 words that best represent the semantic concept of the anchor text, and the first N1 according to a preset assignment method
  • the word is assigned a weight, and the weight of the first N1 words is used to form a vector corresponding to the anchor text concept, where N1 is a preset positive integer;
  • the association degree calculation unit is configured to calculate the similarity between the vectors corresponding to any two of the anchor text concepts, as the correlation degree weight between the corresponding two anchor text concepts.
  • the training module specifically includes: a second search unit, using the anchor text concept as a keyword to perform a picture search, obtaining a search result set of the anchor text concept, and selecting a search result set corresponding to the anchor text concept ⁇ ranked in the top N2
  • the training unit trains the classifier to obtain the trained classifier by using the feature set of the positive sample corresponding to the anchor text concept.
  • a third extracting unit configured to use the ACG formed by the graph structure establishing module and the trained classifier obtained by the training module to extract a visual feature of a picture in a search result corresponding to the initial keyword, Calculating, by the classifier, a probability that the extracted visual feature belongs to a category to which each anchor text concept belongs, as an initial conceptual projection vector of the image corresponding to the conceptual projection; a distance calculating unit, configured to calculate according to the initial conceptual projection vector The ACG distance between the pictures in the search result corresponding to the initial keyword obtained by the third extraction unit.
  • the distance calculation unit includes:
  • (01 "; ⁇ (/- ⁇ ) - 1 ; ⁇ to smooth the initial concept projection vector of the picture, wherein ⁇ denotes the i-th
  • the initial concept projection vector of the picture represents the initial keyword (the i-th smoothed conceptual projection vector corresponding to 7, ⁇ represents the damping coefficient of the control diffusion rate, W represents the column unitized correlation matrix, ⁇ ⁇ 1 , ⁇ )
  • a second calculating subunit configured to calculate an ACG distance dist ACG between the i-th picture and the 'the picture> by using a formula ⁇ - / ⁇ (/ - o ⁇ )- p, - ) .
  • the device further includes:
  • a display module configured to display reordering results of the images obtained by the sorting module by using a picture logical organization with similar visual and semantic information.
  • the logical organization of the image with the similar visual and semantic information includes:
  • the difference in the size of the distance is used to represent the pictures in the respective pictures belonging to different categories of the anchor text concept
  • the anchor text concept is marked in the form of a text
  • the size of the relationship between the picture and the category of the anchor text concept is represented by a number or a length of the bar, the number The larger or the longer the strip, the greater the degree of association.
  • the same anchor text concept in each of the pictures is displayed in a manner of using the thumbnail layer stack
  • the display module displays the picture in the category of the anchor text concept on the selected area at the forefront of the display screen for The user views all the pictures in the category.
  • the image sorting method and device provided by the invention extracts the visual feature information of the image, and obtains a high-level text semantic concept (ie, an anchor concept), and establishes an anchor text conceptual graph structure ACG, which is obtained through calculation and a high-level semantic concept.
  • the related ACG distance is used as a re-sorting metric, which makes the ranking of the search results of the image more accurate and more in line with the user's search intent.
  • FIG. 1 is a flowchart of a method for sorting pictures according to Embodiment 1 of the present invention
  • FIG. 2a is a schematic diagram of search results of an initial keyword "panda" according to Embodiment 1 of the present invention
  • FIG. 2b is a schematic diagram of an anchor text concept generated by FIG. 2a;
  • FIG. 2c is a schematic diagram of an anchor text conceptual diagram structure ACG established in FIG. 2a;
  • Figure 2d is a schematic diagram of the picture after reordering the picture in Figure 2a;
  • FIG. 2e is a schematic diagram of a picture index map after reordering pictures in FIG. 2a;
  • Figure 2f is a schematic diagram of the picture under the category "kunfu panda" in Figure 2b;
  • FIG. 3 is a schematic diagram of a picture sorting apparatus according to Embodiment 2 of the present invention.
  • FIG. 4 is a schematic structural diagram of a structure establishment module according to Embodiment 2 of the present invention.
  • FIG. 5 is a schematic structural diagram of a training module according to Embodiment 2 of the present invention.
  • FIG. 6 is a schematic structural diagram of a sorting module according to Embodiment 2 of the present invention. Detailed ways
  • the image sorting method and device provided by the invention are suitable for scenes that need to perform image search or sorting, and are particularly suitable for occasions for image search by a search engine. By reordering the image search results, the user can perform few operations. You can find the image you need, and the sorting result is more in line with the user's search intent.
  • FIG. 1 is a flowchart of a picture sorting method provided by this embodiment, and FIG. 1 is a diagram of the present invention.
  • the slice sorting method includes:
  • S101 Perform an image search by using an initial keyword, calculate an anchor text concept set of the search result according to the search result corresponding to the initial keyword, and calculate an anchor text concept in the anchor text concept set.
  • Correlation degree weight the anchor text concept in the anchor text concept set is a vertex, the line between the vertex is a vertex edge, and the edge of the vertex has the degree of association between the anchor text concepts
  • the value constitutes the Anchor Concept Graph (ACG).
  • the text keyword is generally used as a link to other web pages.
  • the anchor text link establishes the relationship between the text keyword and the Uniform Resource Loca tor (URL) link.
  • the anchor text is the text keyword, and usually the anchor text can accurately describe the content of the page pointed to.
  • the anchor text concept in the present invention is the text that best extracts the pictures selected from the text keywords (i.e., anchor text) corresponding to the pictures in the image search results of the initial keywords.
  • the anchor text concept set which specifically includes:
  • the search results include the initial images corresponding to the keyword and a set of pages set ⁇ 3 ⁇ 4 ⁇ 3 ⁇ 4 picture in the text with the picture set to 7; .
  • the visual features can be features such as the color, shape, texture, and spatial relationship of the image.
  • / ⁇ represents the /c picture in the similar picture set ⁇ /"(/ ⁇ )
  • k 1, 2, ... N6
  • N6 is the number of pictures in the picture set, indicating the /c picture /
  • the second highest candidate word 0 ⁇ has a weight of 3, and the third highest frequency is 2.
  • the word frequency of the normalized candidate word may be directly used as the weight of the candidate word, or other weight calculation methods may be used.
  • the degree of association weight between the anchor text concepts represents the size of the semantic relevance between the anchor text concepts.
  • the calculating results in an association weight between the anchor text concepts in the anchor text concept set Specifically include:
  • the weighting value is used to form a vector corresponding to the anchor text concept by using the weights of the first N1 words, where N1 is a preset positive integer.
  • the first N3 document digests corresponding to al can be searched directly on the search engine by using each anchor text concept a1, and each of the N1 words in the N3 document digests is calculated.
  • the anchor text concept a 1 corresponds to the vector.
  • TF-IDF word frequency-reverse document rate
  • N1 and N3 and N4 are preset positive integers.
  • the similarity between the two vectors may be calculated by calculating the cosine distance or the Euclidean distance of any two anchor text concepts d and corresponding vectors, etc., that is, the association between the anchor text concepts Degree of weight.
  • the anchor text concept structure ACG is constructed by taking the anchor text concept as a vertex and the weight of the association between the anchor text concepts as the weight of the edge.
  • the training positive sample is a sample to be inspected containing the feature to be inspected.
  • the training positive sample is a sample to be inspected including a face feature.
  • it is a picture related to the anchor text concept (keyword), that is, a training positive sample.
  • the positive sample training classifier corresponding to the anchor text concept obtains the trained classifier.
  • an existing multi-class support vector machine (Mul t i-c la s s Suppor t Vec tor Machine, Mul t i-c la s s SVM) or the like is used as the classifier.
  • Concept projection is a process of using a set of ACGs and trained classifiers to obtain a vector (conceptual projection vector) of a pair of images to be sorted and the value of the anchor text concept in each ACG. .
  • S103 extract a visual feature of a picture in the search result corresponding to the initial keyword, and calculate, by using the ACG and the classifier, a probability that the extracted visual feature belongs to a category to which each anchor text concept belongs, as the concept projection The corresponding image / ⁇ initial concept projection vector.
  • S1032 Calculate an ACG distance between each picture in the search result corresponding to the initial keyword according to the initial concept projection vector.
  • the smoothing process is to re-adjust the values of the respective components in accordance with the correlation between the components of the initial concept projection vector Pi of the picture, so that the component values of the more similar categories in the corresponding projected features of the picture corresponding to one picture are larger. .
  • the result of the smoothing process allows the final ACG distance calculation to more accurately distinguish the categories of the picture from a higher level of semantics.
  • the reordering score value of the picture is calculated according to the ACG distance, and each picture is sorted according to the reordering score value.
  • the distance between the pictures in any two initial search results is calculated by the ACG distance, thereby obtaining a similarity matrix K of the image, and the elements of the matrix ⁇ represent the i-th picture and the first picture in the initial keyword search result.
  • add the total similarity vector s by adding each column of the similarity matrix, where e is a vector with all elements being 1 , s Ke; then pass the formula min z
  • the ranking score where l( Zm ⁇ .) means 1 when z m ⁇ 0, otherwise 0, so that the vector z m is the mth component of the vector z KerQ ⁇ p ) is a kernel function for calculating vector similarity For example, you can use the inner product of the vector to represent it, ⁇ and ? respectively represent the smoothed concept projection vector of the i-th picture and the m-th picture.
  • the image search is first performed in the search engine using "panda” as the initial keyword, and the search result shown in Fig. 2a is obtained, including the animal panda, Different types of pictures of cars, movie poster pictures, etc.
  • the search results for each picture / 3 ⁇ 4 picture visual feature extraction, where / c 1,2,3, ...., N6 , N6 ⁇ ⁇ set the number of pictures in the picture as the search results Visual features are similar to one picture to form a similar picture collection
  • r, ( ) represents the weight of the candidate word
  • represents the order of the candidate word in the candidate word set ⁇ ; finally, the M q anchors are formed by selecting the largest M q words and the initial keyword q Text concept.
  • the anchor text concept structure ACG is constructed by taking the anchor text concept as a vertex and the association degree weight between the anchor text concepts as the weight of the edge between the vertices, as shown in FIG. 2c, the six anchor texts in the ACG diagram.
  • the concept is a vertex, and the degree of association between anchor text concepts is the weight of the edge between the vertices.
  • the anchor text concept is used as a keyword for image search, and the search result of the anchor text concept is obtained, and the visual features of the top N2 pictures are extracted, and the trained positive sample training classifier is obtained, and the trained classifier is obtained. .
  • the concept projection is performed by using the trained classifier and ACG, that is, the picture in the picture search result of the initial keyword "panda" is extracted one by one, and then the extracted visual feature is calculated by the classifier to obtain the picture belongs to The probability of the classification of each anchor text concept in the ACG, and as the initial conceptual projection vector of the corresponding image of the concept projection and the corresponding smoothed concept projection vector.
  • the distance calculation formula is used to calculate the distance between the smoothed concept projection vectors of any two pictures (ie, picture pairs) as the ACG distance between the picture pairs.
  • the reordering score value of the picture is calculated by using the ACG distance between the picture pairs, and the pictures are sorted according to the reordering score value, and the reordering result as shown in FIG. 2d is obtained, including six categories, and pictures in each category Arrange by reordering score values.
  • the method further includes: displaying the each by using a logical organization of pictures with similar visual and semantic information. The sorting result of the picture.
  • the image logical organization manner with similar visual and semantic information may have various forms, including: using a border to display images of the respective images belonging to the same category of the anchor text concept Together. For example, use a border such as an ellipse or a rectangle to enclose a similar picture.
  • the difference in the size of the distance is used to represent pictures of the respective pictures belonging to different categories of the anchor text concept. For example, you can use a distance to display different types of pictures without using a border (that is, the distance between a picture and a similar picture is significantly smaller than the distance between different types of pictures).
  • the hierarchical recursive structure is used to display a picture of each category in the respective pictures belonging to the same category as the anchor text concept.
  • a large class recursively represents a small class, that is, a large class represented by a large ellipse (rectangle) has a small class (small rectangle) represented by a small ellipse.
  • a picture in the respective pictures belonging to the same category of the anchor text concept is displayed in a thumbnail layered manner.
  • Each type of picture uses thumbnails to display the most important and most representative pictures of the picture (that is, the pictures with the highest scores).
  • the purpose of this cascading presentation is to reflect the content of the main picture of this type, and to save space for web page display, and to give people a sense of the beauty of placing pictures in reality.
  • the category of the picture is presented, when the area of the category to which the anchor text concept belongs is selected, such as when a mouse or other dynamic input device is placed on an area of one of the categories to which the anchor text concept belongs, the category is considered to be Categories that you want to be understood by users, so you should show more details.
  • a picture in the category to which the anchor text concept belongs in the area where the cursor is located is displayed at the forefront of the display screen for the user to view all the pictures in the category.
  • the category appears to be quasi-active, that is, the area occupied by the category is significantly larger than the other categories, and the cascading of images included in the category is slow.
  • the changes such as animating the upper layer of the picture slowly moving to the lower layer, the lower layer of the picture moved to the top layer in the order of the cascading, giving the user a chance to view the image that was previously occluded due to space constraints.
  • the anchor text concept is marked in the form of a text in the vicinity of the picture belonging to the same category of the anchor text concept in each of the pictures.
  • a category of images has (or may not have) a text label as a high-level semantic concept for identifying such a picture, which is in this patent.
  • the anchor text ⁇ is the text form of the mind.
  • the size of the relationship between the picture and the category of the anchor text concept is represented by a number or a length of the bar, the number The larger or the longer the strip, the greater the degree of association.
  • the image is placed in the vicinity of the anchor text concept, and the reclassified index map is formed by the manner of classification display, as shown in Fig. 2e, the reordering will be performed.
  • the results are reclassified.
  • the user observes the index map after the reclassification shown in Fig. 2e when one of the categories is clicked, a picture conforming to the user's intention can be obtained, and the pictures in the classification are arranged according to the reordering score value. For example, if you click "kunfu panda", the result is shown in Figure 2f.
  • the image of the category of the anchor text concept of "kunfu panda" is displayed.
  • the pictures of the category are sorted by the score of each picture, and other pictures are hidden. Picture of the category (or put other category image thumbnails in a position that is not prominent next to it).
  • the display method of the image search result of the present invention may also adopt other display modes, and the present invention is not limited thereto.
  • FIG. 3 is a schematic diagram of a picture sorting apparatus according to the embodiment.
  • the picture reordering apparatus of the present invention includes: a picture structure establishing module 301, a training module 302, and a sorting module 303.
  • the graph structure establishing module 301 is configured to perform a picture search by using an initial keyword, calculate an anchor text concept set of the initial search result according to the search result of the initial keyword, and calculate an anchor in the anchor text concept set.
  • the weight of the association between the text concepts, the anchor text concept in the anchor text concept set as a vertex, the weight of the association between the anchor text concepts, and the weight of the edge between the vertices constitute an anchor text concept Figure structure ACG.
  • the degree of association weight between the anchor text concepts represents the degree of association between the anchor text concepts.
  • the training module 302 is configured to acquire a training positive sample by using the anchor text concept obtained by the graph structure establishing module 301, and use the positive sample training classifier to obtain a trained classifier.
  • the sorting module 303 is configured to perform conceptual projection using the ACG and the trained classifier obtained by the graph structure establishing module 301 to obtain a conceptual projection vector, and calculate the initial keyword according to the conceptual projection vector.
  • An ACG distance between each picture in the search result, and each picture in the search result corresponding to the initial keyword is sorted according to the ACG distance.
  • the diagram structure establishing module 301 specifically includes: a first search unit 301 1 , a first extraction unit 3012 , a weight calculation unit 301 3 , and a merging unit 3014 .
  • a first image using a search unit 3011 for the initial keyword search image 7 obtained search result.
  • the search results include the initial keyword (? ⁇ 3 ⁇ 4 set of pages set ⁇ ⁇ and pictures to the picture The text collection 7;
  • the visual feature may be a color, a shape, a texture, a spatial relationship and the like of the picture.
  • / ⁇ represents the kth picture in the similar picture set ⁇ /"(/ ⁇ )
  • /c 1, 2 , ... N6
  • N6 is the number of pictures in the picture set I, representing the kth picture
  • the weight calculation unit 301 3 is configured to perform weight calculation on each of the candidate words in the candidate word set ⁇ obtained by the first extraction unit 3012 to obtain a weight of the candidate word.
  • the weight calculation unit 3013 calculates the weight ⁇ of the candidate word according to the size of the appearance frequency of the candidate word.
  • ) represents the weight of the candidate word
  • represents the order of the candidate words in the candidate word set W 4 .
  • the candidate word 0 ⁇ with the second highest frequency has a weight of 3, and the third highest frequency has a frequency of 2.
  • the word frequency of the normalized candidate word may be directly used as the weight of the candidate word, or other weight calculation methods may be used.
  • the merging unit 3014 is configured to combine the M 3 ⁇ 4 candidate words whose weight r, ( ) in the candidate word set ⁇ is the largest with the initial keyword according to the calculation result of the weight calculating unit 3013, and combine and obtain 1.
  • M 3 ⁇ 4 is the preset number of elements in the anchor text concept set corresponding to the initial keyword.
  • the statistic unit 3015 is configured to count words in the webpage that appear in the same document as the anchor text concept, and find the first N1 words that can best represent the semantic concept of the anchor text, according to the preset assignment method. N1 words are assigned weights, and the weights of the first N1 words are used to form a vector corresponding to the anchor text concept, where N1 is a preset positive integer.
  • the first N3 document digests corresponding to al can be searched directly on the search engine by using each anchor text concept a, and each anchor is calculated by counting the most important N1 words in the N3 document digests.
  • the vector corresponding to the text concept a 1 You can also use the search engine anchor text concept as a keyword to search for a web page, or directly count the web page data, get a summary of the text or text that appears in an article at the same time as the anchor text concept, and merge the first N4 abstracts into one article, And using the statistical method such as TFI-DF to obtain the vector of the merged article, and then normalizing the vector to obtain the final vector corresponding to the anchor text concept.
  • the association degree calculation unit 3016 is configured to calculate the similarity between the vectors corresponding to any two of the anchor text concepts as the association degree weight between the corresponding two anchor text concepts.
  • the association degree calculation unit 3016 may calculate the similarity between the two vectors by calculating the cosine distance or the Euclidean distance or the like of any two anchor text concepts and corresponding vectors, that is, the concept of the anchor text. The degree of association between the weights.
  • the statistics and calculations are repeated by the statistical unit 3Q15 and the correlation degree calculation unit 3Q16 until the calculation of the association weights between all anchor text concepts is completed, using the similarity or correlation weight between the anchor text concepts and w y .
  • 1, 2,..., ?
  • the correlation matrix W of the anchor text concept of the graph structure ACG is obtained. .
  • the anchor text concept structure ACG is constructed by taking the anchor text concept as a vertex and the weight of the association between the anchor text concepts as the weight of the edge.
  • FIG. 5 is a schematic structural diagram of a training module. As shown in FIG. 5, the training module 302 specifically includes: a second search unit 3021, a second extraction unit 3022, and a training unit 3023.
  • the second search unit 3021 is configured to perform image search or statistics again by using the anchor text concept, and use the result of the search or statistics again as a training positive sample to train the classifier.
  • the image search or the statistic is performed by using the anchor text concept as a keyword
  • the existing search engine may be used to complete or self-statistically complete the image in the webpage to obtain a search result set of the anchor text concept (ie, using the Anchoring the text concept search or statistically obtained result), and selecting the top N2 pictures among the search results corresponding to the anchor text concept as the anchor text
  • the second extracting unit 3022 is configured to extract, as the feature set of the positive samples corresponding to the anchor text concept, the visual features of the N2 pictures in the positive sample set corresponding to the anchor text concept obtained by the second searching unit 3021.
  • the training unit 3023 is configured to train the classifier using the positive samples corresponding to the anchor text concept obtained by the second extraction unit 3022 to obtain the trained classifier.
  • the training unit 3023 uses an existing Multi-calss Support Vector Machine (Multi-calss SVM) or the like as a classifier.
  • Multi-calss SVM Multi-calss Support Vector Machine
  • FIG. 6 is a schematic structural diagram of a sorting module.
  • the sorting module 303 specifically includes: a third extracting unit 3031, a distance calculating unit 3032, and a sorting unit 3033.
  • the third extracting unit 3031 is configured to extract a visual feature of the image in the search result corresponding to the initial keyword, and use the ACG formed by the graph structure establishing module 301 and the trained classifier obtained by the training module 302, Calculating a probability that the extracted visual feature belongs to a category to which each anchor text concept belongs, as an initial conceptual projection vector of a picture corresponding to the conceptual projection.
  • the distance calculation unit 3032 is configured to calculate, according to the initial concept projection vector, an ACG distance between each picture in the search result corresponding to the initial keyword obtained by the third extraction unit.
  • the method includes: a first calculation subunit 30321 and a second calculation subunit 30322.
  • the smoothing process is to re-adjust the values of the respective components according to the correlation between the components of the original concept projection vector ⁇ ⁇ of the original picture, so that the corresponding vision in the projection vector corresponding to one picture
  • the component values of the more similar categories are larger.
  • the result of the smoothing process allows the final ACG distance calculation to more accurately distinguish the categories of the picture from a higher level of semantics.
  • ( ⁇ - ⁇ ⁇ , - ⁇
  • the sorting unit 3033 is for reordering the pictures according to the ACG distance calculated by the distance calculating unit 3032.
  • the sorting unit 3033 calculates the reordered score values of the respective pictures by using the ACG distance, and reorders the respective pictures.
  • the sorting unit 3033 calculates the distance of the picture in any two initial search results by using the ACG distance, thereby obtaining a similarity matrix K of the picture, and the element / ⁇ of the matrix ⁇ represents the i-th picture in the initial keyword search result.
  • the present invention provides a picture reordering apparatus, further comprising: a display module (not shown), configured to display the sorting module by using a picture logical organization manner with similar visual and semantic information The sorting result of each of the above pictures.
  • the image logical organization manner with similar visual and semantic information may be in various forms, including: displaying a picture of the respective pictures belonging to the same category of the anchor text concept in the respective pictures. For example, use a border such as an ellipse or a rectangle to enclose a similar picture.
  • the difference in the size of the distance is used to represent pictures of the respective pictures belonging to different categories of the anchor text concept. For example, you can use a distance to display different types of pictures without using a border (that is, the distance between a picture and a similar picture is significantly smaller than the distance between different types of pictures).
  • the hierarchical recursive structure is used to display a picture of each category in the respective pictures belonging to the same category as the anchor text concept.
  • a large class recursively represents a small class, that is, a large class represented by a large ellipse (rectangle) has a small class (small rectangle) represented by a small ellipse.
  • a picture in the respective pictures belonging to the same category of the anchor text concept is displayed in a thumbnail layered manner.
  • Each type of picture uses thumbnails to display the most important and most representative pictures of the picture (that is, the pictures with the highest scores).
  • the purpose of this cascading presentation is to reflect the content of the main picture of this type, and to save space for web page display, and to give people a sense of the beauty of placing pictures in reality.
  • the category of the picture when the area of the category to which the anchor text concept belongs is selected, such as when a mouse or other dynamic input device is placed on an area of one of the categories to which the anchor text concept belongs, the category is considered to be Categories that you want to be understood by users, so you should show more details. Displaying a picture in the category to which the anchor text concept belongs in the area where the cursor is located is displayed at the forefront of the display screen for the user to view all the pictures in the category. Or, when a mouse or other dynamic input device is placed on one of the categories, the category appears to be quasi-active, that is, the area occupied by the category is significantly larger than the other categories, and the cascading of images included in the category is slow.
  • the anchor text concept is marked in the form of a text in the vicinity of the picture belonging to the same category of the anchor text concept in each of the pictures.
  • a category of pictures has (or may not have) a text label as a high-level semantic concept for identifying such pictures, which is the text form of the anchor text in this patent.
  • the size of the relationship between the picture and the category of the anchor text concept is represented by a number or a length of the bar, the number The larger or the longer the strip, the greater the degree of association.
  • the image is placed in the vicinity of the anchor text concept, and the reclassified index map is formed by the manner of classification display, as shown in Fig. 2e, the reordering will be performed.
  • the results are reclassified.
  • the user observes the index map after the reclassification shown in Fig. 2e when one of the categories is clicked, a picture conforming to the user's intention can be obtained, and the pictures in the classification are arranged according to the reordering score value. For example, if you click "kunfu panda", the result is shown in Figure 2f.
  • the image of the category of the anchor text concept of "kunfu panda" is displayed.
  • the pictures of the category are sorted by the score of each picture, and other pictures are hidden. Picture of the category (or put other category image thumbnails in a position that is not prominent next to it).
  • the display method of the image search result of the present invention may also adopt other display modes, and the present invention is not limited thereto.
  • the image sorting method and device provided by the invention extracts the visual feature information of the image, and obtains a high-level text semantic concept (ie anchor concept conchp t ), establishes an ACG graph structure, and uses the anchor text concept as a keyword acquisition training.
  • a high-level text semantic concept ie anchor concept conchp t
  • ACG distance for the metric scale required for image reordering, reordering according to ACG distance
  • the semantic correlation of the training data obtained by the present invention is very high
  • the cost of obtaining training data is lower. Because the ACG distance associated with the high-level semantic concept is used as the re-sorting metric, the ranking of the search results of the image is more accurate and more in line with the user's search intent.
  • each step of the above method may be completed by an integrated logic circuit of hardware in a processor or an instruction in a form of software.
  • the steps of the method disclosed in the embodiments of the present invention may be directly implemented as a hardware processor, or may be performed by a combination of hardware and software modules in the processor.
  • the software modules can be located in a conventional storage medium such as random access memory, flash memory, read only memory, programmable read only memory or electrically erasable programmable memory, registers, and the like.
  • RAM random access memory
  • ROM read only memory
  • electrically programmable ROM electrically erasable programmable ROM
  • registers hard disk, removable disk, CD-ROM, or any other form of storage known in the art. In the medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种图片排序方法及装置,所述方法包括:利用初始关键词进行图片搜索,根据所述初始关键词的搜索结果,计算得到所述搜索结果的锚文本概念集合,并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值,以所述锚文本概念集合中的锚文本概念为顶点、所述锚文本概念之间的关联度权值为顶点之间的边的权值,构成锚文本概念图结构ACG;利用所述锚文本概念获取训练正样本,并利用所述训练正样本训练分类器;利用所述ACG和所述分类器得到概念投影向量,计算所述初始关键词的搜索结果中各图片之间的ACG距离,根据所述ACG距离对所述各图片进行排序。本发明使得图片的搜索结果的排序更加准确,较为符合用户的搜索意图。

Description

图片排序方法及装置
技术领域
本发明涉及计算机技术领域, 尤其涉及一种图片排序方法及装置。 背景技术
随着互联网技术的快速发展, 网络图片数据正在以惊人的速度快速增加。 普通互联网用户要利用这样海量的数据资源, 必然需要对图片进行检索。 使 用关键字检索图片通常会得到很多与关键字有一定关联图片, 但是通常还同 时会得到很多与用户需要的结果关联很少或者根本没有什么关联的图片。
近年来, 以 Goog le、 Bing、 Ba idu为代表的搜索引擎运营商都提供了图 片搜索的功能为普通用户进行海量网络图片数据检索提供服务。 对图片的检 索目前有两种方式: 使用关键字的图片检索和基于内容的图片检索。 使用关 键字检索图片是目前最流行的方式, 它能够利用基于用户输入的图片标签 ( tag )信息来进行精准的图片语义匹配。 但是, 由于普通用户搜索时用词不 准确、 不专业, 与图片所搭配的文章中的文字涵盖内容广等原因导致搜索结 果中往往包含很多不符合用户需求的图片。 基于内容的图片检索 (Content Based Image Retr ieva l , CBIR )是近些年计算机视觉和信息检索领域的研究 热点, 研究目标是利用图片自身的视觉信息进行有效检索 (以图搜图) 。 然 而图片本身的视觉信息的多样性, 以及 "语义鸿沟" 的存在, 使得 CBIR的检 索效果离实际使用仍有一段距离。
总而言之, 目前图片检索方式无法给用户带来满意的结果, 根据用户本 身提供的具体信息重新把已经得到的图片组织和排序, 使用户花尽量少的精 力就能看到更多符合要求的图片就成为了一个重要的需求。 发明内容
本发明提供一种图片排序方法及装置,使得图片的搜索结果的排序更加 准确, 较为符合用户的搜索意图。
本发明第一方面提供了一种图片排序方法, 所述方法包括:
利用初始关键词进行图片搜索, 根据所述初始关键词对应的搜索结果, 计算得到所述搜索结果的锚文本概念集合, 并计算得到所述锚文本概念集合 中的锚文本概念之间的关联度权值, 以所述锚文本概念集合中的锚文本概念 为顶点、 所述顶点之间的连线为顶点的边, 所述顶点的边具有所述锚文本概 念之间的关联度权值, 构成锚文本 4既念图结构 Anchor Concep t Graph ACG; 所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联度大 小;
利用所述锚文本概念获取训练正样本, 并利用所述训练正样本训练分类 器得到训练好的分类器;
利用所述 ACG和所述训练好的分类器进行概念投影得到概念投影向量, 根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离,根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进 行排序。
结合第一方面, 在第一方面的第一种可能的实施方式中, 所述根据所述 初始关键词对应的搜索结果, 计算得到锚文本概念集合, 具体包括:
利用初始关键词 (?进行图片搜索得到搜索结果,所述搜索结果包括所述初 始关键词 (?对应的图片集合 I 和为所述图片集合 I 中图片所配的文本集合 7;; 提取所述图片集合 Γβ中的每一张图片的视觉特征;
对于所述图片集合 I 中的图片 /fc, 将视觉特征与所述图片 /fc最为相似的 K 个图片组成所述图片 /¾的相似图片集合 , 并将所述相似图片臬合 Af(Ik) 中的所有图片所配的文本中出现频率最高的 T个词作为候选词,得到所述图片 Ik的含义的候选词集合^, 即 W4 = }1,, 其中, /fc表示所述图片集合 Γ¾中 第/ c个图片, /c = 1,2,3, ... . , Ν6, Ν6为所述图片集合 1 中的图片数量, ¾表示 图片 的第 个候选词, ί = 1, 2 , 3, ... ... , Τ, Τ为预设正整数;
对所述候选词集合 W4中的每一个所述候选词 co' 进行权值计算, 得到所 述候选词 ω 的权值 η 将所述候选词集
Figure imgf000005_0001
)最大的 M¾个候选词分别与所述初 始关键词 (?组合, 合并, 得到 ^1¾个锚文本概念, 形成锚文本概念集合 ς, 其 中, Μ。为预设的所述初始关键词 (?对应的锚文本概念集合 中的元素个数。
结合第一方面的第一种可能的实施方式, 在第一方面的第二种可能的实 施方式中,所述对所述候选词集合^中的每一个所述候选词 进行权值计算, 得到所述候选词 的权值 r!
Figure imgf000005_0002
), 具体包括: 根据所述候选词 cd的出现频率的大小计算所述候选词 cd的权值 r! [ω ), 所述候选词 的出现频率越大, 所述权值 (6^ )越大。
结合第一方面或第一方面的第一种或第二种可能的实施方式, 在第一方 面的第三种可能的实施方式中, 所述计算得到所述锚文本概念集合中的锚文 本概念之间的关联度权值, 具体包括:
统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从中找到 最能表征所述锚文本概念语义的前 N1 个词, 根据预设赋值方法为所述前 N1 个词赋予权值, 利用所述前 N1 个词的权值形成所述锚文本概念对应的向量, 其中, N1为预设正整数;
计算任意两个所述锚文本概念对应的向量之间的相似度, 作为对应的两 个所述锚文本概念之间的关联度权值。
结合第一方面, 在第一方面的第四种可能的实施方式中, 所述利用所述 锚文本概念自动获取训练正样本, 利用所述训练正样本训练分类器得到训练 好的分类器, 具体包括:
利用所述锚文本概念作为关键词进行图片搜索或统计, 得到所述锚文本 概念的搜索结果集合,并选取所述锚文本概念 对应的一个搜索结果集合中排 在前 N2个的图片作为所述锚文本概念 对应的正样本集合,其中 N2为预设整 数, i = 1,2,3, - , Μ^ ;
提取所述锚文本概念 对应的正样本集合中 N2个图片的视觉特征, 作为 所述锚文本概念对应的正样本的特征集合, 其中 N2 为预设整数, ί = 1,2,3 Mq ;
利用所述锚文本概念对应的正样本的特征集合训练所述分类器得到所述 训练好的分类器。
结合第一方面, 在第一方面的第五种可能的实施方式中, 所述利用所述 ACG和所述分类器进行概念投影得到概念投影向量,根据所述概念投影向量计 算所述初始关键词对应的搜索结果中各图片之间的 ACG距离, 具体包括:
提取所述初始关键词对应的搜索结果中图片的视觉特征, 利用所述 ACG 和所述分类器, 计算所提取的视觉特征属于各个所述锚文本概念所属类别的 概率, 作为所述概念投影对应的图片的初始概念投影向量;
根据所述初始概念投影向量, 计算所述图片之间的 ACG距离。
结合第一方面的第五种可能的实施方式, 在第一方面的第六种可能的实 施方式中,所述根据所述初始概念投影向量,计算所述图片之间的 ACG距离, 具体包括:
利用公式 Α* = (α"^ ,) = (/-α )-1 Α., 对所述初始关键词对应的图片的所
述图片初始概念投影向量; 进行平滑处理, 其中, 表示所述初始关键词对 应的第 i个所述图片的初始概念投影向量, 表示第 i个平滑后的概念投影向量, α表示控制扩散率的阻尼系数, 表示列单位化相关矩阵, ^^ -1, Ζ)为对 角元素 Du = ^Wj,的对角矩阵, M¾为预设的所述初始关键词 对应的锚文本概 念集合 Ce中的元素个数;
利用公式^ ACC = ||A* - p ||i = ||(/ -aWr1(A - Pi)||1,计算第 i个所述图片和第 个 所述图片之间的 ACG距离 distACG
结合第一方面或第一方面的第一种至第六种中任一可能的实施方式, 在 第一方面的第七种可能的实施方式中, 在所述根据所述 ACG距离对所述初始 关键词对应的搜索结果中的各图片进行重排序之后, 还包括:
釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述各图片的重 排序结果。
结合第一方面的第七种可能的实施方式, 在第一方面的第八种可能的实 施方式中, 所述具有相似视觉和语义信息的图片逻辑组织方式包括:
釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起;
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片;
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片;
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。
结合第一方面的第八种可能的实施方式, 在第一方面的第九种可能的实 施方式中, 对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一 锚文本概念所属类别的图片时, 当选择所述锚文本概念所属类别的区域时, 将所选择的区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最 前端, 以供用户查看该类别中的全部图片。
第二方面, 本发明还提供了一种图片排序装置, 所述装置包括: 图结构建立模块, 用于利用初始关键词进行图片搜索, 根据所述初始关 键词对应的的搜索结果, 计算得到所述搜索结果的锚文本概念集合, 并计算 得到所述锚文本概念集合中的锚文本概念之间的关联度权值, 以所述锚文本 概念集合中的锚文本概念为顶点、 所述顶点之间的连线为顶点的边, 所述顶 点的边具有所述锚文本概念之间的关联度权值, 构成锚文本概念图结构
Anchor Concep t Graph ACG ; 所述锚文本 ^既念之间的关联度权值表示所述锚 文本概念之间的语义关联度大小;
训练模块, 用于利用所述图结构建立模块得到的所述锚文本概念获取训 练正样本, 并利用所述正样本训练分类器得到训练好的分类器;
排序模块, 用于利用所述图结构建立模块构成的所述 ACG和所述训练模 块得到的所述训练好的分类器进行概念投影得到概念投影向量, 根据所述概 念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离, 根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。
结合第二方面, 在第二方面的第一种可能的实施方式中, 所述图结构建 立模块具体包括:
第一搜索单元, 用于利用初始关键词 (?进行图片搜索得到搜索结果, 所述 搜索结果包括所述初始关键词 (?对应的图片集合 I 和为所述图片集合 I 中图 片所配的文本集合 7;;
第一提取单元, 用于对所述第一搜索单元得到的所述图片集合 Γβ中的每 一个图片, 提取图片视觉特征, 对于所述图片集合 r 中的图片 /fc, 将视觉特征 与所述图片 /fc最为相似的 K个图片组成所述图片 /fc的相似图片集合 并 将所述相似图片集合 Λ "(4)中的所有图片所配的文本中出现频率最高的 T个词 作为候选词, 得到所述图片 的含义的候选词集合 , 即 ^ ^ ^, 其 中, /fc表示所述图片集合 Γ¾中第/ c个图片, /c = 1,2,3, ... . , Ν6, Ν6为所述图片 集合 中的图片数量, ^¾表示图片 的第 个候选词, i = l, 2 , 3, ... ... , T,
Τ为预设正整数;
权值计算单元, 用于将所述第一提取单元得到的所述候选词集合^中的 每一个所述候选词 进行权值计算, 得到所述候选词 的权值 ; 合并单元, 用于根据所述权值计算单元的计算结果, 将所述候选词集合 ^中的权值 r, ( )最大的 Μ¾个候选词分别与所述初始关键词 组合, 合并, 得到 ^1。个锚文本概念, 形成锚文本概念集合 C。, 其中, Μβ为预设的所述初始 关键词 (?对应的锚文本概念集合 ς中的元素个数。
结合第二方面的第一种可能的实施方式, 在第二方面的第二种可能的实 施方式中, 所述权值计算单元根据所述候选词 的出现频率计算所述候选词 ω 的权值 η )
Figure imgf000009_0001
越大。
结合第二方面或第二方面的第一种或第二种可能的实施方式, 在第二方 面的第三种可能的实施方式中, 所述图结构建立模块还包括:
统计单元, 统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从中找到最能表征所述锚文本概念语义的前 N1个词, 根据预设赋值方法为 所述前 N1个词赋予权值, 利用所述前 N1个词的权值形成所述锚文本概念对 应的向量, 其中, N1为预设正整数;
关联度计算单元, 用于计算任意两个所述锚文本概念对应的向量之间的 相似度, 作为对应的两个所述锚文本概念之间的关联度权值。
结合第二方面, 在第二方面的第四种可能的实施方式中, 所述训练模块 具体包括: 第二搜索单元, 利用所述锚文本概念作为关键词进行图片搜索, 得到所 述锚文本概念的搜索结果集合,并选取所述锚文本概念 ^对应的一个搜索结果 集合中排在前 N2个的图片做为所诉锚文本概念 ^对应的正样本集合,其中 N2 为预设整数, i = 1,2,3, ... , Μ^ ;
第二提取单元, 用于提取所述锚文本概念 ^对应的正样本集合中 N2个图 片的视觉特征, 作为所述锚文本概念对应的正样本的特征集合, 其中 N2为预 设整数, ί = 1,2,3, - , Μ^;
训练单元, 利用所述锚文本概念对应的正样本的特征集合训练所述分类 器得到所述训练好的分类器。
结合第二方面, 在第二方面的第五种可能的实施方式中, 所述排序模块 具体包括:
第三提取单元, 用于利用所述图结构建立模块构成的所述 ACG和所述训 练模块得到的所述训练好的分类器, 提取所述初始关键词对应的搜索结果中 图片的视觉特征, 通过分类器计算所提取的视觉特征属于各个所述锚文本概 念所属类别的概率, 作为所述概念投影对应的图片的初始概念投影向量; 距离计算单元, 用于根据所述初始概念投影向量, 计算所述第三提取单 元得到的所述初始关键词对应的搜索结果中各图片之间的 ACG距离。
结合第二方面的第五种可能的实施方式, 在第二方面的第六种可能的实 施方式中, 所述距离计算单元, 具体包括:
第一计算子单元, 用于利用公式; ^ = (01 " ; ^^ (/— ο^)-1;^ 对所述图片 的初始概念投影向量 进行平滑处理, 其中, Ρί表示第 i个所述图片初始概念 投影向量, 表示初始关键词 (7对应的第 i个平滑后的概念投影向量, α表示控 制扩散率的阻尼系数, W表示列单位化相关矩阵, ^^ Τ1 , Ζ)为对角元素 °„=∑ ^β的对角矩阵, Μ¾为预设的所述初始关键词 (7对应的锚文本概念集合
<^中的元素个数; 第二计算子单元, 用于利用公式 ^ ^ ^ - /^ ^(/ - o^)- p, - ) , 计 算第 i个所述图片和第'个所述图片之间的 ACG距离 distACG
结合第二方面或第二方面的第一种至第六种中任一可能的实施方式, 在 第二方面的第七种可能的实施方式中, 所述装置还包括:
展示模块, 用于釆用具有相似视觉和语义信息的图片逻辑组织方式展示 所述排序模块得到的所述各图片的重排序结果。
结合第二方面的第七种可能的实施方式, 在第二方面的第八种可能的实 施方式中, 所述具有相似视觉和语义信息的图片逻辑组织方式包括:
釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起;
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片;
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片;
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。
结合第二方面的第八种可能的实施方式, 在第二方面的第九种可能的实 施方式中, 对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一 锚文本概念所属类别的图片时, 当选择所述锚文本概念所属类别的区域时, 所述展示模块将所选择的区域上的所述锚文本概念所属类别中的图片展示于 显示屏幕的最前端, 以供用户查看该类别中的全部图片。 本发明提供的图片排序方法及装置, 通过提取图片的视觉特征信息, 得 出高层次文本语义概念(即锚文本概念 anchor concept ) , 建立锚文本概念 图结构 ACG,通过计算得到与高层次语义概念相关的 ACG距离作为重排序的度 量尺度,使得图片的搜索结果的排序更加准确,更加符合用户的搜索意图。 附图说明
图 1为本发明实施例一提供的图片排序方法流程图;
图 2a为本发明实施例一提供的初始关键词 "panda"的搜索结果示意图; 图 2b为图 2a生成的锚文本概念的示意图;
图 2c为图 2a所建立的锚文本概念图结构 ACG的示意图;
图 2d为图 2a经过图片重排序后的图片示意图;
图 2e为图 2a经过图片重排序后的图片索引图的示意图;
图 2f 为图 2b中 "kunfu panda" 分类下的图片示意图;
图 3为本发明实施例二提供的图片排序装置示意图;
图 4为本发明实施例二提供的图结构建立模块的结构示意图;
图 5为本发明实施例二提供的训练模块的结构示意图;
图 6为本发明实施例二提供的排序模块的结构示意图。 具体实施方式
下面通过附图和实施例, 对本发明的技术方案做进一步的详细描述。 本发明提供的图片排序方法及装置, 适用于需要进行图片搜索或排序的 场景, 尤其适用于通过搜索引擎进行图片搜索的场合, 通过对图片搜索结果 进行重排序, 可以使用户通过很少的操作即可找到所需要的图片, 排序结果 更加符合用户的搜索意图。
实施例一
图 1是本实施例提供的图片排序方法流程图, 如图 1所示, 本发明的图 片排序方法包括:
S101、 利用初始关键词进行图片搜索, 根据所述初始关键词对应的搜索 结果, 计算得到所述搜索结果的锚文本概念集合, 并计算得到所述锚文本概 念集合中的锚文本概念之间的关联度权值, 以所述锚文本概念集合中的锚文 本概念为顶点、 所述顶点之间的连线为顶点的边, 所述顶点的边具有所述锚 文本概念之间的关联度权值,构成锚文本概念图结构(Anchor Concept Graph, ACG ) 。
在锚文本(Anchor )链接中, 一般将文本关键词作为一个链接, 指向别 的网页。 锚文本链接建立文本关键词与统一资源标识符 ( Uniform Resource Loca tor , URL )链接的关系。 锚文本即为该文本关键词, 通常锚文本能精确 的描述所指向页面的内容。 本发明中的锚文本概念是从初始关键词的图片搜 索结果中的图片对应的文本关键词 (即锚文本) 中选取得到的最能表达该些 图片的文本。
所述根据所述初始关键词对应的搜索结果, 计算得到锚文本概念集合, 具体包括:
S101 利用初始关键词 (7进行图片搜索得到搜索结果, 所述搜索结果包 括所述初始关键词 对应的的图片集合 Γ¾和网页中为所述图片集合 Γ¾中图片 所配的文本集合 7;。
对于用户输入的初始关键词 (?,借助搜索引擎搜索得到相关的图片作为搜 索结果。
51012、 提取所述图片集合 Γβ中的每一张图片的视觉特征。
视觉特征可以是图片的颜色、 形状、 纹理、 空间关系等特征。
51013、 对所述图片集合 中的图片 /fc, 将视觉特征与所述图片 /fc最为相 似的 K个图片组成所述图片 /¾的相似图片集合 并将与所述相似图片集 合 Λ/"(/λ)中的所有图片所配的文本中出现频率最高的 T个词作为候选词, 得到 所述图片 Ik的含义的候选词集合^, 即 W =
Figure imgf000014_0001
,。
其中, /λ表示相似图片集合 Λ/"(/λ)中第/ c个图片, k = 1, 2, ...N6, N6为 所述图片集合 中的图片数量, 表示第/ c个图片 /λ的第 i个候选词, ί = 1, 2, 3, ...... ,Τ, Τ为预设正整数。
51014、 对所述候选词集合^中的每一个所述候选词 cd进行权值计算, 得到所述候选词 的权值 r! 根据所述候选词 的
Figure imgf000014_0002
)。 所述候选词 的出现频率越大, 权值 (c^)越大。 例如, 在对所述候选词集 合按候选词出现频率从大到小的顺序排序之后 (比如 ωί¾表示出现频率最高的 词, 0¾表示出现频率第二高的词…… ) , 利用公式^ ) = ^ )+ ( - ), 计 算所述候选词 的权值。 其中, 表示候选词 的权值, ί表示所述候选 词 在所述候选词集合^中的顺序。例如候选词集合中有 5个候选词,即 Τ=5, 则出现频率最高的一个候选词 0^的权值为 ( ) = ^«)+ (Γ-1)=4, 依次类推 出现频率第二高的候选词 0^的权值为 3, 出现频率第三高的为 2。 当然, 也 可以直接釆用归一化后的候选词 的词频作为所述候选词 的权值, 或者, 釆用其他权值计算方法。
51015、 将所述候选词集合 ^中的权值 最大的 的候选词分别 与所述初始关键词 (7组合, 合并, 得到 ^1¾个锚文本概念, 形成锚文本概念集 合 , 其中, Μ¾为预设的所述初始关键词 (7对应的锚文本概念集合 ς中的元 素个数。
所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联 度大小。
所述计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值, 具体包括:
51016、 统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从 中找到最能表征所述锚文本概念语义的前 N1个词, 根据预设赋值方法为所述 前 N1个词赋予权值, 利用所述前 N1个词的权值形成所述锚文本概念对应的 向量, 其中, N1为预设正整数。
可选的,可以釆用直接利用每一个锚文本概念 a 1在搜索引擎上搜索得到 al对应的前 N3个文档摘要,通过统计 N3个文档摘要中最重要的 N1个词的方 式计算出每一个锚文本概念 a 1对应的向量。 也可以使用搜索引擎锚文本概念 作为关键字搜索网页, 或者直接统计网页数据的方式, 得到与锚文本概念同 时出现在一篇文章中的文本或文本的摘要, 把前 N4 个摘要合并为一篇文章, 并使用词频-倒文档率(TF-IDF )等统计方法得到所述合并文章的向量, 然后 对向量归一化等处理得到所述锚文本概念对应的最终的向量。 然后, 通过计 算锚文本概念对应的最终的向量之间的相似度, 作为对应的两个锚文本概念 之间的关联度权值。 其中, N1和 N3和 N4为预设正整数。 关于计算锚文本概 念更为详细的阐述可以在文章 [M. Sahami and T. D. He i lman. A web-based kerne l funct ion for measur ing the s imi lar i ty of shor t text sni ppet s. In WW, 2006]及其参考文献中找大更为详细的论述。
51017、 计算任意两个所述锚文本概念对应的向量之间的相似度, 作为对 应的两个所述锚文本概念之间的关联度权值。
可选的, 可以通过计算任意两个锚文本概念 d和 对应的向量的余弦距 离或者欧氏距离等等来作为这两个向量之间的相似度, 即为所述锚文本概念 之间的关联度权值。
重复 S 1015 ~ S 1016,直到完成所有锚文本概念之间的关联度权值的计算。 使用 M ^表示锚文本概念 和 之间的相似度或者关联度权值,将 作为矩阵 W的第 i行和第 列的元素, 同时把 M¾ ( = 1, 2,...,M¾ ) 置为 1, 即可得到图结构 ACG的锚文本概念的相关度矩阵^。 这样, 以锚文本概念为顶点、 锚文本概念之间的关联度权值为边的权值 来构成锚文本概念图结构 ACG。
5102、 利用所述锚文本概念获取训练正样本, 并利用所述训练正样本训 练分类器得到训练好的分类器。 具体包括:
S102 利用所述锚文本概念作为关键词进行图片搜索或者统计, 可以使 用现有的搜索引擎完成或者自行统计网页中的图片完成, 得到所述锚文本概 念的搜索结果集合(即利用所述锚文本概念搜索或者统计得到的结果) , 并 选取所述锚文本概念 ^对应的一个搜索结果集合中排在前 N2个的图片作为所 述锚文本概念 的正样本集合, 其中 N2为预设整数, ί = 1,2,3, ... , Mq。
训练正样本是包含待检验特征的待检验样本, 例如, 进行人脸检测时, 训练正样本是包含人脸特征的待检验样本。 在本发明实施例中则是与锚文本 概念 (关键词)相关的图片, 即为训练正样本。
51022 , 提取所述锚文本概念 对应的正样本集合中 N2 个图片的视觉特 征, 作为所述锚文本概念对应的正样本的特征集合。
51023、 对所述锚文本概念对应的正样本训练分类器, 得到所述训练好的 分类器。
可选的, 使用现有的多类别支持向量机(Mul t i-c la s s Suppor t Vec tor Machine , Mul t i-c la s s SVM )等作为分类器。
5103、 利用所述 ACG和所述分类器进行概念投影得到概念投影向量, 利 用所述概念投影向量计算所述初始关键词的搜索结果中各图片之间的 ACG距 离, 根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排 序。
概念投影是利用已经建立好的 ACG和训练好的分类器, 通过一系列运算 得到一副待排序的图片与各个 ACG 中的锚文本概念关联度大小的数值组成的 向量(概念投影向量)得过程。
所述利用所述 ACG和所述训练好的分类器, 计算所述初始关键词的搜索 结果中各图片之间的距离, 具体包括:
S103 提取所述初始关键词对应的搜索结果中图片的视觉特征, 利用所 述 ACG和所述分类器, 计算所提取的视觉特征属于各个所述锚文本概念所属 类别的概率, 作为所述概念投影对应的图片 /έ的初始概念投影向量 。
S1032、 根据所述初始概念投影向量, 计算所述初始关键词对应的搜索结 果中各图片之间的 ACG距离。
S1032 对初始关键词 (7对应的图片 /έ ( i = 1,2, ...,Μ^ ) 的初始概念投影 向量 Pi, 利用公式/^^^"^)^/-^)-1/?,., 进行平滑处理处理。 其中, 表示初始关键词 (7对应的第 i个所述图片的初始概念投影向量, 表示; ^平滑后的概念投影向量, α表示控制扩散率的阻尼系数, 表示列单位 化相关矩阵, = D- Z)为对角元素 Ζ)„=ΧΜ' ^,的对角矩阵, Μβ为预设的所 述初始关键词 q对应的锚文本概念集合 Cq中的元素个数。
平滑处理是根据图片的初始概念投影向量 Pi的各个分量之间的相关关系 重新调整 中各个分量的值, 使得一张图片所对应投影向量的中对应视觉特 征上更相似的类别的分量值更大。 平滑处理的结果使得最后的 ACG距离计算 能从高层次语义上更为精确的区分图片的类别。
S10322, 利用公式^ G=|p;- /^^(/- o^)- p,- ) 计算第 i个所述图 片和第 '个所述图片之间的 ACG距离 distACG
在得到 ACG距离后, 根据所述 ACG距离计算图片的重排序得分值, 根据 重排序得分值对各图片进行排序。
可选的, 通过 ACG距离计算出任意两幅初始搜索结果中的图片的距离, 从而得到图片的相似度矩阵 K, 矩阵 Κ的元素 表示初始关键字搜索结果中 第 i幅图片和第'幅图片; 而后通过把相似度矩阵每一列相加得到总的相似向量 s, 其中 e是所有元素都为 1 的向量, s = Ke; 然后通过公式 minz|| , ^∑|| ;5丄0≤ 2≤ 1计算得到向量2, 其中 e是所有元素都为 1的向量, Lvoce DJ
s = Ke, α是一个给定的平衡参数, D是一个给定的包涵有第一次搜索各个图 片排序信息的对角矩阵; 最后通过公式 η: ;^ ^ !^^,^)计算最后 的排名得分, 其中 l(Zm〉。)表示当 zm〉 0的时候为 1 否则为 0, 使向量 zm是向 量 z的第 m个分量 KerQ^p )是一个计算向量相似度的核函数, 比如可以使用 向量的内积等表示, ^和 ? 分别表示第 i幅图片和第 m幅图片平滑后的概念投 影向量。
更多, 更为详细的可选方法可以在 [N. Morioka and J. Wang. Robust visual reranking via spars i ty and ranking constraints. In ACM MM, 2011]、 [W. Hsu, L. Kennedy, and S. -F. Chang. Video search reranking through random walk over document-level context graph. In ACM MM, 2007. ]等 文章中找到。
举个例子,当用户输入初始关键词" panda"进行图片搜索时,先用 "panda" 作为初始关键词在搜索引擎中进行图片搜索, 得到如图 2a 所示的搜索结果, 其中包括动物熊猫、 汽车、 电影海报图片等等不同类型的图片。 对搜索结果 中的每一幅图片/¾提取图片视觉特征, 其中/ c = 1,2,3, ....,N6, N6为所述图片 集合 Γβ中的图片数量,将搜索结果中视觉特征相似 Κ个图片组成相似图片集合
N(/fc);然后统计处所有网页中描述 N(/fc)中图片的文字中出现频率最高的并将 与所述相似图片集合 )相关的文本中出现频率最高的 T个词作为候选词, 得到候选词集合^, 即^={ } ; 然后利用公式 ^ ) = ( )+( -), 计 算所述候选词 的权值。 其中, r,( )表示候选词 的权值, ί表示所述候选 词 在所述候选词集合 ^中的顺序; 最后通过选出 最大的 Mq个词和初 始关键词 q组成 Mq个锚文本概念。 如图 2b所示, 我们一共得到了 6个候选词 包括 "kunfu" 、 "giant" 、 "zoo" 、 "suv" 、 "fiat" 、 "red" 等等, 这些词和 "panda "组合得到候选集合锚文本概念,它们分别是"功夫熊猫 kunf u panda" 、 "大熊猫 g iant panda" 、 "熊猫动物园 anda zoo" 、 "熊猫越 野车 anda suv" 、 "菲亚特熊猫 f ia t panda" 、 "红熊猫 red panda" 。
再统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从中找 到最能表征所述锚文本概念语义的前 N1个词, 为所述前 N1个词赋予权值, 利用所述前 N1个词的权值形成所述锚文本概念对应的向量, 其中, N1为预设 正整数; 通过计算各锚文本概念对应的向量之间的相似度, 得到各锚文本概 念之间的关联度权值及其关联度权值矩阵。 以锚文本概念为顶点、 锚文本概 念之间的关联度权值为顶点之间的边的权值来构成锚文本概念图结构 ACG,如 图 2c所示, 该 ACG图中以六个锚文本概念为顶点, 锚文本概念之间关联度权 值为顶点之间的边的权值。 再次利用搜索引擎, 将锚文本概念作为关键词进 行图片搜索, 得到锚文本概念的搜索结果, 提取排在前 N2个的图片的视觉特 征, 作为训练正样本训练分类器, 得到训练好的分类器。 利用训练好的分类 器和 ACG进行概念投影, 即, 将初始关键词 "panda" 的图片搜索结果中的图 片逐一地提取图片的视觉特征, 再将提取的视觉特征通过分类器计算得到该 图片属于 ACG 中各锚文本概念所属的分类的概率, 并作为概念投影对应的图 片的初始概念投影向量并得到相应的平滑后的概念投影向量。 利用距离计算 公式计算任意两个图片 (即图片对) 的图片平滑后的概念投影向量之间的距 离, 作为图片对之间的 ACG距离。 利用图片对之间 ACG距离计算图片的重排 序得分值, 根据重排序得分值对各图片进行排序, 得到如图 2d所示的重排序 结果, 包括六个分类, 每个分类中的图片按照重排序得分值排列。
可选的, 在所述根据所述 ACG距离对所述初始关键词对应的搜索结果中 的各图片进行排序之后, 还包括: 釆用具有相似视觉和语义信息的图片逻辑 组织方式展示所述各图片的排序结果。
所述具有相似视觉和语义信息的图片逻辑组织方式可以有多种形式, 包 括: 釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起。 例如, 釆用椭圓、 矩形等边框围住同类图片。
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片。 例如, 可以不使用边框而釆用距离大小展现不同类别的 图片 (即一张图和同类图片之间的距离明显小于不同类图片之间的距离) 。
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片。 例如, 在大类里面递归表示小类, 即大椭圓(矩形) 表示的大类里面有若干小椭圓表示的小类 (矩形) 。
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片。
每一类图片釆用缩略图, 层叠的方式展现该类图片中最主要的、 最有代 表性的数张图片 (即分类分值最高的几张图片) 。 釆用这一层叠展现方式目 的在于既体现出该类主要图片的内容, 又节省网页展示的空间, 还能给人模 仿现实中放置图片方式的美感。
在呈现图片的类别之后, 当选择所述锚文本概念所属类别的区域时, 如 当鼠标或者其他动态输入设备放到其中一个所述锚文本概念所属类别的区域 上时, 这个类别将被认为是希望被用户了解的类别, 所以应该展现更为详细 的情况。 将所述光标所在区域上的所述锚文本概念所属类别中的图片展示于 显示屏幕的最前端, 以供用户查看该类别中的全部图片。 或者, 当鼠标或者 其他动态输入设备放到其中一个类别上的时候, 该类别表现为准激活状态, 即该类别所占的区域位置明显大于其他类别, 同时该类别所包含的图片层叠 方式发生緩慢的变化, 比如以动画的方式使得上层的图片緩慢移动到下层, 下层的图片按层叠的顺序移动到顶层, 让用户有机会观看到以前由于空间限 制被遮挡的图片。
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念。 例如, 一个类别的图片旁有 (也可以没 有)一个文字标签作为标识该类图片的高级语义概念, 该标签就是本专利中 的锚文本 ^既念的文字形式。
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。 例如, 在每张 图或每一类图旁可以 (也可以没有)有该图片或该类图片与各类图片联系强 弱的相关度示意标识, 等等。
以上述初始关键词 "panda" 为例, 在排序结果中, 釆用把图片放到所属 锚文本概念附近, 通过分类展示的方式形成重新分类后的索引图, 如图 2e所 示, 将重排序的结果进行重新分类显示。 当用户观察图 2e所示的重新分类之 后的索引图后, 当点击其中一类, 则可以得到符合用户意图的图片, 分类中 的图片按照重排序得分值排列。 例如点击 "kunfu panda" , 则得到的结果如 图 2f 所示, 显示 "kunfu panda" 这一锚文本概念所属分类下的图片, 按每 个图片的分值排序展现该类别的图片, 而隐藏其它类别的图片 (或者把其他 类别图片缩略图放在旁边不显著的位置上) 。
当然, 本发明的图片检索结果的展示方式还可以釆用其他的展示方式, 本发明并不加以限制。
以上是对本发明所提供的图片排序方法进行的详细描述, 下面对本发明 提供的图片排序装置进行详细描述。
实施例二
图 3是本实施例提供的图片排序装置示意图, 如图 3所示, 本发明的图 片重排序装置包括: 图结构建立模块 301、 训练模块 302和排序模块 303。
图结构建立模块 301用于利用初始关键词进行图片搜索, 根据所述初始 关键词的搜索结果, 计算得到所述初始搜索结果的锚文本概念集合, 并计算 得到所述锚文本概念集合中的锚文本概念之间的关联度权值, 以所述锚文本 概念集合中的锚文本概念为顶点、 所述锚文本概念之间的关联度权值为顶点 之间的边的权值构成锚文本概念图结构 ACG。 所述锚文本概念之间的关联度权值表示所述锚文本概念之间的关联度大 小。
训练模块 302用于利用图结构建立模块 301得到的所述锚文本概念获取 训练正样本, 并利用所述正样本训练分类器得到训练好的分类器。
排序模块 303用于利用图结构建立模块 301构成的所述 ACG和训练模块 302得到的所述训练好的分类器进行概念投影得到概念投影向量,根据所述概 念投影向量计算所述初始关键词的搜索结果中各图片之间的 ACG距离, 根据 所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。
其中, 图 4是图结构建立模块的结构示意图, 如图 4所示, 图结构建立 模块 301具体包括: 第一搜索单元 301 1、 第一提取单元 3012、 权值计算单元 301 3、 合并单元 3014、 统计单元 3015和关联度计算单元 3016。
第一搜索单元 301 1用于利用初始关键词 (7进行图片搜索得到搜索结果。 所述搜索结果包括所述初始关键词 (?的图片集合 Γ¾和网页中为所述图片 集合 Γβ中图片所配的文本集合 7;。
第一提取单元 3012用于提取第一搜索单元 301 1得到的所述图片集合 Γβ 中的每一张图片 /fc ( /c = 1, 2 , ... )的视觉特征, 将视觉特征与所述图片 /¾最 为相似的 K个图片组成所述图片 /fc的相似图片集合 Λ/"(/λ), 并将与所述相似图 片集合 )中的所有图片所配的文本中出现频率最高的 Τ个词作为候选词, 得到所述图片 的含义的候选词集合^, 即^ = { } 。 视觉特征可以是图 片的颜色、 形状、 纹理、 空间关系等特征。
其中, /λ表示相似图片集合 Λ/"(/λ)中第 k个图片, /c = 1, 2 , ... N6, N6为 所述图片集合 I 中的图片数量, 表示第 k 个图片 /λ的第 ί个候选词, ί = 1 , 2 , 3, ... ... , Τ, Τ为预设正整数。
权值计算单元 301 3用于将第一提取单元 3012得到的所述候选词集合^ 中的每一个所述候选词 进行权值计算, 得到所述候选词 的权值。 权值计算单元 3013根据所述候选词 的出现频率的大小计算所述候选 词 的权值 η )
Figure imgf000023_0001
越大。例如, 在对候选词集合按候选词出现频率从大到小的顺序排序之后 (比如 表示出 现频率最高的词, 表示出现频率第二高的词 ······ ) , 利用公式 rt ) = η ) + (T - i) ,计算所述候选词 的权值。其中, )表示候选词 的权值, ί表示所述候选词 在所述候选词集合 W4中的顺序。 例如候选词集 合中有 5 个候选词, 即 T=5, 则出现频率最高的一个候选词 的权值为 ri ( )k ) = ri ( )k ) + (T - l)= , 依次类推出现频率第二高的候选词 0^的权值为 3, 出现频率第三高的为 2。 当然, 也可以直接釆用归一化后的候选词 的词频 作为所述候选词 的权值, 或者, 釆用其他权值计算方法。
合并单元 3014用于根据权值计算单元 3013的计算结果, 将所述候选词 集合^中的权值 r, ( )最大的 M¾个候选词分别与所述初始关键词 组合, 合 并, 得到 ^1。个锚文本概念, 形成锚文本概念集合 C。。
其中, M¾为预设的所述初始关键词 对应的锚文本概念集合 ς中的元素 个数。
统计单元 3015用于统计网页中与所述锚文本概念同时出现在一个文档中 的词, 并从中找到最能表征所述锚文本概念语义的前 N1个词, 根据预设赋值 方法为所述前 N1个词赋予权值, 利用所述前 N1个词的权值形成所述锚文本 概念对应的向量, 其中, N1为预设正整数。
可选的, 可以釆用直接利用每一个锚文本概念 al在搜索引擎上搜索得到 al对应的前 N3个文档摘要,通过统计 N3个文档摘要中最重要的 N1个词的方 式计算出每一个锚文本概念 a 1对应的向量。 也可以使用搜索引擎锚文本概念 作为关键字搜索网页, 或者直接统计网页数据的方式, 得到与锚文本概念同 时出现在一篇文章中的文本或文本的摘要, 把前 N4 个摘要合并为一篇文章, 并使用 TFI-DF等统计方法得到所述合并文章的向量, 然后对向量归一化等处 理得到所述锚文本概念对应的最终的向量。 然后, 通过计算锚文本概念对应 的最终的向量之间的, 其中, N1和 N3和 N4为预设正整数。 关于计算锚文本 概念更为详细的阐述可以在文章 [M. Sahami and T. D. He i lman. A web-based kerne l funct ion for measur ing the s imi lar i ty of shor t text sni ppet s. In WW, 2006]及其参考文献中找大更为详细的论述。
关联度计算单元 3016用于计算任意两个所述锚文本概念对应的向量之间 的相似度, 作为对应的两个所述锚文本概念之间的关联度权值。
可选的, 关联度计算单元 3016可以通过计算任意两个锚文本概念 和 对应的向量的余弦距离或者欧式距离等等来作为这两个向量之间的相似度, 即为所述锚文本概念之间的关联度权值。
利用统计单元 3Q15和关联度计算单元 3Q16重复进行统计和计算, 直到 完成所有锚文本概念之间的关联度权值的计算, 使用 表示锚文本概念 和 之间的相似度或者关联度权值, 将 wy.作为矩阵 W的第 i行和第 列的元素, 同时把^ ( = 1, 2,..., ? ) 置为 1, 即可得到图结构 ACG的锚文本概念的相关度 矩阵 W。
这样, 以锚文本概念为顶点、 锚文本概念之间的关联度权值为边的权值 来构成锚文本概念图结构 ACG。
图 5是训练模块的结构示意图, 如图 5所示, 训练模块 302具体包括: 第二搜索单元 3021、 第二提取单元 3022和训练单元 3023。
第二搜索单元 3021用于利用所述锚文本概念再次进行图片搜索或者统计, 将再次搜索或者统计得到的结果作为训练正样本, 训练得到分类器。 具体包 括: 利用所述锚文本概念作为关键词进行图片搜索或者统计, 可以使用现有 的搜索引擎完成或者自行统计网页中的图片完成, 得到所述锚文本概念的搜 索结果集合(即利用所述锚文本概念搜索或者统计得到的结果) , 并选取所 述锚文本概念 对应的一个搜索结果中排在前 N2个的图片作为所述锚文本概 念 的正样本集合, 其中 N2为预设整数, ί = 1,2,3, ...,Mq。
第二提取单元 3022用于提取第二搜索单元 3021得到的所述锚文本概念 对应的正样本集合中 N2个图片的视觉特征, 作为所述锚文本概念对应的正 样本的特征集合。
训练单元 3023用于使用第二提取单元 3022得到的所述锚文本概念对应 的正样本训练所述分类器, 得到所述训练好的分类器。
可选的, 训练单元 3023 使用现有的多类别支持向量机(Multi-calss Support Vector Machine, Multi-calss SVM )等作为分类器。
图 6是排序模块的结构示意图, 如图 6所示, 排序模块 303具体包括: 第三提取单元 3031、 距离计算单元 3032和排序单元 3033。
第三提取单元 3031用于提取所述初始关键词对应的搜索结果中图片的视 觉特征, 利用图结构建立模块 301构成的所述 ACG和所述训练模块 302得到 的所述训练好的分类器, 计算所提取的视觉特征属于各个所述锚文本概念所 属类别的概率, 作为所述概念投影对应的图片的初始概念投影向量。
距离计算单元 3032用于根据所述初始概念投影向量,计算所述第三提取 单元得到的所述初始关键词对应的搜索结果中各图片之间的 ACG距离。 具体 包括: 第一计算子单元 30321和第二计算子单元 30322。 第一计算子单元 30321用于利用公式 Α*= (α" ; ?,) = (/- 0^)- , 对所述 π二 0
初始关键词 (7对应的图片的初始概念投影向量 进行平滑处理。
其中, 表示初始关键词 (7对应的第 i个所述图片的初始概念投影向量, p: 表示第 i个平滑后的概念投影向量, α表示控制扩散率的阻尼系数, 表示列 单位化相关矩阵, = Τ Ζ)为对角元素 Ζ)„=ΧΜ' ^,的对角矩阵, Μβ为预设 的所述初始关键词 (7对应的锚文本概念集合 ς中的元素个数。
平滑处理是根据原图片的初始概念投影向量 Ρί的各个分量之间的相关关 系重新调整 中各个分量的值, 使得一张图片所对应投影向量的中对应视觉 特征上更相似的类别的分量值更大。 平滑处理的结果使得最后的 ACG距离计 算能从高层次语义上更为精确的区分图片的类别。
第二计算子单元 30322用于利用公式^ iACC=|p;_p;| = (Ι-α Τ^ρ,-ρΛ
II 111 1, 计算第 i个所述图片第 个所述图片之间的 ACG距离 distACG
排序单元 3033用于根据距离计算单元 3032计算得到的 ACG距离对所述 各图片进行重排序。
排序单元 3033利用所述 ACG距离计算所述各图片的重排序的得分值,对 所述各图片进行重排序。 可选的, 排序单元 3033通过 ACG距离计算出任意两 幅初始搜索结果中的图片的距离,从而得到图片的相似度矩阵 K, 矩阵 Κ的元 素/^表示初始关键字搜索结果中第 i幅图片和第 幅图片; 而后通过把相似度 矩阵每一列相加得到总的相似向量 s,其中 e是所有元素都为 1的向量, s = Ke; 然后通过公式 minz|| z| ;s.t.O≤ z≤ 1计算得到向量 z, 其中 e
Figure imgf000026_0001
VaeTD
是所有元素都为 1 的向量, s = Ke, α是一个给定的平衡参数, D是一个给定 的包涵有第一次搜索各个图片排序信息的对角矩阵; 最后通过公式 = SU^ ^Ker ^,^)计算最后的排名得分,其中 l(Zm0)表示当 zm > 0 的时候为 1否则为 0, 使向量 zm是向量 z的第 m个分量 KerQ^p )是一个计算 向量相似度的核函数, 比如可以使用向量的内积等表示, ^和? 分别表示第 i 幅图片和第 m幅图片平滑后的^既念投影向量。
更多, 更为详细的可选方法可以在 [N. Morioka and J. Wang. Robust visual reranking via spars i ty and ranking constraints. In ACM MM, 2011]、 [W. Hsu, L. Kennedy, and S. -F. Chang. Video search reranking through random walk over document-level context graph. In ACM MM, 2007. ]等 文章中找到。
可选的, 本发明提供图片重排序装置还包括: 展示模块(图未示) , 用 于釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述排序模块得到 的所述各图片的排序结果。
所述具有相似视觉和语义信息的图片逻辑组织方式可以有多种形式, 包 括: 釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起。 例如, 釆用椭圓、 矩形等边框围住同类图片。
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片。 例如, 可以不使用边框而釆用距离大小展现不同类别的 图片 (即一张图和同类图片之间的距离明显小于不同类图片之间的距离) 。
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片。 例如, 在大类里面递归表示小类, 即大椭圓(矩形) 表示的大类里面有若干小椭圓表示的小类 (矩形) 。
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片。
每一类图片釆用缩略图, 层叠的方式展现该类图片中最主要的、 最有代 表性的数张图片 (即分类分值最高的几张图片) 。 釆用这一层叠展现方式目 的在于既体现出该类主要图片的内容, 又节省网页展示的空间, 还能给人模 仿现实中放置图片方式的美感。
在呈现图片的类别之后, 当选择所述锚文本概念所属类别的区域时, 如 当鼠标或者其他动态输入设备放到其中一个所述锚文本概念所属类别的区域 上时, 这个类别将被认为是希望被用户了解的类别, 所以应该展现更为详细 的情况。 将所述光标所在区域上的所述锚文本概念所属类别中的图片展示于 显示屏幕的最前端, 以供用户查看该类别中的全部图片。 或者, 当鼠标或者 其他动态输入设备放到其中一个类别上的时候, 该类别表现为准激活状态, 即该类别所占的区域位置明显大于其他类别, 同时该类别所包含的图片层叠 方式发生緩慢的变化, 比如以动画的方式使得上层的图片緩慢移动到下层, 下层的图片按层叠的顺序移动到顶层, 让用户有机会观看到以前由于空间限 制被遮挡的图片。 或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念。 例如, 一个类别的图片旁有 (也可以没 有)一个文字标签作为标识该类图片的高级语义概念, 该标签就是本专利中 的锚文本 ^既念的文字形式。
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。 例如, 在每张 图或每一类图旁可以 (也可以没有)有该图片或该类图片与各类图片联系强 弱的相关度示意标识, 等等。
以上述初始关键词 "panda" 为例, 在排序结果中, 釆用把图片放到所属 锚文本概念附近, 通过分类展示的方式形成重新分类后的索引图, 如图 2e所 示, 将重排序的结果进行重新分类显示。 当用户观察图 2e所示的重新分类之 后的索引图后, 当点击其中一类, 则可以得到符合用户意图的图片, 分类中 的图片按照重排序得分值排列。 例如点击 "kunfu panda" , 则得到的结果如 图 2f 所示, 显示 "kunfu panda" 这一锚文本概念所属分类下的图片, 按每 个图片的分值排序展现该类别的图片, 而隐藏其它类别的图片 (或者把其他 类别图片缩略图放在旁边不显著的位置上) 。
当然, 本发明的图片检索结果的展示方式还可以釆用其他的展示方式, 本发明并不加以限制。
本发明提供的图片排序方法及装置, 通过提取图片的视觉特征信息, 得 出高层次文本语义概念 (即锚文本概念 anchor concep t ), 建立 ACG图结构, 并利用锚文本概念作关键字获取训练数据, 训练得到分类器, 通过训练好的 分类器和 ACG得到 ACG距离用于图片重排序需要的度量尺度, 根据 ACG距离 进行重排序, 本发明得到的训练数据各类之间语义相关度很高, 获取训练数 据成本更低, 由于使用了与高层次语义概念相关的 ACG距离作为重排序的度 量尺度,使得图片的搜索结果的排序更加准确,更加符合用户的搜索意图。 在实现过程中, 上述方法的各步骤可以通过处理器中的硬件的集成逻 辑电路或者软件形式的指令完成。 结合本发明实施例所公开的方法的步骤 可以直接体现为硬件处理器执行完成, 或者用处理器中的硬件及软件模块 组合执行完成。 软件模块可以位于随机存储器, 闪存、 只读存储器, 可编 程只读存储器或者电可擦写可编程存储器、 寄存器等本领域成熟的存储介 质中。
专业人员应该还可以进一步意识到, 结合本文中所公开的实施例描述的 各示例的单元及算法步骤, 能够以电子硬件、 计算机软件或者二者的结合来 实现, 为了清楚地说明硬件和软件的可互换性, 在上述说明中已经按照功能 一般性地描述了各示例的组成及步骤。 这些功能究竟以硬件还是软件方式来 执行, 取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能, 但是这种实现不应认为 超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、 处理 器执行的软件模块, 或者二者的结合来实施。 软件模块可以置于随机存储器
( RAM ) 、 内存、 只读存储器 (ROM ) 、 电可编程 R0M、 电可擦除可编程 R0M、 寄存器、 硬盘、 可移动磁盘、 CD-R0M、 或技术领域内所公知的任意其它形式 的存储介质中。
以上所述的具体实施方式, 对本发明的目的、 技术方案和有益效果进行 了进一步详细说明, 所应理解的是, 以上所述仅为本发明的具体实施方式而 已, 并不用于限定本发明的保护范围, 凡在本发明的精神和原则之内, 所做 的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求 书
1、 一种图片排序方法, 其特征在于, 所述方法包括:
利用初始关键词进行图片搜索, 根据所述初始关键词对应的搜索结果, 计算得到所述搜索结果的锚文本概念集合, 并计算得到所述锚文本概念集合 中的锚文本概念之间的关联度权值, 以所述锚文本概念集合中的锚文本概念 为顶点、 所述顶点之间的连线为顶点的边, 所述顶点的边具有所述锚文本概 念之间的关联度权值, 构成锚文本 4既念图结构 Anchor Concep t Graph ACG; 所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联度大 小;
利用所述锚文本概念获取训练正样本, 并利用所述训练正样本训练分类 器得到训练好的分类器;
利用所述 ACG和所述训练好的分类器进行概念投影得到概念投影向量, 根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离,根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进 行排序。
2、 根据权利要求 1所述的方法, 其特征在于, 所述根据所述初始关键词 对应的搜索结果, 计算得到锚文本概念集合, 具体包括:
利用初始关键词 (?进行图片搜索得到搜索结果, 所述搜索结果包括所述初 始关键词 (?对应的图片集合 Γβ和为所述图片集合 Γβ中图片所配的文本集合 7;; 提取所述图片集合 Γβ中的每一张图片的视觉特征;
对于所述图片集合 Γ¾中的图片 /fc, 将视觉特征与所述图片 /fc最为相似的 K 个图片组成所述图片 /¾的相似图片集合 , 并将所述相似图片臬合 Af(lk) 中的所有图片所配的文本中出现频率最高的 T个词作为候选词,得到所述图片 Ik的含义的候选词集合^, 即 W4 = }1,, 其中, /fc表示所述图片集合 I 中 第/ c个图片, /c = 1,2,3, ... . , N6, N6为所述图片集合 中的图片数量, 表示 图片 的第 个候选词, ί = 1, 2 , 3, ... ... , Τ, Τ为预设正整数;
对所述候选词集合 W4中的每一个所述候选词 ofIk进行权值计算, 得到所 述候选词 ω 的权值 r! )
Figure imgf000031_0001
; 将所述候选词集合^中的权值 η (ω^ )最大的 Μ¾个候选词分别与所述初始 关键词 (7组合合并,得到 ^1¾个锚文本概念,形成锚文本概念集合 ς,其中, Μ¾ 为预设的所述初始关键词 (7对应的锚文本概念集合 ς中的元素个数。
3、根据权利要求 2所述的方法, 其特征在于, 所述对所述候选词集合^ 中的每一个所述候选词 cd进行权值计算, 得到所述候选词 的权值 r! )
Figure imgf000031_0002
, 具体包括:
根据所述候选词 的出现频率的大小计算所述候选词 的权值 η
Figure imgf000031_0003
), 所述候选词 的出现频率越大, 所述权值 (0越大。
4、 根据权利要求 1或 2或 3所述的方法, 其特征在于, 所述计算得到所 述锚文本概念集合中的锚文本概念之间的关联度权值, 具体包括:
统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从中找到 最能表征所述锚文本概念语义的前 N1 个词, 根据预设赋值方法为所述前 N1 个词赋予权值, 利用所述前 N1 个词的权值形成所述锚文本概念对应的向量, 其中, N1为预设正整数;
计算任意两个所述锚文本概念对应的向量之间的相似度, 作为对应的两 个所述锚文本概念之间的关联度权值。
5、 根据权利要求 1-4任一项所述的方法, 其特征在于, 所述利用所述锚 文本概念获取训练正样本, 利用所述训练正样本训练分类器得到训练好的分 类器, 具体包括:
利用所述锚文本概念作为关键词进行图片搜索或统计, 得到所述锚文本 概念的搜索结果集合,并选取所述锚文本概念 对应的一个搜索结果集合中排 在前 N2个的图片作为所述锚文本概念 对应的正样本集合,其中 N2为预设整 数, i = 1,2,3, - , Μ^ ;
提取所述锚文本概念 对应的正样本集合中 N2个图片的视觉特征, 作为 所述锚文本概念对应的正样本的特征集合, 其中 N2 为预设整数, ί = 1,2,3 Mq ;
利用所述锚文本概念对应的正样本的特征集合训练所述分类器得到所述 训练好的分类器。
6、根据权利要求 1-5任一项所述的方法,其特征在于,所述利用所述 ACG 和所述分类器进行概念投影得到概念投影向量, 根据所述概念投影向量计算 所述初始关键词对应的搜索结果中各图片之间的 ACG距离, 具体包括:
提取所述初始关键词对应的搜索结果中图片的视觉特征, 利用所述 ACG 和所述训练好的分类器, 计算所提取的视觉特征属于各个所述锚文本概念所 属类别的概率, 作为所述概念投影对应的图片的初始概念投影向量;
根据所述初始概念投影向量, 计算所述初始关键词对应的搜索结果中各 图片之间的 ACG距离。
7、 根据权利要求 6所述的方法, 其特征在于, 所述根据所述初始概念投 影向量, 计算所述图片之间的 ACG距离, 具体包括: 利用公式 /^^ ^^^/^ ^/ ο^)-1;^, 对所述初始关键词对应的图片的所 述图片初始概念投影向量; 进行平滑处理, 其中, 表示所述初始关键词对 应的第 i个所述图片的初始概念投影向量, 表示第 i个平滑后的概念投影向量, α表示控制扩散率的阻尼系数, 表示列单位化相关矩阵, ^^ -1, Ζ)为对 角元素 Dn =∑ Wjt的对角矩阵, M¾为预设的所述初始关键词 对应的锚文本概 念集合 Ce中的元素个数;
利用公式^ ; 1; | = (Ι - α Τ^ρ, - ρ .) ,计算第 i个所述图片和第'个 所述图片之间的 ACG距离 distACG
8、 根据权利要求 1 -7任一项所述的方法, 其特征在于, 在所述根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行重排序之后,还包 括:
釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述各图片的重 排序结果。
9、 根据权利要求 8所述的方法, 其特征在于, 所述具有相似视觉和语义 信息的图片逻辑组织方式包括:
釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起;
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片;
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片;
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。
1 0、 根据权利要求 9 所述的方法, 其特征在于, 对于釆用所述缩略图层 叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时, 当 选择所述锚文本概念所属类别的区域时, 将所选择的区域上的所述锚文本概 念所属类别中的图片展示于显示屏幕的最前端, 以供用户查看该类别中的全 部图片。
1 1、 一种图片排序装置, 其特征在于, 所述装置包括: 图结构建立模块, 用于利用初始关键词进行图片搜索, 根据所述初始关 键词对应的搜索结果, 计算得到所述搜索结果的锚文本概念集合, 并计算得 到所述锚文本概念集合中的锚文本概念之间的关联度权值, 以所述锚文本概 念集合中的锚文本概念为顶点、 所述顶点之间的连线为顶点的边, 所述顶点 的边具有所述锚文本概念之间的关联度权值, 构成锚文本概念图结构 Anchor Concep t Graph ACG; 所述锚文本概念之间的关联度权值表示所述锚文本概念 之间的语义关联度大小;
训练模块, 用于利用所述图结构建立模块得到的所述锚文本概念获取训 练正样本, 并利用所述正样本训练分类器得到训练好的分类器;
排序模块, 用于利用所述图结构建立模块构成的所述 ACG和所述训练模 块得到的所述训练好的分类器进行概念投影得到概念投影向量, 根据所述概 念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离, 根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。
12、 根据权利要求 1 1所述的装置, 其特征在于, 所述图结构建立模块具 体包括:
第一搜索单元, 用于利用初始关键词 (?进行图片搜索得到搜索结果, 所述 搜索结果包括所述初始关键词 (?对应的图片集合 Γ¾和为所述图片集合 I 中图 片所配的文本集合 7;;
第一提取单元, 用于对所述第一搜索单元得到的所述图片集合 Γβ中的每 一个图片, 提取图片视觉特征, 对于所述图片集合 r 中的图片 /fc, 将视觉特征 与所述图片 /fc最为相似的 K个图片组成所述图片 /¾的相似图片集合 A "(/J, 并 将所述相似图片集合 中的所有图片所配的文本中出现频率最高的 T个词 作为候选词, 得到所述图片 4的含义的候选词集合 t, 即 w4 = {<£, 其 中, /fc表示所述图片集合 Γ¾中第/ c个图片, /c = 1,2,3, ... . , Ν6, Ν6为所述图片 集合 I 中的图片数量, ί¾表示图片 4的第 个候选词, i = l, 2 , 3, ... ... , T, T为预设正整数;
权值计算单元, 用于将所述第一提取单元得到的所述候选词集合 ^中的 每一个所述候选词 cd进行权值计算, 得到所述候选词 cd的权值 r, ( ); 合并单元,用于根据所述权值计算单元的计算结果,将所述候选词集合^ 中的权值 最大的 M¾个候选词分别与所述初始关键词 (7组合, 合并, 得到 M。个锚文本概念, 形成锚文本概念集合 C。, 其中, M。为预设的所述初始关键 词 对应的锚文本概念集合 ς中的元素个数。
1 3、 根据权利要求 12所述的装置, 其特征在于, 所述权值计算单元根据 所述候选词 的出现频率计算所述候选词 的权值 η ( ), 所述候选词 的出现频率越大, 权值 越大。
14、 根据权利要求 1 1或 12或 1 3所述的装置, 其特征在于, 所述图结构 建立模块还包括:
统计单元, 统计网页中与所述锚文本概念同时出现在一个文档中的词, 并从中找到最能表征所述锚文本概念语义的前 N1个词, 根据预设赋值方法为 所述前 N1个词赋予权值, 利用所述前 N1个词的权值形成所述锚文本概念对 应的向量, 其中, N1为预设正整数;
关联度计算单元, 用于计算任意两个所述锚文本概念对应的向量之间的 相似度, 作为对应的两个所述锚文本概念之间的关联度权值。
15、 根据权利要求 11-14任一项所述的装置, 其特征在于, 所述训练模 块具体包括:
第二搜索单元, 利用所述锚文本概念作为关键词进行图片搜索, 得到所 述锚文本概念的搜索结果集合,并选取所述锚文本概念 ^对应的一个搜索结果 集合中排在前 N2个的图片做为所诉锚文本概念 ^对应的正样本集合,其中 N2 为预设整数, i = 1,2,3, ... , Μ^ ;
第二提取单元, 用于提取所述锚文本概念 ^对应的正样本集合中 N2个图 片的视觉特征, 作为所述锚文本概念对应的正样本的特征集合, 其中 N2为预 设整数, ί = 1,2,3, -,Μ^;
训练单元, 利用所述锚文本概念对应的正样本的特征集合训练所述分类 器得到所述训练好的分类器。
16、 根据权利要求 11-15任一项所述的装置, 其特征在于, 所述排序模 块具体包括:
第三提取单元, 用于利用所述图结构建立模块构成的所述 ACG和所述训 练模块得到的所述训练好的分类器, 提取所述初始关键词对应的搜索结果中 图片的视觉特征, 通过分类器计算所提取的视觉特征属于各个所述锚文本概 念所属类别的概率, 作为所述概念投影对应的图片的初始概念投影向量; 距离计算单元, 用于根据所述初始概念投影向量, 计算所述第三提取单 元得到的所述初始关键词对应的搜索结果中各图片之间的 ACG距离。
17、 根据权利要求 16所述的装置, 其特征在于, 所述距离计算单元, 具 体包括:
第一计算子单元, 用于利用公式 Α*=|;(α"^ ,)=(/—α )-ι Α., 对所述图片 的初始概念投影向量; ^.进行平滑处理, 其中, Ρί表示第 i个所述图片初始概念 投影向量, A*表示初始关键词 (7对应的第 i个平滑后的概念投影向量, α表示控 制扩散率的阻尼系数, 表示列单位化相关矩阵, ^^ )-1, D为对角元素 的对角矩阵, Μ¾为预设的所述初始关键词 对应的锚文本概念集合
<^中的元素个数;
第二计算子单元, 用于利用公式 ^ ^^-/^^(/-o^)- p,- ) , 计 算第 i个所述图片和第'个所述图片之间的 ACG距离 distACG
18、 根据权利要求 11-17任一项所述的装置, 其特征在于, 所述装置还 包括:
展示模块, 用于釆用具有相似视觉和语义信息的图片逻辑组织方式展示 所述排序模块得到的所述各图片的重排序结果。
19、 根据权利要求 18所述的装置, 其特征在于, 所述具有相似视觉和语 义信息的图片逻辑组织方式包括:
釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示 在一起;
或者, 釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概 念所属类别的图片;
或者, 釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文 本概念所属类别的图片;
或者, 釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概 念所属类别的图片;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用文字的形式标注所述锚文本概念;
或者, 在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆 用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关 联度大小, 所述数字越大或者条形物越长, 表示关联度越大。
20、 根据权利要求 19所述的装置, 其特征在于, 对于釆用所述缩略图层 叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时, 当 选择所述锚文本概念所属类别的区域时, 所述展示模块将所选择的区域上的 所述锚文本概念所属类别中的图片展示于显示屏幕的最前端, 以供用户查看 该类别中的全部图片。
PCT/CN2014/075489 2013-10-11 2014-04-16 图片排序方法及装置 WO2015051629A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP14852510.8A EP3048540A4 (en) 2013-10-11 2014-04-16 MODEL PROCESS AND DEVICE
EP18195060.1A EP3486804A1 (en) 2013-10-11 2014-04-16 Image ranking method and apparatus
US15/094,675 US10521469B2 (en) 2013-10-11 2016-04-08 Image Re-ranking method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310474547.0A CN104572651B (zh) 2013-10-11 2013-10-11 图片排序方法及装置
CN201310474547.0 2013-10-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/094,675 Continuation US10521469B2 (en) 2013-10-11 2016-04-08 Image Re-ranking method and apparatus

Publications (1)

Publication Number Publication Date
WO2015051629A1 true WO2015051629A1 (zh) 2015-04-16

Family

ID=52812495

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/075489 WO2015051629A1 (zh) 2013-10-11 2014-04-16 图片排序方法及装置

Country Status (4)

Country Link
US (1) US10521469B2 (zh)
EP (2) EP3048540A4 (zh)
CN (1) CN104572651B (zh)
WO (1) WO2015051629A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014321165B2 (en) * 2013-09-11 2020-04-09 See-Out Pty Ltd Image searching method and apparatus
CN104572651B (zh) * 2013-10-11 2017-09-29 华为技术有限公司 图片排序方法及装置
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
US11017019B1 (en) * 2015-08-14 2021-05-25 Shutterstock, Inc. Style classification for authentic content search
CN107491456A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 图像排序方法和装置
CN106485567B (zh) * 2016-09-14 2021-11-30 北京小米移动软件有限公司 物品推荐方法及装置
CN108132838B (zh) * 2016-11-30 2021-12-14 华为技术有限公司 一种图数据处理的方法、装置及系统
US10453271B2 (en) * 2016-12-07 2019-10-22 Microsoft Technology Licensing, Llc Automated thumbnail object generation based on thumbnail anchor points
CN108536709B (zh) * 2017-03-03 2021-04-30 北京明略软件系统有限公司 一种搜索优化方法及装置
CN107679183B (zh) * 2017-09-29 2020-11-06 百度在线网络技术(北京)有限公司 分类器用训练数据获取方法和装置、服务器及存储介质
US10872125B2 (en) * 2017-10-05 2020-12-22 Realpage, Inc. Concept networks and systems and methods for the creation, update and use of same to select images, including the selection of images corresponding to destinations in artificial intelligence systems
US11361018B2 (en) 2017-11-28 2022-06-14 Adobe Inc. Automatically curated image searching
WO2019212407A1 (en) * 2018-05-02 2019-11-07 Agency For Science, Technology And Research A system and method for image retrieval
US11281677B2 (en) * 2018-12-27 2022-03-22 International Business Machines Corporation Utilizing pseudo-relevance feedback in fusion-based retrieval
US11562290B2 (en) * 2019-04-30 2023-01-24 Cylance Inc. Machine learning model score obfuscation using coordinated interleaving
US11586975B2 (en) 2019-04-30 2023-02-21 Cylance Inc. Machine learning model score obfuscation using multiple classifiers
US20210133596A1 (en) * 2019-10-30 2021-05-06 International Business Machines Corporation Ranking image sources for transfer learning
CN111324752B (zh) * 2020-02-20 2023-06-16 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
EP3961434A1 (en) * 2020-08-27 2022-03-02 Samsung Electronics Co., Ltd. Method and apparatus for concept matching
CN114969417B (zh) * 2020-09-23 2023-04-11 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质
CN112836069B (zh) * 2021-04-22 2021-09-10 泰德网聚(北京)科技股份有限公司 一种基于图像关键词的自识别检索系统
CN113157864A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 关键信息提取方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075238A (zh) * 2006-06-28 2007-11-21 腾讯科技(深圳)有限公司 一种多媒体文件搜索引擎的排序方法
US20070271296A1 (en) * 2006-05-16 2007-11-22 Khemdut Purang Sorting media objects by similarity
JP2010211484A (ja) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 存在確率による位置重みを考慮した類似画像検索装置、存在確率による位置重みを考慮した類似画像検索方法、存在確率による位置重みを考慮した類似画像検索プログラム
CN103064903A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 图片检索方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187731A (ja) * 1998-12-21 2000-07-04 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20030016250A1 (en) * 2001-04-02 2003-01-23 Chang Edward Y. Computer user interface for perception-based information retrieval
WO2009035108A1 (ja) * 2007-09-14 2009-03-19 The University Of Tokyo 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム
US9489403B2 (en) * 2009-04-09 2016-11-08 Nokia Technologies Oy Method and apparatus for providing visual search engine results
KR101764424B1 (ko) * 2010-11-08 2017-08-14 삼성전자주식회사 영상 데이터 검색 방법 및 장치
US8543521B2 (en) 2011-03-30 2013-09-24 Microsoft Corporation Supervised re-ranking for visual search
US8983940B2 (en) 2011-09-02 2015-03-17 Adobe Systems Incorporated K-nearest neighbor re-ranking
US9075825B2 (en) * 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
US9373040B2 (en) * 2011-11-01 2016-06-21 Google Inc. Image matching using motion manifolds
CN103975323A (zh) 2011-11-21 2014-08-06 微软公司 搜索结果的基于原型的重排名
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN104572651B (zh) * 2013-10-11 2017-09-29 华为技术有限公司 图片排序方法及装置
KR101827764B1 (ko) * 2013-11-30 2018-03-22 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 시각적 어의적 복잡계 네트워크 및 그의 형성 방법
US10042866B2 (en) * 2015-06-30 2018-08-07 Adobe Systems Incorporated Searching untagged images with text-based queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070271296A1 (en) * 2006-05-16 2007-11-22 Khemdut Purang Sorting media objects by similarity
CN101075238A (zh) * 2006-06-28 2007-11-21 腾讯科技(深圳)有限公司 一种多媒体文件搜索引擎的排序方法
JP2010211484A (ja) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 存在確率による位置重みを考慮した類似画像検索装置、存在確率による位置重みを考慮した類似画像検索方法、存在確率による位置重みを考慮した類似画像検索プログラム
CN103064903A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 图片检索方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
M. SAHAMI; T. D. HEILMAN: "A web-based kernel function for measuring the similarity of short text snippets", WWW, 2006
N. MORIOKA; J. WANG: "Robust visual reranking via sparsity and ranking constraints", ACM MM, 2011
See also references of EP3048540A4
W HSU; L. KENNEDY; S.-F. CHANG: "Video search reranking through random walk over document-level context graph", ACM MM, 2007
W. HSU; L. KENNEDY; S.-F. CHANG: "Video search reranking through random walk over document-level context graph", ACM MM, 2007

Also Published As

Publication number Publication date
EP3048540A1 (en) 2016-07-27
US20160224593A1 (en) 2016-08-04
US10521469B2 (en) 2019-12-31
EP3048540A4 (en) 2016-12-14
EP3486804A1 (en) 2019-05-22
CN104572651A (zh) 2015-04-29
CN104572651B (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
WO2015051629A1 (zh) 图片排序方法及装置
US9189554B1 (en) Providing images of named resources in response to a search query
US20190340194A1 (en) Associating still images and videos
US10534808B2 (en) Architecture for responding to visual query
US8977639B2 (en) Actionable search results for visual queries
US9405772B2 (en) Actionable search results for street view visual queries
WO2017000109A1 (zh) 搜索方法、搜索装置、用户设备和计算机程序产品
US8731308B2 (en) Interactive image selection method
CN108829764A (zh) 推荐信息获取方法、装置、系统、服务器及存储介质
US20200285670A1 (en) Visual recognition using user tap locations
US20110184953A1 (en) On-location recommendation for photo composition
US20110191336A1 (en) Contextual image search
US8880536B1 (en) Providing book information in response to queries
US9002120B2 (en) Interactive image selection method
CN103988202A (zh) 基于索引和搜索的图像吸引力
TW200818058A (en) Content based image retrieval
CN110968789B (zh) 电子书推送方法、电子设备及计算机存储介质
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
US20200074218A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium
Zerr et al. NicePic! A system for extracting attractive photos from Flickr streams
TW201101065A (en) System and method for video searching
Liu Learning users' interest to assist image browsing and searching

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14852510

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2014852510

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014852510

Country of ref document: EP