WO2021104274A1 - 图文联合表征的搜索方法、系统、服务器和存储介质 - Google Patents

图文联合表征的搜索方法、系统、服务器和存储介质 Download PDF

Info

Publication number
WO2021104274A1
WO2021104274A1 PCT/CN2020/131223 CN2020131223W WO2021104274A1 WO 2021104274 A1 WO2021104274 A1 WO 2021104274A1 CN 2020131223 W CN2020131223 W CN 2020131223W WO 2021104274 A1 WO2021104274 A1 WO 2021104274A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
information
image
embedding
feature
Prior art date
Application number
PCT/CN2020/131223
Other languages
English (en)
French (fr)
Inventor
杜嘉
马库斯·汉斯
Original Assignee
智慧芽信息科技(苏州)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 智慧芽信息科技(苏州)有限公司 filed Critical 智慧芽信息科技(苏州)有限公司
Publication of WO2021104274A1 publication Critical patent/WO2021104274A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the present disclosure relates to the field of search technology, for example, to a search method, system, server, and storage medium for graphic and text joint representation.
  • things under different concepts may look similar to each other, such as refrigerators and boxes, while things under the same concept may be very different, such as blade fans and bladeless fans, which leads to users A large number of visually similar but conceptually unrelated results are usually obtained.
  • the present disclosure provides a search method, system, server and storage medium for graphic and text joint characterization, so as to improve the accuracy and diversity of search.
  • a search method for joint graphic and text representation is provided, and the search method for joint graphic and text representation includes:
  • first description information of the search object where the first description information is first image information and/or first text information;
  • the first description information is the first image information
  • the first description information is the first text information
  • extract the first text embedding feature of the first text information by using a pre-trained second model; calculate the first text embedding feature and multiple Pre-stored multiple second distances between the concept embedding features of the target document; display search results according to the multiple calculated second distances;
  • the first description information is the first image information and the first text information
  • the first image embedding feature of the first image information is extracted using the pre-trained first model, and the pre-training
  • the second model extracts the first text embedding feature of the first text information; calculates the third distance by executing one of the following, and displays the search result according to the calculated multiple third distances:
  • a search system for graphic and text joint representation includes:
  • An information receiving module configured to receive first description information of the search object, where the first description information is first image information and/or first text information;
  • the feature extraction module is configured to extract a first image embedding feature of the first image information by using a pre-trained first model when the first description information is the first image information;
  • the description information is the first text information
  • the first text embedding feature of the first text information is extracted by using a pre-trained second model;
  • the first description information is the first image information and the first image information
  • use a pre-trained first model to extract the first image embedding feature of the first image information
  • use a pre-trained second model to extract the first text embedding of the first text information feature
  • the distance calculation module is configured to calculate a plurality of first images between the first image embedding feature and a plurality of pre-stored concept embedding features of the target document when the first description information is the first image information.
  • a distance in the case where the first description information is the first text information, calculate a plurality of second distances between the first text embedding feature and a plurality of pre-stored concept embedding features of the target document;
  • the third distance calculation method is one of the following three methods: according to the embedding feature of the first image and the The first text embedding feature generates a concept embedding feature, calculating a plurality of third distances between the generated concept embedding feature and a plurality of pre-stored concept embedding features of the target document; calculating the first image embedding feature and the plurality of pre-stored A plurality of first temporary distances between the concept embedding features of the target document, and calculating a third distance between the first
  • the result display module is configured to display search results according to the multiple calculated first distances when the first description information is the first image information; when the first description information is the first text In the case of information, the search result is displayed according to the calculated multiple second distances; in the case where the first description information is the first image information and the first text information, according to the calculated third distance Display search results.
  • a method for generating a graphic and text joint characterization library includes:
  • a graphic and text joint representation library of the multiple target documents is established according to the embedded feature of the first concept.
  • a system for generating a graphic and text joint characterization library includes:
  • An information acquisition module configured to acquire first image information and first text information of multiple target documents
  • a feature extraction module configured to extract a first image embedding feature of the first image information using a pre-trained first model, and extract a first text embedding feature of the first text information using a pre-trained second model;
  • a feature generation module configured to generate a first concept embedding feature according to the first image embedding feature and/or the first text embedding feature
  • the characterization library establishment module is configured to establish a graphic and text joint characterization library of the multiple target documents according to the embedded features of the first concept.
  • a classification recommendation method for graphic and text joint representation includes:
  • first description information of at least one recommended object where the first description information is first image information and/or first text information;
  • the first description information is the first image information
  • the first description information is the first text information
  • the first description information is the first image information and the first text information
  • the first image embedding feature of the first image information is extracted using the pre-trained first model, and the pre-training
  • the second model extracts the first text embedding feature of the first text information; calculates a third distance by executing one of the following, and displays the recommendation result of the at least one recommended object according to the calculated third distance:
  • a classification recommendation system for graphic and text joint representation includes:
  • An information receiving module configured to receive first description information of at least one recommended object, where the first description information is first image information and/or first text information;
  • the feature extraction module is configured to extract a first image embedding feature of the first image information by using a pre-trained first model when the first description information is the first image information;
  • the description information is the first text information
  • the first text embedding feature of the first text information is extracted by using a pre-trained second model;
  • the first description information is the first image information and the first image information
  • use a pre-trained first model to extract the first image embedding feature of the first image information
  • use a pre-trained second model to extract the first text embedding of the first text information feature
  • the distance calculation module is configured to calculate a plurality of first images between the first image embedding feature and a plurality of pre-stored concept embedding features of the target document when the first description information is the first image information.
  • a distance in the case where the first description information is the first text information, calculate a plurality of second distances between the first text embedding feature and a plurality of pre-stored concept embedding features of the target document;
  • the third distance calculation method is one of the following three methods: according to the embedding feature of the first image and the The first text embedding feature generates a concept embedding feature, calculating a plurality of third distances between the generated concept embedding feature and a plurality of pre-stored concept embedding features of the target document; calculating the first image embedding feature and the plurality of pre-stored A plurality of first temporary distances between the concept embedding features of the target document, and calculating a third distance between the first
  • the result display module is configured to display the recommendation result of the at least one recommended object according to the multiple first distances calculated when the first description information is the first image information; in the first description When the information is the first text information, the recommendation result of the at least one recommended object is displayed according to the calculated multiple second distances; where the first description information is the first image information and the first image information In the case of a text message, the recommendation result of the at least one recommended object is displayed according to the calculated third distance.
  • a server which includes:
  • One or more processors are One or more processors;
  • Storage device set to store one or more programs
  • the one or more processors When the one or more programs are executed by the one or more processors, the one or more processors implement the method as described above.
  • a computer-readable storage medium is also provided, and a computer program is stored thereon, and when the program is executed by a processor, the method as described above is realized.
  • FIG. 1 is a method flowchart of a search method for graphic and text joint characterization according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic diagram of a search interface for graphic and text joint characterization according to Embodiment 1 of the present invention
  • FIG. 3 is a schematic diagram of a public space jointly characterized by graphics and text according to Embodiment 1 of the present invention
  • FIG. 4 is a schematic diagram of a representative graph matrix for joint representation of graphics and text according to Embodiment 1 of the present invention.
  • FIG. 5 is a schematic diagram of a coordinate graph jointly characterized by graphics and text according to Embodiment 1 of the present invention.
  • FIG. 6 is a schematic diagram of another coordinate diagram of graphic and text joint characterization provided by Embodiment 1 of the present invention.
  • FIG. 7 is a method flowchart of a search method for graphic and text joint characterization according to Embodiment 2 of the present invention.
  • FIG. 8 is a schematic structural diagram of a search system for graphic and text joint characterization according to Embodiment 3 of the present invention.
  • FIG. 9 is a method flowchart of a method for generating a graphic and text joint characterization library provided by Embodiment 4 of the present invention.
  • FIG. 10 is a schematic structural diagram of a system for generating a graphic and text joint representation library provided by Embodiment 5 of the present invention.
  • FIG. 11 is a method flowchart of a classification recommendation method for graphic and text joint characterization provided by Embodiment 6 of the present invention.
  • FIG. 12 is a method flowchart of a classification recommendation method for graphic and text joint characterization according to Embodiment 7 of the present invention.
  • FIG. 13 is a schematic structural diagram of a classification recommendation system for graphic and text joint characterization according to Embodiment 8 of the present invention.
  • FIG. 14 is a schematic structural diagram of a server according to Embodiment 9 of the present invention.
  • first”, “second”, etc. may be used herein to describe various directions, actions, steps or elements, etc., but these directions, actions, steps or elements are not limited by these terms. These terms are only used to distinguish a first direction, action, step or element from another direction, action, step or element.
  • first concept embedded feature can be referred to as the second concept embedded feature
  • second concept embedded feature can be referred to as the first concept embedded feature.
  • Both the first concept embedding feature and the second concept embedding feature are concept embedding features, but they are not the same concept embedding feature.
  • the first embodiment of the present invention provides a search method for graphic and text joint representation, and the search method includes:
  • S110 Receive first description information of the search object, where the first description information is first image information and/or first text information.
  • the search object includes one or more of patent documents, papers, web documents, journal documents, and book documents. These search objects include first image information, first text information, or both first image information. It also includes the first text information. Illustratively, if the search object is a patent document, then the patent document should include text and drawings, that is, the first image information and the first text information.
  • the user when the user needs to search, he can enter the first text information of the first description information of the search object in the first frame 201, and click the second frame 202 to upload the first description information of the search object.
  • the uploaded first image information will be displayed in the first display area 207.
  • the user can click the third frame 203 to start the search of the graphic and text joint representation, or click the fourth frame 204 to pass only the first image Information to search.
  • the user can click on the fifth frame 205 to clear all the input first description information, and click on the sixth frame 206 to select the focus of their own search, such as selecting concepts, text, or images.
  • the pre-trained first model When the first description information is the first image information, use a pre-trained first model to extract the first image embedding feature of the first image information; when the first description information is the first text information, use The pre-trained second model extracts the first text embedding feature of the first text information; when the first description information is the first image information and the first text information, the pre-trained first model is used to extract the first The first image embedding feature of the image information is used, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the image neural network can use the residual network (Residual Network, ResNet) or the mobile network (MobileNet) pre-trained on ImageNet or Google Open Image
  • the text neural network can use the word to Vector (Word to Vector, word2vec) model, Global Vectors for Word Representation (GloVe) model, or Bidirectional Encoder Representations from Transformers (BERT) model based on converters, etc., through the image neural network
  • the embedding of text neural network images and text can be embedded in two different vector spaces, and it is also necessary to use multi-layer perceptrons or graph convolutional networks, that is, image mapping neural networks and text mapping neural networks to combine different vector spaces
  • the image embedding and text embedding of is bridged into the same public space to obtain the first image embedding feature and the first text embedding feature located in the same public space
  • the pre-trained image neural network is used to extract the first image vector of the first image information, and the pre-trained image mapping neural network is used The first image vector is mapped to the public space of image and text joint embedding, and transformed into the first image embedding feature, that is, a coordinate point in the public space; if the first description information of the search object input by the user only includes For the first text information, a pre-trained text neural network is used to extract the first text vector of the first text information, and the pre-trained text mapping neural network is used to map the first text vector to the image-text joint embedding In the public space, it is transformed into the first text embedding feature, that is, a coordinate point in the public space; if the first description information of the search object input by the user includes the first image information and the first text information, then Use a pre-trained image neural network to extract the first image vector of the first image information, while using a pre-t
  • the first image information is trained by the first model to obtain the first image embedding feature, that is, the first coordinate point 301, and the first text information is obtained by the training of the second model.
  • the first text embedding feature that is, the second coordinate point 302, that is, the first image information and the first text information can be expressed in the same common space and the relationship between them can be obtained.
  • the obtained first text embeds features such as the third coordinate point 303, the fourth coordinate point 304, and the fifth coordinate point 305 and the first coordinate point 301. The distance will vary.
  • the third distance calculation method is one of the following three methods: 1) Generate a first concept embedding feature based on the first image embedding feature and the first text embedding feature, and calculate the first Multiple third distances between concept embedding features and multiple pre-stored second concept embedding features of target documents; 2) Calculating the first image embedding feature and multiple pre-stored second concept embedding features of target documents Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) calculate the A plurality of second temporary distances between the first text
  • the graphic and text joint representation library can be established in advance before the user searches.
  • the target document library can be established in advance before the user searches, that is, all published patent documents.
  • the graphic and text joint representation library of, all patent documents in the library have been converted into the second concept embedded feature, that is, the coordinate point in the public space.
  • the first description information of the search object input by the user only includes the first image information
  • calculate the multiple first distances between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document That is, the first distance between the coordinate point of the first image embedded feature and the coordinate point of the second concept embedded feature in the public space
  • calculate The plurality of second distances between the first text embedding feature and the second concept embedding features of the plurality of pre-stored target documents that is, the coordinate points of the first text embedding feature and the coordinates of the second concept embedding feature in the public space
  • the second distance between points; if the first description information of the search object entered by the user includes both the first image information and the first text information, the third distance can be calculated in one of the following ways: 1) According to The first image embedding feature and the first text embedding feature generate a first concept embedding feature, and a plurality of third distances between the
  • the temporary distance corresponds to the third distance between the second concept embedding features of the target document, that is, the third distance between the coordinate points of the first image embedding feature and the coordinate points of the second concept embedding feature in the public space.
  • the distance between the coordinate point of the second concept embedded feature and the first text embedded feature is less than the preset value.
  • the first image embedding feature and the first text embedding feature can be used to generate the first concept embedding feature by using a pre-trained third model to generate the first concept embedding based on the first image embedding feature and the first text embedding feature.
  • the loss function used in the training process of the third model includes a relative hinge loss function and/or an absolute hinge loss function.
  • the weighting of the relative hinge loss function and the absolute hinge loss function is used in the third model training process to generate the first concept embedding feature, and the first image embedding feature and the first text embedding feature are converted into the first concept embedding
  • the feature is to convert two coordinate points representing the same patent document into one coordinate point in the public space.
  • data of 20,000 appearance patents can be used to generate the target document database, and 1,040 appearance patent data selected at random as the training test set, and the third model is used for training.
  • the experimental results show that the relative hinge is used. Compared with other calculation methods of loss function, the weighting of loss function and absolute hinge loss function results in a search result that is closer to the search object entered by the user.
  • the display mode of the search result may be: displaying the target document corresponding to the first distance, the second distance, or the third distance that is less than the preset value as the search result on the display interface.
  • the display mode may be to display only the text information of the target document, or only display the image information of the target document, or display the text information and image information of the target document at the same time.
  • the search result is all information, partial information, or partial combination information of one or more patent documents.
  • the partial information can be one of keywords, drawings, sentences, paragraphs, and classification numbers.
  • the partial combination information Including graphics files and keywords.
  • the search results are displayed in the second display area 211, and each patent is displayed in the order described above.
  • the corresponding patent images are displayed in the first area 208, and in the second area above the first area 208 209 displays the keywords corresponding to the patents.
  • the similarity can also be displayed in the second area 209, and the similarity can be obtained according to the first distance, the second distance, or the third distance.
  • the user can select a target patent from the search results, thereby recommending more search results similar to the concept of the target patent according to the user's selection of the target patent.
  • the search result is a matrix of representative images of a plurality of patent documents, and the plurality of representative images in the matrix of representative images are arranged in positions according to the size of the first distance, the second distance, or the third distance.
  • the search result can be a matrix of abstract drawings in multiple patent documents or a matrix of representative images arranged in order. The smaller the first distance, the second distance, or the third distance, the more in the matrix of representative images The abstract drawing or representative drawing corresponding to the patent document is displayed at the front.
  • the search result is a display diagram of the correlation between one or more patent documents and the search object, and the correlation is determined by the coordinate position of the embedded feature of the second concept, that is, the correlation The degree is determined by the coordinates of the second concept embedded feature in the public space.
  • the search result can be a coordinate map.
  • the search object entered by the user is converted into the first concept embedded feature.
  • the coordinate point corresponding to the coordinate map represents the origin of the coordinate map.
  • the second concept embedded feature of each patent document in the search result The coordinate points of is displayed in the coordinate map, which can clearly determine the correlation between one or more patent documents and the search object.
  • the display diagram supports user interaction.
  • the user can view the brief information of the patent document by hovering the mouse at each coordinate point, or through other methods, such as the title information and image information of the patent document corresponding to the coordinate point. Or classified information, the user can also click on each coordinate point in the coordinate map 501 to display the detailed information of the patent document in the first area 502 of the coordinate map 501.
  • the first area 502 is not limited to the right side of the coordinate map 501. It can also be another convenient location for display.
  • different filling effects for example, different color filling or different pattern filling
  • can be used to distinguish different text information for example, coordinate points filled with oblique grid lines represent speakers.
  • the user can zoom in on the coordinate map 501, and after zooming in, the coordinate map will become an enlarged map showing the second area 601 and the third area 602 in FIG. 6.
  • the display map within the selected area can be enlarged and displayed, and the display map shown in Figure 6 is obtained.
  • the enlarged scatter map can be clear
  • the ground shows the denser scatter area in the original scatter plot.
  • the enlarged display diagram also supports the above-mentioned user interaction.
  • the recommended classification information of the first description information may also be displayed on the interface of the search result.
  • the target document corresponding to the first distance, the second distance, or the third distance that is less than the preset value can be taken as the reference object, and the classification information of these reference objects, such as the patent classification number, is selected, and the common patent classification number of the reference object is selected.
  • One or more patent classification numbers with the highest frequency of occurrence are used as the classification information of the first description information and displayed in the interface of the search results.
  • the first distance selects the first distance, the first The patent classification number corresponding to the target document with the smallest distance of the second distance or the third distance is used as the classification information of the first description information and displayed in the interface of the search result.
  • the user may input unrelated first descriptive information.
  • the first descriptive information input by the user includes first image information and first text information, where the first image information is “airplane” Image, the first text information is "car”, the first image information and the first text information are converted into the first concept embedding feature, and then the third distance from the pre-stored second concept embedding feature is calculated, and the first distance to the first concept embedding feature is calculated.
  • the image information is the image of the "airplane” and the first text information is the most relevant target document of the "car”, which is very helpful for users who have some vague and innovative ideas.
  • the embodiment of the present invention extracts the first image embedding feature of the first image information by using the pre-trained first model, and extracts the first text embedding feature of the first text information by using the pre-trained second model; Generating a first concept embedding feature from the first image embedding feature and the first text embedding feature, and calculating a plurality of third distances between the first concept embedding feature and a plurality of pre-stored second concept embedding features of the target document; Displaying the search results according to the third distance solves the problem that users cannot search for corresponding image information or text information through text information or image information that they only know, and cannot determine the inherent similarity between the concepts of things , To achieve the effect of improving the accuracy and diversity of the search.
  • the second embodiment of the present invention provides a search method for graphic and text joint representation.
  • the second embodiment of the present invention is described on the basis of the first embodiment of the present invention, wherein the plurality of pre-stored
  • the acquisition methods of the second concept embedded feature of the target document include:
  • S220 Extract the second image embedding feature of the second image information by using the pre-trained first model.
  • S230 Extract a second text embedding feature of the second text information by using a pre-trained second model.
  • S240 Generate a second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the method of acquiring the embedding feature of the second concept is the same as the method of acquiring the embedding feature of the first concept in the first embodiment of the present invention. It may be the second method of extracting the second image information by using a pre-trained image neural network.
  • Image vector use a pre-trained image mapping neural network to map the second image vector to the public space of image and text joint embedding, and transform it into a second image embedding feature
  • the second text vector of the information using a pre-trained text mapping neural network to map the second text vector to the public space of the image and text joint embedding, and transform it into a second text embedding feature.
  • a pre-trained third model is used to generate the second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the loss function used includes relative Hinge loss function and/or absolute hinge loss function.
  • the weighting of the hinge loss function and the absolute hinge loss function is used in the third model training process to generate the second concept embedding feature.
  • the third embodiment of the present invention provides a search system 100 for joint graphic and text representation.
  • the search system 100 for joint graphic and text representation provided by the third embodiment of the present invention can execute the search system 100 provided by any embodiment of the present invention.
  • the search method of graphic and text joint representation has the corresponding functional modules and effects of the execution method.
  • the search system 100 includes an information receiving module 110, a feature extraction module 120, a distance calculation module 130, and a result display module 140.
  • the information receiving module 110 is configured to receive first description information of the search object, where the first description information is first image information and/or first text information; the feature extraction module 120 is configured to set the first description information as the first image Information, use the pre-trained first model to extract the first image embedding feature of the first image information; when the first description information is the first text information, use the pre-trained second model to extract the first text The first text embedding feature of the information; when the first description information is the first image information and the first text information, the first image embedding feature of the first image information is extracted using the pre-trained first model, and the first image information is used in advance
  • the trained second model extracts the first text embedding feature of the first text information; the distance calculation module 130 is set to calculate the first image embedding feature and multiple presets when the first description information is the first image information.
  • Multiple second distances between two concept embedded features; when the first description information is the first image information and the first text information, the third distance is calculated in one of the following three ways: 1) According to the The first image embedding feature and the first text embedding feature generate a first concept embedding feature, and multiple third distances between the first concept embedding feature and the second concept embedding features of a plurality of pre-stored target documents are calculated; 2 ) Calculate multiple first temporary distances between the first image embedding feature and multiple pre-stored second concept embedding features of the target document, and calculate the first text embedding feature and the first temporary distance less than a preset value The third distance between the second concept embedding features of the target document corresponding to the distance; 3) calculating a plurality of second temporary distances between the first text embedding feature and
  • the feature extraction module 120 is further configured to obtain the second image information and/or second text information of a plurality of pre-stored target documents; use the pre-trained first model to extract the second image information of the second image information.
  • Image embedding feature extracting the second text embedding feature of the second text information using a pre-trained second model; generating a second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the distance calculation module 130 is configured to use a pre-trained third model to generate the first concept embedding feature based on the first image embedding feature and the first text embedding feature, and use a pre-trained third model to generate the first concept embedding feature based on the second image
  • the embedding feature and/or the second text embedding feature generates the second concept embedding feature
  • the loss function used in the training process of the third model includes a relative hinge loss function and/or an absolute hinge loss function.
  • the search object includes one or more of patent documents, papers, webpage documents, journal documents, and book documents.
  • the search result is all information, partial information, or partial combination information of one or more patent documents.
  • the partial information can be one of keywords, drawings, sentences, paragraphs, and classification numbers.
  • the partial combination information includes drawings. Files and keywords.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the feature extraction module 120 is configured to use a pre-trained image neural network to extract the first image vector of the first image information; use the pre-trained image mapping neural network to map the first image vector to a public image-text embedding In the space, transform into the first image embedding feature; use a pre-trained text neural network to extract the first text vector of the first text information; use a pre-trained text mapping neural network to map the first text vector to the In the public space of joint image and text embedding, it is transformed into the first text embedding feature.
  • the search result is a display diagram of the relevance between one or more patent documents and the search object, and the relevance is determined by the coordinate position of the embedded feature of the second concept.
  • the search result is a matrix of representative graphs of multiple patent documents, and the plurality of representative graphs in the matrix of representative graphs are arranged in positions according to the size of the first distance, the second distance, or the third distance.
  • the search system 100 for joint graphic representation further includes a classification generation module 150, which is configured to generate classification information of the first description information according to the first distance, the second distance, or the third distance.
  • the classification information can be a patent classification number.
  • the fourth embodiment of the present invention provides a method for generating a graphic and text joint characterization library, and the generating method includes:
  • the target document includes one or more of a patent document, a paper, a web page document, a journal document, and a book document.
  • These target documents include the first image information, the first text information, or both the first image information and the first text information.
  • the image information also includes first text information.
  • the target document is a patent document, the patent document should include text and drawings, that is, the first image information and the first text information.
  • S320 Extract the first image embedding feature of the first image information by using the pre-trained first model, and extract the first text embedding feature of the first text information by using the pre-trained second model.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the image neural network can use ResNet or MobileNet pre-trained on ImageNet or Google Open Image
  • the text neural network can use the word2vec model, the GloVe model, or the BERT model.
  • the network maps the first image vector to the public space of the joint image and text embedding, and at the same time uses the pre-trained text mapping neural network to map the first text vector to the public space of the joint image and text embedding to obtain the first image vector.
  • An image embedding feature and the first text embedding feature are two coordinate points in the common space.
  • the first image information and the first text information can be represented as coordinate points in the same public space. According to the pre-trained neural network model, the first image information and the first text information can be found The relationship between.
  • S330 Generate a first concept embedding feature according to the first image embedding feature and/or the first text embedding feature.
  • a pre-trained third model may be used to generate the first concept embedding feature according to the first image embedding feature and/or the first text embedding feature.
  • the user can choose to generate the first concept embedding feature only through the first image embedding feature, then the coordinate point represented by the first image embedding feature in the public space is the coordinate point represented by the first concept embedding feature in the public space; the user also You can choose to generate the first concept embedding feature only through the first text embedding feature, then the coordinate point represented by the first text embedding feature in the public space is the coordinate point represented by the first concept embedding feature in the public space; the user can also choose to pass The first image embedding feature and the first text embedding feature are used to generate the first concept embedding feature, and then the first image embedding feature and the first text embedding feature are generated in the public space through the pre-trained third model to generate new coordinate points.
  • the point is the coordinate point represented by the embedded feature of the first concept in the public space
  • the loss function used includes the relative hinge loss function and/or the absolute hinge loss function.
  • the weighting of the hinge loss function and the absolute hinge loss function is used in the third model training process.
  • step S310 to step S330 in the embodiment of the present invention, reference may be made to the first embodiment of the present invention.
  • the public space includes the coordinate points corresponding to the multiple target documents, which is equivalent to the establishment of the graphic and text joint representation library of the multiple target documents.
  • the user can use the method in the first embodiment of the present invention to search in the graphic and text joint representation library. Since the target document has been converted into the first concept embedded feature, the information input by the user is converted into Corresponding concept embedding features, the first concept embedding feature corresponding to the information input by the user can be calculated in the public space, and the first concept embedding feature whose distance is less than the preset value, and the corresponding target document is the target document that the user may need to search .
  • the embodiment of the present invention obtains first image information and first text information of multiple target documents; extracts the first image embedding feature of the first image information by using a pre-trained first model, and uses a pre-trained second model Extracting the first text embedding feature of the first text information; generating a first concept embedding feature according to the first image embedding feature and/or the first text embedding feature; establishing the plurality of embedding features according to the first concept embedding feature
  • the graphic and text joint representation library of the target document solves the problem that users cannot search for the corresponding image information or text information through the text information or image information they only know, and cannot determine the inherent similarity between the concepts of things. The effect of improving the accuracy and diversity of search is achieved.
  • the fifth embodiment of the present invention provides a system 200 for generating a graphic and text joint characterization library.
  • the system 200 for generating a graphic and text joint characterization library provided by the fifth embodiment of the present invention can execute the system provided by any embodiment of the present invention.
  • the method for generating the graphic and text joint representation library has the corresponding functional modules and effects for the execution method.
  • the generation system includes an information acquisition module 210, a feature extraction module 220, a feature generation module 230, and a characterization library establishment module 240.
  • the information acquisition module 210 is configured to acquire first image information and first text information of multiple target documents;
  • the feature extraction module 220 is configured to use a pre-trained first model to extract the first image embedding features of the first image information, and Using a pre-trained second model to extract the first text embedding feature of the first text information;
  • the feature generation module 230 is configured to generate a first concept embedding feature according to the first image embedding feature and/or the first text embedding feature;
  • the characterization library establishment module 240 is configured to establish a graphic and text joint characterization library of the multiple target documents according to the first concept embedded feature.
  • the target document includes one or more of patent documents, papers, webpage documents, journal documents, and book documents.
  • the feature generation module 230 is configured to use a pre-trained third model to generate the first concept embedding feature according to the first image embedding feature and/or the first text embedding feature.
  • the loss function used includes a relative hinge loss function and/or an absolute hinge loss function.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the feature extraction module 220 is configured to use a pre-trained image neural network to extract the first image vector of the first image information; use the pre-trained image mapping neural network to map the first image vector to a public image-text embedding In the space, transform into the first image embedding feature; use a pre-trained text neural network to extract the first text vector of the first text information; use a pre-trained text mapping neural network to map the first text vector to the In the public space of the joint embedded image and text, it is transformed into the first text embedding feature.
  • the sixth embodiment of the present invention provides a classification recommendation method of graphic and text joint representation, and the classification recommendation method includes:
  • S410 Receive first description information of one or more recommended objects, where the first description information is first image information and/or first text information.
  • the recommended objects include one or more of patent documents, papers, web documents, journal documents, and book documents. These recommended objects include the first image information, the first text information, or both the first image information. It also includes the first text information. Illustratively, if the recommended object is a patent document, the patent document must include the text and drawings required by law, that is, the first image information and the first text information.
  • the first description information is the first image information
  • use a pre-trained first model to extract the first image embedding feature of the first image information
  • use The pre-trained second model extracts the first text embedding feature of the first text information
  • the pre-trained first model is used to extract the first The first image embedding feature of the image information is used, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the image neural network can use ResNet or MobileNet pre-trained on ImageNet or Google Open Image
  • the text neural network can use the word2vec model, the GloVe model, or the BERT model.
  • the pre-trained image neural network is used to extract the first image vector of the first image information, and the pre-trained image mapping neural network is used Map the first image vector to the public space of image and text joint embedding, and transform it into the first image embedding feature, that is, a coordinate point in the public space;
  • the first description information of the recommended object input by the user only includes For the first text information, a pre-trained text neural network is used to extract the first text vector of the first text information, and the pre-trained text mapping neural network is used to map the first text vector to the image-text joint embedding In the public space, it is transformed into the first text embedding feature, that is, a coordinate point in the public space;
  • the first description information of the recommended object input by the user includes the first image information and the first text information, then Use a pre-trained image neural network to extract the first image vector of the first image information, while using a pre-trained
  • the third distance calculation method is one of the following three methods: 1) Generate a first concept embedding feature based on the first image embedding feature and the first text embedding feature, and calculate the first Multiple third distances between concept embedding features and multiple pre-stored second concept embedding features of target documents; 2) Calculating the first image embedding feature and multiple pre-stored second concept embedding features of target documents Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) calculate the A plurality of second temporary distances between the first text
  • the graphic and text joint representation library can be established in advance.
  • the target document can be pre-established before the user recommends, that is, all the published patent documents
  • Graphic and text joint representation library, all patent documents in the library have been converted into second concept embedded features, that is, coordinate points in the public space.
  • the first description information of the recommended object input by the user only includes the first image information
  • calculate the multiple first distances between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document That is, the first distance between the coordinate point of the first image embedded feature and the coordinate point of the second concept embedded feature in the public space
  • calculate The plurality of second distances between the first text embedding feature and the second concept embedding features of the plurality of pre-stored target documents that is, the coordinate points of the first text embedding feature and the coordinates of the second concept embedding feature in the public space
  • the second distance between points; if the first description information of the recommended object input by the user includes both the first image information and the first text information, the third distance can be calculated in one of the following ways: 1) According to The first image embedding feature and the first text embedding feature generate a first concept embedding feature, and a plurality of third distances between the
  • the temporary distance corresponds to the third distance between the second concept embedding features of the target document, that is, the third distance between the coordinate points of the first image embedding feature and the coordinate points of the second concept embedding feature in the public space.
  • the distance between the coordinate point of the second concept embedded feature and the first text embedded feature is less than the preset value.
  • the first image embedding feature and the first text embedding feature can be used to generate the first concept embedding feature by using a pre-trained third model to generate the first concept embedding feature based on the first image embedding feature and the first text embedding feature
  • the loss function used includes a relative hinge loss function and/or an absolute hinge loss function.
  • the weighting of the hinge loss function and the absolute hinge loss function is used to generate the first concept embedding feature, and the first image embedding feature and the first text embedding feature are converted into the first concept embedding.
  • the feature is to convert two coordinate points representing the same patent document into one coordinate point in the public space.
  • step S410-step S430 in the embodiment of the present invention, reference may be made to the first embodiment of the present invention.
  • the recommendation result may be displayed in a manner: the smaller the distance of the first distance, the second distance, or the third distance, the target document corresponding to the first distance, the second distance, or the third distance is displayed on the recommendation result interface
  • the center is displayed to the front, and the target document with the smallest distance is displayed first.
  • the display mode may be to display only the text information of the target document, or only display the image information of the target document, or display the text information and image information of the target document at the same time.
  • the recommendation result can be the classification number of one or more recommended objects.
  • the user can input the patent document as the recommended object, and take the target corresponding to the first distance, the second distance, or the third distance that is less than a preset threshold.
  • the patent classification number of the document Select the patent classification number with the most of the same patent classification number and display it in the recommended results interface. If there is only one patent classification number, select the first distance, second distance or third distance with the smallest distance The patent classification number corresponding to the corresponding target document is displayed in the interface of the recommendation result.
  • the embodiment of the present invention extracts the first image embedding feature of the first image information by using the pre-trained first model, and extracts the first text embedding feature of the first text information by using the pre-trained second model; Generating a first concept embedding feature from the first image embedding feature and the first text embedding feature, and calculating a plurality of third distances between the first concept embedding feature and a plurality of pre-stored second concept embedding features of the target document; Displaying the recommendation results of the one or more recommended objects according to the third distance solves the problem that the user cannot obtain corresponding similar image information or text information through the text information or image information that he only knows, and the concept of things that cannot be determined The inherent similarity between the two has achieved the effect of improving the user experience for users to obtain information.
  • the seventh embodiment of the present invention provides a classification recommendation method for graphic and text joint characterization.
  • the seventh embodiment of the present invention is described on the basis of the sixth embodiment of the present invention, wherein the multiple pre-stored
  • the acquisition methods of the second concept embedded feature of the target document include:
  • S510 Acquire pre-stored second image information and second text information.
  • S520 Extract the second image embedding feature of the second image information by using the pre-trained first model.
  • S530 Extract a second text embedding feature of the second text information by using a pre-trained second model.
  • S540 Generate a second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the method of acquiring the embedded features of the second concept is the same as the method of acquiring the embedded features of the first concept in the sixth embodiment of the present invention. It may be the second method of extracting the second image information by using a pre-trained image neural network.
  • Image vector use a pre-trained image mapping neural network to map the second image vector to the public space of image and text joint embedding, and transform it into a second image embedding feature; use a pre-trained text neural network to extract the second text The second text vector of the information; using a pre-trained text mapping neural network to map the second text vector to the public space of the image and text joint embedding, and transform it into a second text embedding feature.
  • a pre-trained third model is used to generate the second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the loss function used includes relative Hinge loss function and/or absolute hinge loss function.
  • the weighting of the hinge loss function and the absolute hinge loss function is used in the third model training process to generate the second concept embedding feature.
  • the eighth embodiment of the present invention provides a classification recommendation system 300 for graphic and text joint characterization.
  • the classification recommendation system 300 for joint graphic and text characterization provided by the eighth embodiment of the present invention can execute the method described in any embodiment of the present invention.
  • the provided classification recommendation method of graphic and text joint representation has the corresponding functional modules and effects of the execution method.
  • the classification recommendation system 300 includes an information receiving module 310, a feature extraction module 320, a distance calculation module 330, and a result display module 340.
  • the information receiving module 310 is configured to receive first description information of one or more recommended objects, where the first description information is first image information and/or first text information; the feature extraction module 320 is configured to be the first description information When it is the first image information, use the pre-trained first model to extract the first image embedding feature of the first image information; when the first description information is the first text information, use the pre-trained second model to extract all the The first text embedding feature of the first text information; when the first description information is the first image information and the first text information, the first image embedding feature of the first image information is extracted by using the pre-trained first model , And use a pre-trained second model to extract the first text embedding feature of the first text information; the distance calculation module 330 is set to calculate the first image embedding feature when the first description information is the first image information Multiple first distances between the second concept embedding features and multiple pre-stored target documents; when the first description information is the first text information, calculate the first text embedding feature and multiple pre-
  • the feature extraction module 320 is further configured to obtain pre-stored second image information and second text information; use the pre-trained first model to extract the second image embedding feature of the second image information; use pre-training The second model of extracting the second text embedding feature of the second text information; generating the second concept embedding feature according to the second image embedding feature and/or the second text embedding feature.
  • the distance calculation module 330 is configured to use a pre-trained third model to generate the first concept embedding feature according to the first image embedding feature and the first text embedding feature, and use the pre-trained third model to generate the first concept embedding feature according to the first image embedding feature and the first text embedding feature.
  • the second image embedding feature and/or the second text embedding feature generates the second concept embedding feature
  • the loss function used in the training process of the third model includes a relative hinge loss function and/or an absolute hinge loss function.
  • the one or more recommended objects include one or more of patent documents, papers, web documents, journal documents, and book documents.
  • the recommendation result is the classification number of one or more recommended objects.
  • the first model includes an image neural network and an image mapping neural network
  • the second model includes a text neural network and a text mapping neural network.
  • the feature extraction module 320 is configured to use a pre-trained image neural network to extract the first image vector of the first image information; use the pre-trained image mapping neural network to map the first image vector to a public image-text embedding In the space, transform into the first image embedding feature; use a pre-trained text neural network to extract the first text vector of the first text information; use a pre-trained text mapping neural network to map the first text vector to the In the public space of joint image and text embedding, it is transformed into the first text embedding feature.
  • FIG. 14 is a schematic structural diagram of a server according to Embodiment 9 of the present invention.
  • Figure 14 shows a block diagram of an exemplary server 12 suitable for implementing embodiments of the present invention.
  • the server 12 shown in FIG. 14 is only an example, and should not bring any limitation to the function and scope of use of the embodiment of the present invention.
  • the server 12 is represented in the form of a general-purpose computing device.
  • the components of the server 12 may include, but are not limited to: one or more processors or processing units 16, a system memory 28, and a bus 18 connecting different system components (including the system memory 28 and the processing unit 16).
  • the bus 18 represents one or more of several types of bus structures, including a memory bus or a memory controller, a peripheral bus, a graphics acceleration port, a processor, or a local bus using any bus structure among multiple bus structures.
  • these architectures include, but are not limited to, Industry Standard Architecture (ISA) bus, MicroChannel Architecture (MAC) bus, enhanced ISA bus, Video Electronics Standards Association (Video Electronics Standards Association) , VESA) local bus and Peripheral Component Interconnect (PCI) bus.
  • the server 12 includes a variety of computer system readable media. These media can be any available media that can be accessed by the server 12, including volatile and non-volatile media, removable and non-removable media.
  • the system memory 28 may include a computer system readable medium in the form of a volatile memory, such as a random access memory (RAM) 30 and/or a cache memory 32.
  • the server 12 may include other removable/non-removable, volatile/nonvolatile computer system storage media.
  • the storage system 34 may be configured to read and write a non-removable, non-volatile magnetic medium (not shown in FIG. 14, usually referred to as a "hard drive").
  • a disk drive configured to read and write to a removable non-volatile disk (such as a "floppy disk") and a removable non-volatile optical disk (such as a compact disc read-only memory) can be provided.
  • the system memory 28 may include at least one program product, the program product having a set (for example, at least one) program modules, and these program modules are configured to perform the functions of the embodiments of the present invention.
  • a program/utility tool 40 having a set of (at least one) program modules 42 may be stored in, for example, the memory 28.
  • Such program modules 42 include, but are not limited to, an operating system, one or more application programs, and other programs Modules and program information, each of these examples or a combination may include the implementation of a network environment.
  • the program module 42 generally executes the functions and/or methods in the embodiments described in the present disclosure.
  • the server 12 may also communicate with one or more external devices 14 (such as keyboards, pointing devices, displays 24, etc.), and may also communicate with one or more devices that enable users to interact with the server 12, and/or communicate with
  • the server 12 can communicate with any device (such as a network card, modem, etc.) that communicates with one or more other computing devices. This communication can be performed through an input/output (Input/Output, I/O) interface 22.
  • the server 12 may also communicate with one or more networks (for example, a local area network (LAN), a wide area network (WAN), and/or a public network, such as the Internet) through the network adapter 20. As shown in the figure, the network adapter 20 communicates with other modules of the server 12 through the bus 18.
  • LAN local area network
  • WAN wide area network
  • public network such as the Internet
  • server 12 can be used in conjunction with the server 12, including but not limited to: microcode, device drivers, redundant processing units, external disk drive arrays, and disk arrays (Redundant Arrays of Independent Disks, RAID) systems, tape drives, and information backup storage systems.
  • microcode device drivers
  • redundant processing units external disk drive arrays
  • disk arrays Redundant Arrays of Independent Disks, RAID
  • the processing unit 16 executes a variety of functional applications and information processing by running a program stored in the system memory 28, for example, realizes the search method of graphic and text joint representation provided by the embodiment of the present invention:
  • Receive first description information of the search object where the first description information is first image information and/or first text information.
  • the first description information is the first image information
  • use the pre-trained first model to extract the first image embedding feature of the first image information
  • the first description information is the first text information
  • use the pre-training The second model extracts the first text embedding feature of the first text information
  • the first description information is the first image information and the first text information
  • the first image information is extracted using the pre-trained first model
  • the first image embedding features, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first description information is the first image information
  • multiple first distances between the first image embedding feature and the second concept embedding features of a plurality of pre-stored target documents are calculated;
  • the first description information When it is the first text information, calculate multiple second distances between the first text embedding feature and multiple pre-stored second concept embedding features of the target document;
  • the first description information is the first image information and
  • the third distance calculation method is one of the following three methods: 1) The first concept embedding feature is generated according to the first image embedding feature and the first text embedding feature, and the first concept embedding is calculated Multiple third distances between the features and the second concept embedding features of multiple pre-stored target documents; 2) Calculate the distance between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) Calculate the
  • the search result is displayed according to the first distance, the second distance, or the third distance.
  • the first description information is the first image information
  • use the pre-trained first model to extract the first image embedding feature of the first image information
  • the first description information is the first text information
  • use the pre-training The second model extracts the first text embedding feature of the first text information
  • the first description information is the first image information and the first text information
  • the first image information is extracted using the pre-trained first model
  • the first image embedding features, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first description information is the first image information
  • multiple first distances between the first image embedding feature and the second concept embedding features of a plurality of pre-stored target documents are calculated;
  • the first description information When it is the first text information, calculate multiple second distances between the first text embedding feature and multiple pre-stored second concept embedding features of the target document;
  • the first description information is the first image information and
  • the third distance calculation method is one of the following three methods: 1) The first concept embedding feature is generated according to the first image embedding feature and the first text embedding feature, and the first concept embedding is calculated Multiple third distances between the features and the second concept embedding features of multiple pre-stored target documents; 2) Calculate the distance between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) Calculate the
  • the recommendation result of the one or more recommended objects is displayed according to the first distance, the second distance, or the third distance.
  • the tenth embodiment of the present invention also provides a computer-readable storage medium on which a computer program is stored, and when the program is executed by a processor, the search method for graphic and text joint representation provided by the embodiment of the present invention is implemented:
  • Receive first description information of the search object where the first description information is first image information and/or first text information.
  • the first description information is the first image information
  • use the pre-trained first model to extract the first image embedding feature of the first image information
  • the first description information is the first text information
  • use the pre-training The second model extracts the first text embedding feature of the first text information
  • the first description information is the first image information and the first text information
  • the first image information is extracted using the pre-trained first model
  • the first image embedding features, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first description information is the first image information
  • multiple first distances between the first image embedding feature and the second concept embedding features of a plurality of pre-stored target documents are calculated;
  • the first description information When it is the first text information, calculate multiple second distances between the first text embedding feature and multiple pre-stored second concept embedding features of the target document;
  • the first description information is the first image information and
  • the third distance calculation method is one of the following three methods: 1) The first concept embedding feature is generated according to the first image embedding feature and the first text embedding feature, and the first concept embedding is calculated Multiple third distances between the features and the second concept embedding features of multiple pre-stored target documents; 2) Calculate the distance between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) Calculate the
  • the search result is displayed according to the first distance, the second distance, or the third distance.
  • the first description information is the first image information
  • use the pre-trained first model to extract the first image embedding feature of the first image information
  • the first description information is the first text information
  • use the pre-training The second model extracts the first text embedding feature of the first text information
  • the first description information is the first image information and the first text information
  • the first image information is extracted using the pre-trained first model
  • the first image embedding features, and the first text embedding feature of the first text information is extracted by using a pre-trained second model.
  • the first description information is the first image information
  • multiple first distances between the first image embedding feature and the second concept embedding features of a plurality of pre-stored target documents are calculated;
  • the first description information When it is the first text information, calculate multiple second distances between the first text embedding feature and multiple pre-stored second concept embedding features of the target document;
  • the first description information is the first image information and
  • the third distance calculation method is one of the following three methods: 1) The first concept embedding feature is generated according to the first image embedding feature and the first text embedding feature, and the first concept embedding is calculated Multiple third distances between the features and the second concept embedding features of multiple pre-stored target documents; 2) Calculate the distance between the first image embedding feature and the multiple pre-stored second concept embedding features of the target document Calculate the third distance between the first text embedding feature and the second concept embedding feature of the target document corresponding to the first temporary distance less than the preset value; 3) Calculate the
  • the recommendation result of the one or more recommended objects is displayed according to the first distance, the second distance, or the third distance.
  • the computer storage medium of the embodiment of the present invention may adopt any combination of one or more computer-readable media.
  • the computer-readable medium may be a computer-readable signal medium or a computer-readable storage medium.
  • the computer-readable storage medium may be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or a combination of any of the above.
  • Examples of computer-readable storage media include: electrical connections with one or more wires, portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable Erasable Programmable Read-Only Memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • the computer-readable storage medium can be any tangible medium that includes or stores a program, and the program can be used by or in combination with an instruction execution system, apparatus, or device.
  • the computer-readable signal medium may include an information signal propagated in a baseband or as a part of a carrier wave, in which computer-readable program code is carried. Such propagated information signals can take many forms, including but not limited to electromagnetic signals, optical signals, or any suitable combination of the foregoing.
  • the computer-readable signal medium may also be any computer-readable medium other than the computer-readable storage medium, and the computer-readable medium may send, propagate, or transmit the program for use by or in combination with the instruction execution system, apparatus, or device .
  • the program code included on the computer-readable medium can be transmitted by any suitable medium, including but not limited to wireless, wire, optical cable, radio frequency (RF), etc., or any suitable combination of the foregoing.
  • RF radio frequency
  • the computer program code used to perform the operations of the present disclosure can be written in one or more programming languages or a combination thereof.
  • the programming languages include object-oriented programming languages—such as Java, Smalltalk, C++, and also conventional Procedural programming language-such as "C" language or similar programming language.
  • the program code can be executed entirely on the user's computer, partly on the user's computer, executed as an independent software package, partly on the user's computer and partly executed on a remote computer, or entirely executed on the remote computer or server.
  • the remote computer can be connected to the user's computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or it can be connected to an external computer (for example, using an Internet service provider to pass Internet connection).
  • LAN local area network
  • WAN wide area network
  • Internet service provider for example, using an Internet service provider to pass Internet connection.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了一种图文联合表征的搜索方法、系统、设备和存储介质。该图文联合表征的搜索方法包括:接收搜索对象的第一描述信息,其中所述第一描述信息为第一图像信息和第一文本信息中的至少之一;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;根据计算出的多个第三距离显示搜索结果。

Description

图文联合表征的搜索方法、系统、服务器和存储介质
本申请要求在2019年11月29日提交中国专利局、申请号为201911198749.0的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本公开涉及搜索技术领域,例如涉及一种图文联合表征的搜索方法、系统、服务器和存储介质。
背景技术
随着互联网技术的高速发展和多媒体设备的日益更新和应用,搜索越来越成为一种生活中必不可少的获取信息的途径。
如果想要对一个事物有一个完整的认知,就需要了解到这一事物的文字信息和图像信息。但面向大众的搜索方式中,只能通过文字搜索到文字或者通过图像搜索到图像,图像信息和文本信息是分开的,用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息,无法产生对一个事物的完整认知。
此外,当使用图像信息搜索时,不同概念下的事物可能看起来彼此相似,如冰箱和盒子,而同一概念下的事物可能会出现很大差异,如有叶片风扇和无叶片风扇,这导致用户通常会获得大量视觉上相似但概念上无关的结果。
发明内容
本公开提供了一种图文联合表征的搜索方法、系统、服务器和存储介质,以实现提高搜索的准确性和多样性。
提供了一种图文联合表征的搜索方法,该图文联合表征的搜索方法包括:
接收搜索对象的第一描述信息,其中,所述第一描述信息为第一图像信息和/或第一文本信息;
在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;根据计算出的多个第一距离显示搜索结果;
在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二 模型提取所述第一文本信息的第一文本嵌入特征;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;根据计算出的多个第二距离显示搜索结果;
在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;通过执行以下之一计算第三距离,并根据计算出的多个第三距离显示搜索结果:
根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;
计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;
计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
还提供了一种图文联合表征的搜索系统,该图文联合表征的搜索系统包括:
信息接收模块,设置为接收搜索对象的第一描述信息,其中,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,设置为在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,设置为在所述第一描述信息为所述第一图像信息的情况下,计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;在所述第一描述信息为所述第一文本信息的情况下,计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,第三距离的计算方式为以下三种方式之一:根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存 储的目标文档的概念嵌入特征之间的多个第三距离;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离;
结果显示模块,设置为在所述第一描述信息为所述第一图像信息的情况下,根据计算出的多个第一距离显示搜索结果;在所述第一描述信息为所述第一文本信息的情况下,根据计算出的多个第二距离显示搜索结果;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,根据计算出的第三距离显示搜索结果。
还提供了一种图文联合表征库的生成方法,该图文联合表征库的生成方法包括:
获取多个目标文档的第一图像信息和第一文本信息;
利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
还提供了一种图文联合表征库的生成系统,该图文联合表征库的生成系统包括:
信息获取模块,设置为获取多个目标文档的第一图像信息和第一文本信息;
特征提取模块,设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
特征生成模块,设置为根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;
表征库建立模块,设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
还提供了一种图文联合表征的分类推荐方法,该图文联合表征的分类推荐方法包括:
接收至少一个推荐对象的第一描述信息,其中,所述第一描述信息为第一图像信息和/或第一文本信息;
在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;计算所述第一图像嵌入特征和多个预先存储的目标文档的二概念嵌入特征之间的多个第一距离;根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果;
在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果;
在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;通过执行以下之一计算第三距离,并根据计算出的第三距离显示所述至少一个推荐对象的推荐结果:
根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;
计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;
计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
还提供了一种图文联合表征的分类推荐系统,该图文联合表征的分类推荐系统包括:
信息接收模块,设置为接收至少一个推荐对象的第一描述信息,其中,所述第一描述信息为第一图像信息和/或第一文本信息;
特征提取模块,设置为在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
距离计算模块,设置为在所述第一描述信息为所述第一图像信息的情况下,计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;在所述第一描述信息为所述第一文本信息的情况下,计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,第三距离的计算方式为以下三种方式之一:根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离;
结果显示模块,设置为在所述第一描述信息为所述第一图像信息的情况下,根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果;在所述第一描述信息为所述第一文本信息的情况下,根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,根据计算出的第三距离显示所述至少一个推荐对象的推荐结果。
还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,设置为存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
附图说明
图1是本发明实施例一提供的一种图文联合表征的搜索方法的方法流程图;
图2是本发明实施例一提供的一种图文联合表征的搜索界面的示意图;
图3是本发明实施例一提供的一种图文联合表征的公共空间的示意图;
图4是本发明实施例一提供的一种图文联合表征的代表图矩阵的示意图;
图5是本发明实施例一提供的一种图文联合表征的坐标图的示意图;
图6是本发明实施例一提供的另一种图文联合表征的坐标图的示意图;
图7是本发明实施例二提供的一种图文联合表征的搜索方法的方法流程图;
图8是本发明实施例三提供的一种图文联合表征的搜索系统的结构示意图;
图9是本发明实施例四提供的一种图文联合表征库的生成方法的方法流程图;
图10是本发明实施例五提供的一种图文联合表征库的生成系统的结构示意图;
图11是本发明实施例六提供的一种图文联合表征的分类推荐方法的方法流程图;
图12是本发明实施例七提供的一种图文联合表征的分类推荐方法的方法流程图;
图13是本发明实施例八提供的一种图文联合表征的分类推荐系统的结构示意图;
图14为本发明实施例九提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本公开进行说明。
在讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,多个步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一概念嵌入特征称为第二概念嵌入特征,且类似地,可将第二概念嵌入特征称为第一概念嵌入特征。第一概念嵌入特征和第二概念嵌入特征两者都是概念嵌入特征,但其不是同一概念嵌入特征。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的 描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确限定。
实施例一
如图1所示,本发明实施例一提供了一种图文联合表征的搜索方法,该搜索方法包括:
S110、接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
本实施例中,搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些搜索对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若搜索对象是专利文档,那么专利文档中应当包括有文字和附图,即第一图像信息和第一文本信息。
如图2所示,当用户需要进行搜索时,可以在第一边框201中输入搜索对象的第一描述信息的第一文本信息,点击第二边框202以上传搜索对象的第一描述信息的第一图像信息,上传后的第一图像信息将显示在第一显示区207,用户可以通过点击第三边框203开始图文联合表征的搜索,也可以通过点击第四边框204,只通过第一图像信息进行搜索。其中,用户输入的第一文本信息和上传的第一图像信息都可以为多个。此外,用户可以通过点击第五边框205清除输入的所有第一描述信息,通过点击第六边框206选择自己搜索的侧重点,例如选择概念、文字或图像等。
S120、所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使用如在图像网(ImageNet)或谷歌开放图像(Google Open Image)上预先训练的残差网络(Residual Network,ResNet)或移动网络(MobileNet),文本神经网络可以使用词到向量(Word to Vector,word2vec)模型、词表示的全局向量(Global Vectors for Word Representation,GloVe)模型、或基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将 不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
若用户输入的搜索对象的第一描述信息中只包括了第一图像信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征,即公共空间中的一个坐标点;若用户输入的搜索对象的第一描述信息中只包括了第一文本信息,则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征,即公共空间中的一个坐标点;若用户输入的搜索对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
如图3所示,在公共空间中,第一图像信息经过第一模型的训练就得到了第一图像嵌入特征,即第一坐标点301,第一文本信息经过第二模型的训练就得到了第一文本嵌入特征,即第二坐标点302,即在同一个公共空间中可以将第一图像信息和第一文本信息表示出来并得到它们之间的关系。此外,因为语义的不同,用户在输入多种国家的语言时,得到的第一文本嵌入特征,如第三坐标点303、第四坐标点304和第五坐标点305与第一坐标点301的距离都会有所不同。
S130、所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预 设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
本实施例中,在用户搜索之前,可以预先建立好图文联合表征库,示例性的,若用户需要搜索专利文档,那么在用户搜索之前可以预先建立好目标文档库,即全部已公开专利文档的图文联合表征库,在该库中的所有专利文档都已转换为第二概念嵌入特征,即公共空间中的坐标点。
若用户输入的搜索对象的第一描述信息中只包括了第一图像信息,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第一距离;若用户输入的搜索对象的第一描述信息中只包括了第一文本信息,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离,即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离;若用户输入的搜索对象的第一描述信息中既包括了第一图像信息又包括了第一文本信息,则可以通过以下方式之一计算第三距离:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离,即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中,第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中,第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。
第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是,利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
一实施例中,在第三模型训练过程中使用相对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征,将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
在一具体实施方式中,可以采用2万个外观专利的数据生成目标文档库,并采用随机选择的1040个外观专利数据作为训练测试集,使用第三模型进行训练,实验结果表明,采用相对铰链损失函数和绝对铰链损失函数的加权相比于其他损失函数的计算方式而言,得到的搜索结果更接近用户输入的搜索对象。
S140、根据所述第一距离、第二距离或第三距离显示搜索结果。
本实施例中,搜索结果的显示方式可以为:将小于预设值的第一距离、第二距离或第三距离对应的目标文档作为搜索结果在显示界面中予以显示。其中,显示的方式可以为只显示目标文档的文字信息,或者只显示目标文档的图像信息,或者同时显示目标文档的文字信息和图像信息。
所述搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息,所述局部信息可以是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序,例如为距离越小,则对应的专利文档越靠前显示。
如图2所示,搜索结果在第二显示区211显示,按上述顺序显示每一个专利,示例性的,在第一区域208显示对应专利的图档,在第一区域208上方的第二区域209显示对应专利的关键字,其中,在第二区域209中还可以显示相似度,相似度可以根据第一距离、第二距离或第三距离得到。
此外,用户可以从搜索结果中选择一个目标专利,从而根据用户选择目标专利推荐更多与该目标专利概念相似的搜索结果,示例性的,用户在搜索结果中点击一个目标专利的第一区域208下方的第三区域210,则根据该选择的目标专利及其概念相似性进行另一查询,并以类似概念显示更多结果。
一实施例中,所述搜索结果为多个专利文档的代表图矩阵,所述代表图矩阵中的多个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。如图4所示,搜索结果可以为多个专利文档中的摘要附图或代表图按顺序排列的代表图矩阵,第一距离、第二距离或第三距离越小,则在代表图矩阵中该专利文档对应的摘要附图或代表图越靠前显示。
一实施例中,所述搜索结果为一个或多个专利文档和搜索对象之间的相关 度的展示图,所述相关度通过所述第二概念嵌入特征的坐标位置进行确定,即所述相关度通过所述第二概念嵌入特征在公共空间中的坐标进行确定。如图5所示,搜索结果可以为坐标图,用户输入的搜索对象转换为第一概念嵌入特征对应的坐标点代表该坐标图的原点,搜索结果中的每一个专利文档的第二概念嵌入特征的坐标点在该坐标图中显示,由此可以十分清晰的判断一个或多个专利文档和搜索对象之间的相关度。此外,该展示图支持用户交互,例如用户可以通过将鼠标停留在每一个坐标点,或者通过其他方式查看该专利文档的简略信息,例如浮现出该坐标点对应的专利文档的标题信息、图像信息或分类信息,用户还可以通过点击坐标图501中的每一个坐标点,在坐标图501的第一区域502显示该专利文档的详细信息,不限定第一区域502位于坐标图501的右侧,还可以是其他便于显示的位置。图5中可以使用不同的填充效果(例如不同颜色填充或不同图案填充)区分不同文本信息,例如以倾斜网格线填充的坐标点表示扬声器(Speaker)。
用户可以将该坐标图501进行放大,放大后该坐标图将会变为显示如图6中的第二区域601和第三区域602所示的放大图。当接收到用户选择展示图中的一区域或多个区域时,还可以将选择区域范围内的展示图进行放大显示,得到如图6所示的展示图,该放大后的散点图能够清晰地展示在原散点图中较密集的散点区域。该放大显示的展示图中同样支持上述的用户交互。
S150、根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息,所述分类信息可以为专利分类号。
本实施例中,在搜索结果的界面上还可以显示第一描述信息的推荐分类信息。示例性的,可以取小于预设值的第一距离、第二距离或第三距离对应的目标文档作为参考对象,获取这些参考对象的分类信息,比如专利分类号,选择参考对象共同专利分类号出现频次排名靠前一个或多个专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中,若每个专利分类号都只存在一个或出现频次相同,选择第一距离、第二距离或第三距离的距离最小的目标文档对应的专利分类号作为第一描述信息的分类信息并显示在搜索结果的界面中。
一实施例中,用户可以输入不相关联的第一描述信息,示例性的,用户输入的第一描述信息包括第一图像信息和第一文本信息,其中,第一图像信息为“飞机”的图像,第一文本信息为“汽车”,将第一图像信息和第一文本信息转换为第一概念嵌入特征后计算与预先存储的第二概念嵌入特征的第三距离,就可以得到与第一图像信息为“飞机”的图像且第一文本信息为“汽车”最相关的目标文档,这对于有一些模糊的创新想法的用户是十分有帮助的。
本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一 图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示搜索结果,解决了用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息,以及不能确定事物的概念之间存在的内在相似性的问题,实现了提高搜索的准确性和多样性的效果。
实施例二
如图7所示,本发明实施例二提供了一种图文联合表征的搜索方法,本发明实施例二是在本发明实施例一的基础上进行说明,其中,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
S210、获取预先存储的多个目标文档的第二图像信息和/或第二文本信息。
S220、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征。
S230、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征。
S240、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
本实施例中,获取第二概念嵌入特征的方式和本发明实施例一中获取第一概念嵌入特征的方式相同,可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量;利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中,变换为第二图像嵌入特征;利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量;利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中,变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。
实施例三
如图8所示,本发明实施例三提供了一种图文联合表征的搜索系统100,本发明实施例三所提供的图文联合表征的搜索系统100可执行本发明任意实施例所提供的图文联合表征的搜索方法,具备执行方法相应的功能模块和效果。该 搜索系统100包括信息接收模块110、特征提取模块120、距离计算模块130和结果显示模块140。
信息接收模块110设置为接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;特征提取模块120设置为所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;距离计算模块130设置为所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;结果显示模块140设置为根据所述第一距离、第二距离或第三距离显示搜索结果。
本实施例中,特征提取模块120还设置为获取预先存储的多个目标文档的第二图像信息和/或第二文本信息;利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
距离计算模块130是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
本实施例中,搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。搜索结果为一个或多个专利文档的全部信息、局部信息或局部组合信息,所述局部信息可以是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息包括图档和关键词。当所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息时,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按所述第一距离、第二距离或第三距离的大小进行排序。
所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块120是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
可选的,搜索结果为一个或多个专利文档和搜索对象之间的相关度的展示图,所述相关度通过所述第二概念嵌入特征的坐标位置进行确定。可选的,搜索结果为多个专利文档的代表图矩阵,所述代表图矩阵中的多个代表图按所述第一距离、第二距离或第三距离的大小进行位置排列。
该图文联合表征的搜索系统100还包括分类生成模块150,该分类生成模块150设置为根据所述第一距离、第二距离或第三距离生成所述第一描述信息的分类信息,所述分类信息可以为专利分类号。
实施例四
如图9所示,本发明实施例四提供了一种图文联合表征库的生成方法,该生成方法包括:
S310、获取多个目标文档的第一图像信息和第一文本信息。
本实施例中,所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些目标文档中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若目标文档是专利文档,那么专利文档中应当包括文字和附图,即第一图像信息和第一文本信息。
S320、利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使 用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet,文本神经网络可以使用word2vec模型、GloVe模型、或BERT模型等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
首先利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
S330、根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征。
本实施例中,可以利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征。其中,用户可以选择只通过第一图像嵌入特征来生成第一概念嵌入特征,那么第一图像嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点;用户也可以选择只通过第一文本嵌入特征来生成第一概念嵌入特征,那么第一文本嵌入特征在公共空间代表的坐标点即为第一概念嵌入特征在公共空间代表的坐标点;用户还可以选择通过第一图像嵌入特征和第一文本嵌入特征来生成第一概念嵌入特征,则通过预先训练的第三模型将第一图像嵌入特征和第一文本嵌入特征在公共空间生成新的坐标点,该坐标点即为第一概念嵌入特征在公共空间代表的坐标点。
所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数,一实施例中,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
本发明实施例步骤S310-步骤S330的实现方法可参考本发明实施例一。
S340、根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
本实施例中,当将多个目标文档全部转换为第一概念嵌入特征后,即公共空间中包括多个目标文档对应的坐标点,相当于多个目标文档的图文联合表征库已完成建立,此时用户可以通过本发明实施例一的方法,在该图文联合表征库中进行搜索,因目标文档已经转换为第一概念嵌入特征,此时通过同样的方法将用户输入的信息转换为对应的概念嵌入特征,在公共空间中就可以计算与用户输入的信息对应的概念嵌入特征距离小于预设值的第一概念嵌入特征,与之对应的目标文档即为用户可能需要搜索的目标文档。
本发明实施例通过获取多个目标文档的第一图像信息和第一文本信息;利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库,解决了用户无法通过自己仅了解到的文字信息或者图像信息搜索到对应的图像信息或者文字信息,以及不能确定事物的概念之间存在的内在相似性的问题,实现了提高搜索的准确性和多样性的效果。
实施例五
如图10所示,本发明实施例五提供了一种图文联合表征库的生成系统200,本发明实施例五所提供的图文联合表征库的生成系统200可执行本发明任意实施例所提供的图文联合表征库的生成方法,具备执行方法相应的功能模块和效果。该生成系统包括信息获取模块210、特征提取模块220、特征生成模块230和表征库建立模块240。
信息获取模块210设置为获取多个目标文档的第一图像信息和第一文本信息;特征提取模块220设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;特征生成模块230设置为根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;表征库建立模块240设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
本实施例中,目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
特征生成模块230是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和/或所述第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括 文本神经网络和文本映射神经网络。特征提取模块220是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
实施例六
如图11所示,本发明实施例六提供了一种图文联合表征的分类推荐方法,该分类推荐方法包括:
S410、接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
本实施例中,推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种,这些推荐对象中包括第一图像信息、第一文本信息或者既包括第一图像信息又包括第一文本信息,示例性的,若推荐对象是专利文档,那么专利文档中必然包括法律规定应当有的文字和附图,即第一图像信息和第一文本信息。
S420、所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
本实施例中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。其中,图像神经网络可以使用如在ImageNet或Google Open Image上预先训练的ResNet或MobileNet,文本神经网络可以使用word2vec模型、GloVe模型、或BERT模型等,经过图像神经网络和文本神经网络的嵌入,可以将图像和文本嵌入在两个不同的向量空间中,还需要通过多层感知器或图卷积网络,即图像映射神经网络和文本映射神经网络将不同向量空间中的图像嵌入和文本嵌入桥接到同一个公共空间中,以得到位于同一公共空间的第一图像嵌入特征和第一文本嵌入特征。
若用户输入的推荐对象的第一描述信息中只包括了第一图像信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间 中,变换为第一图像嵌入特征,即公共空间中的一个坐标点;若用户输入的推荐对象的第一描述信息中只包括了第一文本信息,则利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征,即公共空间中的一个坐标点;若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量,同时利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量,并利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,同时利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,得到第一图像嵌入特征和第一文本嵌入特征,即公共空间中的两个坐标点。经过上述操作之后,第一图像信息和第一文本信息就可以在同一个公共空间中作为坐标点被表示出来,根据预先训练的神经网络模型,就可以找出第一图像信息和第一文本信息之间的关系。
S430、所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
本实施例中,在用户推荐之前,可以预先建立好图文联合表征库,示例性的,若用户需要推荐专利文档,那么在用户推荐之前可以预先建立好目标文档,即全部已公开专利文档的图文联合表征库,在该库中的所有专利文档都已转换为第二概念嵌入特征,即公共空间中的坐标点。
若用户输入的推荐对象的第一描述信息中只包括了第一图像信息,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入 特征的坐标点之间的第一距离;若用户输入的推荐对象的第一描述信息中只包括了第一文本信息,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离,即公共空间中第一文本嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第二距离;若用户输入的推荐对象的第一描述信息中即包括了第一图像信息又包括了第一文本信息,则可以通过以下方式之一计算第三距离:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离,即公共空间中第一概念嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一文本像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中,第二概念嵌入特征的坐标点和第一图像嵌入特征的距离小于预设值;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离,即公共空间中第一图像嵌入特征的坐标点和第二概念嵌入特征的坐标点之间的第三距离,其中,第二概念嵌入特征的坐标点和第一文本嵌入特征的距离小于预设值。
第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征的方式可以是利用预先训练的第三模型根据所述第一图像嵌入特征和第一文本嵌入特征生成所述第一概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第一概念嵌入特征,将第一图像嵌入特征和第一文本嵌入特征转换为第一概念嵌入特征,即将公共空间中代表同一篇专利文档的两个坐标点转换为一个坐标点。
本发明实施例步骤S410-步骤S430的实现方法可参考本发明实施例一。
S440、根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本实施例中,推荐结果的显示方式可以为:第一距离、第二距离或第三距离的距离越小,则第一距离、第二距离或第三距离对应的目标文档在推荐结果的界面中越靠前显示,距离最小的目标文档在第一个显示。其中,显示的方式可以为只显示目标文档的文字信息,或者只显示目标文档的图像信息,或者同 时显示目标文档的文字信息和图像信息。
推荐结果可以为一个或多个推荐对象的分类号,一实施例中,用户可以将专利文档作为推荐对象输入,取小于一预设阈值的第一距离、第二距离或第三距离对应的目标文档的专利分类号,选择相同专利分类号最多的专利分类号显示在推荐结果的界面中,若每个专利分类号都只存在一个,选择距离最小的第一距离、第二距离或第三距离对应的目标文档对应的专利分类号显示在推荐结果的界面中。
本发明实施例通过利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;根据所述第三距离显示所述一个或多个推荐对象的推荐结果,解决了用户无法通过自己仅了解到的文字信息或者图像信息获得对应的相似图像信息或者文字信息,以及不能确定事物的概念之间存在的内在相似性的问题,实现了提高用户获取信息的用户体验的效果。
实施例七
如图12所示,本发明实施例七提供了一种图文联合表征的分类推荐方法,本发明实施例七是在本发明实施例六的基础上进行说明,其中,所述多个预先存储的目标文档的第二概念嵌入特征的获取方式包括:
S510、获取预先存储的第二图像信息和第二文本信息。
S520、利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征。
S530、利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征。
S540、根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
本实施例中,获取第二概念嵌入特征的方式和本发明实施例六中获取第一概念嵌入特征的方式相同,可以为先利用预先训练的图像神经网络提取所述第二图像信息的第二图像向量;利用预先训练的图像映射神经网络将所述第二图像向量映射到图文联合嵌入的公共空间中,变换为第二图像嵌入特征;利用预先训练的文本神经网络提取所述第二文本信息的第二文本向量;利用预先训练的文本映射神经网络将所述第二文本向量映射到所述图文联合嵌入的公共空间中,变换为第二文本嵌入特征。最后利用预先训练的第三模型根据所述第二图 像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。一实施例中,在第三模型训练过程中使用对铰链损失函数和绝对铰链损失函数的加权来生成第二概念嵌入特征。
实施例八
如图13所示,本发明实施例八提供了一种图文联合表征的分类推荐系统300,本发明实施例八所提供的图文联合表征的分类推荐系统300可执行本发明任意实施例所提供的图文联合表征的分类推荐方法,具备执行方法相应的功能模块和效果。该分类推荐系统300包括信息接收模块310、特征提取模块320、距离计算模块330和结果显示模块340。
信息接收模块310设置为接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息;特征提取模块320设置为所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;距离计算模块330设置为所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;结果显示模块340设置为根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本实施例中,特征提取模块320还设置为获取预先存储的第二图像信息和第二文本信息;利用预先训练的第一模型提取所述第二图像信息的第二图像嵌 入特征;利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;根据所述第二图像嵌入特征和/或第二文本嵌入特征生成第二概念嵌入特征。
距离计算模块330是设置为利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述第一概念嵌入特征,利用预先训练的第三模型根据所述第二图像嵌入特征和/或所述第二文本嵌入特征生成所述第二概念嵌入特征,所述第三模型训练过程中,使用的损失函数包括相对铰链损失函数和/或绝对铰链损失函数。
本实施例中,所述一个或多个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。所述推荐结果为一个或多个推荐对象的分类号。
所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。特征提取模块320是设置为利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为第一图像嵌入特征;利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为第一文本嵌入特征。
实施例九
图14为本发明实施例九提供的一种服务器的结构示意图。图14示出了适于用来实现本发明实施方式的示例性服务器12的框图。图14显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图14所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture,ISA)总线,微通道体系结构(MicroChannel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
服务器12包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介 质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。服务器12可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以设置为读写不可移动的、非易失性磁介质(图14未显示,通常称为“硬盘驱动器”)。尽管图14中未示出,可以提供设置为对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字多功能盘只读存储器(Digital Versatile Disc-ROM,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个信息介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序信息,这些示例中的每一个或一种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及信息备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行多种功能应用以及信息处理,例如实现本发明实施例所提供的图文联合表征的搜索方法:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述 第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
根据所述第一距离、第二距离或第三距离显示搜索结果。
或图文联合表征库的生成方法:
获取多个目标文档的第一图像信息和第一文本信息;利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
或一种图文联合表征的分类推荐方法:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第 一文本信息的第一文本嵌入特征。
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
实施例十
本发明实施例十还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所提供的图文联合表征的搜索方法:
接收搜索对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述 第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
根据所述第一距离、第二距离或第三距离显示搜索结果。
或图文联合表征库的生成方法:
获取多个目标文档的第一图像信息和第一文本信息;利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;根据所述第一图像嵌入特征和/或第一文本嵌入特征生成第一概念嵌入特征;根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
或一种图文联合表征的分类推荐方法:
接收一个或多个推荐对象的第一描述信息,所述第一描述信息为第一图像信息和/或第一文本信息。
所述第一描述信息为第一图像信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;所述第一描述信息为第一文本信息时,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;所述第一描述信息为第一图像信息和第一文本信息时,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征。
所述第一描述信息为第一图像信息时,计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一距离;所述第一描述信息为第一文本信息时,计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二距离;所述第一描述信息为第一图像信息和第一文本信息时,第三距离的计算方式为以下三种方式之一:1)根据所述第一图像嵌入特征和第一文本嵌入特征生成第一概念嵌入特征,计算所述第一概念嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第三距离;2)计算所述第一图像嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的 第一临时距离对应的目标文档的第二概念嵌入特征之间的第三距离;3)计算所述第一文本嵌入特征和多个预先存储的目标文档的第二概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的第二概念嵌入特征之间的第三距离。
根据所述第一距离、第二距离或第三距离显示所述一个或多个推荐对象的推荐结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包括或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的信息信号,其中承载了计算机可读的程序代码。这种传播的信息信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包括的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供 商来通过因特网连接)。

Claims (28)

  1. 一种图文联合表征的搜索方法,包括:
    接收搜索对象的第一描述信息,其中,所述第一描述信息为第一图像信息和第一文本信息中的至少之一;
    在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;根据计算出的多个第一距离显示搜索结果;
    在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;根据计算出的多个第二距离显示搜索结果;
    在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;通过执行以下之一计算第三距离,并根据计算出的第三距离显示搜索结果:
    根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;
    计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;
    计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
  2. 根据权利要求1所述的搜索方法,其中,所述多个预先存储的目标文档的概念嵌入特征的获取方式包括:
    获取多个预先存储的目标文档的以下信息的至少之一:第二图像信息、第二文本信息;
    在获取的信息为第二图像信息的情况下,利用所述预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;根据所述第二图像嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征;
    在获取的信息为第二文本信息的情况下,利用所述预先训练的第二模型提 取所述第二文本信息的第二文本嵌入特征;根据所述第二文本嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征;
    在获取的信息为第二图像信息和第二文本信息的情况下,利用所述预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征,并利用所述预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;根据所述第二图像嵌入特征和所述第二文本嵌入特征生成所述多个预先存储的目标文档的概念嵌入特征。
  3. 根据权利要求2所述的搜索方法,其中,所述根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,以及所述根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征包括:
    利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述概念嵌入特征,利用所述预先训练的第三模型根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征,其中,所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
  4. 根据权利要求1所述的搜索方法,其中,所述搜索对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的至少一种。
  5. 根据权利要求1所述的搜索方法,其中,所述搜索结果为至少一个专利文档的全部信息、局部信息或局部组合信息,所述局部信息是关键词、图档、语句、段落和分类号中的一种,所述局部组合信息包括图档和关键词。
  6. 根据权利要求5所述的搜索方法,其中,在所述搜索结果为多个专利文档的全部信息、局部信息或局部组合信息的情况下,所述多个专利文档的全部信息、局部信息或局部组合信息的显示按计算出的多个第一距离、计算出的多个第二距离或计算出的多个第三距离的大小进行排序。
  7. 根据权利要求1所述的搜索方法,其中,所述根据计算出的多个第一距离、计算出的多个第二距离或计算出的第三距离显示搜索结果之后包括:
    根据计算出的多个第一距离、计算出的多个第二距离或计算出的第三距离生成所述第一描述信息的分类信息,其中,所述分类信息为专利分类号。
  8. 根据权利要求1所述的搜索方法,其中,所述搜索结果为至少一个专利文档和搜索对象之间的相关度的展示图,其中,所述相关度通过所述预先存储的目标文档的概念嵌入特征的坐标位置进行确定。
  9. 根据权利要求1所述的搜索方法,其中,所述搜索结果为多个专利文档的 代表图矩阵,其中,所述代表图矩阵中的多个代表图按计算出的多个第一距离、计算出的多个第二距离或计算出的多个第三距离的大小进行位置排列。
  10. 根据权利要求2所述的搜索方法,其中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
  11. 根据权利要求10所述的搜索方法,其中,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
    利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
    利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为所述第一图像嵌入特征;
    利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
    利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为所述第一文本嵌入特征。
  12. 一种图文联合表征的搜索系统,包括:
    信息接收模块,设置为接收搜索对象的第一描述信息,其中,所述第一描述信息为第一图像信息和第一文本信息中的至少之一;
    特征提取模块,设置为在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
    距离计算模块,设置为在所述第一描述信息为所述第一图像信息的情况下,计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;在所述第一描述信息为所述第一文本信息的情况下,计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,第三距离的计算方式为以下三种方式之一:根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌 入特征之间的第三距离;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离;
    结果显示模块,设置为在所述第一描述信息为所述第一图像信息的情况下,根据计算出的多个第一距离显示搜索结果;在所述第一描述信息为所述第一文本信息的情况下,根据计算出的多个第二距离显示搜索结果;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,根据计算出的第三距离显示搜索结果。
  13. 一种图文联合表征库的生成方法,包括:
    获取多个目标文档的第一图像信息和第一文本信息;
    利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
    根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征;
    根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
  14. 根据权利要求13所述的生成方法,其中,所述根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征包括:
    利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成所述第一概念嵌入特征,其中,所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
  15. 根据权利要求13所述的生成方法,其中,所述目标文档包括专利文档、论文、网页文档、期刊文档、书籍文档中的至少一种。
  16. 根据权利要求13所述的生成方法,其中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
  17. 根据权利要求16所述的生成方法,其中,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
    利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
    利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌入的公共空间中,变换为所述第一图像嵌入特征;
    利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
    利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为所述第一文本嵌入特征。
  18. 一种图文联合表征库的生成系统,包括:
    信息获取模块,设置为获取多个目标文档的第一图像信息和第一文本信息;
    特征提取模块,设置为利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
    特征生成模块,设置为根据所述第一图像嵌入特征和所述第一文本嵌入特征中的至少之一生成第一概念嵌入特征;
    表征库建立模块,设置为根据所述第一概念嵌入特征建立所述多个目标文档的图文联合表征库。
  19. 一种图文联合表征的分类推荐方法,包括:
    接收至少一个推荐对象的第一描述信息,其中,所述第一描述信息为第一图像信息和第一文本信息中的至少之一;
    在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果;
    在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果;
    在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;通过执行以下之一计算第三距离,并根据计算出的第三距离显示所述至少一个推荐对象的推荐结果:
    根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;
    计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设 值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;
    计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离。
  20. 根据权利要求19所述的分类推荐方法,其中,所述多个预先存储的目标文档的概念嵌入特征的获取方式包括:
    获取多个预先存储的目标文档的第二图像信息和第二文本信息;
    利用预先训练的第一模型提取所述第二图像信息的第二图像嵌入特征;
    利用预先训练的第二模型提取所述第二文本信息的第二文本嵌入特征;
    根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征。
  21. 根据权利要求20所述的分类推荐方法,其中,所述根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,以及根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征包括:
    利用预先训练的第三模型根据所述第一图像嵌入特征和所述第一文本嵌入特征生成所述概念嵌入特征,利用所述预先训练的第三模型根据所述第二图像嵌入特征和所述第二文本嵌入特征中的至少之一生成所述多个预先存储的目标文档的概念嵌入特征,其中,所述第三模型训练过程中使用的损失函数包括相对铰链损失函数和绝对铰链损失函数中的至少之一。
  22. 根据权利要求19所述的分类推荐方法,其中,所述至少一个推荐对象包括专利文档、论文、网页文档、期刊文档、书籍文档中的一种或多种。
  23. 根据权利要求19所述的分类推荐方法,其中,所述推荐结果为至少一个推荐对象的分类号。
  24. 根据权利要求19所述的分类推荐方法,其中,所述第一模型包括图像神经网络和图像映射神经网络,所述第二模型包括文本神经网络和文本映射神经网络。
  25. 根据权利要求24所述的分类推荐方法,其中,所述利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,以及所述利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征,包括:
    利用预先训练的图像神经网络提取所述第一图像信息的第一图像向量;
    利用预先训练的图像映射神经网络将所述第一图像向量映射到图文联合嵌 入的公共空间中,变换为所述第一图像嵌入特征;
    利用预先训练的文本神经网络提取所述第一文本信息的第一文本向量;
    利用预先训练的文本映射神经网络将所述第一文本向量映射到所述图文联合嵌入的公共空间中,变换为所述第一文本嵌入特征。
  26. 一种图文联合表征的分类推荐系统,包括:
    信息接收模块,设置为接收至少一个推荐对象的第一描述信息,其中,所述第一描述信息为第一图像信息和第一文本信息中的至少之一;
    特征提取模块,设置为在所述第一描述信息为所述第一图像信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征;在所述第一描述信息为所述第一文本信息的情况下,利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,利用预先训练的第一模型提取所述第一图像信息的第一图像嵌入特征,并利用预先训练的第二模型提取所述第一文本信息的第一文本嵌入特征;
    距离计算模块,设置为在所述第一描述信息为所述第一图像信息的情况下,计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一距离;在所述第一描述信息为所述第一文本信息的情况下,计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二距离;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,第三距离的计算方式为以下三种方式之一:根据所述第一图像嵌入特征和所述第一文本嵌入特征生成概念嵌入特征,计算生成的概念嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第三距离;计算所述第一图像嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第一临时距离,计算所述第一文本嵌入特征和小于预设值的第一临时距离对应的目标文档的概念嵌入特征之间的第三距离;计算所述第一文本嵌入特征和多个预先存储的目标文档的概念嵌入特征之间的多个第二临时距离,计算所述第一图像嵌入特征和小于预设值的第二临时距离对应的目标文档的概念嵌入特征之间的第三距离;
    结果显示模块,设置为在所述第一描述信息为所述第一图像信息的情况下,根据计算出的多个第一距离显示所述至少一个推荐对象的推荐结果;在所述第一描述信息为所述第一文本信息的情况下,根据计算出的多个第二距离显示所述至少一个推荐对象的推荐结果;在所述第一描述信息为所述第一图像信息和所述第一文本信息的情况下,根据计算出的第三距离显示所述至少一个推荐对象的推荐结果。
  27. 一种服务器,包括:
    至少一个处理器;
    存储装置,设置为存储至少一个程序;
    当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-11,13-17,19-25中任一项所述的方法。
  28. 一种计算机可读存储介质,存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-11,13-17,19-25中任一项所述的方法。
PCT/CN2020/131223 2019-11-29 2020-11-24 图文联合表征的搜索方法、系统、服务器和存储介质 WO2021104274A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911198749.0 2019-11-29
CN201911198749.0A CN112883218A (zh) 2019-11-29 2019-11-29 一种图文联合表征的搜索方法、系统、服务器和存储介质

Publications (1)

Publication Number Publication Date
WO2021104274A1 true WO2021104274A1 (zh) 2021-06-03

Family

ID=76038401

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/131223 WO2021104274A1 (zh) 2019-11-29 2020-11-24 图文联合表征的搜索方法、系统、服务器和存储介质

Country Status (2)

Country Link
CN (1) CN112883218A (zh)
WO (1) WO2021104274A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN116628327A (zh) * 2023-02-16 2023-08-22 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN108399409A (zh) * 2018-01-19 2018-08-14 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN109992676A (zh) * 2019-04-01 2019-07-09 中国传媒大学 一种跨媒体资源检索方法及检索系统
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701173B (zh) * 2016-01-05 2019-11-15 中国电影科学技术研究所 一种基于外观设计专利的多模态图像检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109783655B (zh) * 2018-12-07 2022-12-30 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN108399409A (zh) * 2018-01-19 2018-08-14 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN109992676A (zh) * 2019-04-01 2019-07-09 中国传媒大学 一种跨媒体资源检索方法及检索系统
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法

Also Published As

Publication number Publication date
CN112883218A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
US11481656B2 (en) Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
WO2021190115A1 (zh) 检索目标的方法和装置
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
US11769018B2 (en) System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN110741331A (zh) 用于图像响应自动助理的系统、方法和装置
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN112465144A (zh) 基于有限知识的多模态示范意图生成方法及装置
CN109684394A (zh) 文本生成方法、装置、设备和存储介质
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质
CN111881683A (zh) 关系三元组的生成方法、装置、存储介质和电子设备
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
US11481419B2 (en) Method and apparatus for evaluating matching degree based on artificial intelligence, device and storage medium
CN116431827A (zh) 信息处理方法、装置、存储介质及计算机设备
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
CN110516024B (zh) 地图搜索结果展现方法、装置、设备和存储介质
CN109933788B (zh) 类型确定方法、装置、设备和介质
CN114281919A (zh) 基于目录树的节点添加方法、装置、设备以及存储介质
JP2021114313A (ja) 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20892750

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20892750

Country of ref document: EP

Kind code of ref document: A1