WO2020155423A1 - 一种跨模态信息检索方法、装置和存储介质 - Google Patents

一种跨模态信息检索方法、装置和存储介质 Download PDF

Info

Publication number
WO2020155423A1
WO2020155423A1 PCT/CN2019/083725 CN2019083725W WO2020155423A1 WO 2020155423 A1 WO2020155423 A1 WO 2020155423A1 CN 2019083725 W CN2019083725 W CN 2019083725W WO 2020155423 A1 WO2020155423 A1 WO 2020155423A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
modal
feature
attention
sub
Prior art date
Application number
PCT/CN2019/083725
Other languages
English (en)
French (fr)
Inventor
王子豪
邵婧
李鸿升
闫俊杰
王晓刚
盛律
Original Assignee
深圳市商汤科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市商汤科技有限公司 filed Critical 深圳市商汤科技有限公司
Priority to SG11202104369UA priority Critical patent/SG11202104369UA/en
Priority to JP2021547620A priority patent/JP7164729B2/ja
Publication of WO2020155423A1 publication Critical patent/WO2020155423A1/zh
Priority to US17/239,974 priority patent/US20210240761A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Definitions

  • the present disclosure relates to the field of computer technology, and in particular to a cross-modal information retrieval method, device, and storage medium.
  • cross-modal information retrieval methods can use a certain modal sample to search for other modal samples with similar semantics. For example, use images to retrieve corresponding text, or use text to retrieve corresponding images.
  • the present disclosure proposes a technical solution for cross-modal information retrieval.
  • a cross-modal information retrieval method including:
  • the first semantic feature includes a first sub-semantic feature and a first sum semantic feature
  • the first attention feature includes a first sub-attention feature and a first sum attention feature
  • the second semantic feature includes a second sub-semantic feature and a second sum semantic feature; the second attention feature includes a second sub-attention feature and a first sum attention feature.
  • the determining the first semantic feature and the first attention feature of the first modal information according to the modal feature of the first modal information includes:
  • the first sub-attention feature of the attention feature space is extracted.
  • the method further includes:
  • the first and attention features of the first modal information are determined.
  • the determining the second semantic feature and the second attention feature of the second modal information according to the modal feature of the second modal information includes:
  • the second sub-attention feature of the attention feature space is extracted.
  • the method further includes:
  • the second and attention feature of the second modal information is determined.
  • the first modal information is determined based on the first attention feature, the second attention feature, the first semantic feature, and the first semantic feature
  • the similarity with the second modal information includes:
  • the similarity between the first modal information and the second modal information is determined.
  • the first sub-attention feature, the first sub-semantic feature of the first modal information, and the second sum attention feature of the second modal information are used to determine the first An attention information, including:
  • the second modal information is relevant to each information unit of the first modal information Attention information
  • the attention information of the second modal information for each information unit of the first modal information and the first sub-semantic feature of the first modal information, it is determined that the second modal information is relevant to the first modal information.
  • the first attention information of a modal information is relevant to the first modal information.
  • the first and second attention features of the second modal information are determined according to the second attention feature, the second semantic feature and the first attention feature of the first modal information.
  • Attention information including:
  • the first modal information is relevant to each of the second modal information Attention information of the information unit;
  • the attention information of the first modal information for each information unit of the second modal information and the second sub-semantic feature of the second modal information it is determined that the first modal information is relevant to all The second attention information of the second modal information.
  • the first modal information is information to be retrieved in the first modal
  • the second modal information is pre-stored information in the second modal
  • the method further includes:
  • the second modal information is used as a retrieval result of the first modal information.
  • the second modal information is multiple; when the similarity meets a preset condition, the second modal information is used as the first modal information
  • Information retrieval results including:
  • the preset condition includes any one of the following conditions:
  • the similarity is greater than the preset value; the ranking from small to large is greater than the preset ranking.
  • the method further includes:
  • the first modal information includes a type of modal information in text information or image information
  • the second modal information includes a type of modal information in text information or image information .
  • the first modality information is training sample information of a first modality
  • the second modality information is training sample information of a second modality
  • the training sample information and the training sample information of the second mode form a training sample pair.
  • a cross-modal information retrieval device including:
  • An acquisition module for acquiring first modal information and second modal information
  • the first determining module is configured to determine the first semantic feature and the first attention feature of the first modal information according to the modal feature of the first modal information;
  • the second determining module is configured to determine the second semantic feature and the second attention feature of the second modal information according to the modal feature of the second modal information;
  • the similarity determination module is configured to determine the first modal information and the first modal information based on the first attention feature, the second attention feature, the first semantic feature, and the second semantic feature The similarity of the two-modal information.
  • the first semantic feature includes a first sub-semantic feature and a first sum semantic feature
  • the first attention feature includes a first sub-attention feature and a first sum attention feature
  • the second semantic feature includes a second sub-semantic feature and a second sum semantic feature; the second attention feature includes a second sub-attention feature and a first sum attention feature.
  • the first determining module includes:
  • a first division sub-module configured to divide the first modal information into at least one information unit
  • the first modality determination sub-module is used to extract the first modality feature in each information unit and determine the first modality feature of each information unit;
  • the first sub-semantic extraction sub-module is used to extract the first sub-semantic feature of the semantic feature space based on the first modal feature of each information unit;
  • the first sub-attention extraction sub-module is used to extract the first sub-attention feature of the attention feature space based on the first modal feature of each information unit.
  • the device further includes:
  • the first sum semantic determination sub-module is used to determine the first sum semantic feature of the first modal information according to the first sub-semantic feature of each information unit;
  • the first sum attention determination sub-module is used to determine the first sum attention characteristic of the first modal information according to the first sub-attention characteristic of each information unit.
  • the second determining module includes:
  • a second division sub-module configured to divide the second modal information into at least one information unit
  • the second modality determination sub-module is used to extract the second modality feature in each information unit and determine the second modality feature of each information unit;
  • the second sub-semantic extraction sub-module is used to extract the second sub-semantic feature of the semantic feature space based on the second modal feature of each information unit;
  • the second sub-attention extraction sub-module is used to extract the second sub-attention feature of the attention feature space based on the second modal feature of each information unit.
  • the device further includes:
  • the second sum semantic determination sub-module is used to determine the second sum semantic feature of the second modal information according to the second sub-semantic feature of each information unit;
  • the second sum attention determination sub-module is used to determine the second sum attention characteristic of the second modal information according to the second sub-attention characteristic of each information unit.
  • the similarity determination module includes:
  • the first attention information determining sub-module is used to determine the first attention feature, the first semantic feature, and the second attention feature of the second modal information according to the first attention information.
  • the second attention information determining sub-module is used to determine the second attention feature, the second semantic feature, and the first attention feature of the first modal information according to the second attention feature of the second modal information 2. Attention information;
  • the similarity determination sub-module is configured to determine the similarity between the first modal information and the second modal information according to the first attention information and the second attention information.
  • the first attention information determining submodule is specifically configured to:
  • the second modal information is relevant to each information unit of the first modal information Attention information
  • the attention information of the second modal information for each information unit of the first modal information and the first sub-semantic feature of the first modal information, it is determined that the second modal information is relevant to the first modal information.
  • the first attention information of a modal information is relevant to the first modal information.
  • the second attention information determining submodule is specifically used for:
  • the first modal information is relevant to each of the second modal information Attention information of the information unit;
  • the attention information of the first modal information for each information unit of the second modal information and the second sub-semantic feature of the second modal information it is determined that the first modal information is relevant to all The second attention information of the second modal information.
  • the first modal information is information to be retrieved in the first modal
  • the second modal information is pre-stored information in the second modal
  • the device further includes:
  • the retrieval result determination module is configured to use the second modal information as the retrieval result of the first modal information when the similarity meets a preset condition.
  • the retrieval result determination module includes:
  • the sorting sub-module is used to sort a plurality of second modal information according to the similarity between the first modal information and each second modal information to obtain a sorting result;
  • An information determination sub-module configured to determine second modal information that meets the preset condition according to the sorting result
  • the retrieval result determination sub-module is configured to use the second modal information meeting the preset condition as the retrieval result of the first modal information.
  • the preset condition includes any one of the following conditions:
  • the similarity is greater than the preset value; the ranking from small to large is greater than the preset ranking.
  • the device further includes:
  • the output module is used to output the retrieval result to the user terminal.
  • the first modal information includes a type of modal information in text information or image information
  • the second modal information includes a type of modal information in text information or image information .
  • the first modality information is training sample information of a first modality
  • the second modality information is training sample information of a second modality
  • the training sample information and the training sample information of the second mode form a training sample pair.
  • a cross-modal information retrieval apparatus including: a processor; a memory for storing executable instructions of the processor; wherein the processor is configured to execute the above method.
  • a non-volatile computer-readable storage medium having computer program instructions stored thereon, wherein the computer program instructions implement the above method when executed by a processor.
  • the first semantic feature and the first attention feature of the first modal information can be determined respectively according to the modal feature of the first modal information, and according to The modal features of the second modal information can respectively determine the second semantic feature and the second attention feature of the second modal information, which can then be based on the first attention feature, the second attention feature, and the first semantic feature And the second semantic feature determines the similarity between the first modal information and the second modal information.
  • the semantic features and attention features of different modal information can be used to obtain the similarity between different modal information.
  • the embodiment of the present disclosure performs different modalities. Semantic features and attention features of morphological information are processed separately, which can reduce the dependence on the quality of feature extraction in the process of cross-modal information retrieval, and the method is simple and the time complexity is low, which can improve the efficiency of cross-modal information retrieval.
  • Fig. 1 shows a flowchart of a cross-modal information retrieval method according to an embodiment of the present disclosure.
  • Fig. 2 shows a flowchart of determining the first semantic feature and the first attention feature according to an embodiment of the present disclosure.
  • Fig. 3 shows a block diagram of a cross-modal information retrieval process according to an embodiment of the present disclosure.
  • Fig. 4 shows a flowchart of determining a second semantic feature and a second attention feature according to an embodiment of the present disclosure.
  • Fig. 5 shows a block diagram of determining a search result as a match based on similarity according to an embodiment of the present disclosure.
  • Fig. 6 shows a flow chart of cross-modal information retrieval according to an embodiment of the present disclosure.
  • Fig. 7 shows a block diagram of a cross-modal information retrieval device according to an embodiment of the present disclosure.
  • Fig. 8 shows a block diagram of a cross-modal information retrieval device according to an embodiment of the present disclosure.
  • the following methods, devices, electronic devices, or computer storage media in the embodiments of the present disclosure can be applied to any scenario where cross-modal information needs to be retrieved, for example, can be applied to retrieval software, information positioning, and the like.
  • the embodiments of the present disclosure do not limit specific application scenarios, and any solutions for searching cross-modal information using the methods provided in the embodiments of the present disclosure fall within the protection scope of the present disclosure.
  • the cross-modal information retrieval scheme can obtain the first modal information and the second modal information respectively, and determine the first semantic feature and the first semantic feature of the first modal information according to the modal feature of the first modal information.
  • the first attention feature, and the second semantic feature and the second attention feature of the second modal information are determined according to the modal feature of the second modal information, because the first modal information and the second modal information are different.
  • the modal information can be processed in parallel on the semantic features and attention features of the first modal information and the second modal information, and then can be based on the first attention feature, the second attention feature, the first semantic feature, and the first
  • the second semantic feature determines the similarity between the first modal information and the second modal information.
  • the attention feature can be decoupled from the semantic feature of the modal information and processed as a separate feature.
  • the first modal information and the second modal information can be determined with a lower time complexity.
  • the similarity of modal information improves the efficiency of cross-modal information retrieval.
  • the accuracy of cross-modal information retrieval is usually improved by improving the quality of semantic features of modal information, but the accuracy of cross-modal information retrieval is not improved by optimizing feature similarity.
  • This approach relies too much on the quality of features extracted through modal information, which leads to low efficiency of cross-modal information retrieval.
  • the embodiments of the present disclosure improve the accuracy of cross-modal information retrieval by optimizing feature similarity, and the time complexity is low, so that the cross-modal information can not only ensure the accuracy of retrieval during the retrieval process, but also can improve retrieval s efficiency.
  • the cross-modal information retrieval solution provided by the embodiments of the present disclosure will be described in detail with reference to the accompanying drawings.
  • Fig. 1 shows a flowchart of a cross-modal information retrieval method according to an embodiment of the present disclosure. As shown in Figure 1, the method includes:
  • Step 11 Acquire first modal information and second modal information.
  • the retrieval device can acquire the first modal information or the second modal information.
  • the retrieval device obtains the first modal information or the second modal information transmitted by the user equipment; for another example, the retrieval device obtains the first modal information or the second modal information according to a user operation.
  • the retrieval platform can also obtain the first modal information or the second modal information in a local storage or a database.
  • the first modality information and the second modality information are different modality information.
  • the first modality information may include one of text information or image information
  • the second modality information includes text information. Or a kind of modal information in image information.
  • the first modal information and the second modal information are not limited to image information and text information, but may also include voice information, video information, and optical signal information.
  • the modality here can be understood as the type or existence of information.
  • the first modal information and the second modal information may be information of different modalities.
  • Step 12 Determine the first semantic feature and the first attention feature of the first modal information according to the modal feature of the first modal information.
  • the retrieval device may determine the modal characteristics of the first modal information after acquiring the first modal information.
  • the modal feature of the first modal information can form a first modal feature vector, and then the first semantic feature and the first attention feature of the first modal information can be determined according to the first modal feature vector.
  • the first semantic feature may include a first sub-semantic feature and a first sum semantic feature;
  • the first attention feature includes a first sub-attention feature and a first sum attention feature.
  • the first semantic feature can represent the semantics of the first modal information, and the first attention feature can represent the attention of the first modal information.
  • the attention here can be understood as the processing resources invested in a certain part of the information unit in the modal information when processing the modal information. For example, taking text information as an example, nouns in the text information, such as "red” and "shirt”, can have more attention than conjunctions in the text information, such as "and” and "or”.
  • Fig. 2 shows a flowchart of determining the first semantic feature and the first attention feature according to an embodiment of the present disclosure.
  • the following steps may be included:
  • Step 121 Divide the first modal information into at least one information unit
  • Step 122 Perform first modal feature extraction in each information unit, and determine the first modal feature of each information unit;
  • Step 123 Extract the first sub-semantic feature of the semantic feature space based on the first modal feature of each information unit;
  • Step 124 Extract the first sub-attention feature of the attention feature space based on the first modal feature of each information unit.
  • the first modal information when determining the first semantic feature and the first attention feature of the first modal information, the first modal information may be divided into multiple information units.
  • the first modal information can be divided according to the preset size of the information unit, and the size of each information unit is the same.
  • the first modal information is divided into multiple information units with different sizes.
  • the first modal information is image information, one image can be divided into multiple image units.
  • the first modal feature extraction can be performed on each information unit to obtain the first modal feature of each information unit.
  • the first modal feature of each information unit may form a first modal feature vector.
  • the first modal feature vector can be transformed into the first sub-semantic feature vector of the semantic feature space, and the first modal feature vector can be transformed into the first sub-attention feature of the attention space.
  • the first sum semantic feature may be determined according to the first sub-semantic feature of the first modal information, and the first sum semantic feature may be determined according to the first sub-attention feature of the first modal information .
  • the first modal information may include a plurality of information units.
  • the first sub-semantic feature may represent the semantic feature corresponding to each information unit of the first modal information, and the first and semantic features may represent the semantic feature corresponding to the first modal information.
  • the first sub-attention feature may represent the attention feature corresponding to each information unit of the first modal information, and the first and attention feature may represent the attention feature corresponding to the first modal information.
  • Fig. 3 shows a block diagram of a cross-modal information retrieval process according to an embodiment of the present disclosure.
  • the image information can be divided into multiple image units, and then the convolutional neural network (CNN) model can be used for each image unit Extract the image features of each image unit (an example of the first modal feature).
  • the image feature vector of the image unit can be expressed as formula (1):
  • R is the number of picture elements
  • d is the dimension of the image feature vector
  • the feature vector V i is the i-th image unit of the image, Expressed as a matrix of real numbers.
  • the image feature vector corresponding to the image information can be expressed as formula (2):
  • the linear mapping function can be expressed as W v
  • the feature vector can be expressed as formula (3):
  • the first and semantic feature vectors formed by the first and semantic features of the image information can be obtained
  • the retrieval device can perform linear mapping on the graphic feature vector of each image unit to obtain the first sub-attention feature of image information.
  • the linear function for performing attention feature mapping can be expressed as U v
  • the first sub-attention feature vector corresponding to the attention feature can be expressed as formula (4):
  • Step 13 Determine the second semantic feature and the second attention feature of the second modal information according to the modal feature of the second modal information.
  • the retrieval device may determine the modal characteristics of the second modal information.
  • the modal feature of the second modal information can form a second modal feature vector, and then the retrieval device can determine the second semantic feature and the second attention feature of the second modal information according to the second modal feature vector.
  • the second semantic feature may include a second sub-semantic feature and a second sum semantic feature;
  • the second attention feature includes a second sub-attention feature and a second sum attention feature.
  • the second semantic feature can represent the semantics of the second modal information, and the second attention feature can represent the attention of the second modal information.
  • the feature space corresponding to the first semantic feature and the second semantic feature may be the same.
  • Fig. 4 shows a flowchart of determining a second semantic feature and a second attention feature according to an embodiment of the present disclosure.
  • the following steps may be included:
  • Step 131 Divide the second modal information into at least one information unit
  • Step 132 Perform a second modal feature extraction in each information unit, and determine the second modal feature of each information unit;
  • Step 133 Extract a second sub-semantic feature of the semantic feature space based on the second modal feature of each information unit;
  • Step 134 Extract the second sub-attention feature of the attention feature space based on the second modal feature of each information unit.
  • multiple information units may be divided into the second modal information.
  • the second modal information can be divided according to the preset size of the information unit, and the size of each information unit is the same.
  • the second modal information is divided into multiple information units with different sizes. For example, when the second modal information is text information, each word in a text can be divided into a text unit.
  • the second modal feature extraction can be performed on each information unit to obtain the second modal feature of each information unit.
  • the second modal feature of each information unit can form a second modal feature vector.
  • the second modal feature vector can be transformed into the second sub-semantic feature vector of the semantic feature space, and the second modal feature vector can be transformed into the second sub-attention feature of the attention space.
  • the semantic feature space corresponding to the second semantic feature is the same as the semantic feature space corresponding to the first semantic feature.
  • the same feature space here can be understood as the feature vector corresponding to the feature having the same dimension.
  • the second sum semantic feature can be determined according to the second sub-semantic feature of the second modal information, and the second sum attention feature can be determined according to the second sub-attention feature of the second modal information feature.
  • the second modal information may include multiple information units.
  • the second sub-semantic feature may represent the semantic feature corresponding to each information unit of the second modal information, and the second and semantic feature may represent the semantic feature corresponding to the second modal information.
  • the second sub-attention feature can represent the attention feature corresponding to each information unit of the second modal information, and the second sum attention feature can represent the attention feature corresponding to the second modal information.
  • the text information may be divided into multiple text units, for example, each word in the text information is regarded as a text unit.
  • a recurrent neural network (GRU) model can be used to extract the text features of each text unit to generate a text feature vector of each text unit (an example of the second modal feature).
  • the text feature vector of the text unit can be expressed as formula (5):
  • T is the number of text units
  • d is the dimension of the text feature vector
  • s j is the text feature vector of the j-th text unit.
  • the text feature vector of each text unit is linearly mapped to obtain the second sub-semantic feature of the text information.
  • the corresponding linear mapping function can be expressed as W s
  • the second semantic feature vector of the second semantic feature of the text information can be Expressed as formula (7):
  • the retrieval device can linearly map the text feature vector of each text unit to obtain the second attention feature of the text information.
  • the linear function for the attention feature mapping can be expressed as U s
  • the second sub-attention feature vector corresponding to the attention feature can be expressed as formula (8):
  • the second sum attention feature vector formed by the second and attention feature of the text information can be obtained
  • Step 14 Determine the first modal information and the second modal information based on the first attention feature, the second attention feature, the first semantic feature, and the second semantic feature The similarity.
  • the retrieval device can determine the mutual attention between the first modal information and the second modal information according to the first attention feature of the first modal information and the second attention feature of the second modal information. Degree of concern. Then, if the first semantic feature is combined, the semantic feature that the second modal information focuses on the first modal information can be determined; if the second semantic feature is combined, it can be determined that the first modal information focuses on the second modal information. Semantic features. In this way, the similarity between the first modal information and the second modal information can be determined based on the semantic features that the second modal information focuses on the first modal information and the semantic features that the first modal information focuses on the second modal information. degree. When determining the similarity between the first modal information and the second modal information, the similarity between the first modal information and the second modal information can be determined by calculating the cosine distance or by a dot product operation.
  • the first sub-attention feature, the first sub-semantic feature, and the The second and attention features of the second modal information determine the first attention information. Then, the second attention information is determined according to the second attention feature, the second semantic feature, and the first attention feature of the first modal information. Then according to the first attention information and the second attention information, determine the similarity between the first modal information and the second modal information.
  • the first sub-attention feature of the modal information and the second sum attention feature of the second modal information determine the attention information of the second modal information for each information unit of the first modal information. Then, according to the attention information of the second modal information to each information unit of the first modal information and the first sub-semantic feature of the first modal information, the first modal information of the second modal information to the first modal information is determined. Attention information.
  • the second attention information when determining the second attention information according to the second sub-attention feature, the second sub-semantic feature, and the first and attention feature of the first modal information, the second attention information can be determined according to the second mode information.
  • the second sub-attention feature of the modal information and the first sum attention feature of the first modal information determine the attention information of the first modal information for each information unit of the second modal information.
  • the attention information of the first modal information to each information unit of the second modal information and the second sub-semantic feature of the second modal information the second modal information to the second modal information is determined. Attention information.
  • the first sub-semantic feature vector E v the first and the semantic feature vector of the image information are obtained
  • the second sub-semantic feature vector E s the second and semantic feature vector that get the information in this article
  • the second attention feature vector K s and the second sum attention feature vector After that, you can use And K v determine the attention information of each image unit of the text information to the image information, and then combine with E v to determine the semantic feature of the text information attention to the image information, that is, determine the first attention information of the text information to the image information.
  • the first attention information can be determined by the following formula (9):
  • A can represent attention operation, and softmax can represent a normalized exponential function. It can represent control parameters and control the size of attention. In this way, the attention information obtained can be in a suitable size range.
  • the second attention information can be determined by the following formula (10):
  • A can represent attention operation
  • softmax can represent normalized exponential function
  • the similarity calculation formula (11) can be expressed as follows:
  • norm ( ⁇ ) represents the norm operation.
  • the similarity between the first modal information and the second modal information can be obtained.
  • the attention feature can be decoupled from the semantic feature of the modal information and processed as a separate feature, and the first modal information can be determined in a lower time complexity
  • the similarity with the second modal information improves the efficiency of cross-modal information retrieval.
  • Fig. 5 shows a block diagram of determining a search result as a match based on similarity according to an embodiment of the present disclosure.
  • the first modality information and the second modality information may be image information and text information, respectively. Due to the attention mechanism in the cross-modal information retrieval process, the image information will pay more attention to the corresponding text unit in the text information in the cross-modal information retrieval process, and the text information will pay more attention to the corresponding image unit in the image information. As shown in Figure 5, the image units of "female” and “mobile phone” are highlighted in the image information, and the text units of "female” and “mobile phone” are highlighted in the text information.
  • Fig. 6 shows a flow chart of cross-modal information retrieval according to an embodiment of the present disclosure.
  • the first modal information may be information to be retrieved in the first modal
  • the second modal information may be pre-stored information in the second modal.
  • the cross-modal information retrieval method may include:
  • Step 61 Acquire first modal information and second modal information
  • Step 62 Determine the first semantic feature and the first attention feature of the first modal information according to the modal feature of the first modal information;
  • Step 63 Determine a second semantic feature and a second attention feature of the second modal information according to the modal feature of the second modal information;
  • Step 64 Determine the first modal information and the second modal information based on the first attention feature, the second attention feature, the first semantic feature, and the second semantic feature The similarity;
  • Step 65 When the similarity meets a preset condition, use the second modal information as a retrieval result of the first modal information.
  • the retrieval device may obtain the first modal information input by the user, and then may obtain the second modal information in a local storage or a database.
  • the second modal information may be used as the retrieval result of the first modal information.
  • the second modal information is used as the retrieval result of the first modal information, it can be based on the first modal information and each second modal information.
  • the similarity of the information is used to sort the multiple second modal information to obtain the sorting result.
  • the second modal information whose similarity meets the preset condition can be determined.
  • the second modal information whose similarity meets the preset condition is used as the retrieval result of the first modal information.
  • the preset conditions include any of the following conditions:
  • the similarity is greater than the preset value; the ranking from small to large is greater than the preset ranking.
  • the second modal information when the second modal information is used as the retrieval result of the first modal information, the second modal information may be used as the first retrieval information when the similarity between the first retrieval information and the second retrieval information is greater than a preset value.
  • a retrieval result of modal information when the second modal information is used as the retrieval result of the first modal information, according to the similarity between the first modal information and each second modal information, the order of the similarity is as large as ascending.
  • the second modal information is sorted, and the result is sorted, and then according to the sorting result, the second modal information whose rank is higher than the preset rank is used as the first modal information retrieval result.
  • the second modal information with the highest ranking is used as the retrieval result of the first modal information, that is, the second modal information with the greatest similarity can be used as the retrieval result of the first modal information.
  • the search result can be one or more.
  • the retrieval result may also be output to the user terminal.
  • the search results can be sent to the client, or the search results can be displayed on the display interface.
  • the embodiments of the present disclosure also provide a training example of cross-modal information retrieval.
  • the first modality information may be the training sample information of the first modality
  • the second modality information may be the training sample information of the second modality; the training sample information of each first modality and the training sample information of the second modality Form training sample pairs.
  • each pair of training sample pairs can be input to the cross-modal information retrieval model, and convolutional neural network, recurrent neural network or recurrent neural network can be selected to perform modal characteristics on the first modal information or the second modal information extract.
  • the cross-modal information retrieval model uses the cross-modal information retrieval model to linearly map the modal features of the first modal information to obtain the first semantic feature and the first attention feature of the first modal information, and the modalities of the second modal information The features are linearly mapped to obtain the second semantic feature and the second attention feature of the second modal information. Then use the cross-modal information retrieval model to obtain the similarity between the first modal information and the second modal information from the first attention feature, the second attention feature, the first semantic feature, and the second semantic feature.
  • the loss function can be used to obtain the loss of the cross-modal information retrieval model, for example, the comparison loss function, the most difficult negative sample ranking loss function, etc. The obtained loss can then be used to adjust the model acquisition parameters of the cross-modal information retrieval model to obtain a cross-modal information retrieval model for cross-modal information retrieval.
  • the attention feature can be decoupled from the semantic feature of the modal information and processed as a separate feature, and the first modality can be determined with a lower time complexity
  • the similarity between the information and the second modal information improves the efficiency of cross-modal information retrieval model information retrieval.
  • Fig. 7 shows a block diagram of a cross-modal information retrieval device according to an embodiment of the present disclosure.
  • the cross-modal information retrieval device includes:
  • the obtaining module 71 is used to obtain first modal information and second modal information
  • the first determining module 72 is configured to determine the first semantic feature and the first attention feature of the first modal information according to the modal feature of the first modal information;
  • the second determining module 73 is configured to determine the second semantic feature and the second attention feature of the second modal information according to the modal feature of the second modal information;
  • the similarity determination module 74 is configured to determine the first modal information and the first modal information based on the first attention feature, the second attention feature, the first semantic feature, and the second semantic feature The similarity of the second modal information.
  • the first semantic feature includes a first sub-semantic feature and a first sum semantic feature
  • the first attention feature includes a first sub-attention feature and a first sum attention feature
  • the second semantic feature includes a second sub-semantic feature and a second sum semantic feature; the second attention feature includes a second sub-attention feature and a first sum attention feature.
  • the first determining module 72 includes:
  • a first division sub-module configured to divide the first modal information into at least one information unit
  • the first modality determination sub-module is used to extract the first modality feature in each information unit and determine the first modality feature of each information unit;
  • the first sub-semantic extraction sub-module is used to extract the first sub-semantic feature of the semantic feature space based on the first modal feature of each information unit;
  • the first sub-attention extraction sub-module is used to extract the first sub-attention feature of the attention feature space based on the first modal feature of each information unit.
  • the device further includes:
  • the first sum semantic determination sub-module is used to determine the first sum semantic feature of the first modal information according to the first sub-semantic feature of each information unit;
  • the first sum attention determination sub-module is used to determine the first sum attention characteristic of the first modal information according to the first sub-attention characteristic of each information unit.
  • the second determining module 73 includes:
  • a second division sub-module configured to divide the second modal information into at least one information unit
  • the second modality determination sub-module is used to extract the second modality feature in each information unit and determine the second modality feature of each information unit;
  • the second sub-semantic extraction sub-module is used to extract the second sub-semantic feature of the semantic feature space based on the second modal feature of each information unit;
  • the second sub-attention extraction sub-module is used to extract the second sub-attention feature of the attention feature space based on the second modal feature of each information unit.
  • the device further includes:
  • the second sum semantic determination sub-module is used to determine the second sum semantic feature of the second modal information according to the second sub-semantic feature of each information unit;
  • the second sum attention determination sub-module is used to determine the second sum attention characteristic of the second modal information according to the second sub-attention characteristic of each information unit.
  • the similarity determination module 74 includes:
  • the first attention information determining sub-module is used to determine the first attention feature, the first semantic feature, and the second attention feature of the second modal information according to the first attention information.
  • the second attention information determining sub-module is used to determine the second attention feature, the second semantic feature, and the first attention feature of the first modal information according to the second attention feature of the second modal information 2. Attention information;
  • the similarity determination sub-module is configured to determine the similarity between the first modal information and the second modal information according to the first attention information and the second attention information.
  • the first attention information determining submodule is specifically configured to:
  • the second modal information is relevant to each information unit of the first modal information Attention information
  • the attention information of the second modal information for each information unit of the first modal information and the first sub-semantic feature of the first modal information, it is determined that the second modal information is relevant to the first modal information.
  • the first attention information of a modal information is relevant to the first modal information.
  • the second attention information determining submodule is specifically used for:
  • the first modal information is relevant to each of the second modal information Attention information of the information unit;
  • the attention information of the first modal information for each information unit of the second modal information and the second sub-semantic feature of the second modal information it is determined that the first modal information is relevant to all The second attention information of the second modal information.
  • the first modal information is information to be retrieved in the first modal
  • the second modal information is pre-stored information in the second modal
  • the device further includes:
  • the retrieval result determination module is configured to use the second modal information as the retrieval result of the first modal information when the similarity meets a preset condition.
  • the retrieval result determination module includes:
  • the sorting sub-module is used to sort a plurality of second modal information according to the similarity between the first modal information and each second modal information to obtain a sorting result;
  • An information determination sub-module configured to determine second modal information that meets the preset condition according to the sorting result
  • the retrieval result determination sub-module is configured to use the second modal information meeting the preset condition as the retrieval result of the first modal information.
  • the preset condition includes any one of the following conditions:
  • the similarity is greater than the preset value; the ranking from small to large is greater than the preset ranking.
  • the device further includes:
  • the output module is used to output the retrieval result to the user terminal.
  • the first modal information includes a type of modal information in text information or image information
  • the second modal information includes a type of modal information in text information or image information .
  • the first modality information is training sample information of a first modality
  • the second modality information is training sample information of a second modality
  • the training sample information and the training sample information of the second mode form a training sample pair.
  • the present disclosure also provides the above-mentioned devices, electronic equipment, computer-readable storage media, and programs, which can be used to implement any cross-modal information retrieval method provided by the present disclosure.
  • the method section The corresponding records will not be repeated.
  • Fig. 8 is a block diagram showing a cross-modal information retrieval device 1900 for cross-modal information retrieval according to an exemplary embodiment.
  • the cross-modal information retrieval device 1900 may be provided as a server.
  • the apparatus 1900 includes a processing component 1922, which further includes one or more processors, and a memory resource represented by a memory 1932, for storing instructions that can be executed by the processing component 1922, such as application programs.
  • the application program stored in the memory 1932 may include one or more modules each corresponding to a set of instructions.
  • the processing component 1922 is configured to execute instructions to perform the above-described methods.
  • the device 1900 may also include a power component 1926 configured to perform power management of the device 1900, a wired or wireless network interface 1950 configured to connect the device 1900 to a network, and an input output (I/O) interface 1958.
  • the device 1900 can operate based on an operating system stored in the storage 1932, such as Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM or the like.
  • a non-volatile computer-readable storage medium is also provided, such as the memory 1932 including computer program instructions, which can be executed by the processing component 1922 of the device 1900 to complete the foregoing method.
  • the present disclosure may be a system, method, and/or computer program product.
  • the computer program product may include a computer-readable storage medium loaded with computer-readable program instructions for enabling a processor to implement various aspects of the present disclosure.
  • the computer-readable storage medium may be a tangible device that can hold and store instructions used by the instruction execution device.
  • the computer-readable storage medium may be, for example, but not limited to, an electrical storage device, a magnetic storage device, an optical storage device, an electromagnetic storage device, a semiconductor storage device, or any suitable combination of the foregoing.
  • Non-exhaustive list of computer readable storage media include: portable computer disks, hard disks, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM) Or flash memory), static random access memory (SRAM), portable compact disk read-only memory (CD-ROM), digital versatile disk (DVD), memory stick, floppy disk, mechanical encoding device, such as a printer with instructions stored thereon
  • RAM random access memory
  • ROM read only memory
  • EPROM erasable programmable read only memory
  • flash memory flash memory
  • SRAM static random access memory
  • CD-ROM compact disk read-only memory
  • DVD digital versatile disk
  • memory stick floppy disk
  • mechanical encoding device such as a printer with instructions stored thereon
  • the computer-readable storage medium used here is not interpreted as a transient signal itself, such as radio waves or other freely propagating electromagnetic waves, electromagnetic waves propagating through waveguides or other transmission media (for example, light pulses through fiber optic cables), or through wires Transmission of electrical signals.
  • the computer-readable program instructions described herein can be downloaded from a computer-readable storage medium to various computing/processing devices, or downloaded to an external computer or external storage device via a network, such as the Internet, a local area network, a wide area network, and/or a wireless network.
  • the network may include copper transmission cables, optical fiber transmission, wireless transmission, routers, firewalls, switches, gateway computers, and/or edge servers.
  • the network adapter card or network interface in each computing/processing device receives computer-readable program instructions from the network, and forwards the computer-readable program instructions for storage in the computer-readable storage medium in each computing/processing device .
  • the computer program instructions used to perform the operations of the present disclosure may be assembly instructions, instruction set architecture (ISA) instructions, machine instructions, machine-related instructions, microcode, firmware instructions, state setting data, or in one or more programming languages.
  • Source code or object code written in any combination, the programming language includes object-oriented programming languages such as Smalltalk, C++, etc., and conventional procedural programming languages such as "C" language or similar programming languages.
  • Computer-readable program instructions can be executed entirely on the user's computer, partly on the user's computer, executed as a stand-alone software package, partly on the user's computer and partly executed on a remote computer, or entirely on the remote computer or server carried out.
  • the remote computer can be connected to the user's computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or it can be connected to an external computer (for example, using an Internet service provider to access the Internet connection).
  • LAN local area network
  • WAN wide area network
  • an electronic circuit such as a programmable logic circuit, a field programmable gate array (FPGA), or a programmable logic array (PLA), can be customized by using the status information of the computer-readable program instructions.
  • the computer-readable program instructions are executed to realize various aspects of the present disclosure.
  • These computer-readable program instructions can be provided to the processors of general-purpose computers, special-purpose computers, or other programmable data processing devices, thereby producing a machine that makes these instructions when executed by the processors of the computer or other programmable data processing devices , A device that implements the functions/actions specified in one or more blocks in the flowcharts and/or block diagrams is produced. It is also possible to store these computer-readable program instructions in a computer-readable storage medium. These instructions make computers, programmable data processing apparatuses, and/or other devices work in a specific manner. Thus, the computer-readable medium storing the instructions includes An article of manufacture, which includes instructions for implementing various aspects of the functions/actions specified in one or more blocks in the flowchart and/or block diagram.
  • each block in the flowchart or block diagram may represent a module, program segment, or part of an instruction, and the module, program segment, or part of an instruction contains one or more components for realizing the specified logical function.
  • Executable instructions may also occur in a different order from the order marked in the drawings. For example, two consecutive blocks can actually be executed in parallel, or they can sometimes be executed in the reverse order, depending on the functions involved.
  • each block in the block diagram and/or flowchart, and the combination of the blocks in the block diagram and/or flowchart can be implemented by a dedicated hardware-based system that performs the specified functions or actions Or it can be realized by a combination of dedicated hardware and computer instructions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种跨模态信息检索方法、装置和存储介质,其中,该包括:获取第一模态信息和第二模态信息;根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。通过本公开实施例提供的跨模态信息检索方案,可以实现在较低的时间复杂度内实现跨模态信息检索。

Description

一种跨模态信息检索方法、装置和存储介质
本公开要求在2019年1月31日提交中国专利局、申请号为201910109983.5、申请名称为“一种跨模态信息检索方法、装置和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及计算机技术领域,尤其涉及一种跨模态信息检索方法、装置和存储介质。
背景技术
随着计算机网络的发展,用户可以在网络中获取大量的信息。由于信息数量的庞大,通常用户可以通过输入文字或者图片检索关注的信息。在信息检索技术不断优化的过程中,跨模态信息检索方式应运而生。跨模态信息检索方式可以实现利用某一种模态样本,搜索近似语义的其他模态样本。例如,利用图像来检索相应的文本,或者,利用文本来检索相应的图像。
发明内容
有鉴于此,本公开提出了一种跨模态信息检索技术方案。
根据本公开的一方面,提供了一种跨模态信息检索方法,所述方法包括:
获取第一模态信息和第二模态信息;
根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征,包括:
将所述第一模态信息划分为至少一个信息单元;
在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述方法还包括:
根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
在一种可能的实现方式中,所述根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征,包括:
将所述第二模态信息划分为至少一个信息单元;
在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
基于每个信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
基于每个信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
在一种可能的实现方式中,所述方法还包括:
根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
在一种可能的实现方式中,所述基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第一语义特征,确定所述第一模态信息和所述第二模态信息的相似度,包括:
根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第二模态信息的相似度。
在一种可能的实现方式中,所述根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息,包括:
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意力信息。
在一种可能的实现方式中,所述根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息,包括:
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二模态信息为第二模态的预存信息;所述方法还包括:
在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果,包括:
根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果;
根据所述排序结果,确定满足所述预设条件的第二模态信息;
将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述将所述第二模态信息作为所述第一模态信息的检索结果之后,还包括:
向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。
根据本公开的另一方面,提供了一种跨模态信息检索装置,所述装置包括:
获取模块,用于获取第一模态信息和第二模态信息;
第一确定模块,用于根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
第二确定模块,用于根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
相似度确定模块,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述第一确定模块包括:
第一划分子模块,用于将所述第一模态信息划分为至少一个信息单元;
第一模态确定子模块,用于在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
第一分语义提取子模块,用于基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
第一分注意力提取子模块,用于基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第一和语义确定子模块,用于根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
第一和注意力确定子模块,用于根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
在一种可能的实现方式中,所述第二确定模块包括:
第二划分子模块,用于将所述第二模态信息划分为至少一个信息单元;
第二模态确定子模块,用于在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
第二分语义提取子模块,用于基于每个信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
第二分注意力提取子模块,用于基于每个信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第二和语义确定子模块,用于根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
第二和注意力确定子模块,用于根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
在一种可能的实现方式中,所述相似度确定模块包括:
第一注意力信息确定子模块,用于根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
第二注意力信息确定子模块,用于根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
相似度确定子模块,用于根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一注意力信息确定子模块,具体用于,
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意力信息。
在一种可能的实现方式中,所述第二注意力信息确定子模块,具体用于,
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定满足所述预设条件的第二模态信息;
检索结果确定子模块,用于将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述装置还包括:
输出模块,用于向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。
根据本公开的另一方面,提供了一种跨模态信息检索装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
本公开实施例通过获取第一模态信息和第二模态信息,根据第一模态信息的模态特征可以分别确定第一模态信息的第一语义特征和第一注意力特征,并根据第二模态信息的模态特征可以分别确定所述第二模态信息的第二语义特征和第二注意力特征,进而可以基于第一注意力特征、第二注意力特征、第一语义特征以及第二语义特征,确定第一模态信息和第二模态信息的相似度。这样,可以利用不同模态信息的语义特征和注意力特征,得到不同模态信息之间的相似度,相比于现有技术方案中过于特征提取的质量而言,本公开实施例对不同模态信息的语义特征和注意力特征分别进行处理,可以减少跨模态信息检索过程中对特征提取质量的依赖程度,并且方法简单,时间复杂度较低,可以提高跨模态信息检索的效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。
图2示出根据本公开一实施例的确定第一语义特征和第一注意力特征的流程图。
图3示出根据本公开一实施例的跨模态信息检索过程的框图。
图4示出根据本公开一实施例的确定第二语义特征和第二注意力特征的流程图。
图5示出根据本公开一实施例的根据相似度确定检索结果为匹配的框图。
图6示出根据本公开一实施例的跨模态信息检索的流程图。
图7示出根据本公开一实施例的一种跨模态信息检索装置的框图。
图8示出根据本公开一实施例的一种跨模态信息检索装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开实施例下述方法、装置、电子设备或计算机存储介质可以应用于任何需要对跨模态信息进行检索的场景,比如,可以应用于检索软件、信息定位等。本公开实施例并不对具体的应用场景作限制,任何使用本公开实施例提供的方法对跨模态信息进行检索的方案均在本公开保护范围内。
本公开实施例提供的跨模态信息检索方案,可以分别获取第一模态信息和第二模态信息,根据第一模态信息的模态特征确定第一模态信息的第一语义特征和第一注意力特征,以及,根据第二模态信息的模态特征确定第二模态信息的第二语义特征和第二注意力特征,由于第一模态信息和第二模态信息是不同模态的信息,可以对第一模态信息和第二模态信息的语义特征和注意力特征并行进行处理,然后可以基于第一注意力特征、第二注意力特征、第一语义特征以及第二语义特征,确定第一模态信息和所述第二模态信息的相似度。通过这种方式,注意力特征可以从模态信息的语义特征中解耦出来,并作为单独的特征进行处理,同时,可以在较低的时间复杂度内确定第一模态信息和第二模态信息的相似度,提高跨模态信息检索的效率。
在相关技术中,通常通过提高模态信息的语义特征质量提高跨模态信息检索的准确率,并未通过优化特征相似度的方式提高跨模态信息检索的准确率。这种方式过于依赖通过模态信息提取出来的特征质量,导致跨模态信息检索的效率过低。本公开实施例通过优化特征相似度的方式提高跨模态信息检索的准确率,并且时间复杂度较低,可以使跨模态信息在检索过程中既可以保证检索的准确性,还可以提高检索的效率。下面,结合附图对本公开实施例提供的跨模态信息检索方案进行详细说明。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。如图1所示,该方法包括:
步骤11,获取第一模态信息和第二模态信息。
在本公开实施例中,检索装置(例如,检索软件、检索平台、检索服务器等检索装置)可以获取第一模态信息或者第二模态信息。例如,检索设备获取用户设备传输的第一模态信息或第二模态信息;再例如,检索设备根据用户操作获取第一模态信息或者第二模态信息。检索平台还可以在本地存储或数据库中获取第一模态信息或者第二模态信息。这里,第一模态信息和第二模态信息为不同模态的信息,例如,第一模态信息可以包括文本信息或图像信息中的一种模态信息,第二模态信息包括文本信息或图像信息中的一种模态信息。这里的第一模态信息和第二模态信息不仅限于图像信息和文本信息,还可以包括语音信息、视频信息和光信号信息等。这里的模态可以理解为信息的种类或者存在形式。第一模态信息和第二模态信息可以为不同模态的信息。
步骤12,根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征。
这里,检索装置在获取第一模态信息之后,可以确定第一模态信息的模态特征。第一模态信息的模态特征可以形成第一模态特征向量,然后可以根据第一模态特征向量确定第一模态信息的第一语义特征和第一注意力特征。其中,第一语义特征可以包括第一分语义特征和第一和语义特征;第一注意力特征包括第一分注意力特征和第一和注意力特征。第一语义特征可以表征第一模态信息的语义,第一注意力特征可以表征第一模态信息的注意力。这里的注意力可以理解为在对模态信息进行处理时,对模态信息中某部分的信息单元投入的处理资源。例如,以文本信息为例,文本信息中的名词,如“红色”、“衬衫”,相比于文本信息中的连词,如“和”、“或者”,可以具有更多的注意力。
图2示出根据本公开一实施例的确定第一语义特征和第一注意力特征的流程图。在一种可能的实现方式中,在根据第一模态信息的模态特征,确定第一模态信息的第一语义特征和第一注意力特征时,可以包括以下步骤:
步骤121,将所述第一模态信息划分为至少一个信息单元;
步骤122,在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
步骤123,基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
步骤124,基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
这里,在确定第一模态信息的第一语义特征和第一注意力特征时,可以将第一模态信息划分多个信息单元。在划分时,可以按照预设的信息单元尺寸对第一模态信息进行划分,每个信息单元的尺寸相等。或者,还将第一模态信息划分为尺寸不同的多个信息单元。例如,在第一模态信息为图像信息的情况下,可以将一个图像划分为多个图像单元。在将一模态信息划分为多个信息单元之后,可以对每个信息单元进行第一模态特征提取,得到每个信息单元的第一模态特征。每个信息单元的第一模态特征可以形成一个第一模态特征向量。然后可以将第一模态特征向量转变为语义特征空间的第一分语义特征向量,以及将第一模态特征向量转变为注意力空间的第一分注意力特征。
在一种可能的实现方式中,可以根据第一模态信息的第一分语义特征确定第一和语义特征,以及,根据第一模态信息的第一分注意力特征确定第一和语义特征。这里,第一模态信息可以包括多个信息单元。第一分语义特征可以表示第一模态信息的每个信息单元对应的语义特征,第一和语义特征可以表示第一模态信息对应的语义特征。第一分注意力特征可以表示第一模态信息的每个信息单元对应的注意力特征,第一和注意力特征可以表示第一模态信息对应的注意力特征。
图3示出根据本公开一实施例的跨模态信息检索过程的框图。举例来说,以第一模态信息为图像信息为例,检索装置获取图像信息之后,可以将图像信息划分为多个图像单元,然后可以利用卷积神经网络(CNN)模型对每个图像单元的图像特征进行提取,生成每个图像单元的图像特征向量(第一模态特征的示例)。图像单元的图像特征向量可以表示为公式(1):
Figure PCTCN2019083725-appb-000001
其中,R为图像单元的个数,d为图像特征向量的维数,v i为第i个图像单元的图像特征向量,
Figure PCTCN2019083725-appb-000002
表示为实数矩阵。对图像信息而言,图像信息对应的图像特征向量可以表示为公式(2):
Figure PCTCN2019083725-appb-000003
然后对每个图像单元的图像特征向量进行线性映射,可以得到图像信息的第一分语义特征,相应 地线性映射函数可以表示为W v,图像信息的第一分语义特征对应的第一分语义特征向量可以表示为公式(3):
Figure PCTCN2019083725-appb-000004
相应地,对v *进行相同的线性映射之后,可以得到图像信息的第一和语义特征形成的第一和语义特征向量
Figure PCTCN2019083725-appb-000005
相应地,检索装置可以对每个图像单元的图形特征向量进行线性映射,得到图像信息的第一分注意力特征,进行注意力特征映射的线性函数可以表示为U v,图像信息的第一分注意力特征对应的第一分注意力特征向量可以表示为公式(4):
Figure PCTCN2019083725-appb-000006
相应地,对v *进行相同的线性映射之后,可以得到图像信息的第一和注意力特征
Figure PCTCN2019083725-appb-000007
步骤13,根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征。
这里,检索装置在获取第二模态信息之后,可以确定第二模态信息的模态特征。第二模态信息的模态特征可以形成第二模态特征向量,然后检索装置可以根据第二模态特征向量确定第二模态信息的第二语义特征和第二注意力特征。其中,第二语义特征可以包括第二分语义特征和第二和语义特征;第二注意力特征包括第二分注意力特征和第二和注意力特征。第二语义特征可以表征第二模态信息的语义,第二注意力特征可以表征第二模态信息的注意力。其中,第一语义特征与第二语义特征对应的特征空间可以相同。
图4示出根据本公开一实施例的确定第二语义特征和第二注意力特征的流程图。在一种可能的实现方式中,在根据第二模态信息的模态特征,确定第二模态信息的第二语义特征和第二注意力特征时,可以包括以下步骤:
步骤131,将所述第二模态信息划分为至少一个信息单元;
步骤132,在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
步骤133,基于每个所述信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
步骤134,基于每个所述信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
这里,在确定第二模态信息的第二语义特征和第二注意力特征时,可以第二模态信息划分多个信息单元。在划分时,可以按照预设的信息单元尺寸对第二模态信息进行划分,每个信息单元的尺寸相等。或者,还将第二模态信息划分为尺寸不同的多个信息单元。例如,在第二模态信息为文本信息的情况下,可以将一文本中的每个单词划分为一个文本单元。在将第二模态信息划分为多个信息单元之后,可以对每个信息单元进行第二模态特征提取,得到每个信息单元的第二模态特征。每个信息单元的第二模态特征可以形成一个第二模态特征向量。然后可以将第二模态特征向量转变为语义特征空间的第二分语义特征向量,以及将第二模态特征向量转变为注意力空间的第二分注意力特征。这里,第二语义特征对应的语义特征空间与第一语义特征对应的语义特征空间相同,这里的特征空间相同可以理解为特征对应的特征向量维数相同。
在一种可能的实现方式中,可以根据第二模态信息的第二分语义特征确定第二和语义特征,以及,根据第二模态信息的第二分注意力特征确定第二和注意力特征。这里,第二模态信息可以包括多个信 息单元。第二分语义特征可以表示第二模态信息的每个信息单元对应的语义特征,第二和语义特征可以表示第二模态信息对应的语义特征。第二分注意力特征可以表示第二模态信息的每个信息单元对应的注意力特征,第二和注意力特征可以表示第二模态信息对应的注意力特征。
如图3所示,以第二模态信息为文本信息为例,检索装置获取文本信息之后,可以将文本信息划分为多个文本单元,例如将文本信息中每个单词作为一个文本单元。然后可以利用递归神经网络(GRU)模型对每个文本单元的文本特征进行提取,生成每个文本单元的文本特征向量(第二模态特征的示例)。文本单元的文本特征向量可以表示为公式(5):
Figure PCTCN2019083725-appb-000008
其中,T为文本单元的个数,d为文本特征向量的维数,s j为第j个文本单元的文本特征向量。对于文本信息而言,整个文本信息对应的文本特征向量可以表示为公式(6):
Figure PCTCN2019083725-appb-000009
然后对每个文本单元的文本特征向量进行线性映射,可以得到文本信息的第二分语义特征,相应的线性映射函数可以表示为W s,文本信息的第二语义特征的第二语义特征向量可以表示为公式(7):
Figure PCTCN2019083725-appb-000010
相应地,对s *进行相同的线性映射之后,可以得到文本信息的第二和语义特征形成的第二和语义特征向量
Figure PCTCN2019083725-appb-000011
相应地,检索装置可以对每个文本单元的文本特征向量进行线性映射,得到文本信息的第二分注意力特征,进行注意力特征映射的线性函数可以表示为U s,文本信息的第二分注意力特征对应的第二分注意力特征向量可以表示为公式(8):
Figure PCTCN2019083725-appb-000012
相应地,对s *进行相同的线性映射之后,可以得到文本信息的第二和注意力特征形成的第二和注意力特征向量
Figure PCTCN2019083725-appb-000013
步骤14,基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在本公开实施例中,检索装置可以根据第一模态信息的第一注意力特征和第二模态信息的第二注意力特征,确定第一模态信息与第二模态信息相互关注的关注程度。然后若结合第一语义特征,则可以确定第二模态信息对于第一模态信息关注的语义特征;若结合第二语义特征,则可以确定第一模态信息对于第二模态信息关注的语义特征。这样,可以根据第二模态信息对于第一模态信息关注的语义特征以及第一模态信息对于第二模态信息关注的语义特征,确定第一模态信息和第二模态信息的相似度。在确定第一模态信息和第二模态信息的相似度时,可以通过计算余弦距离或者通过点积操作的方式确定第一模态信息和第二模态信息的相似度。
在一种可能的实现方式中,在确定第一模态信息和第二模态信息的相似度时,可以根据第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息。然后根据第二模态信息的第二分注意力特征、第二分语义特征和第一模态信息的第一和注意力特征,确定第二注意力信息。再根据第一注意力信息和第二注意力信息,确定第一模态信息与第二 模态信息的相似度。
这里,在根据第一模态信息的第一分注意力特征、第一分语义特征和第二模态信息的第二和注意力特征,确定第一注意力信息时,可以先根据第一模态信息的第一分注意力特征和第二模态信息的第二和注意力特征,确定第二模态信息对于第一模态信息的每个信息单元的注意力信息。然后根据第二模态信息对于第一模态信息的每个信息单元的注意力信息和第一模态信息的第一分语义特征,确定第二模态信息对于第一模态信息的第一注意力信息。
相应地,在根据第二模态信息的第二分注意力特征、第二分语义特征和第一模态信息的第一和注意力特征,确定第二注意力信息时,可以根据第二模态信息的第二分注意力特征和第一模态信息的第一和注意力特征,确定第一模态信息对于第二模态信息的每个信息单元的注意力信息。然后根据第一模态信息对于第二模态信息的每个信息单元的注意力信息和第二模态信息的第二分语义特征,确定第一模态信息对于第二模态信息的第二注意力信息。
结合图3,对上述确定第一模态信息和第二模态信息的相似度的过程进行详细说明。以第一模态信息为图像信息、第二模态信息文本信息为例,在得到图像信息的第一分语义特征向量E v、第一和语义特征向量
Figure PCTCN2019083725-appb-000014
第一分注意力特征向量K v和第一和注意力特征向量
Figure PCTCN2019083725-appb-000015
以及得到本文信息的第二分语义特征向量E s、第二和语义特征向量
Figure PCTCN2019083725-appb-000016
第二分注意力特征向量K s和第二和注意力特征向量
Figure PCTCN2019083725-appb-000017
之后,可以先利用
Figure PCTCN2019083725-appb-000018
和K v确定文本信息对图像信息的每个图像单元注意力信息,然后再结合E v,确定文本信息对图像信息注意的语义特征,即确定文本信息对于图像信息的第一注意力信息。第一注意力信息可以通过以下公式(9)所示的方式进行确定:
Figure PCTCN2019083725-appb-000019
其中,A可以表示注意力操作,softmax可以表示归一化指数函数。
Figure PCTCN2019083725-appb-000020
可以表示控制参数,可以控制注意力的大小。这样,可以使得到的注意力信息在合适的大小范围。
相应地,第二注意力信息可以通过以下公式(10)所示的方式进行确定:
Figure PCTCN2019083725-appb-000021
其中,A可以表示注意力操作,softmax可以表示归一化指数函数。
Figure PCTCN2019083725-appb-000022
可以表示控制参数。
在得到第一注意力信息和第二注意力信息之后,可以计算图像信息和文本信息的相似度。相似度计算公式(11)可表示如下:
Figure PCTCN2019083725-appb-000023
其中,
Figure PCTCN2019083725-appb-000024
其中,norm(·)表示取范数操作。
通过上述公式,可以得到第一模态信息和第二模态信息的相似度。
通过上述跨模态信息检索的方式,注意力特征可以从模态信息的语义特征中解耦出来,并作为单独的特征进行处理,并且可以在较低的时间复杂度内确定第一模态信息和第二模态信息的相似度,提高跨模态信息检索的效率。
图5示出根据本公开一实施例的根据相似度确定检索结果为匹配的框图。第一模态信息和第二模态信息可以分别为图像信息和文本信息。由于跨模态信息检索过程中的注意力机制,会使得跨模态信 息在检索过程中,图像信息更加注意文本信息中对应的文本单元,文本信息更加注意图像信息中对应的图像单元。如图5所示,图像信息中突出了“女性”和“手机”的图像单元,文本信息中突出了“女性”和“手机”的文本单元。
通过上述跨模态信息检索的方式,本公开实施例还提供了一种跨模态信息检索的应用实例。图6示出根据本公开一实施例的跨模态信息检索的流程图。第一模态信息可以为第一模态的待检索信息,第二模态信息可以为第二模态的预存信息,该跨模态信息检索方法可以包括:
步骤61,获取第一模态信息和第二模态信息;
步骤62,根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
步骤63,根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
步骤64,基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度;
步骤65,在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
这里,检索装置可以获取用户输入的第一模态信息,然后可以在本地存储或数据库中获取第二模态信息。在通过上述步骤确定第一模态信息与第二模态信息的相似度满足预设条件的情况下,可以将第二模态信息作为第一模态信息的检索结果。
在一种可能的实现方式中,第二模态信息为多个,在将第二模态信息作为第一模态信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果。然后根据第二模态信息的排序结果,可以确定相似度满足预设条件的第二模态信息。然后将相似度满足预设条件的第二模态信息作为第一模态信息的检索结果。
这里,预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
举例来说,在将第二模态信息作为第一模态信息的检索结果时,可以在第一检索信息与第二检索信息的相似度大于预设值时,将第二模态信息作为第一模态信息的检索结果。或者,在将第二模态信息作为第一模态信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,按照相似度由小至大的顺序为多个第二模态信息进行排序,排序结果,然后根据排序结果,将排名大于预设排名的第二模态信息作为第一模态信息的检索结果。例如,将排名最高的第二模态信息作为第一模态信息的检索结果,即可以将相似度最大的第二模态信息作为第一模态信息的检索结果。这里,检索结果可以为一个或多个。
这里,在将第二模态信息作为第一模态信息的检索结果之后,还可以向用户端输出检索结果。例如,可以向用户端发送检索结果,或者,在显示界面上显示检索结果。
通过上述跨模态信息检索的方式,本公开实施例还提供了一种跨模态信息检索的训练实例。第一模态信息可以为第一模态的训练样本信息,第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。在训练过程中,可以将每对训练样本对 输入跨模态信息检索模型,可以选择卷积神经网络、循环神经网络或递归神经网络对第一模态信息或第二模态信息进行模态特征提取。然后利用跨模态信息检索模型对第一模态信息的模态特征进行线性映射,得到第一模态信息的第一语义特征和第一注意力特征,以及对第二模态信息的模态特征进行线性映射,得到第二模态信息的第二语义特征和第二注意力特征。然后再利用跨模态信息检索模型由第一注意力特征、第二注意力特征、第一语义特征以及第二语义特征,得到第一模态信息和第二模态信息的相似度。在得到多个训练样本对的相似度之后,可以利用损失函数得到跨模态信息检索模型的损失,例如,利用对比损失函数、最难负样本排序损失函数等。然后可以利用得到的损失对跨模态信息检索模型的模型采参数进行调整,得到用于跨模态信息检索的跨模态信息检索模型。
通过上述跨模态信息检索模型训练过程,注意力特征可以从模态信息的语义特征中解耦出来,并作为单独的特征进行处理,并且可以在较低的时间复杂度内确定第一模态信息和第二模态信息的相似度,提高跨模态信息检索模型信息检索的效率。
图7示出根据本公开实施例的一种跨模态信息检索装置的框图,如图7所示,所述跨模态信息检索装置,包括:
获取模块71,用于获取第一模态信息和第二模态信息;
第一确定模块72,用于根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
第二确定模块73,用于根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
相似度确定模块74,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,
所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
在一种可能的实现方式中,所述第一确定模块72包括:
第一划分子模块,用于将所述第一模态信息划分为至少一个信息单元;
第一模态确定子模块,用于在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
第一分语义提取子模块,用于基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
第一分注意力提取子模块,用于基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第一和语义确定子模块,用于根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
第一和注意力确定子模块,用于根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
在一种可能的实现方式中,所述第二确定模块73包括:
第二划分子模块,用于将所述第二模态信息划分为至少一个信息单元;
第二模态确定子模块,用于在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
第二分语义提取子模块,用于基于每个信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
第二分注意力提取子模块,用于基于每个信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
在一种可能的实现方式中,所述装置还包括:
第二和语义确定子模块,用于根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
第二和注意力确定子模块,用于根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
在一种可能的实现方式中,所述相似度确定模块74包括:
第一注意力信息确定子模块,用于根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
第二注意力信息确定子模块,用于根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
相似度确定子模块,用于根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一注意力信息确定子模块,具体用于,
根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意力信息。
在一种可能的实现方式中,所述第二注意力信息确定子模块,具体用于,
根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二注意力信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定满足所述预设条件的第二模态信息;
检索结果确定子模块,用于将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述装置还包括:
输出模块,用于向用户端输出所述检索结果。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了上述装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种跨模态信息检索方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图8是根据一示例性实施例示出的一种用于跨模态信息检索的跨模态信息检索装置1900的框图。例如,跨模态信息检索装置1900可以被提供为一服务器。参照图8,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多 功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如, 两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (32)

  1. 一种跨模态信息检索方法,其特征在于,所述方法包括:
    获取第一模态信息和第二模态信息;
    根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征;
    根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
    基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
  2. 根据权利要求1所述的方法,其特征在于,
    所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
    所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
  3. 根据权利要求2所述的方法,其特征在于,所述根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征和第一注意力特征,包括:
    将所述第一模态信息划分为至少一个信息单元;
    在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
    基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
    基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
  4. 根据权利要求3所述的方法,其特征在于,所述方法还包括:
    根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
    根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
  5. 根据权利要求2所述的方法,其特征在于,所述根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征,包括:
    将所述第二模态信息划分为至少一个信息单元;
    在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
    基于每个所述信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
    基于每个所述信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
  6. 根据权利要求5所述的方法,其特征在于,所述方法还包括:
    根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
    根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
  7. 根据权利要求2所述的方法,其特征在于,所述基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第一语义特征,确定所述第一模态信息和所述第二模态信息的相似度,包括:
    根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
    根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
    根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第二模态信息的相似度。
  8. 根据权利要求7所述的方法,其特征在于,所述根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息,包括:
    根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
    根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意力信息。
  9. 根据权利要求7所述的方法,其特征在于,所述根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息,包括:
    根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
    根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二注意力信息。
  10. 根据权利要求1至9任意一项所述的方法,其特征在于,所述第一模态信息为第一模态的待检索信息,所述第二模态信息为第二模态的预存信息;所述方法还包括:
    在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
  11. 根据权利要求10所述的方法,其特征在于,所述第二模态信息为多个;所述在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果,包括:
    根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果;
    根据所述排序结果,确定满足所述预设条件的第二模态信息;
    将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
  12. 根据权利要求11所述的方法,其特征在于,所述预设条件包括以下任一条件:
    相似度大于预设值;相似度由小至大的排名大于预设排名。
  13. 根据权利要求10所述的方法,其特征在于,所述将所述第二模态信息作为所述第一模态信息的检索结果之后,还包括:
    向用户端输出所述检索结果。
  14. 根据权利要求1至13任意一项所述的方法,其特征在于,所述第一模态信息包括文本信息或图像信息中的一种模态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
  15. 根据权利要求1至14任意一项所述的方法,其特征在于,所述第一模态信息为第一模态的训练样本信息,所述第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。
  16. 一种跨模态信息检索装置,其特征在于,所述装置包括:
    获取模块,用于获取第一模态信息和第二模态信息;
    第一确定模块,用于根据所述第一模态信息的模态特征,确定所述第一模态信息的第一语义特征 和第一注意力特征;
    第二确定模块,用于根据所述第二模态信息的模态特征,确定所述第二模态信息的第二语义特征和第二注意力特征;
    相似度确定模块,用于基于所述第一注意力特征、所述第二注意力特征、所述第一语义特征以及所述第二语义特征,确定所述第一模态信息和所述第二模态信息的相似度。
  17. 根据权利要求16所述的装置,其特征在于,
    所述第一语义特征包括第一分语义特征和第一和语义特征;所述第一注意力特征包括第一分注意力特征和第一和注意力特征;
    所述第二语义特征包括第二分语义特征和第二和语义特征;所述第二注意力特征包括第二分注意力特征和第一和注意力特征。
  18. 根据权利要求17所述的装置,其特征在于,所述第一确定模块包括:
    第一划分子模块,用于将所述第一模态信息划分为至少一个信息单元;
    第一模态确定子模块,用于在每个信息单元中进行第一模态特征提取,确定每个信息单元的第一模态特征;
    第一分语义提取子模块,用于基于每个所述信息单元的第一模态特征,提取语义特征空间的第一分语义特征;
    第一分注意力提取子模块,用于基于每个所述信息单元的第一模态特征,提取注意力特征空间的第一分注意力特征。
  19. 根据权利要求18所述的装置,其特征在于,所述装置还包括:
    第一和语义确定子模块,用于根据每个信息单元的第一分语义特征,确定所述第一模态信息的第一和语义特征;
    第一和注意力确定子模块,用于根据每个信息单元的第一分注意力特征,确定所述第一模态信息的第一和注意力特征。
  20. 根据权利要求17所述的装置,其特征在于,所述第二确定模块包括:
    第二划分子模块,用于将所述第二模态信息划分为至少一个信息单元;
    第二模态确定子模块,用于在每个信息单元中进行第二模态特征提取,确定每个信息单元的第二模态特征;
    第二分语义提取子模块,用于基于每个信息单元的第二模态特征,提取语义特征空间的第二分语义特征;
    第二分注意力提取子模块,用于基于每个信息单元的第二模态特征,提取注意力特征空间的第二分注意力特征。
  21. 根据权利要求20所述的装置,其特征在于,所述装置还包括:
    第二和语义确定子模块,用于根据每个信息单元的第二分语义特征,确定所述第二模态信息的第二和语义特征;
    第二和注意力确定子模块,用于根据每个信息单元的第二分注意力特征,确定所述第二模态信息的第二和注意力特征。
  22. 根据权利要求17所述的装置,其特征在于,所述相似度确定模块包括:
    第一注意力信息确定子模块,用于根据所述第一模态信息的第一分注意力特征、第一分语义特征和所述第二模态信息的第二和注意力特征,确定第一注意力信息;
    第二注意力信息确定子模块,用于根据所述第二模态信息的第二分注意力特征、第二分语义特征和所述第一模态信息的第一和注意力特征,确定第二注意力信息;
    相似度确定子模块,用于根据所述第一注意力信息和所述第二注意力信息,确定所述第一模态信息与所述第二模态信息的相似度。
  23. 根据权利要求22所述的装置,其特征在于,所述第一注意力信息确定子模块,具体用于,
    根据所述第一模态信息的第一分注意力特征和所述第二模态信息的第二和注意力特征,确定所述第二模态信息对于第一模态信息的每个信息单元的注意力信息;
    根据所述第二模态信息对于第一模态信息的每个信息单元的注意力信息和所述第一模态信息的第一分语义特征,确定所述第二模态信息对于所述第一模态信息的第一注意力信息。
  24. 根据权利要求22所述的装置,其特征在于,所述第二注意力信息确定子模块,具体用于,
    根据所述第二模态信息的第二分注意力特征和所述第一模态信息的第一和注意力特征,确定所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息;
    根据所述第一模态信息对于所述第二模态信息的每个信息单元的注意力信息和所述第二模态信息的第二分语义特征,确定所述第一模态信息对于所述第二模态信息的第二注意力信息。
  25. 根据权利要求16至24任意一项所述的装置,其特征在于,所述第一模态信息为第一模态的待检索信息,所述第二模态信息为第二模态的预存信息;所述装置还包括:
    检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果。
  26. 根据权利要求25所述的装置,其特征在于,所述第二模态信息为多个;所述检索结果确定模块包括:
    排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果;
    信息确定子模块,用于根据所述排序结果,确定满足所述预设条件的第二模态信息;
    检索结果确定子模块,用于将满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
  27. 根据权利要求26所述的装置,其特征在于,所述预设条件包括以下任一条件:
    相似度大于预设值;相似度由小至大的排名大于预设排名。
  28. 根据权利要求25所述的装置,其特征在于,所述装置还包括:
    输出模块,用于向用户端输出所述检索结果。
  29. 根据权利要求16至28任意一项所述的装置,其特征在于,所述第一模态信息包括文本信息或图像信息中的一种模态信息;所述第二模态信息包括文本信息或图像信息中的一种模态信息。
  30. 根据权利要求16至29任意一项所述的装置,其特征在于,所述第一模态信息为第一模态的训练样本信息,所述第二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模 态的训练样本信息形成训练样本对。
  31. 一种跨模态信息检索装置,其特征在于,包括:
    处理器;
    用于存储处理器可执行指令的存储器;
    其中,所述处理器被配置为执行存储器存储的可执行指令时,实现权利要求1至15中任意一项所述的方法。
  32. 一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至15中任意一项所述的方法。
PCT/CN2019/083725 2019-01-31 2019-04-22 一种跨模态信息检索方法、装置和存储介质 WO2020155423A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SG11202104369UA SG11202104369UA (en) 2019-01-31 2019-04-22 Method and device for cross-modal information retrieval, and storage medium
JP2021547620A JP7164729B2 (ja) 2019-01-31 2019-04-22 クロスモーダル情報検索方法及びその装置、並びに記憶媒体
US17/239,974 US20210240761A1 (en) 2019-01-31 2021-04-26 Method and device for cross-modal information retrieval, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910109983.5 2019-01-31
CN201910109983.5A CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/239,974 Continuation US20210240761A1 (en) 2019-01-31 2021-04-26 Method and device for cross-modal information retrieval, and storage medium

Publications (1)

Publication Number Publication Date
WO2020155423A1 true WO2020155423A1 (zh) 2020-08-06

Family

ID=66927971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/083725 WO2020155423A1 (zh) 2019-01-31 2019-04-22 一种跨模态信息检索方法、装置和存储介质

Country Status (6)

Country Link
US (1) US20210240761A1 (zh)
JP (1) JP7164729B2 (zh)
CN (1) CN109886326B (zh)
SG (1) SG11202104369UA (zh)
TW (1) TWI737006B (zh)
WO (1) WO2020155423A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及系统
CN112926339B (zh) * 2021-03-09 2024-02-09 北京小米移动软件有限公司 文本相似度确定方法、系统、存储介质以及电子设备
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及系统
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
WO2024081455A1 (en) * 2022-10-12 2024-04-18 Innopeak Technology, Inc. Methods and apparatus for optical flow estimation with contrastive learning
CN115858847B (zh) * 2023-02-22 2023-06-23 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116912351B (zh) * 2023-09-12 2023-11-17 四川大学 基于人工智能的颅内结构成像的修正方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201210661D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation Unsupervised cross-media summarization from news and twitter
US9679199B2 (en) * 2013-12-04 2017-06-13 Microsoft Technology Licensing, Llc Fusing device and image motion for user identification, tracking and device association
JP6482747B2 (ja) * 2017-02-03 2019-03-13 三菱電機株式会社 認知負荷評価装置および認知負荷評価方法
TWM543395U (zh) * 2017-03-24 2017-06-11 shi-cheng Zhuang 翻譯輔助系統
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
TWM560646U (zh) * 2018-01-05 2018-05-21 華南商業銀行股份有限公司 智能語音交易系統
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN109284414B (zh) * 2018-09-30 2020-12-04 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质

Also Published As

Publication number Publication date
JP7164729B2 (ja) 2022-11-01
JP2022509327A (ja) 2022-01-20
TW202030640A (zh) 2020-08-16
US20210240761A1 (en) 2021-08-05
CN109886326B (zh) 2022-01-04
SG11202104369UA (en) 2021-07-29
TWI737006B (zh) 2021-08-21
CN109886326A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
WO2020155423A1 (zh) 一种跨模态信息检索方法、装置和存储介质
WO2020155418A1 (zh) 一种跨模态信息检索方法、装置和存储介质
WO2020224405A1 (zh) 图像处理方法、装置、计算机可读介质及电子设备
WO2019052403A1 (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
WO2019169872A1 (zh) 搜索内容资源的方法、装置和服务器
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
US9766868B2 (en) Dynamic source code generation
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN113434716B (zh) 一种跨模态信息检索方法和装置
US11144569B2 (en) Operations to transform dataset to intent
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
WO2024001057A1 (zh) 一种基于注意力片段提示的视频检索方法
CN110019849B (zh) 一种基于注意力机制的视频关注时刻检索方法及装置
CN115359383A (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
TW201931163A (zh) 影像搜尋方法、系統和索引建構方法和媒體
WO2023240878A1 (zh) 一种资源识别方法、装置、设备以及存储介质
CN110633717A (zh) 一种目标检测模型的训练方法和装置
WO2024099171A1 (zh) 视频生成方法和装置
CN107766498B (zh) 用于生成信息的方法和装置
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
WO2023185125A1 (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
KR102553511B1 (ko) 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19913814

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021547620

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23.11.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19913814

Country of ref document: EP

Kind code of ref document: A1