WO2018188240A1 - 一种基于深度语义空间的跨媒体检索方法 - Google Patents

一种基于深度语义空间的跨媒体检索方法 Download PDF

Info

Publication number
WO2018188240A1
WO2018188240A1 PCT/CN2017/097621 CN2017097621W WO2018188240A1 WO 2018188240 A1 WO2018188240 A1 WO 2018188240A1 CN 2017097621 W CN2017097621 W CN 2017097621W WO 2018188240 A1 WO2018188240 A1 WO 2018188240A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
image
layer
cross
semantic
Prior art date
Application number
PCT/CN2017/097621
Other languages
English (en)
French (fr)
Inventor
王文敏
范梦迪
董培磊
王荣刚
李革
董胜富
王振宇
李英
赵辉
高文
Original Assignee
北京大学深圳研究生院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学深圳研究生院 filed Critical 北京大学深圳研究生院
Priority to US16/468,366 priority Critical patent/US11397890B2/en
Publication of WO2018188240A1 publication Critical patent/WO2018188240A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the invention belongs to the field of information technology, relates to pattern recognition and multimedia retrieval technology, and particularly relates to a cross-media retrieval method based on deep semantic space.
  • multimedia data such as images, text, audio, video
  • multimedia data has exploded, and these different forms of data often appear together to describe the same object or scene.
  • the present invention provides a cross-media retrieval method based on deep semantic space, which simulates human perceptual process to mine rich semantic information in cross-media retrieval, through feature generation process and semantic space learning process. Achieving cross-media retrieval can significantly improve the performance of cross-media retrieval.
  • CNN Convolutional Neural Network, Convolutional Neural Network
  • LSTM Long Short Term Memory, long and short time memory network
  • the present invention extracts the corresponding positions of "CNN visual feature vector” and "LSTM language description vector” in the feature generation process
  • LDA Latent Dirichlet Allocation, implicit Dirichlet distribution, is a document theme generation model
  • MSF-DNN Multi-Sensory Fusion Deep Neural Network
  • the present invention is directed to a multi-perceptual fusion deep neural network proposed by an image
  • TextNet The text semantic network proposed by the present invention.
  • the core of the present invention is that the cross-media retrieval method provided by the present invention includes a feature generation process and a semantic space learning process, considering that a person's perception of the concept of an object is often integrated with his visual information and language information, by simulating human beings.
  • the perceptual process is used to mine the rich semantic information in cross-media retrieval.
  • the CNN visual feature vector and the LSTM language description vector of the image are generated by simulating the human perception process of the image.
  • the LDA topic model is used to mine the topic information of the text, and then the LDA text topic vector is extracted.
  • a four-layer multi-perceptual fusion deep neural network is obtained by training the training set image respectively, and a three-layer text semantic network is obtained by training the training set text training.
  • the test image and the text are respectively mapped to the isomorphic semantic space by using two networks, thereby realizing cross-media retrieval.
  • a cross-media retrieval method based on deep semantic space which explores the rich semantic information in cross-media retrieval by simulating human perception process, thereby realizing cross-media retrieval; including feature generation process and semantic space learning process, including the following steps:
  • training data and test data are respectively obtained from three data sets of Wikipedia, Pascal Voc, and Pascal Sentence, and each training sample or test sample has one category, that is, one sample corresponds to one category label.
  • the "LDA text topic vector" extracted for each sample is represented as t.
  • the semantic spatial learning process includes the semantic spatial learning process of images and the semantic spatial learning process of texts, respectively
  • the present invention performs semantic spatial learning on images and text, respectively.
  • the present invention proposes a four-layer Multi-Sensory Fusion Deep Neural Network (MSF-DNN) for images; for text, the present invention proposes a three-layer text.
  • Semantic Network TextNet
  • MSF-DNN Multi-Sensory Fusion Deep Neural Network
  • TextNet Semantic Network
  • the invention provides a cross-media retrieval method based on deep semantic space, which generates a CNN visual feature vector and an LSTM language description vector of an image by simulating a human perception process of the image.
  • the LDA topic model is used to mine the topic information of the text, and then the LDA text topic vector is extracted.
  • a four-layer multi-perceptual fusion deep neural network is obtained by training the training set image respectively, and a three-layer text semantic network is obtained by training the training set text training.
  • the test image and the text are respectively mapped to the isomorphic semantic space by using two networks, thereby realizing cross-media retrieval.
  • the present invention spans the "perceived gap" between the underlying visual features and the high-level user concepts, and constructs a homogeneous space with rich semantic information for cross-media retrieval of images and texts.
  • the present invention first proposes two network architectures, MSF-DNN and TextNet, for expressing the semantics of images and texts. Experiments show that this scheme can significantly improve the accuracy of cross-media retrieval; the correct rate in image retrieval text and text retrieval image tasks is significantly improved.
  • the invention can significantly improve cross-media retrieval performance, and has broad application prospects and market. demand.
  • Figure 1 is a block flow diagram of the method of the present invention.
  • FIG. 2 is a schematic diagram of feature generation and semantic space learning for images and texts by the method of the present invention
  • the upper left box represents image feature generation; the lower left box represents text feature generation; the upper right box represents MSF-DNN; the lower right box represents TextNet; the upper right box and the lower right box result in isomorphic semantic space; specifically
  • the image samples are sent to the CNN-LSTM architecture to obtain the "CNN visual feature vector” and "LSTM language description vector" of the image, which are represented by v and d respectively (the upper left box); the text sample is sent to the LDA topic model to obtain "LDA text topic vector", denoted by t (lower left box);
  • the upper right part is a four-layer multi-perceptual fusion deep neural network (MSF-DNN) that fuses the input of v and d to ultimately map the image to semantics Space S I ;
  • the lower right part is a three-layer text semantic network (TextNet), with t as input, the purpose is to finally map the text to the semantic space S T ;
  • S I and S T are isomorphic spaces with the same semantics.
  • FIG. 3 is a structural diagram of an LSTM (Long Short Term Memory);
  • Figure 3 shows a repetitive LSTM module.
  • the three themes of (a) jointly describe the category of “war”.
  • the keywords distributed in the three themes are: theme 1: pilot, fight, war, military, flying, staff; theme 2: harbor, shot, Launched,air,group,aircraft;theme 3: plane,cruisers,flighters,attacked,bombs,force;
  • the three themes of (b) collectively describe the category of “Royal”.
  • the distribution of keywords in the three themes is: theme 1: fortune, aristocrat, palace, prince, louis, throne; theme 2: princess, royal, queen, Grand, duches, victoria; theme 3: king, duke, crown, reign, lord, sovereign.
  • FIG. 5 is an example of a data set adopted by an embodiment of the present invention.
  • the text of the Wikipedia data set appears as a paragraph
  • the text of the PascalVoc data set appears as a label
  • the text of the Pascal Sentence data set appears as a sentence
  • the category of each image text pair is indicated in the brackets.
  • the invention provides a cross-media retrieval method based on deep semantic space, which simulates human perceptual process to mine rich semantic information in cross-media retrieval, and realizes cross-media retrieval through feature generation process and semantic space learning process, which can significantly improve Cross-media retrieval performance.
  • FIG. 1 is a flow chart of a cross-media retrieval method based on deep semantic space according to the present invention.
  • FIG. 2 is a schematic diagram of feature generation and semantic space learning for images and texts respectively according to the method of the present invention; the specific construction process includes the following steps:
  • Document 1 describes the architecture of CNN-LSTM. Specifically, the present invention fine-tunes the CNN network by using the training image of the existing data set, and then extracts the output of the last 1024-dimensional fully connected layer for the training image and the test image as " CNN visual feature vector”.
  • 3 is a structural diagram of LSTM (Long Short Term Memory), and FIG. 3 shows details of the LSTM structure of FIG. 2.
  • the tuple C N , h N
  • the tuple is extracted as the "LSTM language description vector" of the training image and the test image.
  • Figure 4 shows an example of six themes generated by LDA aggregation on a Wikipedia data set, each topic represented by six keywords of the same color.
  • the optimal number of topics selected for the three data sets of Wikipedia, Pascal Voc, and Pascal Sentence are 200, 100, and 200, respectively.
  • step 3)-6) The process of semantic space learning using the architecture of MSF-DNN network, step 7)-8) The process of semantic space learning using the architecture of TextNet network.
  • Equation 1 Equation 1:
  • m is the number of l-1 layer units; Indicates the weight between the jth unit of the l-1th layer and the i th unit of the 1st layer; Represents the weight associated with the i-th unit of layer 1.
  • Equation 2 The activation value for each z is calculated by Equation 2:
  • the MSF-DNN network is defined as:
  • Equation 7 The objective function is to minimize the overall error C of the training sample to learn to obtain a parameter space. Equation 7:
  • ⁇ I is the parameter of the second weight attenuation term.
  • the 3-layer TextNet build process is similar to MSF-DNN. As shown in the lower right part of Fig. 2, assuming N training texts, the "LDA text subject vector" of each sample is represented as t. The second layer of the fully connected layer uses the Sigmoid activation function and then uses the output as the input to the last layer of the Softmax classifier.
  • the definition of the TextNet network is expressed as Equation 8 and Equation 9:
  • Equation 10 The objective function is to minimize the overall error C' of the training sample to learn to obtain a parameter space Expressed as Equation 10:
  • ⁇ T is the parameter of the second weight attenuation term.
  • K is the dimension of the feature.
  • the similarity between the image and the text features is obtained. According to the similarity from large to small, the top k samples with the highest similarity can be taken as the retrieval result, thereby realizing cross-media retrieval.
  • Tables 1-3 show the cross-media retrieval effects of the present invention on three data sets, Wikipedia, Pascal Voc and Pascal Sentence, and comparisons with existing methods.
  • the conventional methods in Tables 1 to 3 correspond to the methods described in the following documents [2] to [10], respectively:
  • the search effect is measured by the mAP value, and the higher the mAP value, the better the retrieval effect.
  • the TextNet network architecture of the present invention is applicable to data sets of different length texts, and the MSF-DNN network architecture multi-sensory fusion of image visual vectors and language description vectors to further eliminate the existence of image feature representations.
  • the “perceived divide”. Compared with the existing methods, the correctness rate of the two cross-media retrieval tasks of the image retrieval text and the text retrieval image is significantly improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度语义空间的跨媒体检索方法,包括特征生成阶段和语义空间学习阶段;特征生成阶段通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量;利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。能够显著提升跨媒体检索性能,具有广阔的应用前景和市场需求。

Description

一种基于深度语义空间的跨媒体检索方法 技术领域
本发明属于信息技术领域,涉及模式识别、多媒体检索技术,具体涉及一种基于深度语义空间的跨媒体检索方法。
背景技术
随着互联网的发展和使用,多媒体数据(如图像、文本、音频、视频)呈现爆发式增长,这些不同形式的数据通常共同出现来描述同一物体或场景。为了方便管理多样的多媒体内容,我们日益需要在不同媒体间实现灵活的检索方式。
近年来,跨媒体检索得到了广泛的关注。跨媒体检索目前所面临的挑战主要在于不同模态特征之间存在的异构性和不可比性。为解决这一难题,许多方法将异构的特征映射到同构的空间以跨越“语义鸿沟”。但是,现有方法忽略了底层视觉特征和高层用户概念间的“感知鸿沟”,即人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达,无法建立底层视觉特征和高层用户概念之间的关联;在所得的同构空间中,图像和文本的语义信息表达有所缺失。因此,现有方法在图像检索文本和文本检索图像中的正确率不高,跨媒体检索性能较低,难以满足应用需求。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息,通过特征生成过程和语义空间学习过程实现跨媒体检索,能够显著提升跨媒体检索的性能。
为方便起见,本发明约定如下术语定义:
CNN:Convolutional Neural Network,卷积神经网络;LSTM:Long Short Term Memory,长短时记忆网络;本发明在特征生成过程中提取相应位置的“CNN视觉特征向量”和“LSTM语言描述向量”;
LDA:Latent Dirichlet Allocation,隐含狄利克雷分布,是一个文档主题生成模型;
MSF-DNN:Multi-Sensory Fusion Deep Neural Network,本发明针对图像提出的多感知融合的深度神经网络;
TextNet:本发明提出的文本语义网络。
本发明的核心是:本发明提供的跨媒体检索方法包括特征生成过程和语义空间学习过程,考虑到人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达,通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息,在特征生成阶段,通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量。利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。
本发明提供的技术方案是:
一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息,从而实现跨媒体检索;包括特征生成过程和语义空间学习过程,具体包括如下步骤:
1)获取训练数据、测试数据及数据类别;
本发明实施例由Wikipedia,Pascal Voc,Pascal Sentence三个数据集分别得到训练数据和测试数据,每个训练样本或测试样本均有一个类别,即一个样本对应一个类别标签。
2)特征生成过程,分别对图像和文本提取特征;
21)利用文献[1](O.Vinyals,A.Toshev,S.Bengio,and others.2016.Show and Tell:Lessons learned from the 2015MSCOCO Image Captioning Challenge.PAMI(2016))提出的卷积神经网络-长短时记忆网络(CNN-LSTM)架构,对训练及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”;
针对N幅训练图像,得到每幅图像的特征{CNN视觉特征向量,LSTM语言描述向量,真实标签值ground-truth label},表示为
Figure PCTCN2017097621-appb-000001
22)利用LDA模型提取训练和测试文本的“LDA文本主题向量”;
针对N个训练文本,提取得到每个样本的“LDA文本主题向量”表示为t。
3)语义空间学习过程包括图像的语义空间学习过程和文本的语义空间学习过程,分别将图
像和文本映射到一个共同的语义空间;
本发明分别对图像和文本进行语义空间学习。在具体实施时,对图像,本发明提出了一个四层的多感知融合的深度神经网络(Multi-Sensory Fusion Deep Neural Network,简称MSF-DNN);对文本,本发明提出了一个三层的文本语义网络(TextNet)。通过MSF-DNN 和TextNet,将图像和文本映射到一个共同的语义空间。网络的连接方式与节点数目设置如图2所示。
31)构建MSF-DNN网络,进行语义空间学习;
32)构建TextNet网络,进行语义空间学习;
由此将测试图像和文本映射到同构的语义空间。
4)通过传统的相似度衡量方法实现跨媒体检索;
采用相似度衡量方法如余弦相似度,能容易地完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于深度语义空间的跨媒体检索方法,通过模拟人对图像的感知过程,生成图像的CNN视觉特征向量和LSTM语言描述向量。利用LDA主题模型挖掘文本的主题信息,进而提取LDA文本主题向量。在语义空间学习阶段,分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络,利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间,从而实现跨媒体检索。
与现有方法相比,本发明跨越了底层视觉特征和高层用户概念间的“感知鸿沟”,为图像和文本的跨媒体检索构建出一个具有丰富语义信息的同构空间。本发明首次提出MSF-DNN和TextNet两个网络架构用于表达图像和文本的语义。实验表明,此方案能够显著提升跨媒体检索的正确率;在图像检索文本和文本检索图像任务中的正确率均有明显提升,本发明能够显著提升跨媒体检索性能,具有广阔的应用前景和市场需求。
附图说明
图1是本发明方法的流程框图。
图2是本发明方法分别对图像和文本进行特征生成和语义空间学习的示意图;
其中,左上方框表示图像特征生成;左下方框表示文本特征生成;右上方框表示MSF-DNN;右下方框表示TextNet;右上方框和右下方框得到的是同构的语义空间;具体地,将图像样本送入CNN-LSTM架构,得到图像的“CNN视觉特征向量”和“LSTM语言描述向量”,分别用v和d表示(左上方框);将文本样本送入LDA主题模型,得到“LDA文本主题向量”,用t表示(左下方框);右上部分为一个四层的多感知融合的深度神经网络(MSF-DNN),融合v和d的输入,目的将图像最终映射到语义空间SI;右下部分为一个三层的文本语义网络(TextNet),t作为输入,目的将文本最终映射到语义空间ST;SI和ST是具有相同语义的同构空间。
图3是LSTM(Long Short Term Memory)结构图;
图3表示了一个重复的LSTM模块,本发明取t=N时刻的元组(CN,hN)作为“LSTM语言描述向量”。
图4是本发明实施例在Wikipedia数据集上LDA生成的文本主题示例;
其中,(a)的三个主题共同描述了“战争”这个类别,三个主题聚集的关键词分布为:主题1:pilot,fight,war,military,flying,staff;主题2:harbor,shot,launched,air,group,aircraft;主题3:plane,cruisers,flighters,attacked,bombs,force;
(b)的三个主题共同描述了“皇室”这个类别,三个主题聚集的关键词分布为:主题1:fortune,aristocrat,palace,prince,louis,throne;主题2:princess,royal,queen,grand,duches,victoria;主题3:king,duke,crown,reign,lord,sovereign。
图5是本发明实施例采用的数据集示例;
其中,Wikipedia数据集的文本以段落形式出现,PascalVoc数据集的文本以标注形式出现,Pascal Sentence数据集的文本以句子形式出现;括号中标明了每个图像文本对的类别。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息,通过特征生成过程和语义空间学习过程实现跨媒体检索,能够显著提升跨媒体检索的性能。
图1是本发明基于深度语义空间的跨媒体检索方法的流程框图,图2是本发明方法分别对图像和文本进行特征生成和语义空间学习的示意图;具体构造过程包括如下步骤:
(一)首先进行特征生成,执行步骤1)~2)。
1)利用文献[1](O.Vinyals,A.Toshev,S.Bengio,and others.2016.Show and Tell:Lessons learned from the 2015MSCOCO Image Captioning Challenge.PAMI(2016))提出的CNN-LSTM架构,对图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”。
文献1记载了CNN-LSTM的架构,具体地,本发明利用现有数据集的训练图像对CNN网络进行微调,之后对训练图像和测试图像提取最后一个1024维的全连接层的输出,作为“CNN视觉特征向量”。图3是LSTM(Long Short Term Memory)结构图,图3展示了图2中的LSTM结构的细节信息。当t等于最后一个时刻N时,元组(CN,hN)被提取用作训练图像和测试图像的“LSTM语言描述向量”。
2)利用文本主题模型LDA对训练文本和测试文本提取“LDA文本主题向量”。
图4展示了Wikipedia数据集上LDA聚集生成的6个主题的例子,每个主题由6个相同颜色的关键词表示。本发明具体实施中,经反复试验,针对Wikipedia,Pascal Voc,Pascal Sentence这三个数据集选择的最优主题数目分别为200、100、200。
(二)然后进行语义空间学习,步骤3)-6)为采用MSF-DNN网络的架构进行语义空间学习的过程,步骤7)-8)为采用TextNet网络的架构进行语义空间学习的过程。
3)假设有N幅训练图片,经过步骤1)-2)生成特征,得到每幅图片的特征{CNN视觉特征向量,LSTM语言描述向量,真实标签值(ground-truth label)},表示为
Figure PCTCN2017097621-appb-000002
l表示所讨论的神经网络的第l层(l≥2)。令xj表示第l-1层的输入向量,l层第i个激活前的值
Figure PCTCN2017097621-appb-000003
表示为式1:
Figure PCTCN2017097621-appb-000004
其中,m为l-1层单元的数目;
Figure PCTCN2017097621-appb-000005
表示第l-1层第j个单元和第l层第i个单元之间的权重;
Figure PCTCN2017097621-appb-000006
表示与第l层第i个单元关联的权重。
4)对于每个z的激活值通过公式2计算:
Figure PCTCN2017097621-appb-000007
l表示层数,K为标签数,ε=max(zk);
Figure PCTCN2017097621-appb-000008
表示z的激活值;函数fI:所有隐藏层的激活函数使用Sigmoid函数,最后的输出层使用Softmax函数。
5)进一步地,如图2右上部分所示,MSF-DNN网络被定义为:
Figure PCTCN2017097621-appb-000009
Figure PCTCN2017097621-appb-000010
Figure PCTCN2017097621-appb-000011
Figure PCTCN2017097621-appb-000012
其中,
Figure PCTCN2017097621-appb-000013
表示深度为l的隐藏层,oI表示最后一层输出层;
Figure PCTCN2017097621-appb-000014
表示权重矩阵;
Figure PCTCN2017097621-appb-000015
表示 偏置(当l=1时,A=v or d,否则A=c);v是CNN视觉特征向量;d是LSTM语言描述向量;c表示两者的融合之后的输出;
6)目标函数是最小化训练样本的整体误差C,以学习得到一个参数空间
Figure PCTCN2017097621-appb-000016
表示为式7:
Figure PCTCN2017097621-appb-000017
λI为第二项权重衰减项的参数。
7)3层的TextNet的构建过程与MSF-DNN相似。如图2右下部分所示,假设有N个训练文本,每个样本的“LDA文本主题向量”表示为t。第二层的全连接层使用Sigmoid激活函数,然后将输出作为最后一层Softmax分类器的输入。TextNet网络的定义表示为式8、式9:
Figure PCTCN2017097621-appb-000018
Figure PCTCN2017097621-appb-000019
其中,
Figure PCTCN2017097621-appb-000020
表示第二层隐藏层,oT表示最后一层输出层。
Figure PCTCN2017097621-appb-000021
表示权重矩阵;
Figure PCTCN2017097621-appb-000022
表示偏置,l′表示TextNet的层数。
8)目标函数是最小化训练样本的整体误差C′,以学习得到一个参数空间
Figure PCTCN2017097621-appb-000023
表示为式10:
Figure PCTCN2017097621-appb-000024
λT为第二项权重衰减项的参数。
9)当通过MSF-DNN及TextNet将测试图像和文本映射到同构的语义空间中后,对于一个图像向量SI∈RK、文本向量ST∈RK,利用余弦距离表示任意图像和文本特征间相似度,通过式11计算得到:
Figure PCTCN2017097621-appb-000025
其中,K为特征的维度。
获得图像和文本特征间相似度,根据相似度从大到小排序,可取前k个相似度最大的样本作为检索结果,由此实现跨媒体检索。
图5是本发明实施例采用的数据集示例;其中,Wikipedia数据集的文本以段落形式出现,PascalVoc数据集的文本以标注形式出现,Pascal Sentence数据集的文本以句子形式出现;括号中标明了每个图像文本对的类别。表1~3给出了本发明在Wikipedia,Pascal Voc和Pascal Sentence三个数据集上的跨媒体检索效果及与现有方法的对比。表1~3中的现有方法,分别对应以下文献[2]~[10]记载的方法:
[2]J.Pereira,E.Coviello,G.Doyle,and others.2013.On the role of correlation and abstraction in cross-modal multimedia retrieval.IEEE Transactions on Software Engineering(2013).
[3]A.Habibian,T.Mensink,and C.Snoek.2015.Discovering semantic vocabularies for cross-media retrieval.In ACM ICMR.
[4]C.Wang,H.Yang,and C.Meinel.2015.Deep semantic mapping for cross-modal retrieval.In ICTAI.
[5]K.Wang,R.He,L.Wang,and W.Wang.2016.Joint feature selection and subspace learning for cross-modal retrieval.PAMI(2016).
[6]Y.Wei,Y.Zhao,C.Lu,and S.Wei.2016.Cross-modal retrieval with CNN visual features:A new baseline.IEEE Transactions on Cybernetics(2016).
[7]J.Liang,Z.Li,D.Cao,and others.2016.Self-paced cross-modal subspace matching.In ACM SIGIR.
[8]Y.Peng,X.Huang,and J.Qi.2016.Cross-media shared representation by hierarchical learning with multiple deep networks.In IJCAI.
[9]K.Wang,R.He,W.Wang,and others.2013.Learning coupled feature spaces for cross-modal matching.In ICCV
[10]N.Rasiwasia,J.Costa Pereira,E.Coviello,and others.2010.A new approach to cross-modal multimedia retrieval.In ACM MM.
表1~3中,检索效果用mAP值衡量,mAP值越高,说明检索效果越好。
表1 Wikipedia数据集上的检索效果
方法 图像检索文本 文本检索图像 平均
SCM-2014[2] 0.362 0.237 0.318
DSV[3] 0.450 0.516 0.483
DSM[4] 0.340 0.353 0.347
JFSSI[5] 0.306 0.228 0.267
NewBaseline[6] 0.430 0.370 0.400
SCSM[7] 0.274 0.217 0.245
CMDN[8] 0.393 0.325 0.359
本发明 0.518 0.453 0.486
表2 Pascal Voc数据集上的检索效果
方法 图像检索文本 文本检索图像 平均
LCFS[9] 0.344 0.267 0.306
JFSSI[5] 0.361 0.280 0.320
SCSM[7] 0.375 0.282 0.329
本发明 0.794 0.804 0.799
表3 Pascal Sentence数据集上的检索效果
方法 图像检索文本 文本检索图像 平均
SM-10[10] 0.530 0.514 0.522
LCFS[9] 0.466 0.483 0.475
NewBaseline[6] 0.496 0.460 0.478
CMDN[8] 0.334 0.333 0.334
本发明 0.573 0.557 0.565
从表中可以看出,本发明的TextNet网络架构适用于于不同长度文本的数据集,MSF-DNN网络架构将图像的视觉向量和语言描述向量进行多感官融合,进一步消除图像特征表达上所存在的“感知鸿沟”。与现有方法对比,本发明在图像检索文本和文本检索图像两大跨媒体检索任务的正确率均有明显提升。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

  1. 一种基于深度语义空间的跨媒体检索方法,通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息,从而实现跨媒体检索;包括特征生成过程和语义空间学习过程,具体包括如下步骤:
    1)获取训练数据、测试数据及数据类别;
    2)特征生成过程,分别对图像和文本提取特征,包括步骤21)~22):
    21)采用卷积神经网络-长短时记忆网络CNN-LSTM,对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”;
    针对N幅图像,得到每幅图像的特征{CNN视觉特征向量,LSTM语言描述向量,真实标签值ground-truth label},表示为
    Figure PCTCN2017097621-appb-100001
    l表示所述卷积神经网络的第l层,l≥2;
    22)利用文档主题生成模型LDA,提取训练文本和测试文本的“LDA文本主题向量”;针对N个训练文本,提取得到每个样本的“LDA文本主题向量”,表示为t;
    3)语义空间学习过程,包括图像的语义空间学习过程和文本的语义空间学习过程,分别将图像和文本映射到一个共同的语义空间;
    31)图像的语义空间学习过程:构建一个四层的多感知融合的深度神经网络MSF-DNN,进行语义空间学习,得到一个参数空间
    Figure PCTCN2017097621-appb-100002
    表示权重矩阵,
    Figure PCTCN2017097621-appb-100003
    表示偏置,l表示层数;
    32)文本的语义空间学习过程:构建一个三层的文本语义网络TextNet,进行语义空间学习,得到一个参数空间
    Figure PCTCN2017097621-appb-100004
    Wt (l′)表示权重矩阵;
    Figure PCTCN2017097621-appb-100005
    表示偏置;l′表示TextNet的层数;
    由此通过MSF-DNN及TextNet,实现将图像和文本映射到同构的语义空间;
    4)通过相似度衡量方法,计算任一图像和文本之间的相似度,进而实现图像检索文本I和文本检索图像的跨媒体检索。
  2. 如权利要求1所述跨媒体检索方法,其特征是,步骤1)具体通过数据集Wikipedia、Pascal Voc、Pascal Sentence得到训练数据、测试数据和数据类别。
  3. 如权利要求1所述跨媒体检索方法,其特征是,步骤21)采用卷积神经网络‐长短时记忆网络CNN-LSTM架构对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM 语言描述向量”;具体地,利用现有数据集的训练图像对卷积神经网络CNN进行微调,对训练图像和测试图像提取最后一个1024维的全连接层的输出,作为“CNN视觉特征向量”;“LSTM语言描述向量”的提取方法是:在长短时记忆网络LSTM中,当t等于最后一个时刻N时,元组(CN,hN)被提取用作训练图像和测试图像的“LSTM语言描述向量”。
  4. 如权利要求1所述跨媒体检索方法,其特征是,步骤22)分别针对数据集Wikipedia、Pascal Voc、Pascal Sentence数据集,确定最优主题数目分别为200、100、200。
  5. 如权利要求1所述跨媒体检索方法,其特征是,步骤31)所述图像的语义空间学习过程具体包括如下步骤:
    311)针对N幅训练图片,经过步骤21)生成特征,得到每幅图片的特征,表示为
    Figure PCTCN2017097621-appb-100006
    l表示所述神经网络的第l层,l≥2;令xj表示第l-1层的输入向量,l层第i个激活前的值
    Figure PCTCN2017097621-appb-100007
    表示为式1:
    Figure PCTCN2017097621-appb-100008
    其中,m为l-1层单元的数目;
    Figure PCTCN2017097621-appb-100009
    表示第l-1层第j个单元和第l层第i个单元之间的权重;
    Figure PCTCN2017097621-appb-100010
    表示与第l层第i个单元关联的权重;
    312)通过式2计算得到每个z的激活值fI (l)(z),所有隐藏层的激活函数使用Sigmoid函数,最后的输出层使用Softmax函数激活:
    Figure PCTCN2017097621-appb-100011
    其中,l表示层数,K为标签数,ε=max(zk);
    313)定义MSF-DNN网络为式3-式6:
    Figure PCTCN2017097621-appb-100012
    Figure PCTCN2017097621-appb-100013
    Figure PCTCN2017097621-appb-100014
    Figure PCTCN2017097621-appb-100015
    其中,
    Figure PCTCN2017097621-appb-100016
    表示深度为l的隐藏层,oI表示最后一层输出层;
    Figure PCTCN2017097621-appb-100017
    表示权重矩阵;
    Figure PCTCN2017097621-appb-100018
    表示偏置;当l=1时,A=v or d,否则A=c;c表示v和d两者融合之后的输出;
    314)目标函数是最小化训练样本的整体误差C,以学习得到一个参数空间
    Figure PCTCN2017097621-appb-100019
    表示为式7:
    Figure PCTCN2017097621-appb-100020
    其中,λI为第二项权重衰减项的参数。
  6. 如权利要求1所述跨媒体检索方法,其特征是,步骤32)所述文本的语义空间学习过程具体包括如下步骤:
    321)对N个训练文本样本,每个样本的“LDA文本主题向量”表示为t;第二层的全连接层使用Sigmoid激活函数;将输出作为最后一层Softmax分类器的输入;定义TextNet网络为式8、式9:
    Figure PCTCN2017097621-appb-100021
    Figure PCTCN2017097621-appb-100022
    其中,
    Figure PCTCN2017097621-appb-100023
    表示第二层隐藏层,oT表示最后一层输出层;Wt (l′)表示权重矩阵;
    Figure PCTCN2017097621-appb-100024
    表示偏置,l′表示TextNet的层数;
    322)目标函数是最小化训练样本的整体误差C′,以学习得到一个参数空间
    Figure PCTCN2017097621-appb-100025
    Figure PCTCN2017097621-appb-100026
    表示为式10:
    Figure PCTCN2017097621-appb-100027
    λT为第二项权重衰减项的参数。
  7. 如权利要求1所述跨媒体检索方法,其特征是,步骤4)所述相似度衡量方法具体采用余弦距离表示任意图像和文本特征间相似度,对于一个图像向量SI∈RK、文本向量ST∈RK,通过式11计算得到余弦距离d(SI,ST):
    Figure PCTCN2017097621-appb-100028
    其中,K为特征的维度;
    将计算得到的d(SI,ST)作为图像和文本特征间相似度,根据相似度从大到小排序,取前k个相似度最大的样本作为检索结果,由此实现跨媒体检索。
PCT/CN2017/097621 2017-04-10 2017-08-16 一种基于深度语义空间的跨媒体检索方法 WO2018188240A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/468,366 US11397890B2 (en) 2017-04-10 2017-08-16 Cross-media retrieval method based on deep semantic space

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710230070.X 2017-04-10
CN201710230070.XA CN108694200B (zh) 2017-04-10 2017-04-10 一种基于深度语义空间的跨媒体检索方法

Publications (1)

Publication Number Publication Date
WO2018188240A1 true WO2018188240A1 (zh) 2018-10-18

Family

ID=63793013

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/097621 WO2018188240A1 (zh) 2017-04-10 2017-08-16 一种基于深度语义空间的跨媒体检索方法

Country Status (3)

Country Link
US (1) US11397890B2 (zh)
CN (1) CN108694200B (zh)
WO (1) WO2018188240A1 (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359198A (zh) * 2018-12-04 2019-02-19 北京容联易通信息技术有限公司 一种文本分类方法及装置
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110222211A (zh) * 2019-05-22 2019-09-10 北京小米智能科技有限公司 手绘图像检索方法及装置
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN111353029A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 一种基于语义匹配的多轮对话口语理解方法
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法
CN111460200A (zh) * 2020-03-04 2020-07-28 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
WO2020174311A1 (en) * 2019-02-25 2020-09-03 International Business Machines Corporation Answering cognitive queries from sensor input signals
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112001385A (zh) * 2020-08-20 2020-11-27 长安大学 一种目标跨域检测与理解方法、系统、设备及存储介质
CN112528905A (zh) * 2020-12-18 2021-03-19 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112802445A (zh) * 2021-02-02 2021-05-14 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN112884019A (zh) * 2021-01-29 2021-06-01 辽宁科技大学 一种基于融合门循环网络模型的图像转语言方法
CN112948584A (zh) * 2021-03-03 2021-06-11 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质
CN113221513A (zh) * 2021-04-19 2021-08-06 西北工业大学 一种跨模态数据融合的个性化产品描述生成方法
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法
CN113672735A (zh) * 2021-09-08 2021-11-19 北京邮电大学 一种基于主题感知异质图神经网络的链接预测方法
CN113779282A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN113779283A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 一种深度监督与特征融合的细粒度跨媒体检索方法
CN114021651A (zh) * 2021-11-04 2022-02-08 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
US11397890B2 (en) * 2017-04-10 2022-07-26 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN115309927A (zh) * 2022-10-09 2022-11-08 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115470365A (zh) * 2022-11-09 2022-12-13 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法
CN116258931A (zh) * 2022-12-14 2023-06-13 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116994104A (zh) * 2023-07-19 2023-11-03 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统
CN116994104B (zh) * 2023-07-19 2024-06-11 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783657B (zh) * 2019-01-07 2022-12-30 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US20200372396A1 (en) * 2019-05-20 2020-11-26 International Business Machines Corporation Optimal content identification for learning paths
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110442741B (zh) * 2019-07-22 2022-10-18 成都澳海川科技有限公司 一种基于张量融合和重排序的跨模态图文互搜方法
CN111428492B (zh) * 2020-01-10 2023-07-07 深圳信息职业技术学院 一种情境感知的深度学习算法
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111737446B (zh) * 2020-06-22 2024-04-05 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质
CN111782852B (zh) * 2020-06-23 2024-04-09 西安电子科技大学 基于深度学习的高层次语义图像检索方法
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN114168759A (zh) * 2020-09-11 2022-03-11 四川大学 基于跨媒体分析的科技数据检索技术
US11972348B2 (en) * 2020-10-30 2024-04-30 Apple Inc. Texture unit circuit in neural network processor
US11720651B2 (en) * 2021-01-28 2023-08-08 Adobe Inc. Text-conditioned image search based on transformation, aggregation, and composition of visio-linguistic features
US11874902B2 (en) 2021-01-28 2024-01-16 Adobe Inc. Text conditioned image search based on dual-disentangled feature composition
CN113111161B (zh) * 2021-04-09 2023-09-08 北京语言大学 一种跨媒体关联分析方法
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN114357203A (zh) * 2021-08-05 2022-04-15 腾讯科技(深圳)有限公司 多媒体检索方法、装置及计算机设备
CN113836260A (zh) * 2021-08-27 2021-12-24 北京工业大学 一种基于知识增强的深度学习的总氮含量预测方法
WO2023058899A1 (en) * 2021-10-08 2023-04-13 Samsung Electronics Co., Ltd. Method and system for selecting marker for modifying a scene within an augmented reality based computing environment
CN113704537B (zh) * 2021-10-28 2022-02-15 南京码极客科技有限公司 一种基于多尺度特征联合的细粒度跨媒体检索方法
CN114298159B (zh) * 2021-12-06 2024-04-09 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
CN114239730A (zh) * 2021-12-20 2022-03-25 华侨大学 一种基于近邻排序关系的跨模态检索方法
CN115033727B (zh) * 2022-05-10 2023-06-20 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN114880514B (zh) * 2022-07-05 2022-11-01 人民中科(北京)智能技术有限公司 图像检索方法、装置以及存储介质
CN114863194B (zh) * 2022-07-11 2022-11-18 北京邮电大学 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN114925238B (zh) * 2022-07-20 2022-10-28 山东大学 一种基于联邦学习的视频片段检索方法及系统
CN115827856B (zh) * 2022-07-26 2023-06-20 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法
KR20240056112A (ko) * 2022-10-21 2024-04-30 삼성전자주식회사 이미지에서 관심 영역을 식별하기 위한 전자 장치 및 그 제어 방법
CN115374165B (zh) * 2022-10-24 2023-03-24 山东建筑大学 基于三重矩阵分解的数据检索方法、系统及设备
CN115658954B (zh) * 2022-10-28 2023-12-26 华东师范大学 一种基于提示学习的跨模态检索对抗防御方法
CN115658955B (zh) * 2022-11-08 2023-03-14 苏州浪潮智能科技有限公司 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN115797795B (zh) * 2023-02-07 2023-04-25 北京数慧时空信息技术有限公司 基于强化学习的遥感影像问答式检索系统及方法
CN116663648B (zh) * 2023-04-23 2024-04-02 北京大学 模型训练方法、装置、设备及存储介质
CN116452901B (zh) * 2023-06-19 2023-09-15 中国科学院海洋研究所 基于深度学习的遥感图像海洋养殖区自动化提取方法
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209847A1 (en) * 2011-02-16 2012-08-16 Clearwell Systems, Inc. Methods and systems for automatically generating semantic/concept searches
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011034502A1 (en) * 2009-09-16 2011-03-24 Nanyang Technological University Textual query based multimedia retrieval system
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
US11481625B2 (en) * 2017-08-04 2022-10-25 Nokia Technologies Oy Artificial neural network
AU2019101138A4 (en) * 2019-09-30 2019-10-31 Cheng, Shiyun MISS Voice interaction system for race games
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209847A1 (en) * 2011-02-16 2012-08-16 Clearwell Systems, Inc. Methods and systems for automatically generating semantic/concept searches
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104317834A (zh) * 2014-10-10 2015-01-28 浙江大学 一种基于深度神经网络的跨媒体排序方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397890B2 (en) * 2017-04-10 2022-07-26 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN109359198A (zh) * 2018-12-04 2019-02-19 北京容联易通信息技术有限公司 一种文本分类方法及装置
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法
WO2020174311A1 (en) * 2019-02-25 2020-09-03 International Business Machines Corporation Answering cognitive queries from sensor input signals
GB2599793A (en) * 2019-02-25 2022-04-13 Ibm Answering cognitive queries from sensor input signals
GB2599793B (en) * 2019-02-25 2023-02-15 Ibm Answering cognitive queries from sensor input signals
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110111399B (zh) * 2019-04-24 2023-06-30 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110222211A (zh) * 2019-05-22 2019-09-10 北京小米智能科技有限公司 手绘图像检索方法及装置
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110472652B (zh) * 2019-06-30 2023-06-09 天津大学 基于语义引导的少量样本分类方法
CN110516718B (zh) * 2019-08-12 2023-03-24 西北工业大学 基于深度嵌入空间的零样本学习方法
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN111062451B (zh) * 2019-12-30 2023-03-31 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN111353029A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 一种基于语义匹配的多轮对话口语理解方法
CN111353029B (zh) * 2020-02-22 2020-09-22 杭州电子科技大学 一种基于语义匹配的多轮对话口语理解方法
CN111460200A (zh) * 2020-03-04 2020-07-28 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN111797196B (zh) * 2020-06-01 2021-11-02 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN111985612B (zh) * 2020-07-21 2024-02-06 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN112001385B (zh) * 2020-08-20 2024-02-06 长安大学 一种目标跨域检测与理解方法、系统、设备及存储介质
CN112001385A (zh) * 2020-08-20 2020-11-27 长安大学 一种目标跨域检测与理解方法、系统、设备及存储介质
CN112528905A (zh) * 2020-12-18 2021-03-19 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112528905B (zh) * 2020-12-18 2024-04-05 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112884019B (zh) * 2021-01-29 2023-11-21 辽宁科技大学 一种基于融合门循环网络模型的图像转语言方法
CN112884019A (zh) * 2021-01-29 2021-06-01 辽宁科技大学 一种基于融合门循环网络模型的图像转语言方法
CN112802445B (zh) * 2021-02-02 2023-06-30 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN112802445A (zh) * 2021-02-02 2021-05-14 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN112948584B (zh) * 2021-03-03 2023-06-23 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质
CN112948584A (zh) * 2021-03-03 2021-06-11 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质
CN113221513A (zh) * 2021-04-19 2021-08-06 西北工业大学 一种跨模态数据融合的个性化产品描述生成方法
CN113326392B (zh) * 2021-05-06 2022-11-18 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113569932B (zh) * 2021-07-18 2023-07-18 湖北工业大学 一种基于文本层级结构的图像描述生成方法
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法
CN113672735B (zh) * 2021-09-08 2024-01-19 北京邮电大学 一种基于主题感知异质图神经网络的链接预测方法
CN113672735A (zh) * 2021-09-08 2021-11-19 北京邮电大学 一种基于主题感知异质图神经网络的链接预测方法
CN114021651A (zh) * 2021-11-04 2022-02-08 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
CN114021651B (zh) * 2021-11-04 2024-03-29 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
CN113779282A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN113779283A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 一种深度监督与特征融合的细粒度跨媒体检索方法
CN113779282B (zh) * 2021-11-11 2022-01-28 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN115309927A (zh) * 2022-10-09 2022-11-08 中国海洋大学 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN115470365A (zh) * 2022-11-09 2022-12-13 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法
CN116258931B (zh) * 2022-12-14 2023-09-15 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116258931A (zh) * 2022-12-14 2023-06-13 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116994104A (zh) * 2023-07-19 2023-11-03 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统
CN116994104B (zh) * 2023-07-19 2024-06-11 湖北楚天高速数字科技有限公司 基于张量融合和对比学习的零样本识别方法和系统

Also Published As

Publication number Publication date
US11397890B2 (en) 2022-07-26
CN108694200B (zh) 2019-12-20
CN108694200A (zh) 2018-10-23
US20210256365A1 (en) 2021-08-19

Similar Documents

Publication Publication Date Title
WO2018188240A1 (zh) 一种基于深度语义空间的跨媒体检索方法
Hendricks et al. Deep compositional captioning: Describing novel object categories without paired training data
CN112200317B (zh) 多模态知识图谱构建方法
Xu et al. Scene graph captioner: Image captioning based on structural visual representation
Hu et al. Natural language object retrieval
Laina et al. Towards unsupervised image captioning with shared multimodal embeddings
Mao et al. Learning like a child: Fast novel visual concept learning from sentence descriptions of images
CN111767408B (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
Ushiku et al. Common subspace for model and similarity: Phrase learning for caption generation from images
Yeh et al. Topic detection and tracking for conversational content by using conceptual dynamic latent Dirichlet allocation
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN106202413A (zh) 一种跨媒体检索方法
CN114064931A (zh) 一种基于多模态知识图谱的急救知识问答方法及系统
CN111061951A (zh) 一种基于双层自注意力评论建模的推荐模型
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
Fan et al. Cross-media retrieval by learning rich semantic embeddings of multimedia
CN111144410A (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
Wen Intelligent English translation mobile platform and recognition system based on support vector machine
Merkx et al. Learning semantic sentence representations from visually grounded language without lexical knowledge
An [Retracted] Exploration of Intelligent Teaching Methods for Ideological and Political Education in Colleges and Universities under the Background of “Mass Entrepreneurship and Innovation”
US10846480B2 (en) Common sense comprehension system and method for comprehending Chinese common sense
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
Wang et al. Edge-labeled and node-aggregated graph neural networks for few-shot relation classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17905375

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17905375

Country of ref document: EP

Kind code of ref document: A1