WO2017210949A1 - 一种跨媒体检索方法 - Google Patents

一种跨媒体检索方法 Download PDF

Info

Publication number
WO2017210949A1
WO2017210949A1 PCT/CN2016/089624 CN2016089624W WO2017210949A1 WO 2017210949 A1 WO2017210949 A1 WO 2017210949A1 CN 2016089624 W CN2016089624 W CN 2016089624W WO 2017210949 A1 WO2017210949 A1 WO 2017210949A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
image
media
retrieval
cross
Prior art date
Application number
PCT/CN2016/089624
Other languages
English (en)
French (fr)
Inventor
王文敏
范梦迪
王荣刚
李革
董胜富
王振宇
李英
赵辉
高文
Original Assignee
北京大学深圳研究生院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学深圳研究生院 filed Critical 北京大学深圳研究生院
Publication of WO2017210949A1 publication Critical patent/WO2017210949A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Definitions

  • the invention relates to the field of pattern recognition and multimedia retrieval technology, in particular to a cross-media data retrieval method based on coupling feature mapping and association mining for image and text data.
  • Cross-media retrieval for image and text two types of media data includes two types of tasks: 1) for an image query request, retrieve textual results similar to their semantics (referred to as Img2Text); 2) for a text query request, retrieve its semantics Similar image results (Text2Img for short).
  • the existing cross-media retrieval methods are mainly divided into the following categories: First, a method based on subspace mapping. The multimedia data of different modalities is mapped to the same subspace, and then the similarity measure is performed in the learned subspace.
  • the literature "A new approach to cross-modal multimedia retrieval” uses the Canonical Correlation Analysis (CCA) to learn the largest associated isomorphic subspace of images and text.
  • CCA Canonical Correlation Analysis
  • semantic mapping Some scholars have proposed the high-level abstraction of texts and images. The correlation information between data is first learned by CCA, and then the multi-class logistic regression classifier is used to calculate the posterior probability distribution, so that the heterogeneous features are represented as the same dimension. Construct a semantic vector.
  • MMD multimedia document
  • ⁇ DocumentID URL, KeywordLis, ElementSet, LinkSet>
  • a Laplacian space can be constructed for each modal medium to learn the semantic association of the multimedia document to construct a data adjacency map.
  • the two mapping functions map the data of the two modalities to the same low-dimensional implicit feature space respectively, so that the final sorting result can be performed.
  • deep learning is used for cross-media retrieval.
  • Some representative models, such as Deep Autoencoder, Deep Belief Network, Deep Boltzmann (Deep Boltzmann Machine) and corresponding learning algorithms are proposed.
  • some scholars have extended these techniques to the modeling of multimodal data and achieved better results.
  • the first problem that is difficult to solve across media retrieval is how to learn a homogeneous, unified representation space for different media data.
  • the second problem that is difficult to solve across media retrieval is how to measure the semantic similarity between different modal features.
  • the present invention provides a cross-media data retrieval method based on coupled feature mapping and association mining for image and text data, through association-based feature mapping, association mining in the same kind of media, and Correlation mining between different media, obtaining similarity between images and texts, and performing cross-media retrieval; the invention has wide applicability and can be used in a variety of cross-media retrieval scenarios.
  • a cross-media retrieval method which obtains the similarity between images and texts by performing feature mapping based on coupling, association mining in the same kind of media, and association mining between different media, and performs cross-media retrieval; the following steps are included:
  • Coupling feature mapping is performed on all samples in the sample set.
  • the purpose is to map heterogeneous image and text features into the isomorphic space. Semantic information such as semantic categories should be preserved in the mapping process.
  • each text obtains a category similarity, and according to the descending order of the category similarity, the most similar text is ranked first, and the semantics related to the input image are returned.
  • Text retrieval result when inputting multiple images, each image correspondingly obtains a category similarity for each text, and all category similarities form a category similarity matrix as a text retrieval result related to the input multiple image semantics.
  • the invention provides a cross-media data retrieval method based on coupling feature mapping and association mining for image and text data, and obtains an image by coupling feature mapping, association mining in the same kind of media and association mining between different media.
  • the similarity between the text and the text is used for cross-media retrieval; the invention has wide applicability and can be used in a variety of cross-media retrieval scenarios.
  • the overall performance of the invention is better, and the accuracy of the image retrieval text (Img2Text) and text retrieval image (Text2Img) is greatly improved.
  • the results of the retrieval by using two different data sets in the embodiment of the present invention indicate that the present invention has wide applicability and can be used in a variety of cross-media retrieval scenarios.
  • FIG. 1 is a flow chart of a method provided by the present invention.
  • FIG. 2 is a schematic diagram of the overall framework and working principle of the method provided by the present invention.
  • the upper part of the upper part of the figure represents the image space
  • the upper right part of the explosion type represents the text space
  • the hollow circle and the hollow triangle respectively represent the training image feature and the text feature
  • the solid circle and the solid triangle respectively represent the test image feature and text.
  • Feature, two arrows point to the process of coupling feature mapping.
  • the black solid circle and the black solid triangle in the figure represent the image query request and the text query request, respectively.
  • Black vertical lines, black grids, and black dots indicate three categories.
  • Figure (a) shows the most recent 5 samples of the same media type, which belong to three semantic categories.
  • Figure (b) shows the most recent 5 samples found for different media types.
  • P-R accuracy-recall rate
  • Figure 5 is a graph showing the accuracy-recall rate (P-R) curve for text retrieval images on the Wikipedia data set in an embodiment of the present invention.
  • P-R accuracy-recall rate
  • P-R accuracy-recall rate
  • Figure 8 is a t1 performance curve for image retrieval text on a Wikipedia data set in an embodiment of the present invention.
  • FIG. 9 is a t1 performance curve for a text retrieval image on a Wikipedia data set in an embodiment of the present invention.
  • Figure 10 is two examples of images retrieved for text in an embodiment of the present invention.
  • the first column in (a) and (b) represents a text query request
  • the second column represents the correct image result corresponding to the text query request
  • the third to seventh columns represent the search using the method of the present invention.
  • a cross-media retrieval method which obtains the similarity between images and texts by performing feature mapping based on coupling, association mining in the same kind of media, and association mining between different media, and performs cross-media retrieval; the following steps are included:
  • Coupling feature mapping is performed on all samples in the sample set, in order to map heterogeneous image and text features into isomorphic spaces, and semantic information such as categories should be retained in the mapping process.
  • FIG. 1 is a block flow diagram of a method for providing the present invention
  • the method of the present invention includes coupling feature mapping and association mining between the same type of media data and heterogeneous media data.
  • the coupling feature mapping is performed to map the heterogeneous features of different modes into the isomorphic semantic category space, as shown in the coupling feature mapping process in the upper part of Figure 2; then the same kind of media data and heterogeneous media are performed.
  • the association mining between data is shown in the lower part of Figure 2.
  • the coupling feature mapping specifically includes the following steps 21-24; the association mining specifically includes the following steps 41-46.
  • Equation 22 Using the method of ridge regression, solve two feature mapping matrices by minimizing the characteristics of each modality after mapping and the error of the category label That is, the problem of minimization of Equation 1 is solved.
  • is a regular term parameter and is selected by cross-validation; Express two norms;
  • I represents an identity matrix
  • Correlation mining between the same kind of media data and heterogeneous media data specifically includes the following steps 41-46:
  • the purpose of association mining within the same kind of media data is to mine semantic category information within each type of media.
  • the feature points of the sample to be tested obtained from the above coupling feature mapping step are set (or ), using KNN (K Nearest Neighbors) method to find k nearest neighbors in training samples of the same media type.
  • Equation 4 The probability that the image to be tested I i belongs to category c is defined as Equation 4:
  • I k ⁇ KNN(I i ) represents the image to be tested I i , and the k nearest neighbor images I k are retrieved in the training data set.
  • L k c indicates that the category label of the image I k is equal to c.
  • Sim(I i , I k ) represents a measure between two data points.
  • Equation 4 Equation 4
  • T k ⁇ KNN(I i ) represents the image to be tested I i
  • the k nearest neighbor texts T k are retrieved in the training data set.
  • L k c indicates that the category label of the text T k is equal to c.
  • t1, t2 are empirical weights based on experimental results.
  • the K value in the KNN in Equations 4 and 5 is set to 80 according to experience, and the weights t1 and t2 are determined by the performance curves of different data sets.
  • the t1 performance of the Wikipedia data set is shown in FIG. 8 and FIG. Curve, choose the appropriate t1 to make the MAP value optimal.
  • CDLFA [3]: Xu X, Shimada A, Rin-ichiro Taniguchi, et al. Coupled dictionary learning and feature mapping for cross-modal retrieval [C]//ICME.2015:1-6.
  • HSNN [4]: Xiaohua Zhai, Yuxin Peng, Jianguo Xiao. Effective Heterogeneous Similarity Measure with Nearest Neighbors for Cross-Media Retrieval [C]//International Conference on Advances in Multimedia Modeling. Springer-Verlag, 2012: 312-322.
  • the first data set used in the embodiment of the present invention is a Wikipedia data set, which includes 2866 pairs of images and texts thereof, the number of training data is 2173, the number of test data is 693, and the text feature is 10-dimensional LDA (Latent Dirichlet) Allocation) feature, the image feature is a 128-dimensional SIFT feature.
  • the similarity measurement methods in Equation 4 and Equation 5 include Chi-square distance (Chi), Normalized Correlation (NC), Centered Correlation (CC), and Histogram Intersection (HI). Table 1 shows the MAP values on the Wikipedia data set.
  • Proposed (Coupled) represents the result of the present invention removing the second part of the association mining.
  • Table 1 when the HI metric method is employed, the retrieval result of the present invention is optimal, the MAP value for the image retrieval text is 0.3249, and the MAP value for the text retrieval image is 0.2374.
  • Figures 3 and 4 show the Precision-Recall curves of the image retrieval text and the text retrieval image on the Wikipedia data set, respectively. It can be seen from Fig. 3 that for the image retrieval text, the present invention can almost achieve the highest accuracy under different recall rates; as can be seen from Fig. 4, for the text retrieval image, the recall rate is low. The accuracy in the case is not as good as [3], but everything else is better.
  • Figure 7 and Figure 8 show the t1 performance curves of the image retrieval text and the text retrieval image respectively.
  • Figure 10 shows two examples of text retrieval images under the Wikipedia data set. The first column in the figure represents a text query request, the second column represents the correct image result corresponding thereto, and the third to seventh columns represent the first five results retrieved by the present invention.
  • the second data set used by the present invention is the Pascal Voc data set.
  • the data set is represented in the form of "image-tags", including 5011 training sample pairs and 4952 test sample pairs, which are divided into 20 different categories.
  • the image feature is a 512-dimensional Gist feature
  • the text tag is a 399-dimensional word frequency feature. Since some images have multiple categories, we choose to have only one image tag pair for each object to be trained and tested. There were 2808 pairs of trained training samples and 2841 pairs of test samples.
  • the Pascal Voc dataset has higher dimensional characteristics, and its text features are sparse, so the results presented by different methods are completely different. Table 2 shows the MAP values on the Pascal Voc data set.
  • Proposed (CC) obtains the optimal MAP value in the image retrieval text task, which is 0.4266; Proposed (HI) obtains the best result in the text retrieval image task, and its MAP value is 0.3302.
  • Figures 5 and 6 show the Precision-Recall curves for image retrieval text and text retrieval images on the Pascal Voc dataset, respectively. Compared with the method, the overall performance of the invention is better. The results of two different data sets illustrate that the present invention is more versatile and can be used in a variety of cross-media retrieval scenarios.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Multimedia (AREA)

Abstract

本发明公布了一种跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索,包括:建立多媒体数据集、对样本集中的所有样本进行耦合特征映射、进行同种媒体类型内的关联挖掘、进行异种媒体类型间的关联挖掘、通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权,分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵、将相似度降序排列进行检索。本发明提供的技术方案整体性能较好、适用性较广,可以用在多种跨媒体检索场景中。

Description

一种跨媒体检索方法 技术领域
本发明涉及模式识别和多媒体检索技术领域,具体涉及一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法。
背景技术
自20世纪90年代以来,人类迈入信息社会,随着Web 2.0技术的兴起以及互联网的广泛使用,丰富的多媒体数据,如文本、图像、音频、视频等呈现爆炸性地增长。传统的基于内容的单一媒体的检索不能适应越来越多样化的用户需求,比如在电子商务的应用场景中,用户通过提交一幅“裙子”的照片,希望能找到相关的文字描述或评价;或通过提交一些查询语句来找到最匹配的“裙子”照片。因此跨媒体检索技术应运而生,并迅速成为多媒体研究领域的前沿热点。具体而言,就是通过仅提供多媒体中的某一类型的媒体,就可以得到其他媒体类型的相关检索结果,实现不同类型媒体数据之间的灵活跨越和综合检索。针对图像和文本两类媒体数据的跨媒体检索包括两类任务:1)对于一个图像查询请求,检索出与其语义相近的文本结果(简称Img2Text);2)对于一个文本查询请求,检索出与其语义相近的图像结果(简称Text2Img)。
现有的跨媒体检索方法主要分为以下几类:第一,基于子空间映射的方法。将不同模态的多媒体数据映射到同一子空间,然后在这个学习到的子空间里进行相似性度量。文献“A new approach to cross-modal multimedia retrieval”中利用典型相关性分析(简称CCA)学习图像和文本的最大关联同构子空间。第二,基于语义映射的方法。有学者提出将文本和图像进行高层抽象的假设,数据间的关联信息首先通过CCA进行学习,然后使用多类的逻辑回归分类器计算后验概率分布,从而将异构特征表示为相同维度的同构语义向量。第三,基于关联图的方法。有学者将包含多种模态数据的多媒体文档(Multimedia Document,简称MMD)定义成形式为<DocumentID、URL、KeywordLis、ElementSet、LinkSet>的五元组,采用无向图G=(V,E)描述对象之间的语义相关性,由链接分析算法计算其权值。第四,非线性流行学习的方法。通过双层流形学习结构对多媒体文档中不同模态的对象进行降维处理。可以对每种模态的媒体构造拉普拉斯空间,学习多媒体文档的语义关联从而构造数据邻接图。第五,稀疏特征分析方法。Zhai等人提出了一种基于统一稀疏表示的跨媒体检索方法。首先提取不同媒体类型的特征向量,然后对统一稀疏表示的特征矩阵进行映射,通过计算两个数据属于 同一类别的概率来衡量跨媒体相似度水平。第六,构建跨媒体排序模型。Yang等人提出一种对参数不敏感的基于局部回归和全局校正的(简称LGRA)的学习算法,可以学习出拉普拉斯矩阵用于排序。Lu等人提出LSCMR的跨媒体排序方法。LSCMR基于最大化排序间隔的思想来学习得到两个不同的线性映射函数,通过两个映射函数将两种模态的数据分别映射到同一个低维隐特征空间,从而能够对最终的排序结果进行优化来提高排序性能。第七,利用深度学习进行跨媒体的检索。目前,利用深度学习解决人工智能的复杂问题成为一种新的研究趋势,一些代表性的模型,如深度自动编码器(Deep Autoencoder)、深信度网络(Deep Belief Network)、深度波尔兹曼机(Deep Boltzmann Machine)以及相应的学习算法被提出。近两年,有学者将这些技术扩展用于多模态数据的建模,并实现了较优的结果。
由于不同媒体特征之间的异构性和不可比性,跨媒体检索难以解决的第一个问题是如何学习一个针对不同媒体数据的同构的、统一的表示空间。由于特征表示和人类理解之间存在较大的语义鸿沟,跨媒体检索难以解决的第二个问题是如何衡量不同模态特征之间的语义相似性。
发明内容
为了克服上述现有技术的不足,本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;本发明的适用性较广,可以用在多种跨媒体检索场景中。
本发明提供的技术方案是:
一种跨媒体检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;包括如下步骤:
1)建立包含图像和文本两种媒体的样本集,分为训练样本和测试样本。
图像和文本两种媒体的样本集,两种分别都有训练样本和测试样本。
2)对样本集中的所有样本进行耦合特征映射,目的是将异构的图像和文本特征映射到同构的空间中,在映射的过程中应保留语义类别等语义信息。
3)耦合特征映射采用岭回归的方法得到两个映射矩阵,原始图像特征和文本特征分别通过所对应的特征映射矩阵进行映射。
4)对于经过特征映射后的待检索图像(或文本),在训练图像(或文本)样本中找到与 其相近的前k个图像(文本),根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作同种媒体类型内的关联挖掘。
5)对于经过特征映射后的待检索图像(文本),在训练文本(图像)样本中找到与其相近的前k个文本(图像),根据k个文本(图像)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作异种媒体类型间的关联挖掘。
6)通过对4、5中的两种关联挖掘方法加权,最后分别得到图像检索文本和文本检索图像的类别相似度矩阵,将相似度降序排列,进行检索并计算平均准确度(Mean Average Precision,MAP)值。
当输入为一个图像时,根据本发明方法,针对所有文本,每一文本都得到一个类别相似度,根据类别相似度的降序排列,将最相似的文本排最前,返回了与输入图像语义相关的文本检索结果;当输入多幅图像时,每个图像对每个文本都相应得到一个类别相似度,所有类别相似度形成类别相似度矩阵,作为与输入的多幅图像语义相关的文本检索结果。
与现有技术相比,本发明的有益效果是:
本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;本发明的适用性较广,可以用在多种跨媒体检索场景中。本发明整体性能较好,本发明在图像检索文本(Img2Text)和文本检索图像(Text2Img)的准确度上都有较大提升。本发明实施例采用两个不同的数据集进行检索的结果说明,本发明的适用性较广,可以用在多种跨媒体检索场景中。
附图说明
图1是本发明提供方法的流程框图。
图2是本发明提供方法的总体框架和工作原理示意图;
其中,图左上部分椭圆区域内表示图像空间,右上部分爆炸型区域内表示文本空间,空心圆形和空心三角形分别表示训练图像特征和文本特征,实心圆形和实心三角形分别表示测试图像特征和文本特征,两个箭头指向的是耦合特征映射的过程,通过利用岭回归学习得到的映射矩阵UI、UT将训练和测试的异构特征映射到同构的类别空间中,长方形区域内部表示的即为同构的类别空间,在该空间中进一步完成关联挖掘的过程。
图3是本发明方法中同构特征关联和异构特征关联的效果说明图;
其中,图中黑色实心圆圈和黑色实心三角分别代表图像查询请求和文本查询请求。黑色竖线、黑色网格、黑色密点表示三个类别。图(a)表示找到同种媒体类型的最近的5个样本,这5个样本分别属于三个语义类别。图(b)表示找到不同媒体类型的最近的5个样本。对于图像查询请求的类别相似度矩阵可表示为:SI=t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]Τ+t2·[0.4,0.2,0.4]·[0.2,0.4,0.4]Τ。对于文本查询请求的类别相似度矩阵可表示为:ST=t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]Τ+t2·[0.2,0.4,0.4]·[0.4,0.2,0.4]Τ
图4是本发明实施例中针对Wikipedia数据集上图像检索文本的准确率-召回率(P-R)曲线。
图5是本发明实施例中针对Wikipedia数据集上文本检索图像的准确率-召回率(P-R)曲线。
图6是本发明实施例中针对Pascal Voc数据集上图像检索文本的准确率-召回率(P-R)曲线。
图7是本发明实施例中针对Pascal Voc数据集上文本检索图像的准确率-召回率(P-R)曲线。
图8是本发明实施例中针对Wikipedia数据集上图像检索文本的t1性能曲线。
图9是本发明实施例中针对Wikipedia数据集上文本检索图像的t1性能曲线。
图10是本发明实施例中针对文本检索图像的两个实例;
其中,(a)、(b)分别为在Wikipedia数据集下针对文本检索图像的实例;
其中,图(a)、(b)中的第一列表示一个文本查询请求,第二列表示与该文本查询请求对应的正确的图像结果,第三到七列表示采用本发明方法检索得到的前五个检索结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
一种跨媒体检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘,得到图像和文本之间的相似度,进行跨媒体检索;包括如下步骤:
1)建立包含图像和文本两种媒体的样本集,分为训练样本和测试样本。图像和文本两种媒体的样本集,两种分别都有训练样本和测试样本。
2)对样本集中的所有样本进行耦合特征映射,目的是将异构的图像和文本特征映射到同构的空间中,在映射的过程中应保留类别等语义信息。
3)耦合特征映射采用岭回归的方法得到两个映射矩阵,原始图像特征和文本特征分别通过所对应的特征映射矩阵进行映射。
4)对于经过特征映射后的待检索图像(文本),在训练图像(文本)样本中找到与其相近的前k个图像(文本),根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作同种媒体类型内的关联挖掘。
5)对于经过特征映射后的待检索图像(文本),在训练文本(图像)样本中找到与其相近的前k个文本(图像),根据k个文本(图像)的类别得到待检索图像(文本)的类别概率矩阵,这个过程称作异种媒体类型间的关联挖掘。
6)通过对4、5中的两种关联挖掘方法加权,最后分别得到图像检索文本和文本检索图像的类别相似度矩阵,将相似度降序排列,进行检索并计算准确度MAP值。
图1是本发明提供方法的流程框图,本发明方法包括耦合特征映射以及同种媒体数据内和异种媒体数据间的关联挖掘。首先进行耦合特征映射,目的是将不同模态的异构特征映射到同构的语义类别空间中,如图2上半部分的耦合特征映射过程所示;然后进行同种媒体数据内和异种媒体数据间的关联挖掘,如图2下半部分所示。耦合特征映射具体包括如下步骤21-24;关联挖掘具体包括如下步骤41-46。
21)将多媒体数据集定义为D={D1,D2,...,Dn},其中
Figure PCTCN2016089624-appb-000001
表示图像和文本这两种模态的原始特征,n表示样本的个数。对于图像
Figure PCTCN2016089624-appb-000002
对于文本
Figure PCTCN2016089624-appb-000003
dI表示图像原始特征的维度,dT表示文本原始特征的维度。
Figure PCTCN2016089624-appb-000004
是类别标签矩阵,c为类别的数目。
22)采用岭回归的方法,通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵
Figure PCTCN2016089624-appb-000005
即解式1的最小化问题。
Figure PCTCN2016089624-appb-000006
其中,λ为正则项参数,通过交叉验证选取;
Figure PCTCN2016089624-appb-000007
表示二范数;
23)式(1)中UI和UT的解如式2所示。
Figure PCTCN2016089624-appb-000008
其中,I表示单位矩阵;
24)用UI和UT将图像和文本的原始特征映射到类别空间(category space)中,如式3所示。
I=XIUI T=XTUT             (式3)
其中,
Figure PCTCN2016089624-appb-000009
分别表示映射后的图像和文本的同构的特征矩阵。
进行同种媒体数据内和异种媒体数据间的关联挖掘,如图2下半部分所示,具体包括如下步骤41-46:
41)同种媒体数据内的关联挖掘目的是在每种类型的媒体内部挖掘语义类别信息。从上述耦合特征映射步骤中得到的待测样本特征点设为
Figure PCTCN2016089624-appb-000010
(或
Figure PCTCN2016089624-appb-000011
),用KNN(K Nearest Neighbors)的方法在同种媒体类型的训练样本中找到k个最近邻。
42)待测图像查询Ii属于类别c的概率定义为式4:
Figure PCTCN2016089624-appb-000012
其中,Ik∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的图像Ik。Lk=c表示图像Ik的类别标签等于c。σ(z)=(1+exp(-z))-1是sigmoid函数。sim(Ii,Ik)表示两个数据点间的度量方法。
43)由于不同媒体数据间的异构特征已经在耦合特征映射步骤中映射到同一类别空间,因此我们可以直接衡量跨媒体类型数据间的相似性。对于同样的待测图像查询Ii,式4可变为式5:
Figure PCTCN2016089624-appb-000013
式5中,Tk∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的文本Tk。Lk=c表示文本Tk的类别标签等于c。
44)对于m个待测图像查询,将式(4)(5)写成类别概率矩阵的形式:
Figure PCTCN2016089624-appb-000014
Figure PCTCN2016089624-appb-000015
相似地,对于m个待测文本查询,可以给出
Figure PCTCN2016089624-appb-000016
Figure PCTCN2016089624-appb-000017
的定义。
45)同种媒体数据内的关联和不同媒体数据间的关联都很重要,他们的融合能相互补充,共同提升检索水平。对于图像检索文本(Img2Text)和文本检索图像(Text2Img),类别相似度矩阵
Figure PCTCN2016089624-appb-000018
可分别计算如下:
Figure PCTCN2016089624-appb-000019
其中t1,t2是根据实验结果得出的经验权重。
46)同种媒体数据内和不同媒体数据间关联挖掘过程可以形象地用图2表示。将
Figure PCTCN2016089624-appb-000020
Figure PCTCN2016089624-appb-000021
按照降序排序;利用SI,ST的降序排列计算得到检索结果,其中SI(i,j)的值越大,表示第i个图像和第j个文本的相似度越大。
最后,计算MAP值(Mean Average Precision),用于对检索结果进行衡量。
在上述步骤中,式4、式5中KNN中的K值根据经验设为80,权重t1、t2由不同数据集的性能曲线决定,如图8、图9给出了Wikipedia数据集的t1性能曲线,选择合适的t1使得MAP值达到最优。上述式2中参数λ的选取过程为:令λ=[10,1,0.1,0.01,0.001...]等不同取值进行交叉验证,最终对Wikipedia数据集选择λ=0.1,对Pascal Voc数据集选择λ=1。
下面的实验结果表明,与现有的文献相比,本方法在图像检索文本(Img2Text)和文本检索图像(Text2Img)两个任务中,都取得了较优的结果。用于对比的方法分别是以下参考文献记载的方法,包括:
CCA[1]:Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]//International Conference on Multimedia.ACM,2010:251-260.
LCFS[2]:Wang K,He R,Wang W,et al.Learning Coupled Feature Spaces for Cross-Modal Matching[C]//IEEE International Conference on Computer Vision. 2013:2088-2095.
CDLFA[3]:Xu X,Shimada A,Rin-ichiro Taniguchi,et al.Coupled dictionary learning and feature mapping for cross-modal retrieval[C]//ICME.2015:1-6.
HSNN[4]:Xiaohua Zhai,Yuxin Peng,Jianguo Xiao.Effective Heterogeneous Similarity Measure with Nearest Neighbors for Cross-Media Retrieval[C]//International Conference on Advances in Multimedia Modeling.Springer-Verlag,2012:312-322.
本发明实施例中使用的第一个数据集是Wikipedia数据集,共包括2866对图像及其文本,训练数据个数为2173,测试数据个数为693,文本特征为10维的LDA(Latent Dirichlet Allocation)特征,图像特征为128维的SIFT特征。式4、式5中的相似性度量方法包括Chi-square distance(Chi),Normalized Correlation(NC),Centered Correlation(CC)以及Histogram Intersection(HI)。表1表示了在Wikipedia数据集上的MAP值。
表1 Wikipedia数据集的MAP值
Figure PCTCN2016089624-appb-000022
Proposed(Coupled)表示本发明除去第二部分关联挖掘的结果。从表1可以看出,当采用HI度量方法时,本发明的检索结果达到最佳,对图像检索文本的MAP值为0.3249,对文本检索图像的MAP值为0.2374。图3、图4分别表示Wikipedia数据集上图像检索文本和文本检索图像的Precision-Recall曲线。从图3可以看出,对于图像检索文本,在不同的召回率下,本发明几乎都能达到最高的准确度;从图4可以看出,对于文本检索图像,在召回率较低的 情况下的准确度不如[3],但其他情况都更优。图7、图8分别给出了图像检索文本和文本检索图像的t1性能曲线,t1=1意味着只存在同种类型媒体内的关联,t1=0意味着只存在不同种类型媒体间的关联。当t1=0.99时,图像检索文本的MAP值达到最大;对于文本检索图像,随着t1的增大,MAP值先增大,然后在一个相对较大的区间内保持最优结果,最后降低。这说明衡量不同类型媒体间的关联有助于提升文本检索图像的效果,而文本检索图像效果的提升在跨媒体检索领域是一个较难解决问题,可见本发明的有效性。图10给出了在Wikipedia数据集下文本检索图像的两个例子。图中第一列表示一个文本查询请求,第二列表示与之对应的正确的图像结果,第三到七列表示本发明检索出的前五个结果。
本发明使用的第二个数据集是Pascal Voc数据集。该数据集是以“图像-标签”的形式表示,包括5011个训练样本对和4952个测试样本对,被分为20个不同的类别。图像特征是512维的Gist特征,文本标签是399维的词频特征。由于一些图片具有多个类别,我们选择每幅图片只含有一个物体(object)的图像标签对进行训练和测试。筛选后的训练样本对有2808,测试样本对有2841。与Wikipedia数据集相比,Pascal Voc数据集有更高维的特征,并且它的文本特征较为稀疏,因此对不同方法所呈现的结果则完全不同。表2表示了在Pascal Voc数据集上的MAP值。
表2 Pascal Voc数据集的MAP值
Figure PCTCN2016089624-appb-000023
从表2看出,Proposed(CC)在图像检索文本任务中取得最优的MAP值,为0.4266;Proposed(HI)在文本检索图像任务中取得最好结果,其MAP值为0.3302。图5、图6分别表示在Pascal Voc数据集上图像检索文本和文本检索图像的Precision-Recall曲线,可以看出,与其他方 法相比,本发明整体性能较好。两个不同的数据集的结果说明,本发明的适用性较广,可以用在多种跨媒体检索场景中。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

  1. 一种跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索,包括如下步骤:
    1)建立多媒体数据集,多媒体数据集包括两种媒体的样本集,分别为包含图像的样本集和包含文本的样本集;所述两种媒体样本集均分为训练样本和测试样本,由此得到图像训练样本、图像测试样本、文本训练样本和文本测试样本;
    2)对样本集中的所有样本进行耦合特征映射,使得异构的原始图像特征和原始文本特征映射到同构的空间中,在映射的过程中保留语义类别信息;
    3)通过耦合特征映射得到两个特征映射矩阵,原始图像特征和原始文本特征分别通过所对应的特征映射矩阵进行映射,得到待检索图像样本特征点或待检索文本样本特征点;
    4)进行同种媒体类型内的关联挖掘:对于经过耦合特征映射后得到的待检索图像或待检索文本,在图像训练样本或文本训练样本中找到与所述待检索图像或待检索文本相近的前k个图像或文本,根据k个图像或文本的类别得到待检索图像或待检索文本的类别概率矩阵;
    5)进行异种媒体类型间的关联挖掘:对于经过耦合特征映射后得到的待检索图像或待检索文本,在文本训练样本或图像训练样本中找到与所述待检索图像或待检索文本相近的前k个文本或图像,根据k个文本或图像的类别得到待检索图像或待检索文本的类别概率矩阵;
    6)通过对步骤4)和步骤5)中通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权,分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵;将相似度降序排列进行检索。
  2. 如权利要求1所述跨媒体数据检索方法,其特征是,通过计算获得平均准确度的取值来衡量检索的准确度。
  3. 如权利要求1所述跨媒体数据检索方法,其特征是,所述进行耦合特征映射包括如下步骤:
    21)将多媒体数据集定义为D={D1,D2,...,Dn},其中
    Figure PCTCN2016089624-appb-100001
    表示图像和文本这两种模态的原始特征,n表示样本的个数;对于图像
    Figure PCTCN2016089624-appb-100002
    其中dI表示 图像原始特征的维度;对于文本
    Figure PCTCN2016089624-appb-100003
    其中dT表示文本原始特征的维度;
    Figure PCTCN2016089624-appb-100004
    是类别标签矩阵,其中c为类别的数目;
    22)采用岭回归的方法,通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵
    Figure PCTCN2016089624-appb-100005
    Figure PCTCN2016089624-appb-100006
    即解式1的最小化问题:
    Figure PCTCN2016089624-appb-100007
    其中,参数λ为正则项参数,通过交叉验证选取;
    Figure PCTCN2016089624-appb-100008
    表示二范数;
    23)将式1中UI和UT的解表示为式2:
    Figure PCTCN2016089624-appb-100009
    式2中,I表示单位矩阵;
    24)用UI和UT将图像和文本的原始特征映射到类别空间中,表示为式3:
    I=XIUI T=XTUT   (式3)
    其中,
    Figure PCTCN2016089624-appb-100010
    分别表示映射后的图像和文本的同构的特征矩阵。
  4. 如权利要求3所述跨媒体数据检索方法,其特征是,所述正则项参数λ通过交叉验证选取过程为:令λ=[10,1,0.1,0.01,0.001...]进行交叉验证得到。
  5. 如权利要求3所述跨媒体数据检索方法,其特征是,所述正则项参数λ的取值具体是:针对Wikipedia数据集,λ=0.1;针对Pascal Voc数据集,λ=1。
  6. 如权利要求1所述跨媒体数据检索方法,其特征是,所述进行同种媒体数据内和异种媒体数据间的关联挖掘,具体包括如下步骤:
    41)将同种媒体数据内的关联挖掘通过耦合特征映射得到的待测样本特征点设为
    Figure PCTCN2016089624-appb-100011
    Figure PCTCN2016089624-appb-100012
    用KNN方法在同种媒体类型的训练样本中找到k个最近邻,实现在每种类型的媒体内部挖掘语义类别信息;
    42)将待测图像查询Ii属于类别c的概率定义为式4:
    Figure PCTCN2016089624-appb-100013
    式4中,Ik∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的图像Ik;Lk=c表示图像Ik的类别标签等于c;σ(z)=(1+exp(-z))-1是sigmoid函数;sim(Ii,Ik)表示两个数据点间的度量方法;
    43)所述耦合特征映射将不同媒体数据间的异构特征映射到同一类别空间,通过以下方法衡量跨媒体类型数据间的相似性:对于同样的待测图像查询Ii,将式4变为式5:
    Figure PCTCN2016089624-appb-100014
    式5中,Tk∈KNN(Ii)表示对待测图像查询Ii,在训练数据集中检索k个最近邻的文本Tk;Lk=c表示文本Tk的类别标签等于c;
    45)对于m个待测图像查询,将式4和式5写成式6类别概率矩阵的形式:
    Figure PCTCN2016089624-appb-100015
    其中,
    Figure PCTCN2016089624-appb-100016
    相似地,对于m个待测文本查询,给出
    Figure PCTCN2016089624-appb-100017
    Figure PCTCN2016089624-appb-100018
    的定义;
    45)对于跨媒体的图像检索文本(Img2Text)和文本检索图像(Text2Img),各自的类别相似度矩阵
    Figure PCTCN2016089624-appb-100019
    可分别通过式7进行计算:
    Figure PCTCN2016089624-appb-100020
    其中,t1、t2是根据实验结果得出的经验权重;
    46)将
    Figure PCTCN2016089624-appb-100021
    按照降序排序;利用SI,ST的降序排列计算得到检索结果, 其中SI(i,j)的值越大,表示第i个图像和第j个文本的相似度越大。
  7. 如权利要求6所述跨媒体数据检索方法,其特征是,所述式4和式5中采用KNN方法找到k个最近邻,所述k取值为80。
PCT/CN2016/089624 2016-06-06 2016-07-11 一种跨媒体检索方法 WO2017210949A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610398342.2 2016-06-06
CN201610398342.2A CN106095893B (zh) 2016-06-06 2016-06-06 一种跨媒体检索方法

Publications (1)

Publication Number Publication Date
WO2017210949A1 true WO2017210949A1 (zh) 2017-12-14

Family

ID=57227344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/089624 WO2017210949A1 (zh) 2016-06-06 2016-07-11 一种跨媒体检索方法

Country Status (2)

Country Link
CN (1) CN106095893B (zh)
WO (1) WO2017210949A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110399528A (zh) * 2019-08-05 2019-11-01 北京深醒科技有限公司 一种自动跨特征推理式目标检索方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110929733A (zh) * 2019-12-09 2020-03-27 上海眼控科技股份有限公司 除噪方法、装置、计算机设备、存储介质及模型训练方法
CN111324752A (zh) * 2020-02-20 2020-06-23 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111651577A (zh) * 2020-06-01 2020-09-11 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN111708745A (zh) * 2020-06-18 2020-09-25 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN112200239A (zh) * 2020-09-30 2021-01-08 上海海事大学 一种基于希尔伯特-施密特独立性和度量学习的零样本学习方法
CN112732889A (zh) * 2020-12-07 2021-04-30 东南大学 一种基于合作网络的学者检索方法和装置
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN114781642A (zh) * 2022-06-17 2022-07-22 之江实验室 一种跨媒体对应知识的生成方法和装置
CN115392365A (zh) * 2022-08-18 2022-11-25 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116431788A (zh) * 2023-04-14 2023-07-14 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
WO2023240583A1 (zh) * 2022-06-17 2023-12-21 之江实验室 一种跨媒体对应知识的生成方法和装置
CN117556276A (zh) * 2024-01-11 2024-02-13 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399414B (zh) 2017-02-08 2021-06-01 南京航空航天大学 应用于跨模态数据检索领域的样本选择方法及装置
CN107688653B (zh) * 2017-09-01 2020-12-01 武汉倚天剑科技有限公司 基于网络浅层数据的用户行为数据挖掘系统及其方法
CN107657008B (zh) * 2017-09-25 2020-11-03 中国科学院计算技术研究所 基于深度判别排序学习的跨媒体训练及检索方法
CN108319686B (zh) * 2018-02-01 2021-07-30 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111461203A (zh) 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111651660B (zh) * 2020-05-28 2023-05-02 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
CN112861944B (zh) * 2021-01-28 2022-09-23 中山大学 一种基于混合模态输入的图像检索方法及装置
CN113239237B (zh) * 2021-07-13 2021-11-30 北京邮电大学 跨媒体大数据搜索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN103995903A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于同构子空间映射和优化的跨媒体检索方法
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966327B2 (en) * 2004-11-08 2011-06-21 The Trustees Of Princeton University Similarity search system with compact data structures
CN100422999C (zh) * 2006-09-14 2008-10-01 浙江大学 基于内容相关性的跨媒体检索方法
CN104317838B (zh) * 2014-10-10 2017-05-17 浙江大学 一种基于耦合鉴别性字典的跨媒体哈希索引方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143109A2 (en) * 2006-06-02 2007-12-13 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN103995903A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于同构子空间映射和优化的跨媒体检索方法
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109783655B (zh) * 2018-12-07 2022-12-30 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109871454A (zh) * 2019-01-31 2019-06-11 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN109871454B (zh) * 2019-01-31 2023-08-29 鲁东大学 一种鲁棒离散监督跨媒体哈希检索方法
CN110399528B (zh) * 2019-08-05 2023-11-07 北京深醒科技有限公司 一种自动跨特征推理式目标检索方法
CN110399528A (zh) * 2019-08-05 2019-11-01 北京深醒科技有限公司 一种自动跨特征推理式目标检索方法
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110929733A (zh) * 2019-12-09 2020-03-27 上海眼控科技股份有限公司 除噪方法、装置、计算机设备、存储介质及模型训练方法
CN111324752A (zh) * 2020-02-20 2020-06-23 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111324752B (zh) * 2020-02-20 2023-06-16 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN111680173B (zh) * 2020-05-31 2024-02-23 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN111651577A (zh) * 2020-06-01 2020-09-11 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111651577B (zh) * 2020-06-01 2023-04-21 全球能源互联网研究院有限公司 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111708745B (zh) * 2020-06-18 2023-04-21 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111708745A (zh) * 2020-06-18 2020-09-25 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN111914156B (zh) * 2020-08-14 2023-01-20 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
CN112182273B (zh) * 2020-09-25 2024-03-01 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN112200239A (zh) * 2020-09-30 2021-01-08 上海海事大学 一种基于希尔伯特-施密特独立性和度量学习的零样本学习方法
CN112732889A (zh) * 2020-12-07 2021-04-30 东南大学 一种基于合作网络的学者检索方法和装置
CN113672783A (zh) * 2021-08-11 2021-11-19 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法
CN113672783B (zh) * 2021-08-11 2023-07-11 北京达佳互联信息技术有限公司 特征处理方法、模型训练方法及媒体资源处理方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114781642B (zh) * 2022-06-17 2022-09-23 之江实验室 一种跨媒体对应知识的生成方法和装置
CN114781642A (zh) * 2022-06-17 2022-07-22 之江实验室 一种跨媒体对应知识的生成方法和装置
WO2023240583A1 (zh) * 2022-06-17 2023-12-21 之江实验室 一种跨媒体对应知识的生成方法和装置
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN114780690B (zh) * 2022-06-20 2022-09-09 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115392365A (zh) * 2022-08-18 2022-11-25 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN115392365B (zh) * 2022-08-18 2024-04-26 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116431788A (zh) * 2023-04-14 2023-07-14 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN116431788B (zh) * 2023-04-14 2024-03-29 中电科大数据研究院有限公司 面向跨模态数据的语义检索方法
CN117556276A (zh) * 2024-01-11 2024-02-13 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置
CN117556276B (zh) * 2024-01-11 2024-05-10 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置

Also Published As

Publication number Publication date
CN106095893B (zh) 2018-11-20
CN106095893A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
WO2017210949A1 (zh) 一种跨媒体检索方法
Yu et al. Deep multimodal distance metric learning using click constraints for image ranking
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
CN105760507B (zh) 基于深度学习的跨模态主题相关性建模方法
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Liu et al. Robust and scalable graph-based semisupervised learning
Wang et al. Multimodal graph-based reranking for web image search
Ji et al. Cross-modality microblog sentiment prediction via bi-layer multimodal hypergraph learning
Jiao et al. SAR images retrieval based on semantic classification and region-based similarity measure for earth observation
Yang et al. A multimedia retrieval framework based on semi-supervised ranking and relevance feedback
Zhang et al. Unsupervised and semi-supervised image classification with weak semantic consistency
Cai et al. An attribute-assisted reranking model for web image search
Wang et al. Facilitating image search with a scalable and compact semantic mapping
Zhan et al. Comprehensive distance-preserving autoencoders for cross-modal retrieval
Zhou et al. Image retrieval based on effective feature extraction and diffusion process
Zhang et al. Adaptively Unified Semi-supervised Learning for Cross-Modal Retrieval.
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
Lu et al. Contextual kernel and spectral methods for learning the semantics of images
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
Mithun et al. Construction of diverse image datasets from web collections with limited labeling
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Zhang et al. A mixed generative-discriminative based hashing method
Lu et al. Mining latent attributes from click-through logs for image recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16904400

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16904400

Country of ref document: EP

Kind code of ref document: A1