WO2017210949A1

WO2017210949A1 - 一种跨媒体检索方法

Info

Publication number: WO2017210949A1
Application number: PCT/CN2016/089624
Authority: WO
Inventors: 王文敏; 范梦迪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: 北京大学深圳研究生院
Priority date: 2016-06-06
Filing date: 2016-07-11
Publication date: 2017-12-14
Also published as: CN106095893B; CN106095893A

Abstract

本发明公布了一种跨媒体数据检索方法，通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索，包括：建立多媒体数据集、对样本集中的所有样本进行耦合特征映射、进行同种媒体类型内的关联挖掘、进行异种媒体类型间的关联挖掘、通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权，分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵、将相似度降序排列进行检索。本发明提供的技术方案整体性能较好、适用性较广，可以用在多种跨媒体检索场景中。

Description

一种跨媒体检索方法

技术领域

本发明涉及模式识别和多媒体检索技术领域，具体涉及一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法。

背景技术

自20世纪90年代以来，人类迈入信息社会，随着Web 2.0技术的兴起以及互联网的广泛使用，丰富的多媒体数据，如文本、图像、音频、视频等呈现爆炸性地增长。传统的基于内容的单一媒体的检索不能适应越来越多样化的用户需求，比如在电子商务的应用场景中，用户通过提交一幅“裙子”的照片，希望能找到相关的文字描述或评价；或通过提交一些查询语句来找到最匹配的“裙子”照片。因此跨媒体检索技术应运而生，并迅速成为多媒体研究领域的前沿热点。具体而言，就是通过仅提供多媒体中的某一类型的媒体，就可以得到其他媒体类型的相关检索结果，实现不同类型媒体数据之间的灵活跨越和综合检索。针对图像和文本两类媒体数据的跨媒体检索包括两类任务：1)对于一个图像查询请求，检索出与其语义相近的文本结果(简称Img2Text)；2)对于一个文本查询请求，检索出与其语义相近的图像结果(简称Text2Img)。

现有的跨媒体检索方法主要分为以下几类：第一，基于子空间映射的方法。将不同模态的多媒体数据映射到同一子空间，然后在这个学习到的子空间里进行相似性度量。文献“A new approach to cross-modal multimedia retrieval”中利用典型相关性分析(简称CCA)学习图像和文本的最大关联同构子空间。第二，基于语义映射的方法。有学者提出将文本和图像进行高层抽象的假设，数据间的关联信息首先通过CCA进行学习，然后使用多类的逻辑回归分类器计算后验概率分布，从而将异构特征表示为相同维度的同构语义向量。第三，基于关联图的方法。有学者将包含多种模态数据的多媒体文档(Multimedia Document，简称MMD)定义成形式为<DocumentID、URL、KeywordLis、ElementSet、LinkSet>的五元组，采用无向图G＝(V,E)描述对象之间的语义相关性，由链接分析算法计算其权值。第四，非线性流行学习的方法。通过双层流形学习结构对多媒体文档中不同模态的对象进行降维处理。可以对每种模态的媒体构造拉普拉斯空间，学习多媒体文档的语义关联从而构造数据邻接图。第五，稀疏特征分析方法。Zhai等人提出了一种基于统一稀疏表示的跨媒体检索方法。首先提取不同媒体类型的特征向量，然后对统一稀疏表示的特征矩阵进行映射，通过计算两个数据属于同一类别的概率来衡量跨媒体相似度水平。第六，构建跨媒体排序模型。Yang等人提出一种对参数不敏感的基于局部回归和全局校正的(简称LGRA)的学习算法，可以学习出拉普拉斯矩阵用于排序。Lu等人提出LSCMR的跨媒体排序方法。LSCMR基于最大化排序间隔的思想来学习得到两个不同的线性映射函数，通过两个映射函数将两种模态的数据分别映射到同一个低维隐特征空间，从而能够对最终的排序结果进行优化来提高排序性能。第七，利用深度学习进行跨媒体的检索。目前，利用深度学习解决人工智能的复杂问题成为一种新的研究趋势，一些代表性的模型，如深度自动编码器(Deep Autoencoder)、深信度网络(Deep Belief Network)、深度波尔兹曼机(Deep Boltzmann Machine)以及相应的学习算法被提出。近两年，有学者将这些技术扩展用于多模态数据的建模，并实现了较优的结果。

由于不同媒体特征之间的异构性和不可比性，跨媒体检索难以解决的第一个问题是如何学习一个针对不同媒体数据的同构的、统一的表示空间。由于特征表示和人类理解之间存在较大的语义鸿沟，跨媒体检索难以解决的第二个问题是如何衡量不同模态特征之间的语义相似性。

发明内容

为了克服上述现有技术的不足，本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘，得到图像和文本之间的相似度，进行跨媒体检索；本发明的适用性较广，可以用在多种跨媒体检索场景中。

本发明提供的技术方案是：

一种跨媒体检索方法，通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘，得到图像和文本之间的相似度，进行跨媒体检索；包括如下步骤：

1)建立包含图像和文本两种媒体的样本集，分为训练样本和测试样本。

图像和文本两种媒体的样本集，两种分别都有训练样本和测试样本。

2)对样本集中的所有样本进行耦合特征映射，目的是将异构的图像和文本特征映射到同构的空间中，在映射的过程中应保留语义类别等语义信息。

3)耦合特征映射采用岭回归的方法得到两个映射矩阵，原始图像特征和文本特征分别通过所对应的特征映射矩阵进行映射。

4)对于经过特征映射后的待检索图像(或文本)，在训练图像(或文本)样本中找到与其相近的前k个图像(文本)，根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵，这个过程称作同种媒体类型内的关联挖掘。

5)对于经过特征映射后的待检索图像(文本)，在训练文本(图像)样本中找到与其相近的前k个文本(图像)，根据k个文本(图像)的类别得到待检索图像(文本)的类别概率矩阵，这个过程称作异种媒体类型间的关联挖掘。

6)通过对4、5中的两种关联挖掘方法加权，最后分别得到图像检索文本和文本检索图像的类别相似度矩阵，将相似度降序排列，进行检索并计算平均准确度(Mean Average Precision，MAP)值。

当输入为一个图像时，根据本发明方法，针对所有文本，每一文本都得到一个类别相似度，根据类别相似度的降序排列，将最相似的文本排最前，返回了与输入图像语义相关的文本检索结果；当输入多幅图像时，每个图像对每个文本都相应得到一个类别相似度，所有类别相似度形成类别相似度矩阵，作为与输入的多幅图像语义相关的文本检索结果。

与现有技术相比，本发明的有益效果是：

本发明提供一种面向图像及文本数据的、基于耦合特征映射和关联挖掘的跨媒体数据检索方法,通过基于耦合的特征映射、同种媒体内的关联挖掘和不同媒体间的关联挖掘，得到图像和文本之间的相似度，进行跨媒体检索；本发明的适用性较广，可以用在多种跨媒体检索场景中。本发明整体性能较好，本发明在图像检索文本(Img2Text)和文本检索图像(Text2Img)的准确度上都有较大提升。本发明实施例采用两个不同的数据集进行检索的结果说明，本发明的适用性较广，可以用在多种跨媒体检索场景中。

附图说明

图1是本发明提供方法的流程框图。

图2是本发明提供方法的总体框架和工作原理示意图；

其中，图左上部分椭圆区域内表示图像空间，右上部分爆炸型区域内表示文本空间，空心圆形和空心三角形分别表示训练图像特征和文本特征，实心圆形和实心三角形分别表示测试图像特征和文本特征，两个箭头指向的是耦合特征映射的过程，通过利用岭回归学习得到的映射矩阵UI、UT将训练和测试的异构特征映射到同构的类别空间中，长方形区域内部表示的即为同构的类别空间，在该空间中进一步完成关联挖掘的过程。

图3是本发明方法中同构特征关联和异构特征关联的效果说明图；

其中，图中黑色实心圆圈和黑色实心三角分别代表图像查询请求和文本查询请求。黑色竖线、黑色网格、黑色密点表示三个类别。图(a)表示找到同种媒体类型的最近的5个样本，这5个样本分别属于三个语义类别。图(b)表示找到不同媒体类型的最近的5个样本。对于图像查询请求的类别相似度矩阵可表示为：S_I＝t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]^Τ+t2·[0.4,0.2,0.4]·[0.2,0.4,0.4]^Τ。对于文本查询请求的类别相似度矩阵可表示为：S_T＝t1·[0.2,0.4,0.4]·[0.2,0.4,0.4]^Τ+t2·[0.2,0.4,0.4]·[0.4,0.2,0.4]^Τ。

图4是本发明实施例中针对Wikipedia数据集上图像检索文本的准确率-召回率(P-R)曲线。

图5是本发明实施例中针对Wikipedia数据集上文本检索图像的准确率-召回率(P-R)曲线。

图6是本发明实施例中针对Pascal Voc数据集上图像检索文本的准确率-召回率(P-R)曲线。

图7是本发明实施例中针对Pascal Voc数据集上文本检索图像的准确率-召回率(P-R)曲线。

图8是本发明实施例中针对Wikipedia数据集上图像检索文本的t1性能曲线。

图9是本发明实施例中针对Wikipedia数据集上文本检索图像的t1性能曲线。

图10是本发明实施例中针对文本检索图像的两个实例；

其中，(a)、(b)分别为在Wikipedia数据集下针对文本检索图像的实例；

其中，图(a)、(b)中的第一列表示一个文本查询请求，第二列表示与该文本查询请求对应的正确的图像结果，第三到七列表示采用本发明方法检索得到的前五个检索结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

1)建立包含图像和文本两种媒体的样本集，分为训练样本和测试样本。图像和文本两种媒体的样本集，两种分别都有训练样本和测试样本。

2)对样本集中的所有样本进行耦合特征映射，目的是将异构的图像和文本特征映射到同构的空间中，在映射的过程中应保留类别等语义信息。

4)对于经过特征映射后的待检索图像(文本)，在训练图像(文本)样本中找到与其相近的前k个图像(文本)，根据k个图像(文本)的类别得到待检索图像(文本)的类别概率矩阵，这个过程称作同种媒体类型内的关联挖掘。

6)通过对4、5中的两种关联挖掘方法加权，最后分别得到图像检索文本和文本检索图像的类别相似度矩阵，将相似度降序排列，进行检索并计算准确度MAP值。

图1是本发明提供方法的流程框图，本发明方法包括耦合特征映射以及同种媒体数据内和异种媒体数据间的关联挖掘。首先进行耦合特征映射，目的是将不同模态的异构特征映射到同构的语义类别空间中，如图2上半部分的耦合特征映射过程所示；然后进行同种媒体数据内和异种媒体数据间的关联挖掘，如图2下半部分所示。耦合特征映射具体包括如下步骤21-24；关联挖掘具体包括如下步骤41-46。

21)将多媒体数据集定义为D＝{D₁,D₂,...,D_n}，其中

表示图像和文本这两种模态的原始特征，n表示样本的个数。对于图像

对于文本

d^I表示图像原始特征的维度，d^T表示文本原始特征的维度。

是类别标签矩阵，c为类别的数目。

22)采用岭回归的方法，通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵

即解式1的最小化问题。

其中，λ为正则项参数，通过交叉验证选取；

表示二范数；

23)式(1)中U_I和U_T的解如式2所示。

其中，I表示单位矩阵；

24)用U_I和U_T将图像和文本的原始特征映射到类别空间(category space)中，如式3所示。

I＝X_IU_I T＝X_TU_T (式3)

其中，

分别表示映射后的图像和文本的同构的特征矩阵。

进行同种媒体数据内和异种媒体数据间的关联挖掘，如图2下半部分所示，具体包括如下步骤41-46：

41)同种媒体数据内的关联挖掘目的是在每种类型的媒体内部挖掘语义类别信息。从上述耦合特征映射步骤中得到的待测样本特征点设为

(或

)，用KNN(K Nearest Neighbors)的方法在同种媒体类型的训练样本中找到k个最近邻。

42)待测图像查询I_i属于类别c的概率定义为式4：

其中，I_k∈KNN(I_i)表示对待测图像查询I_i，在训练数据集中检索k个最近邻的图像I_k。L_k＝c表示图像I_k的类别标签等于c。σ(z)＝(1+exp(-z))^-1是sigmoid函数。sim(I_i,I_k)表示两个数据点间的度量方法。

43)由于不同媒体数据间的异构特征已经在耦合特征映射步骤中映射到同一类别空间，因此我们可以直接衡量跨媒体类型数据间的相似性。对于同样的待测图像查询I_i，式4可变为式5：

式5中，T_k∈KNN(I_i)表示对待测图像查询I_i，在训练数据集中检索k个最近邻的文本T_k。L_k＝c表示文本T_k的类别标签等于c。

44)对于m个待测图像查询，将式(4)(5)写成类别概率矩阵的形式：

相似地，对于m个待测文本查询，可以给出

及

的定义。

45)同种媒体数据内的关联和不同媒体数据间的关联都很重要，他们的融合能相互补充，共同提升检索水平。对于图像检索文本(Img2Text)和文本检索图像(Text2Img),类别相似度矩阵

可分别计算如下：

其中t1，t2是根据实验结果得出的经验权重。

46)同种媒体数据内和不同媒体数据间关联挖掘过程可以形象地用图2表示。将

按照降序排序；利用S_I，S_T的降序排列计算得到检索结果，其中S_I(i,j)的值越大，表示第i个图像和第j个文本的相似度越大。

最后，计算MAP值(Mean Average Precision)，用于对检索结果进行衡量。

在上述步骤中，式4、式5中KNN中的K值根据经验设为80，权重t1、t2由不同数据集的性能曲线决定，如图8、图9给出了Wikipedia数据集的t1性能曲线，选择合适的t1使得MAP值达到最优。上述式2中参数λ的选取过程为：令λ＝[10,1,0.1,0.01,0.001...]等不同取值进行交叉验证，最终对Wikipedia数据集选择λ＝0.1，对Pascal Voc数据集选择λ＝1。

下面的实验结果表明，与现有的文献相比，本方法在图像检索文本(Img2Text)和文本检索图像(Text2Img)两个任务中，都取得了较优的结果。用于对比的方法分别是以下参考文献记载的方法，包括：

CCA[1]：Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]//International Conference on Multimedia.ACM,2010:251-260.

LCFS[2]：Wang K,He R,Wang W,et al.Learning Coupled Feature Spaces for Cross-Modal Matching[C]//IEEE International Conference on Computer Vision. 2013:2088-2095.

CDLFA[3]:Xu X,Shimada A,Rin-ichiro Taniguchi,et al.Coupled dictionary learning and feature mapping for cross-modal retrieval[C]//ICME.2015:1-6.

HSNN[4]:Xiaohua Zhai,Yuxin Peng,Jianguo Xiao.Effective Heterogeneous Similarity Measure with Nearest Neighbors for Cross-Media Retrieval[C]//International Conference on Advances in Multimedia Modeling.Springer-Verlag,2012:312-322.

本发明实施例中使用的第一个数据集是Wikipedia数据集，共包括2866对图像及其文本，训练数据个数为2173，测试数据个数为693，文本特征为10维的LDA(Latent Dirichlet Allocation)特征,图像特征为128维的SIFT特征。式4、式5中的相似性度量方法包括Chi-square distance(Chi),Normalized Correlation(NC),Centered Correlation(CC)以及Histogram Intersection(HI)。表1表示了在Wikipedia数据集上的MAP值。

表1 Wikipedia数据集的MAP值

Proposed(Coupled)表示本发明除去第二部分关联挖掘的结果。从表1可以看出，当采用HI度量方法时，本发明的检索结果达到最佳，对图像检索文本的MAP值为0.3249，对文本检索图像的MAP值为0.2374。图3、图4分别表示Wikipedia数据集上图像检索文本和文本检索图像的Precision-Recall曲线。从图3可以看出，对于图像检索文本，在不同的召回率下，本发明几乎都能达到最高的准确度；从图4可以看出，对于文本检索图像，在召回率较低的情况下的准确度不如[3]，但其他情况都更优。图7、图8分别给出了图像检索文本和文本检索图像的t1性能曲线，t1＝1意味着只存在同种类型媒体内的关联，t1＝0意味着只存在不同种类型媒体间的关联。当t1＝0.99时，图像检索文本的MAP值达到最大；对于文本检索图像，随着t1的增大，MAP值先增大，然后在一个相对较大的区间内保持最优结果，最后降低。这说明衡量不同类型媒体间的关联有助于提升文本检索图像的效果，而文本检索图像效果的提升在跨媒体检索领域是一个较难解决问题，可见本发明的有效性。图10给出了在Wikipedia数据集下文本检索图像的两个例子。图中第一列表示一个文本查询请求，第二列表示与之对应的正确的图像结果，第三到七列表示本发明检索出的前五个结果。

本发明使用的第二个数据集是Pascal Voc数据集。该数据集是以“图像-标签”的形式表示，包括5011个训练样本对和4952个测试样本对，被分为20个不同的类别。图像特征是512维的Gist特征，文本标签是399维的词频特征。由于一些图片具有多个类别，我们选择每幅图片只含有一个物体(object)的图像标签对进行训练和测试。筛选后的训练样本对有2808，测试样本对有2841。与Wikipedia数据集相比，Pascal Voc数据集有更高维的特征，并且它的文本特征较为稀疏，因此对不同方法所呈现的结果则完全不同。表2表示了在Pascal Voc数据集上的MAP值。

表2 Pascal Voc数据集的MAP值

从表2看出，Proposed(CC)在图像检索文本任务中取得最优的MAP值，为0.4266；Proposed(HI)在文本检索图像任务中取得最好结果，其MAP值为0.3302。图5、图6分别表示在Pascal Voc数据集上图像检索文本和文本检索图像的Precision-Recall曲线，可以看出，与其他方法相比，本发明整体性能较好。两个不同的数据集的结果说明，本发明的适用性较广，可以用在多种跨媒体检索场景中。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种跨媒体数据检索方法，通过基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘进行跨媒体检索，包括如下步骤：

1)建立多媒体数据集，多媒体数据集包括两种媒体的样本集，分别为包含图像的样本集和包含文本的样本集；所述两种媒体样本集均分为训练样本和测试样本，由此得到图像训练样本、图像测试样本、文本训练样本和文本测试样本；

2)对样本集中的所有样本进行耦合特征映射，使得异构的原始图像特征和原始文本特征映射到同构的空间中，在映射的过程中保留语义类别信息；

3)通过耦合特征映射得到两个特征映射矩阵，原始图像特征和原始文本特征分别通过所对应的特征映射矩阵进行映射，得到待检索图像样本特征点或待检索文本样本特征点；

4)进行同种媒体类型内的关联挖掘：对于经过耦合特征映射后得到的待检索图像或待检索文本，在图像训练样本或文本训练样本中找到与所述待检索图像或待检索文本相近的前k个图像或文本，根据k个图像或文本的类别得到待检索图像或待检索文本的类别概率矩阵；

5)进行异种媒体类型间的关联挖掘：对于经过耦合特征映射后得到的待检索图像或待检索文本，在文本训练样本或图像训练样本中找到与所述待检索图像或待检索文本相近的前k个文本或图像，根据k个文本或图像的类别得到待检索图像或待检索文本的类别概率矩阵；

6)通过对步骤4)和步骤5)中通过两种关联挖掘方法得到待检索图像或待检索文本的类别概率矩阵进行加权，分别得到图像检索文本的类别相似度矩阵和文本检索图像的类别相似度矩阵；将相似度降序排列进行检索。
如权利要求1所述跨媒体数据检索方法，其特征是，通过计算获得平均准确度的取值来衡量检索的准确度。
如权利要求1所述跨媒体数据检索方法，其特征是，所述进行耦合特征映射包括如下步骤：

21)将多媒体数据集定义为D＝{D₁,D₂,...,D_n}，其中
表示图像和文本这两种模态的原始特征，n表示样本的个数；对于图像
其中d^I表示图像原始特征的维度；对于文本
其中d^T表示文本原始特征的维度；
是类别标签矩阵，其中c为类别的数目；

22)采用岭回归的方法，通过最小化映射后的每种模态的特征与类别标签的误差求解两个特征映射矩阵
和
即解式1的最小化问题：

其中，参数λ为正则项参数，通过交叉验证选取；
表示二范数；

23)将式1中U_I和U_T的解表示为式2：

式2中，I表示单位矩阵；

24)用U_I和U_T将图像和文本的原始特征映射到类别空间中，表示为式3：

I＝X_IU_I T＝X_TU_T (式3)

其中，
分别表示映射后的图像和文本的同构的特征矩阵。
如权利要求3所述跨媒体数据检索方法，其特征是，所述正则项参数λ通过交叉验证选取过程为：令λ＝[10,1,0.1,0.01,0.001...]进行交叉验证得到。
如权利要求3所述跨媒体数据检索方法，其特征是，所述正则项参数λ的取值具体是：针对Wikipedia数据集，λ＝0.1；针对Pascal Voc数据集，λ＝1。
如权利要求1所述跨媒体数据检索方法，其特征是，所述进行同种媒体数据内和异种媒体数据间的关联挖掘，具体包括如下步骤：

41)将同种媒体数据内的关联挖掘通过耦合特征映射得到的待测样本特征点设为
或
用KNN方法在同种媒体类型的训练样本中找到k个最近邻，实现在每种类型的媒体内部挖掘语义类别信息；

42)将待测图像查询I_i属于类别c的概率定义为式4：

式4中，I_k∈KNN(I_i)表示对待测图像查询I_i，在训练数据集中检索k个最近邻的图像I_k；L_k＝c表示图像I_k的类别标签等于c；σ(z)＝(1+exp(-z))^-1是sigmoid函数；sim(I_i,I_k)表示两个数据点间的度量方法；

43)所述耦合特征映射将不同媒体数据间的异构特征映射到同一类别空间，通过以下方法衡量跨媒体类型数据间的相似性：对于同样的待测图像查询I_i，将式4变为式5：

式5中，T_k∈KNN(I_i)表示对待测图像查询I_i，在训练数据集中检索k个最近邻的文本T_k；L_k＝c表示文本T_k的类别标签等于c；

45)对于m个待测图像查询，将式4和式5写成式6类别概率矩阵的形式：

其中，

相似地，对于m个待测文本查询，给出
及
的定义；

45)对于跨媒体的图像检索文本(Img2Text)和文本检索图像(Text2Img),各自的类别相似度矩阵
可分别通过式7进行计算：

其中，t1、t2是根据实验结果得出的经验权重；

46)将
按照降序排序；利用S_I，S_T的降序排列计算得到检索结果，其中S_I(i,j)的值越大，表示第i个图像和第j个文本的相似度越大。
如权利要求6所述跨媒体数据检索方法，其特征是，所述式4和式5中采用KNN方法找到k个最近邻，所述k取值为80。