WO2018188240A1

WO2018188240A1 - 一种基于深度语义空间的跨媒体检索方法

Info

Publication number: WO2018188240A1
Application number: PCT/CN2017/097621
Authority: WO
Inventors: 王文敏; 范梦迪; 董培磊; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: 北京大学深圳研究生院
Priority date: 2017-04-10
Filing date: 2017-08-16
Publication date: 2018-10-18
Also published as: US11397890B2; CN108694200B; CN108694200A; US20210256365A1

Abstract

一种基于深度语义空间的跨媒体检索方法，包括特征生成阶段和语义空间学习阶段；特征生成阶段通过模拟人对图像的感知过程，生成图像的CNN视觉特征向量和LSTM语言描述向量；利用LDA主题模型挖掘文本的主题信息，进而提取LDA文本主题向量。在语义空间学习阶段，分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络，利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间，从而实现跨媒体检索。能够显著提升跨媒体检索性能，具有广阔的应用前景和市场需求。

Description

一种基于深度语义空间的跨媒体检索方法

技术领域

本发明属于信息技术领域，涉及模式识别、多媒体检索技术，具体涉及一种基于深度语义空间的跨媒体检索方法。

背景技术

随着互联网的发展和使用，多媒体数据(如图像、文本、音频、视频)呈现爆发式增长，这些不同形式的数据通常共同出现来描述同一物体或场景。为了方便管理多样的多媒体内容，我们日益需要在不同媒体间实现灵活的检索方式。

近年来，跨媒体检索得到了广泛的关注。跨媒体检索目前所面临的挑战主要在于不同模态特征之间存在的异构性和不可比性。为解决这一难题，许多方法将异构的特征映射到同构的空间以跨越“语义鸿沟”。但是，现有方法忽略了底层视觉特征和高层用户概念间的“感知鸿沟”，即人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达，无法建立底层视觉特征和高层用户概念之间的关联；在所得的同构空间中，图像和文本的语义信息表达有所缺失。因此，现有方法在图像检索文本和文本检索图像中的正确率不高，跨媒体检索性能较低，难以满足应用需求。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于深度语义空间的跨媒体检索方法，通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息，通过特征生成过程和语义空间学习过程实现跨媒体检索，能够显著提升跨媒体检索的性能。

为方便起见，本发明约定如下术语定义：

CNN：Convolutional Neural Network，卷积神经网络；LSTM：Long Short Term Memory，长短时记忆网络；本发明在特征生成过程中提取相应位置的“CNN视觉特征向量”和“LSTM语言描述向量”；

LDA：Latent Dirichlet Allocation，隐含狄利克雷分布，是一个文档主题生成模型；

MSF-DNN：Multi-Sensory Fusion Deep Neural Network，本发明针对图像提出的多感知融合的深度神经网络；

TextNet：本发明提出的文本语义网络。

本发明的核心是：本发明提供的跨媒体检索方法包括特征生成过程和语义空间学习过程，考虑到人对一个物体的概念的感知往往综合他的视觉信息和语言信息统一进行表达，通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息，在特征生成阶段，通过模拟人对图像的感知过程，生成图像的CNN视觉特征向量和LSTM语言描述向量。利用LDA主题模型挖掘文本的主题信息，进而提取LDA文本主题向量。在语义空间学习阶段，分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络，利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间，从而实现跨媒体检索。

本发明提供的技术方案是：

一种基于深度语义空间的跨媒体检索方法，通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息，从而实现跨媒体检索；包括特征生成过程和语义空间学习过程，具体包括如下步骤：

1)获取训练数据、测试数据及数据类别；

本发明实施例由Wikipedia，Pascal Voc，Pascal Sentence三个数据集分别得到训练数据和测试数据，每个训练样本或测试样本均有一个类别，即一个样本对应一个类别标签。

2)特征生成过程，分别对图像和文本提取特征；

21)利用文献[1](O.Vinyals,A.Toshev,S.Bengio,and others.2016.Show and Tell:Lessons learned from the 2015MSCOCO Image Captioning Challenge.PAMI(2016))提出的卷积神经网络-长短时记忆网络(CNN-LSTM)架构，对训练及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”；

针对N幅训练图像,得到每幅图像的特征{CNN视觉特征向量，LSTM语言描述向量，真实标签值ground-truth label}，表示为

22)利用LDA模型提取训练和测试文本的“LDA文本主题向量”；

针对N个训练文本，提取得到每个样本的“LDA文本主题向量”表示为t。

3)语义空间学习过程包括图像的语义空间学习过程和文本的语义空间学习过程，分别将图

像和文本映射到一个共同的语义空间；

本发明分别对图像和文本进行语义空间学习。在具体实施时，对图像，本发明提出了一个四层的多感知融合的深度神经网络(Multi-Sensory Fusion Deep Neural Network，简称MSF-DNN)；对文本，本发明提出了一个三层的文本语义网络(TextNet)。通过MSF-DNN 和TextNet，将图像和文本映射到一个共同的语义空间。网络的连接方式与节点数目设置如图2所示。

31)构建MSF-DNN网络，进行语义空间学习；

32)构建TextNet网络，进行语义空间学习；

由此将测试图像和文本映射到同构的语义空间。

4)通过传统的相似度衡量方法实现跨媒体检索；

采用相似度衡量方法如余弦相似度，能容易地完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于深度语义空间的跨媒体检索方法，通过模拟人对图像的感知过程，生成图像的CNN视觉特征向量和LSTM语言描述向量。利用LDA主题模型挖掘文本的主题信息，进而提取LDA文本主题向量。在语义空间学习阶段，分别利用训练集图像训练得到一个四层的多感知融合的深度神经网络，利用训练集文本训练得到一个三层的文本语义网络。最后将测试图像和文本分别利用两个网络映射到同构的语义空间，从而实现跨媒体检索。

与现有方法相比，本发明跨越了底层视觉特征和高层用户概念间的“感知鸿沟”，为图像和文本的跨媒体检索构建出一个具有丰富语义信息的同构空间。本发明首次提出MSF-DNN和TextNet两个网络架构用于表达图像和文本的语义。实验表明，此方案能够显著提升跨媒体检索的正确率；在图像检索文本和文本检索图像任务中的正确率均有明显提升，本发明能够显著提升跨媒体检索性能，具有广阔的应用前景和市场需求。

附图说明

图1是本发明方法的流程框图。

图2是本发明方法分别对图像和文本进行特征生成和语义空间学习的示意图；

其中，左上方框表示图像特征生成；左下方框表示文本特征生成；右上方框表示MSF-DNN；右下方框表示TextNet；右上方框和右下方框得到的是同构的语义空间；具体地，将图像样本送入CNN-LSTM架构，得到图像的“CNN视觉特征向量”和“LSTM语言描述向量”，分别用v和d表示(左上方框)；将文本样本送入LDA主题模型，得到“LDA文本主题向量”，用t表示(左下方框)；右上部分为一个四层的多感知融合的深度神经网络(MSF-DNN)，融合v和d的输入，目的将图像最终映射到语义空间S_I；右下部分为一个三层的文本语义网络(TextNet)，t作为输入，目的将文本最终映射到语义空间S_T；S_I和S_T是具有相同语义的同构空间。

图3是LSTM(Long Short Term Memory)结构图；

图3表示了一个重复的LSTM模块，本发明取t＝N时刻的元组(C_N,h_N)作为“LSTM语言描述向量”。

图4是本发明实施例在Wikipedia数据集上LDA生成的文本主题示例；

其中，(a)的三个主题共同描述了“战争”这个类别，三个主题聚集的关键词分布为：主题1：pilot,fight,war,military,flying,staff；主题2：harbor,shot,launched,air,group,aircraft；主题3：plane,cruisers,flighters,attacked,bombs,force；

(b)的三个主题共同描述了“皇室”这个类别，三个主题聚集的关键词分布为：主题1：fortune,aristocrat,palace,prince,louis,throne；主题2：princess,royal,queen,grand,duches,victoria；主题3：king,duke,crown,reign,lord,sovereign。

图5是本发明实施例采用的数据集示例；

其中，Wikipedia数据集的文本以段落形式出现，PascalVoc数据集的文本以标注形式出现，Pascal Sentence数据集的文本以句子形式出现；括号中标明了每个图像文本对的类别。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种基于深度语义空间的跨媒体检索方法，通过模拟人类的感知过程来挖掘跨媒体检索中丰富的语义信息，通过特征生成过程和语义空间学习过程实现跨媒体检索，能够显著提升跨媒体检索的性能。

图1是本发明基于深度语义空间的跨媒体检索方法的流程框图，图2是本发明方法分别对图像和文本进行特征生成和语义空间学习的示意图；具体构造过程包括如下步骤：

(一)首先进行特征生成，执行步骤1)～2)。

1)利用文献[1](O.Vinyals,A.Toshev,S.Bengio,and others.2016.Show and Tell:Lessons learned from the 2015MSCOCO Image Captioning Challenge.PAMI(2016))提出的CNN-LSTM架构，对图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”。

文献1记载了CNN-LSTM的架构，具体地，本发明利用现有数据集的训练图像对CNN网络进行微调，之后对训练图像和测试图像提取最后一个1024维的全连接层的输出，作为“CNN视觉特征向量”。图3是LSTM(Long Short Term Memory)结构图，图3展示了图2中的LSTM结构的细节信息。当t等于最后一个时刻N时，元组(C_N,h_N)被提取用作训练图像和测试图像的“LSTM语言描述向量”。

2)利用文本主题模型LDA对训练文本和测试文本提取“LDA文本主题向量”。

图4展示了Wikipedia数据集上LDA聚集生成的6个主题的例子，每个主题由6个相同颜色的关键词表示。本发明具体实施中，经反复试验，针对Wikipedia，Pascal Voc，Pascal Sentence这三个数据集选择的最优主题数目分别为200、100、200。

(二)然后进行语义空间学习，步骤3)-6)为采用MSF-DNN网络的架构进行语义空间学习的过程，步骤7)-8)为采用TextNet网络的架构进行语义空间学习的过程。

3)假设有N幅训练图片，经过步骤1)-2)生成特征，得到每幅图片的特征{CNN视觉特征向量，LSTM语言描述向量，真实标签值(ground-truth label)}，表示为

l表示所讨论的神经网络的第l层(l≥2)。令x^j表示第l-1层的输入向量，l层第i个激活前的值

表示为式1：

其中，m为l-1层单元的数目；

表示第l-1层第j个单元和第l层第i个单元之间的权重；

表示与第l层第i个单元关联的权重。

4)对于每个z的激活值通过公式2计算：

l表示层数，K为标签数，ε＝max(z_k)；

表示z的激活值；函数f_I：所有隐藏层的激活函数使用Sigmoid函数，最后的输出层使用Softmax函数。

5)进一步地，如图2右上部分所示，MSF-DNN网络被定义为：

其中，

表示深度为l的隐藏层，o_I表示最后一层输出层；

表示权重矩阵；

表示偏置(当l＝1时，A＝v or d,否则A＝c)；v是CNN视觉特征向量；d是LSTM语言描述向量；c表示两者的融合之后的输出；

6)目标函数是最小化训练样本的整体误差C，以学习得到一个参数空间

表示为式7：

λ_I为第二项权重衰减项的参数。

7)3层的TextNet的构建过程与MSF-DNN相似。如图2右下部分所示，假设有N个训练文本，每个样本的“LDA文本主题向量”表示为t。第二层的全连接层使用Sigmoid激活函数，然后将输出作为最后一层Softmax分类器的输入。TextNet网络的定义表示为式8、式9：

其中，

表示第二层隐藏层，o_T表示最后一层输出层。

表示权重矩阵；

表示偏置，l′表示TextNet的层数。

8)目标函数是最小化训练样本的整体误差C′，以学习得到一个参数空间

表示为式10:

λ_T为第二项权重衰减项的参数。

9)当通过MSF-DNN及TextNet将测试图像和文本映射到同构的语义空间中后，对于一个图像向量S_I∈R^K、文本向量S_T∈R^K，利用余弦距离表示任意图像和文本特征间相似度，通过式11计算得到：

其中，K为特征的维度。

获得图像和文本特征间相似度，根据相似度从大到小排序，可取前k个相似度最大的样本作为检索结果，由此实现跨媒体检索。

图5是本发明实施例采用的数据集示例；其中，Wikipedia数据集的文本以段落形式出现，PascalVoc数据集的文本以标注形式出现，Pascal Sentence数据集的文本以句子形式出现；括号中标明了每个图像文本对的类别。表1～3给出了本发明在Wikipedia，Pascal Voc和Pascal Sentence三个数据集上的跨媒体检索效果及与现有方法的对比。表1～3中的现有方法，分别对应以下文献[2]～[10]记载的方法：

[2]J.Pereira,E.Coviello,G.Doyle,and others.2013.On the role of correlation and abstraction in cross-modal multimedia retrieval.IEEE Transactions on Software Engineering(2013).

[3]A.Habibian,T.Mensink,and C.Snoek.2015.Discovering semantic vocabularies for cross-media retrieval.In ACM ICMR.

[4]C.Wang,H.Yang,and C.Meinel.2015.Deep semantic mapping for cross-modal retrieval.In ICTAI.

[5]K.Wang,R.He,L.Wang,and W.Wang.2016.Joint feature selection and subspace learning for cross-modal retrieval.PAMI(2016).

[6]Y.Wei,Y.Zhao,C.Lu,and S.Wei.2016.Cross-modal retrieval with CNN visual features:A new baseline.IEEE Transactions on Cybernetics(2016).

[7]J.Liang,Z.Li,D.Cao,and others.2016.Self-paced cross-modal subspace matching.In ACM SIGIR.

[8]Y.Peng,X.Huang,and J.Qi.2016.Cross-media shared representation by hierarchical learning with multiple deep networks.In IJCAI.

[9]K.Wang,R.He,W.Wang,and others.2013.Learning coupled feature spaces for cross-modal matching.In ICCV

[10]N.Rasiwasia,J.Costa Pereira,E.Coviello,and others.2010.A new approach to cross-modal multimedia retrieval.In ACM MM.

表1～3中，检索效果用mAP值衡量，mAP值越高，说明检索效果越好。

表1 Wikipedia数据集上的检索效果

方法	图像检索文本	文本检索图像	平均
SCM-2014[2]	0.362	0.237	0.318
DSV[3]	0.450	0.516	0.483
DSM[4]	0.340	0.353	0.347
JFSSI[5]	0.306	0.228	0.267
NewBaseline[6]	0.430	0.370	0.400
SCSM[7]	0.274	0.217	0.245
CMDN[8]	0.393	0.325	0.359
本发明	0.518	0.453	0.486

表2 Pascal Voc数据集上的检索效果

方法	图像检索文本	文本检索图像	平均
LCFS[9]	0.344	0.267	0.306
JFSSI[5]	0.361	0.280	0.320
SCSM[7]	0.375	0.282	0.329
本发明	0.794	0.804	0.799

表3 Pascal Sentence数据集上的检索效果

方法	图像检索文本	文本检索图像	平均
SM-10[10]	0.530	0.514	0.522
LCFS[9]	0.466	0.483	0.475
NewBaseline[6]	0.496	0.460	0.478
CMDN[8]	0.334	0.333	0.334
本发明	0.573	0.557	0.565

从表中可以看出，本发明的TextNet网络架构适用于于不同长度文本的数据集，MSF-DNN网络架构将图像的视觉向量和语言描述向量进行多感官融合，进一步消除图像特征表达上所存在的“感知鸿沟”。与现有方法对比，本发明在图像检索文本和文本检索图像两大跨媒体检索任务的正确率均有明显提升。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种基于深度语义空间的跨媒体检索方法，通过模拟人类的感知过程挖掘跨媒体检索中丰富的语义信息，从而实现跨媒体检索；包括特征生成过程和语义空间学习过程，具体包括如下步骤：

1)获取训练数据、测试数据及数据类别；

2)特征生成过程，分别对图像和文本提取特征，包括步骤21)～22)：

21)采用卷积神经网络-长短时记忆网络CNN-LSTM，对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM语言描述向量”；

针对N幅图像,得到每幅图像的特征{CNN视觉特征向量，LSTM语言描述向量，真实标签值ground-truth label}，表示为
l表示所述卷积神经网络的第l层，l≥2；

22)利用文档主题生成模型LDA，提取训练文本和测试文本的“LDA文本主题向量”；针对N个训练文本，提取得到每个样本的“LDA文本主题向量”，表示为t；

3)语义空间学习过程，包括图像的语义空间学习过程和文本的语义空间学习过程，分别将图像和文本映射到一个共同的语义空间；

31)图像的语义空间学习过程：构建一个四层的多感知融合的深度神经网络MSF-DNN，进行语义空间学习，得到一个参数空间
表示权重矩阵，
表示偏置，l表示层数；

32)文本的语义空间学习过程：构建一个三层的文本语义网络TextNet，进行语义空间学习，得到一个参数空间
W_t ^(l′)表示权重矩阵；
表示偏置；l′表示TextNet的层数；

由此通过MSF-DNN及TextNet，实现将图像和文本映射到同构的语义空间；

4)通过相似度衡量方法，计算任一图像和文本之间的相似度，进而实现图像检索文本I和文本检索图像的跨媒体检索。
如权利要求1所述跨媒体检索方法，其特征是，步骤1)具体通过数据集Wikipedia、Pascal Voc、Pascal Sentence得到训练数据、测试数据和数据类别。
如权利要求1所述跨媒体检索方法，其特征是，步骤21)采用卷积神经网络‐长短时记忆网络CNN-LSTM架构对训练图像及测试图像提取得到“CNN视觉特征向量”和“LSTM 语言描述向量”；具体地，利用现有数据集的训练图像对卷积神经网络CNN进行微调，对训练图像和测试图像提取最后一个1024维的全连接层的输出，作为“CNN视觉特征向量”；“LSTM语言描述向量”的提取方法是：在长短时记忆网络LSTM中，当t等于最后一个时刻N时，元组(C_N,h_N)被提取用作训练图像和测试图像的“LSTM语言描述向量”。
如权利要求1所述跨媒体检索方法，其特征是，步骤22)分别针对数据集Wikipedia、Pascal Voc、Pascal Sentence数据集，确定最优主题数目分别为200、100、200。
如权利要求1所述跨媒体检索方法，其特征是，步骤31)所述图像的语义空间学习过程具体包括如下步骤：

311)针对N幅训练图片，经过步骤21)生成特征，得到每幅图片的特征，表示为
l表示所述神经网络的第l层，l≥2；令x^j表示第l-1层的输入向量，l层第i个激活前的值
表示为式1：

其中，m为l-1层单元的数目；
表示第l-1层第j个单元和第l层第i个单元之间的权重；
表示与第l层第i个单元关联的权重；

312)通过式2计算得到每个z的激活值f_I ^(l)(z)，所有隐藏层的激活函数使用Sigmoid函数，最后的输出层使用Softmax函数激活：

其中，l表示层数，K为标签数，ε＝max(z_k)；

313)定义MSF-DNN网络为式3-式6：

其中，
表示深度为l的隐藏层，o_I表示最后一层输出层；
表示权重矩阵；
表示偏置；当l＝1时，A＝v or d,否则A＝c；c表示v和d两者融合之后的输出；

314)目标函数是最小化训练样本的整体误差C，以学习得到一个参数空间
表示为式7：

其中，λ_I为第二项权重衰减项的参数。
如权利要求1所述跨媒体检索方法，其特征是，步骤32)所述文本的语义空间学习过程具体包括如下步骤：

321)对N个训练文本样本，每个样本的“LDA文本主题向量”表示为t；第二层的全连接层使用Sigmoid激活函数；将输出作为最后一层Softmax分类器的输入；定义TextNet网络为式8、式9：

其中，
表示第二层隐藏层，o_T表示最后一层输出层；W_t ^(l′)表示权重矩阵；
表示偏置，l′表示TextNet的层数；

322)目标函数是最小化训练样本的整体误差C′，以学习得到一个参数空间

表示为式10:

λ_T为第二项权重衰减项的参数。
如权利要求1所述跨媒体检索方法，其特征是，步骤4)所述相似度衡量方法具体采用余弦距离表示任意图像和文本特征间相似度，对于一个图像向量S_I∈R^K、文本向量S_T∈R^K，通过式11计算得到余弦距离d(S_I,S_T)：

其中，K为特征的维度；

将计算得到的d(S_I,S_T)作为图像和文本特征间相似度，根据相似度从大到小排序，取前k个相似度最大的样本作为检索结果，由此实现跨媒体检索。