WO2013159356A1

WO2013159356A1 - 基于判别相关分析的跨媒体检索方法

Info

Publication number: WO2013159356A1
Application number: PCT/CN2012/074896
Authority: WO
Inventors: 谭铁牛; 王亮; 王威
Original assignee: 中国科学院自动化研究所
Priority date: 2012-04-28
Filing date: 2012-04-28
Publication date: 2013-10-31

Abstract

本发明公开了一种基于判别相关分析的跨媒体检索方法，该方法包括以下歩骤：建立跨媒体训练数据库，依次对其中不同模态样本进行特征提取、均值预处理和线性投影变换，并根据投影空间设定一目标函数；求解目标函数得到线性投影向量；建立跨媒体测试数据库；对待检索对象依次进行特征提取和均值预处理；使用所述线性投影向量对经均值预处理的特征数据进行线性投影变换；计算两模态数据投影变量之间的欧式距离，并进行升序排序，从而得到跨媒体检索结果。本发明方法能够对特征数据进行有效地降维，从而广泛地应用在其他很多多模态工作中，比如多模态生物特征识别。

Description

基于判别相关分析的跨媒体检索方法技术领域本发明涉及模式识别和机器学习领域，尤其是一种基于判别相关分析的跨媒体检索方法。

背景技术近年来，大量出现的多媒体数据呈现两个明显的特点：高维度性和多源性，例如同一个语义概念可以由网络上的文字、图片、视频等多种内容来表示。此外，互联网用户还主要通过文本关键字搜索所需要的信息，这主要是因为搜索引擎无法理解不同模态媒体之间的相互关系，从而限制了搜索引擎的发展。特征降维揭示了高维数据在低维空间中的流形结构以及不同模态数据之间的相关性，在信息检索、模式分类，信息可视化等领域发挥了重大的作用。

单模态数据的特征降维方法有很多，主成份分析（Principal Component Analysis)把原始数据投影到具有最大方差的主方向上；线性判别分析（Linear Discriminant Analysis, LDA) 是一种有监督降维方法，在充分利用类别信息的条件下找到一个投影子空间，使得不同类别的特征具有最优的判别性；局部线性嵌入（Locally Linear Embedding) 是最早的非线性局部保留方法，每个数据点与其最近邻数据点的线性关系在投影空间中得以保留； LE (Laplacian Eigenmaps) 在投影空间中保留了局部两个数据点的距离， LPP (Locality Preserving Projection) 是其线性近似算法；多层自编码网络（Multilayer Autoencoder Network)是主成份分析方法的非线性扩展。有研究工作指出，虽然非线性方法处理模拟数据性能很好，但是对于现实数据却不一定比传统的主成份分析方法好，而且以上提到的这些方法均不能直接应用于多模态跨媒体检索。

多模态数据的特征降维方法研究并不是很多，典型相关分析 (Canonical Correlation Analysis, CCA)是其中最为有名的多变量数据分析方法，它把多模态数据分别线性投影到同一子空间，使得多模态变量具有最大相关性；与典型线性相关不同， PLS (Partial Least Square) 在投影空间中使多模态变量具有最大协方差；在多层自编码网络的启发下，多模态深度学习网络被提出来为不同模态数据学习共同的表示。总之，以上方法更多的是以最大化多模态变量的相关性为目标去寻找投影空间，而忽略了最大化多模态数据中不同类别数据的判别性，而判别性在多模态数据检索与分类任务中往往非常重要。

发明内容现有多模态数据分析方法普遍没有考虑数据的判别性，本发明提供了一种基于判别相关分析（Discriminant Correlation Analysis, DCA)的方法，它融合了典型相关分析和线性判别分析的思想，同时优化多种模态数据的相关性和不同类别数据的判别性。

本发明所提出的一种基于判别相关分析的跨媒体检索方法，其特征在于，该方法包括以下歩骤：

歩骤 1，建立包括一一对应的图像和文本对的跨媒体训练数据库并提取该数据库中不同模态样本的特征向量，得到相应的特征数据点集；歩骤 2，分别对图像与文本两个模态的特征数据点集进行均值预处理，使得每个模态的特征数据点集的均值为 0;

歩骤 3，将经过均值预处理的特征数据点集进行线性投影变换，并根据得到的投影空间设定一关于线性投影变量的目标函数；

歩骤 4，使用特征值求解法求解所述目标函数，得到线性投影向量《和 6 ；

歩骤 5，建立包括一一对应的图像和文本对的跨媒体测试数据库；歩骤 6，输入待检索对象，并分别提取待检索对象的特征向量以及跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据点集；

歩骤 7，对歩骤 6得到的特征向量和特征数据点集分别进行所述均值预处理；

歩骤 8，使用所述歩骤 4得到的线性投影向量《和6对经过均值预处理的特征向量和特征数据点集分别进行线性投影变换；

歩骤 9，计算待检索对象的投影变量与对象集的投影变量之间的欧式距离，并对所有的欧式距离进行升序排序，前 w个欧式距离对应的对象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关的另一模态的对象。

本发明方法能够对特征数据进行有效地降维，从而广泛地应用在其他很多多模态工作中，比如多模态生物特征识别。实验证明，本发明方法在跨媒体检索中比典型相关分析，以及典型相关分析与线性判别分析的简单组合性能都要好。

附图说明图 1是本发明方法的实现流程图；

图 2是本发明方法在一个模拟数据集上与其他相关方法的对比结果。

具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一歩详细说明。

图 1是本发明方法的实现流程图，如图 1所示，本发明所提出的一种基于判别相关分析的跨媒体检索方法包括训练过程（图 1 (a) ) 和测试过程（图 1 (b) 和（c))，具体地，图 1 (a) 为本发明中利用训练数据库中的图像文本对学习投影向量《的流程图，如图 1 (a) 所示，本发明的训练过程包括以下歩骤：

歩骤 1，建立包括一一对应的图像和文本对的跨媒体训练数据库并提取该数据库中不同模态样本的特征向量，得到相应的特征数据点集。

本发明首先建立图像和文本一一对应的跨媒体训练数据库，然后分别使用尺度不变特征变换（ Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布 (Latent Dirichlet Allocation, LD 算法对图像和文本进行特征提取。

歩骤 2，分别对图像与文本两个模态的特征数据点集进行均值预处理，使得每个模态的特征数据点集的均值为 0:

X — χ-£(χ) (1) y^y-E(y)

其中，和为给定的两个模态特征数据点集，比如图像与文本对应的特征数据集合，其分别对应的数据点集为和 , ..._yj，每个数据点集中的数据分别属于共同的个类别 {CJ _{1 ;} E(x) , £0 为原始数据点集的均值。

歩骤 3，将经过均值预处理的图像与文本特征数据点集进行线性投影变换得到投影空间，根据所述投影空间设定一目标函数，该目标函数是关于用于进行线性投影变换的线性投影变量的目标函数。

给定投影向量《和6，将图像与文本两个模态特征数据点集对应的变量集合 X和 _y进行线性投影变换，得到相应的投影变量 M和 V：

_ T

U― d X ( 2 ) v = b^Ty

所述根据线性投影变换得到的投影空间设定目标函数的歩骤进一歩包括以下歩骤：

歩骤 3.1，计算投影空间中投影变量

ν的协方差 cov(u, v)：

cov( ， v) = a^TE(xy^T )b

=丄 < £(x )b +丄 !^x¹* )a

0 E(xy^T)

(3) a

E(yx^T) a b^T ∑ 其中， ∑定义为此协方差的特征矩阵。

歩骤 3.2，计算图像与文本两个模态特征数据点集在投影空间中的类间方差和类内方差

σ。 (4)

σ-=^ΣΣ - )0 ) ^Γ +( - ) ^Γ) (5) 其中， w表示每个数据点集中数据的个数，表示每个数据点集中第 m类的数据的数目，为类别的个数， ^表示两个数据点集中第类数据的均值：

(6)

2 n

把投影公式（2) 带入到式（4) 和（5)，则^和可以重写为

a

σ_Β = a 6」 (7) σ„, =「< b^T s_n (8) 其中，和称为多模态数据的 "类间散列矩阵"和 "类内散列矩阵"，分别为：

1 ^{k xx} (9) 2" "i y^ ^E _myy

1 1

E (xx )—— E xx

1 2

(10)

1

^E _m ^x E_m(yy^J)--E_myy^J)

E_m(x)和 E_m(y)分别是原始数据点集中第 m类数据的均值， C_m -- ¾ /」、类数据集：

(^)=丄∑(^「） =丄∑

E_mxx' = E_m (x) (x) E_mxy^J = E_m (x) (y) (11) yi = {y)E_m ^T (y) E_myx^T = E_m (y)E_m ^T (x)

歩骤 3.3，根据计算得到的协方差 _C (_M,_v)、类间方差^和类内方差 ^σιν设定目标函数。

本发明判别相关分析的目标函数定义为：

μσ_Β + (1 _ μ)οον(μ, ν)

d V - arg max_al (12) 其中， ^和^分别为两个数据点集在投影空间中的 "类间方差"和 "类内方差"，是投影空间中变量 _¾和的协方差，为调节参数，它控制着和《^ , 的相对权重。

歩骤 4，使用特征值求解法求解所述目标函数，得到最终学习得到的线性投影向量 α和 6

为了求解所述目标函数，需要将所述目标函数转换为一个广义特征值问题：

首先定义/ = 则目标函数（12) 可以重写为：

f^T( S_B+(l- )∑)f

/* = org max (13)

fs_wf

可以看到目标函数（13) 与线性判别分析的目标函数很相似，采用拉格朗日乘数法即可以把（13) 转换为一个广义特征值问题，如下式所

( S_B+(l- )∑)f = AS_wf (14) 求解（14) 的特征值和特征向量，并按照特征值递减的顺序重新排列特征向量，取较大特征值对应的特征向量作为最终学习得到的线性投影向量《和6，即利用所述学习得到的线性投影向量《和6对多模态特征数据点集分别进行线性投影变换，即可实现对所述多模态特征数据点集的降维。

歩骤 5，建立包括一一对应的图像和文本对的跨媒体测试数据库。图 1 (b)为本发明中在文本数据集中检索与图像相关的文本的流程图，图 1 (c)为本发明中在图像数据集中检索与文本相关的图像的流程图，如图 1 (b) 和图 1 (c) 所示，本发明的测试过程包括以下歩骤：歩骤 6，输入待检索对象，并分别提取待检索对象的特征向量以及跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据点集。

该歩骤中，与歩骤 1 类似，分别使用尺度不变特征变换 (Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布 (Latent Dirichlet Allocation, LD A)算法对图像和文本进行特征提取。

举例来说，当需要检索与某个图像相关的一系列文本对象时，待检索对象为图像，分别提取图像的 SIFT特征向量和测试数据库中文本数据集的 LDA特征数据点集，其中， N为测试数据库中文本数据的个数。

歩骤 7，与所述歩骤 2类似，对歩骤 6得到的特征向量和特征数据点集分别进行均值预处理。

歩骤 8，使用所述歩骤 4得到的线性投影向量《和6对经过均值预处理的特征向量和特征数据点集分别进行线性投影变换，以对经过均值预处理的特征数据进行降维。

使用所述歩骤 4得到的线性投影向量《和6，将图像的 SIFT特征向量和测试数据库中文本数据集的 LDA特征集合分别进行线性投影变换，得到相应的投影变量 ^和：

_ T 歩骤 9，计算待检索对象的投影变量与对象集的投影变量之间的欧式距离，并对所有的欧式距离进行升序排序，前 w个欧式距离对应的对象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关的另一模态的对象。

如果待检索对象为图像，该歩骤中，首先计算图像的投影变量与测试数据库中各个文本数据的投影变量之间的欧式距离，并对所有的欧式距离进行升序排序，前 w个欧式距离对应的文本数据即是检索得到的与待检索图像相关的文本对象。此处，检索结果数量 w可由用户根据需要自行设定。

需要特别说明的是，除了跨模态检索，本发明方法还可应用到其他任何需要对多模态数据进行降维处理以进行特征识别的领域，比如多模态生物特征识别。下面分别用模拟数据集和真实数据上的测试结果来证明本发明方法优于典型相关分析、线性判别分析以及典型相关分析与线性判别分析的组合。模拟数据集实例如图 1所示，图 1 (a)中生成了两个二维点集，星点（第 1类）与叉点（第 2类）为一个点集，方框（第 1类）与菱形（第 2类）为另外一个点集，且这两个点集分别属于 2类；（b)给出了典型相关分析（CCA) 在模拟数据上的投影结果，虽然这两个点集非常相关，但是它们在低维投影空间（这里把数据投影到水平轴上）上却有大量的重叠区域，所以说典型相关分析得到的投影方向不具有判别性；（C)给出了线性判别分析（LDA)在模拟数据上的投影结果，投影后的两类虽然有很好的判别性，但是投影后的两个点集的相关性却很差；（d)给出了线性判别分析（LDA) 与典型相关分析（CCA) 的一种组合的结果，即先对每个点集做线性判别分析，然后再做典型相关分析，得到的结果与直接做典型相关分析 (b)非常相似；（e)给出了线性判别分析（LDA)与典型相关分析（CCA) 的另外一种组合的结果，即先对两个点集做典型相关分析，然后再做线性判别分析，其结果与本发明方法（DCA) 的结果 (g) 看起来比较相似，然而把两个结果 (e)和 (g)的水平轴坐标进行对数变换后得到（f)和 (h)，可以看到典型相关分析和线性判别分析组合的结果在水平轴方向上是线性不可分的，如 (f)中的 P数据点和 ρ数据点，而本发明方法的结果是线性可分的，说明了本发明方法更具有判别性。

真实数据集实例下面在一个图像文本数据集上测试了判别相关分析的性能，此数据集包含 2866个图像文本对，其中训练集有 2173个图像文本对，测试集有 693个图像文本对，且每个图像文本对有一个类别标签，属于以下 10类中的某一类：艺术、生物、地理、历史、文学、媒体、音乐、王室、体育、军事。其中，图像采用 128维的 SIFT特征，文本采用 10维的 LDA文本语义特征。然后分别用判别相关分析、典型相关分析以及典型相关分析与线性判别分析的两种组合把这两类数据的特征投影到 9维的低维空间，在此 9维空间中执行跨模态检索任务，即在图像数据集中检索与某文本相关的图像，或者在文本数据集中检索与某图像相关的文本。跨模态检索的结果用平均精度 (MAP , mean average precision)来度量，平均精度越大越好，这里的平均精度是指每个查询检索精度的平均值。表 1 给出了四种算法的分类结果，可以看到，判别相关分析优于其他方法。

表 1

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种基于判别相关分析的跨媒体检索方法，其特征在于，该方法包括以下歩骤：

歩骤 4，使用特征值求解法求解所述目标函数，得到线性投影向量《和 6；

2、根据权利要求 1所述的方法，其特征在于，所述歩骤 1和 6中，分别使用尺度不变特征变换算法和隐狄雷克雷分布算法对图像和文本进行特征提取。

3、根据权利要求 1所述的方法，其特征在于，所述歩骤 3 中的线性投影变换表示为： u a x

v = b^Ty

其中，和分别为图像与文本两个模态特征数据点集对应的变量集合， a和 b分别为对应的投影向量， M和 _V为经过线性投影变换得到的投影变

4、根据权利要求 3 所述的方法，其特征在于，根据得到的投影空间设定目标函数的歩骤进一歩包括以下歩骤：

歩骤 3.1，计算投影空间中投影变量

ν的协方差

歩骤 3.2，计算图像与文本两个模态特征数据点集在投影空间中的类间方差和类内方差 σ_Β和 _w；

5、根据权利要求 4所述的方法，其特征在于，所述歩骤 3.1中，投影变量 Μ和 V的协方差 covin, v)表示为：

其中， ∑定义为此协方差的特征矩阵。

6、根据权利要求 4所述的方法，其特征在于，所述歩骤 3.2中，所述类间方差和类内方差 σ_Β

a 其中，和称为多模态数据的 "类间散列矩阵"和 "类内散列矩阵":

)--E_myy^J)

其中， w表示每个数据点集中数据的个数，表示每个数据点集中 m 的数据的数目为类别的个数， E ^ =丄∑ ( . f)， E_m(yy^T) =丄∑ E_mxx^l =E_m x)E_m ^l x) ， E_mxy^l =E_m x)E_m ^l y) ， E_myy^l =E_m y)E_m ^l y) ， E_myx^T = E_m(y)E_m ^T(x) , C_ra表示第 m类数据集， £_∞(x)和 £_∞0 分别是原始数据点集中第类数据的均值。

7、根据权利要求 4所述的方法，其特征在于，所述目标函数定义为：

* ₇ * μσ„ + (1 _ u)cov(u. v)

a ,b = arg max_{a b}—— ，

' ^σπ

其中，为调节参数，它控制着和《^ , 的相对权重。

8、根据权利要求 1所述的方法，其特征在于，所述歩骤 4中，使用特征值求解法求解所述目标函数的歩骤进一歩包括以下歩骤：

首先，定义/ = 重写所述目标函数；

然后，采用拉格朗日乘数法将重写后的目标函数转换为一可求得广义特征值的等式；

最后，求解该等式的特征值和特征向量，并按照特征值递减的顺序重新排列特征向量，取较大特征值对应的特征向量作为最终学习得到的线性投影向量 α和 6。

9、根据权利要求 1所述的方法，其特征在于，所述歩骤 6中的待检索对象为图像或文本。

10、根据权利要求 1所述的方法，其特征在于，所述歩骤 9中检索结果数量 w由用户根据需要自行设定。