WO2013159356A1 - 基于判别相关分析的跨媒体检索方法 - Google Patents

基于判别相关分析的跨媒体检索方法 Download PDF

Info

Publication number
WO2013159356A1
WO2013159356A1 PCT/CN2012/074896 CN2012074896W WO2013159356A1 WO 2013159356 A1 WO2013159356 A1 WO 2013159356A1 CN 2012074896 W CN2012074896 W CN 2012074896W WO 2013159356 A1 WO2013159356 A1 WO 2013159356A1
Authority
WO
WIPO (PCT)
Prior art keywords
projection
feature
modal
data
cross
Prior art date
Application number
PCT/CN2012/074896
Other languages
English (en)
French (fr)
Inventor
谭铁牛
王亮
王威
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Priority to PCT/CN2012/074896 priority Critical patent/WO2013159356A1/zh
Publication of WO2013159356A1 publication Critical patent/WO2013159356A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Definitions

  • the present invention relates to the field of pattern recognition and machine learning, and more particularly to a cross-media retrieval method based on discriminant correlation analysis.
  • LDA Linear Discriminant Analysis
  • CCA Canonical Correlation Analysis
  • PLS Partial Least Square
  • DCA Discriminant Correlation Analysis
  • Step 1 Establish a cross-media training database including a one-to-one correspondence image and text pair and extract feature vectors of different modal samples in the database to obtain corresponding feature data point sets; Step 2, respectively for image and text
  • the modal characteristic data point set is subjected to mean preprocessing, so that the mean value of the feature data point set of each modal is 0;
  • Step 3 linearly projecting the set of feature data points subjected to mean preprocessing, and setting an objective function about the linear projection variable according to the obtained projection space;
  • Step 4 Solving the objective function using the eigenvalue solving method to obtain a linear projection vector "and 6;
  • Step 5 Establish a cross-media test database including a one-to-one correspondence image and text pair;
  • Step 6 input the object to be retrieved, and separately extract the feature vector of the object to be retrieved and the cross-media test database is different from the object to be retrieved a set of feature data points for a modal set of objects;
  • Step 7 respectively performing the feature vector and the feature data point set obtained in step 6 Value preprocessing
  • Step 8 Perform linear projection transformation using the linear projection vector obtained in the step 4 and 6 pairs of the eigenvectors and the feature data point sets subjected to the mean preprocessing;
  • Step 9 Calculate the Euclidean distance between the projection variable of the object to be retrieved and the projection variable of the object set, and sort all the Euclidean distances in ascending order, and the object data corresponding to the first w Euclidean distances is in the cross-media test. Another modal object associated with the image to be retrieved retrieved from the database.
  • the method of the present invention can effectively reduce feature data, and is widely used in many other multi-modal work, such as multi-modal biometrics.
  • multi-modal biometrics such as multi-modal biometrics.
  • the method of the present invention performs better than the typical correlation analysis in the cross-media retrieval, and the simple combination performance of the typical correlation analysis and the linear discriminant analysis.
  • Figure 1 is a flow chart showing the implementation of the method of the present invention.
  • Figure 2 is a comparison of the method of the present invention with other related methods on a simulated data set.
  • FIG. 1 is a flowchart of implementation of the method of the present invention.
  • a cross-media retrieval method based on discriminant correlation analysis proposed by the present invention includes a training process (Fig. 1 (a)) and a test process (Fig. 1 (Fig. 1 (Fig. 1 (Fig. 1 (a)) b) and (c)), specifically, FIG. 1(a) is a flowchart of the present invention using the image text pair in the training database to learn the projection vector, as shown in FIG. 1(a), the training process of the present invention Including the following steps:
  • Step 1 Establish a cross-media training database including one-to-one correspondence images and text pairs and extract feature vectors of different modal samples in the database to obtain corresponding feature data point sets.
  • the invention first establishes a cross-media training database corresponding to images and texts, and then divides Do not use the Scale-Invariant Feature Transform (SIFT) algorithm and the Latent Dirichlet Allocation (LD) algorithm for feature extraction of images and texts.
  • SIFT Scale-Invariant Feature Transform
  • LD Latent Dirichlet Allocation
  • Step 2 Perform averaging pre-processing on the feature data point sets of the image and the text, so that the mean value of the feature data point set of each modal is 0:
  • the corresponding data point set is sum, ... _yj, the data in each data point set belongs to The common category ⁇ CJ 1 ; E(x) , £0 is the mean of the original data point set.
  • Step 3 performing linear projection transformation on the image of the mean pre-processed image and the set of text feature data points to obtain a projection space, and setting an objective function according to the projection space, the objective function is about linear projection for performing linear projection transformation The objective function of the variable.
  • the step of setting the objective function according to the projection space obtained by the linear projection transformation further includes the following steps:
  • Step 3.1 Calculating Projection Variables in Projection Space Covariance of ⁇ cov(u, v):
  • Step 3.2 calculating the image and text two modal feature data points in the projection space Inter-class variance and intra-class variance
  • w represents the number of data in each data point set, indicating the number of data of the mth class in each data point set, which is the category
  • represents the mean of the first type of data in the two data points:
  • E m (x) and E m (y) are the mean of the m -th data in the original data point set, C m -- 3 ⁇ 4 /", and the class data set:
  • Step 3.3 setting the objective function according to the calculated covariance C ( M , v ), the inter-class variance ⁇ , and the intra-class variance ⁇ ⁇ .
  • the objective function of the discriminant correlation analysis of the present invention is defined as:
  • ⁇ and ⁇ are the "inter-class variance” and "intra-class variance” of the two data point sets in the projection space, respectively, which are the covariance of the variable 3 ⁇ 4 in the projection space, which is the adjustment parameter, which controls and " ⁇ , relative weight.
  • Step 4 Solving the objective function using the eigenvalue solving method to obtain a linear projection vector ⁇ and 6 obtained by the final learning
  • the objective function needs to be converted into a generalized eigenvalue problem:
  • the objective function (13) is very similar to the objective function of the linear discriminant analysis.
  • the Lagrangian multiplier method can be used to convert (13) into a generalized eigenvalue problem, as shown in the following equation.
  • Step 5 Establish a cross-media test database including one-to-one correspondence between images and text pairs.
  • 1(b) is a flowchart of retrieving text related to an image in a text data set in the present invention
  • FIG. 1(c) is a flowchart of retrieving an image related to text in an image data set according to the present invention, as shown in FIG. 1 ( b) and FIG. 1(c)
  • the testing process of the present invention includes the following steps: Step 6: input the object to be retrieved, and separately extract the feature vector of the object to be retrieved and the object to be retrieved in the cross-media test database A set of feature data points for a set of objects of different modalities.
  • step 2 similar to step 1, the image and text are characterized by Scale-Invariant Feature Transform (SIFT) algorithm and Latent Dirichlet Allocation (LD A) algorithm. extract.
  • SIFT Scale-Invariant Feature Transform
  • LD A Latent Dirichlet Allocation
  • Step 7 similar to the step 2, performing the mean preprocessing on the feature vector and the feature data point set obtained in the step 6.
  • Step 8 using the linear projection vector obtained in the step 4 and performing linear projection transformation on the averaged pre-processed feature vector and the feature data point set respectively, to perform dimensionality reduction on the mean pre-processed feature data.
  • the SIFT feature vector of the image and the LDA feature set of the text data set in the test database are respectively linearly projected to obtain corresponding projection variables ⁇ and :
  • Step 9 calculating the Euclidean distance between the projection variable of the object to be retrieved and the projection variable of the object set, and sorting all Euclidean distances in ascending order, the object data corresponding to the first w Euclidean distance is in the cross Another modal object associated with the image to be retrieved retrieved in the media test database.
  • the Euclidean distance between the projection variable of the image and the projection variable of each text data in the test database is first calculated, and all Euclidean distances are sorted in ascending order, and the first w Euclidean distances are corresponding.
  • the text data is the retrieved text object related to the image to be retrieved.
  • the number of search results w can be set by the user as needed.
  • the method of the present invention can be applied to any other field that requires dimensionality reduction processing of multi-modal data for feature recognition, such as multi-modal biometric recognition.
  • the test results on the simulated data set and the real data are respectively used to prove that the method of the present invention is superior to the typical correlation analysis, the linear discriminant analysis, and the combination of the typical correlation analysis and the linear discriminant analysis.
  • An example of a simulated data set is shown in Figure 1. In Figure 1 (a), two two-dimensional point sets are generated.
  • the star point (category 1) and the cross point (category 2) are a set of points, and the box (1st) Class) and diamond (Category 2) are another set of points, and these two sets of points belong to Class 2;
  • CCA Canonical Correlation Analysis
  • CCA Canonical Correlation Analysis
  • results obtained are directly related to the typical correlation analysis (b). Similar; (e) gives linear discriminant analysis (LDA)
  • LDA linear discriminant analysis
  • CCA Canonical Correlation Analysis
  • CCA Canonical Correlation Analysis
  • a typical correlation analysis is performed on two point sets, followed by a linear discriminant analysis, and the results are compared with the results (g) of the method (DCA) of the present invention.
  • the logarithmic transformation of the horizontal axis coordinates of the two results (e) and (g) yields (f) and (h). It can be seen that the results of the combination of the canonical correlation analysis and the linear discriminant analysis are in the horizontal axis direction. It is linearly inseparable, such as P data points and ⁇ data points in (f), and the results of the method of the present invention are linearly separable, indicating that the method of the present invention is more discriminatory.
  • MAP mean average precision
  • the average precision here refers to the average of the retrieval precision of each query. Table 1 gives the classification results of the four algorithms. It can be seen that Discriminant correlation analysis is superior to other methods.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于判别相关分析的跨媒体检索方法,该方法包括以下歩骤:建立跨媒体训练数据库,依次对其中不同模态样本进行特征提取、均值预处理和线性投影变换,并根据投影空间设定一目标函数;求解目标函数得到线性投影向量;建立跨媒体测试数据库;对待检索对象依次进行特征提取和均值预处理;使用所述线性投影向量对经均值预处理的特征数据进行线性投影变换;计算两模态数据投影变量之间的欧式距离,并进行升序排序,从而得到跨媒体检索结果。本发明方法能够对特征数据进行有效地降维,从而广泛地应用在其他很多多模态工作中,比如多模态生物特征识别。

Description

基于判别相关分析的跨媒体检索方法 技术领域 本发明涉及模式识别和机器学习领域, 尤其是一种基于判别相关分 析的跨媒体检索方法。
背景技术 近年来, 大量出现的多媒体数据呈现两个明显的特点: 高维度性和 多源性, 例如同一个语义概念可以由网络上的文字、 图片、 视频等多种 内容来表示。 此外, 互联网用户还主要通过文本关键字搜索所需要的信 息, 这主要是因为搜索引擎无法理解不同模态媒体之间的相互关系, 从 而限制了搜索引擎的发展。 特征降维揭示了高维数据在低维空间中的流 形结构以及不同模态数据之间的相关性, 在信息检索、 模式分类, 信息 可视化等领域发挥了重大的作用。
单模态数据的特征降维方法有很多, 主成份分析 (Principal Component Analysis)把原始数据投影到具有最大方差的主方向上; 线性 判别分析 (Linear Discriminant Analysis, LDA) 是一种有监督降维方法, 在充分利用类别信息的条件下找到一个投影子空间, 使得不同类别的特 征具有最优的判别性; 局部线性嵌入 (Locally Linear Embedding) 是最 早的非线性局部保留方法, 每个数据点与其最近邻数据点的线性关系在 投影空间中得以保留; LE (Laplacian Eigenmaps) 在投影空间中保留了 局部两个数据点的距离, LPP (Locality Preserving Projection) 是其线性 近似算法; 多层自编码网络(Multilayer Autoencoder Network)是主成份 分析方法的非线性扩展。 有研究工作指出, 虽然非线性方法处理模拟数 据性能很好, 但是对于现实数据却不一定比传统的主成份分析方法好, 而且以上提到的这些方法均不能直接应用于多模态跨媒体检索。
多模态数据的特征降维方法研究并不是很多, 典型相关分析 (Canonical Correlation Analysis, CCA)是其中最为有名的多变量数据分 析方法, 它把多模态数据分别线性投影到同一子空间, 使得多模态变量 具有最大相关性; 与典型线性相关不同, PLS (Partial Least Square) 在 投影空间中使多模态变量具有最大协方差; 在多层自编码网络的启发下, 多模态深度学习网络被提出来为不同模态数据学习共同的表示。 总之, 以上方法更多的是以最大化多模态变量的相关性为目标去寻找投影空 间, 而忽略了最大化多模态数据中不同类别数据的判别性, 而判别性在 多模态数据检索与分类任务中往往非常重要。
发明内容 现有多模态数据分析方法普遍没有考虑数据的判别性, 本发明提供 了一种基于判别相关分析(Discriminant Correlation Analysis, DCA)的方 法, 它融合了典型相关分析和线性判别分析的思想, 同时优化多种模态 数据的相关性和不同类别数据的判别性。
本发明所提出的一种基于判别相关分析的跨媒体检索方法, 其特征 在于, 该方法包括以下歩骤:
歩骤 1, 建立包括一一对应的图像和文本对的跨媒体训练数据库并 提取该数据库中不同模态样本的特征向量, 得到相应的特征数据点集; 歩骤 2, 分别对图像与文本两个模态的特征数据点集进行均值预处 理, 使得每个模态的特征数据点集的均值为 0;
歩骤 3, 将经过均值预处理的特征数据点集进行线性投影变换, 并 根据得到的投影空间设定一关于线性投影变量的目标函数;
歩骤 4,使用特征值求解法求解所述目标函数,得到线性投影向量《 和 6 ;
歩骤 5, 建立包括一一对应的图像和文本对的跨媒体测试数据库; 歩骤 6, 输入待检索对象, 并分别提取待检索对象的特征向量以及 跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据 点集;
歩骤 7, 对歩骤 6得到的特征向量和特征数据点集分别进行所述均 值预处理;
歩骤 8,使用所述歩骤 4得到的线性投影向量《和6对经过均值预处 理的特征向量和特征数据点集分别进行线性投影变换;
歩骤 9, 计算待检索对象的投影变量与对象集的投影变量之间的欧 式距离, 并对所有的欧式距离进行升序排序, 前 w个欧式距离对应的对 象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关 的另一模态的对象。
本发明方法能够对特征数据进行有效地降维, 从而广泛地应用在其 他很多多模态工作中, 比如多模态生物特征识别。 实验证明, 本发明方 法在跨媒体检索中比典型相关分析, 以及典型相关分析与线性判别分析 的简单组合性能都要好。
附图说明 图 1是本发明方法的实现流程图;
图 2是本发明方法在一个模拟数据集上与其他相关方法的对比结果。
具体实施方式 为使本发明的目的、 技术方案和优点更加清楚明白, 以下结合具体 实施例, 并参照附图, 对本发明进一歩详细说明。
图 1是本发明方法的实现流程图, 如图 1所示, 本发明所提出的一 种基于判别相关分析的跨媒体检索方法包括训练过程 (图 1 (a) ) 和测 试过程 (图 1 (b) 和 (c)), 具体地, 图 1 (a) 为本发明中利用训练数 据库中的图像文本对学习投影向量《 的流程图, 如图 1 (a) 所示, 本 发明的训练过程包括以下歩骤:
歩骤 1, 建立包括一一对应的图像和文本对的跨媒体训练数据库并 提取该数据库中不同模态样本的特征向量, 得到相应的特征数据点集。
本发明首先建立图像和文本一一对应的跨媒体训练数据库, 然后分 别使用尺度不变特征变换( Scale-Invariant Feature Transform, SIFT)算法 和隐狄雷克雷分布 (Latent Dirichlet Allocation, LD 算法对图像和文本 进行特征提取。
歩骤 2, 分别对图像与文本两个模态的特征数据点集进行均值预处 理, 使得每个模态的特征数据点集的均值为 0:
X — χ-£(χ) (1) y^y-E(y)
其中, 和 为给定的两个模态特征数据点集, 比如图像与文本对 应的特征数据集合, 其分别对应的数据点集为 和 , ..._yj, 每个 数据点集中的数据分别属于共同的 个类别 {CJ 1 ; E(x) , £0 为原始数 据点集的均值。
歩骤 3, 将经过均值预处理的图像与文本特征数据点集进行线性投 影变换得到投影空间, 根据所述投影空间设定一目标函数, 该目标函数 是关于用于进行线性投影变换的线性投影变量的目标函数。
给定投影向量《和6,将图像与文本两个模态特征数据点集对应的变 量集合 X和 _y进行线性投影变换, 得到相应的投影变量 M和 V:
_ T
U― d X ( 2 ) v = bTy
所述根据线性投影变换得到的投影空间设定目标函数的歩骤进一 歩包括以下歩骤:
歩骤 3.1, 计算投影空间中投影变量
Figure imgf000006_0001
ν的协方差 cov(u, v):
cov( , v) = aTE(xyT )b
=丄 < £(x )b +丄 !^x1* )a
0 E(xyT)
(3) a
E(yxT) a bT ∑ 其中, ∑定义为此协方差的特征矩阵。
歩骤 3.2, 计算图像与文本两个模态特征数据点集在投影空间中的 类间方差和类内方差
σ。 (4)
Figure imgf000007_0001
σ-=^ΣΣ - )0 ) Γ +( - ) Γ) (5) 其中, w表示每个数据点集中数据的个数, 表示每个数据点集中第 m类 的数据的数目, 为类别的个数, ^表示两个数据点集中第 类数据的 均值:
(6)
2 n
把投影公式 (2) 带入到式 (4) 和 (5), 则^和 可以重写为
a
σΒ = a 6」 (7) σ„, =「< bT sn (8) 其中, 和 称为多模态数据的 "类间散列矩阵"和 "类内散列矩阵", 分别为:
1 k xx (9) 2" "i y^ E myy
1 1
E (xx )—— E xx
1 2
(10)
1
E m x Em(yyJ)--EmyyJ)
Em(x)和 Em(y)分别是原始数据点集中第 m类数据的均值, Cm -- ¾ /」、 类数据集:
(^)=丄∑(^「) =丄∑
Emxx' = Em (x) (x) EmxyJ = Em (x) (y) (11) yi = {y)Em T (y) EmyxT = Em (y)Em T (x)
歩骤 3.3, 根据计算得到的协方差 C (M,v)、 类间方差^和类内方差 σιν设定目标函数。
本发明判别相关分析的目标函数定义为:
μσΒ + (1 _ μ)οον(μ, ν)
d V - arg maxal (12) 其中, ^和^分别为两个数据点集在投影空间中的 "类间方差"和 "类 内方差", 是投影空间中变量 ¾和 的协方差, 为调节参数, 它 控制着 和《^ , 的相对权重。
歩骤 4, 使用特征值求解法求解所述目标函数, 得到最终学习得到 的线性投影向量 α和 6
为了求解所述目标函数, 需要将所述目标函数转换为一个广义特征 值问题:
首先定义/ = 则目标函数 (12) 可以重写为:
fT( SB+(l- )∑)f
/* = org max (13)
fswf
可以看到目标函数 (13) 与线性判别分析的目标函数很相似, 采用 拉格朗日乘数法即可以把 (13) 转换为一个广义特征值问题, 如下式所
( SB+(l- )∑)f = ASwf (14) 求解 (14) 的特征值和特征向量, 并按照特征值递减的顺序重新排 列特征向量, 取较大特征值对应的特征向量作为最终学习得到的线性投 影向量《和6, 即利用所述学习得到的线性投影向量《和6对多模态特征 数据点集分别进行线性投影变换, 即可实现对所述多模态特征数据点集 的降维。
歩骤 5, 建立包括一一对应的图像和文本对的跨媒体测试数据库。 图 1 (b)为本发明中在文本数据集中检索与图像相关的文本的流程 图, 图 1 (c)为本发明中在图像数据集中检索与文本相关的图像的流程 图, 如图 1 (b) 和图 1 (c) 所示, 本发明的测试过程包括以下歩骤: 歩骤 6, 输入待检索对象, 并分别提取待检索对象的特征向量以及 跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据 点集。
该歩骤中, 与歩骤 1 类似, 分别使用尺度不变特征变换 (Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布 (Latent Dirichlet Allocation, LD A)算法对图像和文本进行特征提取。
举例来说, 当需要检索与某个图像相关的一系列文本对象时, 待检 索对象为图像,分别提取图像的 SIFT特征向量 和测试数据库中文本数 据集的 LDA特征数据点集 , 其中, N为测试数据库中文本数据的 个数。
歩骤 7, 与所述歩骤 2类似, 对歩骤 6得到的特征向量和特征数据 点集分别进行均值预处理。
歩骤 8,使用所述歩骤 4得到的线性投影向量《和6对经过均值预处 理的特征向量和特征数据点集分别进行线性投影变换, 以对经过均值预 处理的特征数据进行降维。
使用所述歩骤 4得到的线性投影向量《和6, 将图像的 SIFT特征向 量 和测试数据库中文本数据集的 LDA特征集合 分别进行线性投 影变换, 得到相应的投影变量 ^和 :
_ T 歩骤 9, 计算待检索对象的投影变量与对象集的投影变量之间的欧 式距离, 并对所有的欧式距离进行升序排序, 前 w个欧式距离对应的对 象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关 的另一模态的对象。
如果待检索对象为图像, 该歩骤中, 首先计算图像的投影变量与测 试数据库中各个文本数据的投影变量之间的欧式距离, 并对所有的欧式 距离进行升序排序, 前 w个欧式距离对应的文本数据即是检索得到的与 待检索图像相关的文本对象。 此处, 检索结果数量 w可由用户根据需要 自行设定。
需要特别说明的是, 除了跨模态检索, 本发明方法还可应用到其他 任何需要对多模态数据进行降维处理以进行特征识别的领域, 比如多模 态生物特征识别。 下面分别用模拟数据集和真实数据上的测试结果来证明本发明方 法优于典型相关分析、 线性判别分析以及典型相关分析与线性判别分析 的组合。 模拟数据集实例 如图 1所示, 图 1 (a)中生成了两个二维点集, 星 点(第 1类)与叉点(第 2类)为一个点集, 方框(第 1类)与菱形(第 2类) 为另外一个点集, 且这两个点集分别属于 2类; (b)给出了典型相 关分析 (CCA) 在模拟数据上的投影结果, 虽然这两个点集非常相关, 但是它们在低维投影空间 (这里把数据投影到水平轴上) 上却有大量的 重叠区域, 所以说典型相关分析得到的投影方向不具有判别性; (C)给出 了线性判别分析 (LDA)在模拟数据上的投影结果, 投影后的两类虽然 有很好的判别性, 但是投影后的两个点集的相关性却很差; (d)给出了线 性判别分析 (LDA) 与典型相关分析 (CCA) 的一种组合的结果, 即先 对每个点集做线性判别分析, 然后再做典型相关分析, 得到的结果与直 接做典型相关分析 (b)非常相似; (e)给出了线性判别分析(LDA)与典型 相关分析 (CCA) 的另外一种组合的结果, 即先对两个点集做典型相关 分析, 然后再做线性判别分析, 其结果与本发明方法(DCA) 的结果 (g) 看起来比较相似,然而把两个结果 (e)和 (g)的水平轴坐标进行对数变换后 得到 (f)和 (h), 可以看到典型相关分析和线性判别分析组合的结果在水 平轴方向上是线性不可分的, 如 (f)中的 P数据点和 ρ数据点, 而本发明 方法的结果是线性可分的, 说明了本发明方法更具有判别性。
真实数据集实例 下面在一个图像文本数据集上测试了判别相关分 析的性能, 此数据集包含 2866个图像文本对, 其中训练集有 2173个图 像文本对, 测试集有 693个图像文本对, 且每个图像文本对有一个类别 标签, 属于以下 10类中的某一类: 艺术、 生物、 地理、 历史、 文学、 媒体、 音乐、 王室、 体育、 军事。 其中, 图像采用 128维的 SIFT特征, 文本采用 10维的 LDA文本语义特征。 然后分别用判别相关分析、 典型 相关分析以及典型相关分析与线性判别分析的两种组合把这两类数据 的特征投影到 9维的低维空间, 在此 9维空间中执行跨模态检索任务, 即在图像数据集中检索与某文本相关的图像, 或者在文本数据集中检索 与某图像相关的文本。 跨模态检索的结果用平均精度 (MAP , mean average precision)来度量,平均精度越大越好, 这里的平均精度是指每个 查询检索精度的平均值。 表 1 给出了四种算法的分类结果, 可以看到, 判别相关分析优于其他方法。
表 1
Figure imgf000011_0001
以上所述的具体实施例, 对本发明的目的、 技术方案和有益效果进 行了进一歩详细说明, 所应理解的是, 以上所述仅为本发明的具体实施 例而已, 并不用于限制本发明, 凡在本发明的精神和原则之内, 所做的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求
1、 一种基于判别相关分析的跨媒体检索方法, 其特征在于, 该方 法包括以下歩骤:
歩骤 1, 建立包括一一对应的图像和文本对的跨媒体训练数据库并 提取该数据库中不同模态样本的特征向量, 得到相应的特征数据点集; 歩骤 2, 分别对图像与文本两个模态的特征数据点集进行均值预处 理, 使得每个模态的特征数据点集的均值为 0;
歩骤 3, 将经过均值预处理的特征数据点集进行线性投影变换, 并 根据得到的投影空间设定一关于线性投影变量的目标函数;
歩骤 4,使用特征值求解法求解所述目标函数,得到线性投影向量《 和 6;
歩骤 5, 建立包括一一对应的图像和文本对的跨媒体测试数据库; 歩骤 6, 输入待检索对象, 并分别提取待检索对象的特征向量以及 跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据 点集;
歩骤 7, 对歩骤 6得到的特征向量和特征数据点集分别进行所述均 值预处理;
歩骤 8,使用所述歩骤 4得到的线性投影向量《和6对经过均值预处 理的特征向量和特征数据点集分别进行线性投影变换;
歩骤 9, 计算待检索对象的投影变量与对象集的投影变量之间的欧 式距离, 并对所有的欧式距离进行升序排序, 前 w个欧式距离对应的对 象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关 的另一模态的对象。
2、根据权利要求 1所述的方法, 其特征在于, 所述歩骤 1和 6中, 分别使用尺度不变特征变换算法和隐狄雷克雷分布算法对图像和文本 进行特征提取。
3、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 3 中的线 性投影变换表示为: u a x
v = bTy
其中, 和 分别为图像与文本两个模态特征数据点集对应的变量集合, a和 b分别为对应的投影向量, M和 V为经过线性投影变换得到的投影变
4、 根据权利要求 3 所述的方法, 其特征在于, 根据得到的投影空 间设定目标函数的歩骤进一歩包括以下歩骤:
歩骤 3.1, 计算投影空间中投影变量
Figure imgf000013_0001
ν的协方差
歩骤 3.2, 计算图像与文本两个模态特征数据点集在投影空间中的 类间方差和类内方差 σΒw
歩骤 3.3, 根据计算得到的协方差 C (M,V)、 类间方差^和类内方差 σιν设定目标函数。
5、 根据权利要求 4所述的方法, 其特征在于, 所述歩骤 3.1中, 投 影变量 Μ和 V的协方差 covin, v)表示为:
Figure imgf000013_0002
其中, ∑定义为此协方差的特征矩阵。
6、 根据权利要求 4所述的方法, 其特征在于, 所述歩骤 3.2中, 所 述类间方差和类内方差 σΒ
Figure imgf000013_0003
a 其中, 和 称为多模态数据的 "类间散列矩阵"和 "类内散列矩阵":
)--EmyyJ)
Figure imgf000013_0004
其中, w表示每个数据点集中数据的个数, 表示每个数据点集中 m 的数据的数目 为类别的个数, E ^ =丄∑ ( . f), Em(yyT) =丄∑ Emxxl =Em x)Em l x) , Emxyl =Em x)Em l y) , Emyyl =Em y)Em l y) , EmyxT = Em(y)Em T(x) , Cra表示第 m类数据集, £(x)和 £0 分别是原始数据 点集中第 类数据的均值。
7、 根据权利要求 4所述的方法, 其特征在于, 所述目标函数定义 为:
* 7 * μσ„ + (1 _ u)cov(u. v)
a ,b = arg maxa b—— ,
' σπ
其中, 为调节参数, 它控制着 和《^ , 的相对权重。
8、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 4中, 使 用特征值求解法求解所述目标函数的歩骤进一歩包括以下歩骤:
首先, 定义/ = 重写所述目标函数;
然后, 采用拉格朗日乘数法将重写后的目标函数转换为一可求得广 义特征值的等式;
最后, 求解该等式的特征值和特征向量, 并按照特征值递减的顺序 重新排列特征向量, 取较大特征值对应的特征向量作为最终学习得到的 线性投影向量 α和 6。
9、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 6中的待 检索对象为图像或文本。
10、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 9中检索 结果数量 w由用户根据需要自行设定。
PCT/CN2012/074896 2012-04-28 2012-04-28 基于判别相关分析的跨媒体检索方法 WO2013159356A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/074896 WO2013159356A1 (zh) 2012-04-28 2012-04-28 基于判别相关分析的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/074896 WO2013159356A1 (zh) 2012-04-28 2012-04-28 基于判别相关分析的跨媒体检索方法

Publications (1)

Publication Number Publication Date
WO2013159356A1 true WO2013159356A1 (zh) 2013-10-31

Family

ID=49482177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/074896 WO2013159356A1 (zh) 2012-04-28 2012-04-28 基于判别相关分析的跨媒体检索方法

Country Status (1)

Country Link
WO (1) WO2013159356A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844518A (zh) * 2016-12-29 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种基于子空间学习的不完整跨模态检索方法
CN108828533A (zh) * 2018-04-26 2018-11-16 电子科技大学 一种类内样本相似结构保持非线性投影特征提取方法
CN111461234A (zh) * 2020-04-02 2020-07-28 安徽理工大学 基于两模态距离保持相关特征学习的单视角目标识别方法
CN111708745A (zh) * 2020-06-18 2020-09-25 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN112966734A (zh) * 2020-11-20 2021-06-15 扬州大学 一种基于分数阶谱的判别多重集典型相关分析方法
CN116580444A (zh) * 2023-07-14 2023-08-11 广州思林杰科技股份有限公司 基于多天线射频识别技术的长跑计时的测试方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086210A1 (en) * 2003-06-18 2005-04-21 Kenji Kita Method for retrieving data, apparatus for retrieving data, program for retrieving data, and medium readable by machine
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086210A1 (en) * 2003-06-18 2005-04-21 Kenji Kita Method for retrieving data, apparatus for retrieving data, program for retrieving data, and medium readable by machine
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844518A (zh) * 2016-12-29 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种基于子空间学习的不完整跨模态检索方法
CN106844518B (zh) * 2016-12-29 2019-02-12 天津中科智能识别产业技术研究院有限公司 一种基于子空间学习的不完整跨模态检索方法
CN108828533A (zh) * 2018-04-26 2018-11-16 电子科技大学 一种类内样本相似结构保持非线性投影特征提取方法
CN108828533B (zh) * 2018-04-26 2021-12-31 电子科技大学 一种类内样本相似结构保持非线性投影特征提取方法
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111461234A (zh) * 2020-04-02 2020-07-28 安徽理工大学 基于两模态距离保持相关特征学习的单视角目标识别方法
CN111708745A (zh) * 2020-06-18 2020-09-25 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN111708745B (zh) * 2020-06-18 2023-04-21 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统
CN112966734A (zh) * 2020-11-20 2021-06-15 扬州大学 一种基于分数阶谱的判别多重集典型相关分析方法
CN112966734B (zh) * 2020-11-20 2023-09-15 扬州大学 一种基于分数阶谱的判别多重集典型相关分析方法
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN116580444A (zh) * 2023-07-14 2023-08-11 广州思林杰科技股份有限公司 基于多天线射频识别技术的长跑计时的测试方法和设备

Similar Documents

Publication Publication Date Title
WO2013159356A1 (zh) 基于判别相关分析的跨媒体检索方法
CN111177446B (zh) 一种用于足迹图像检索的方法
Cimpoi et al. Describing textures in the wild
CN106203483B (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
Jing et al. Yarn-dyed fabric defect classification based on convolutional neural network
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
Hasan An application of pre-trained CNN for image classification
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN108319959A (zh) 一种基于图像特征压缩与检索的农作物病害图像识别方法
CN104143088B (zh) 一种基于图像检索和特征权重学习的人脸识别方法
Arora et al. Palmhashnet: Palmprint hashing network for indexing large databases to boost identification
Gao et al. SHREC’15 Track: 3D object retrieval with multimodal views
CN103605993A (zh) 一种基于面向场景判别性分析的图像到视频人脸识别方法
CN107729945A (zh) 基于类间稀疏表示的鉴别回归、分类方法及系统
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN110442736A (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
Júnior et al. Exploiting feature representations through similarity learning, post-ranking and ranking aggregation for person re-identification
JP2016014990A (ja) 動画像検索方法、動画像検索装置及びそのプログラム
Cui et al. A face alignment method based on SURF features
Ding et al. Improving GAN-based feature extraction for hyperspectral images classification
Suchitra et al. Dynamic multi-attribute priority based face attribute detection for robust face image retrieval system
Che et al. Boosting few-shot open-set recognition with multi-relation margin loss
Tan et al. Face recognition algorithm based on open CV
Wei et al. Learning a mid-level feature space for cross-media regularization
Xu et al. Improving reconstruction-based coding methods for image classification: a visual dictionary refining method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12875332

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12875332

Country of ref document: EP

Kind code of ref document: A1