WO2013177751A1 - 基于线性泛化回归模型的跨媒体检索方法 - Google Patents

基于线性泛化回归模型的跨媒体检索方法 Download PDF

Info

Publication number
WO2013177751A1
WO2013177751A1 PCT/CN2012/076212 CN2012076212W WO2013177751A1 WO 2013177751 A1 WO2013177751 A1 WO 2013177751A1 CN 2012076212 W CN2012076212 W CN 2012076212W WO 2013177751 A1 WO2013177751 A1 WO 2013177751A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
database
retrieved
cross
features
Prior art date
Application number
PCT/CN2012/076212
Other languages
English (en)
French (fr)
Inventor
谭铁牛
王亮
陈永明
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Priority to PCT/CN2012/076212 priority Critical patent/WO2013177751A1/zh
Publication of WO2013177751A1 publication Critical patent/WO2013177751A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Definitions

  • the present invention relates to the field of pattern recognition, and in particular to a cross-media retrieval method based on a linear generalized regression model.
  • the cross-media retrieval method based on linear generalized regression model can effectively and reasonably improve the problems of the previous methods.
  • the basic idea is to use the principle of least squares to establish the regression relationship in the modal associated projection subspace, and then map to the original space.
  • the regression relationship theoretically explains the relationship of modal direct conversion.
  • Establishing the regression relationship in the subspace can eliminate the interference of cross noise of different modal variables to a certain extent.
  • Establishing the regression relationship in the original space can preserve the transmission of some detailed information, thus improving the information conversion efficiency and robustness between different modalities. Sex, which in turn guarantees the classification accuracy and final recognition of the next classifier.
  • the proposed method effectively realizes the leap of semantic gap between different modal media, which makes the results returned by the search engine more accurate and more humanized. In commercial use, it can meet different Internet users. The preferences and needs, in turn, attract more Internet users and customers, so it has good application prospects and considerable market value.
  • the present invention provides a cross-media retrieval method based on linear generalized regression model. , the method includes the following steps:
  • Step 1 Collect samples of different modalities, establish a cross-modal retrieval database, and extract feature vectors of different modal samples in the database;
  • Step 2 Using a linear generalized regression model to estimate an association matrix between feature vectors of different modal samples;
  • Step 3 estimating that the eigenvectors of each sample in the database belong to a posterior probability of a certain category
  • Step 4 The user inputs the object to be retrieved, and performs corresponding feature extraction according to the type of the object to be retrieved;
  • Step 5 Using the correlation matrix to perform feature extraction on the extracted features of the object to be retrieved Conversion
  • Step 6 calculating a similarity between the transformed feature of the object to be retrieved and the feature of the sample object of the corresponding category in the database;
  • Step 7 sorting the sample objects of the corresponding category in the database according to the similarity calculated in the step 6, and returning the most similar sample objects among them as the cross-media retrieval result.
  • the present invention uses the principle of least squares to establish a regression relationship in the modal associated projection subspace, and then maps to the original space to establish a regression relationship, theoretically explains the relationship of modal direct conversion, and establishes in the subspace.
  • the regression relationship can eliminate the interference of cross-noise of different modal variables to a certain extent.
  • Establishing the regression relationship in the original space can preserve the transmission of some detailed information, thereby improving the effectiveness and robustness of the transition between different media modes, and thus ensuring The classification accuracy of the classifier and the final recognition effect.
  • This method effectively spans the semantic gap between different modal media, which in turn makes the results returned by the cross-media search engine more accurate.
  • Figure 2 is a schematic diagram of the implementation of the method of the present invention.
  • FIG. 3 is a schematic diagram of a cross-media retrieval effect from text to image in accordance with the present invention.
  • the invention learns the semantic relationship between different modal objects through a linear generalized regression model, obtains an association matrix between different modal object features, thereby establishing a conversion path between different modal objects, and then utilizing the obtained
  • the association matrix converts the retrieved objects, and then uses the similarity measure to find the most relevant objects in the database and the converted objects to be retrieved. Similar sample objects ultimately achieve cross-media retrieval purposes.
  • FIG. 1 is a flow chart of the method of the present invention
  • FIG. 2 is a schematic diagram of the implementation of the method of the present invention.
  • a cross-media retrieval method based on the linear generalized regression model proposed by the present invention includes the following Steps:
  • Step 1 Collect samples of different modalities, establish a cross-modal retrieval database, and extract feature vectors of different modal samples in the database.
  • the samples of the different modalities have a one-to-one correspondence, for example, a one-to-one correspondence image and text.
  • the modal objects of image and text are taken as an example to describe the cross-media retrieval method.
  • the features of the image and the text are extracted using a Scale-Invariant Feature Transform (SIFT) algorithm and a Latent Dirichlet Allocation (LDA) algorithm, respectively.
  • SIFT Scale-Invariant Feature Transform
  • LDA Latent Dirichlet Allocation
  • the SIFT algorithm first finds a local region centered on a key point in the image sample, and then performs gradient filtering on the region to obtain a gradient response, and finally calculates gradient information in each direction as a feature vector of the image sample.
  • the LDA algorithm is a probabilistic hybrid model consisting of a three-layer structure of words, topics, and documents.
  • the LDA algorithm represents each document as a mixture of topics, where each topic is a polynomial distribution on a fixed vocabulary.
  • the LDA algorithm assumes that the words are produced by a mixture of topics, while each topic is a polynomial distribution on a fixed vocabulary that is shared by the documents in the collection, each document being sampled from the Direcle distribution to produce a specific
  • the theme is used as a feature vector.
  • Step 2 Using a linear generalized regression model to estimate the correlation matrix between the eigenvectors of different modal samples.
  • the present invention utilizes a linear generalized regression model to estimate the correlation matrix between the SIFT feature vector X of the image and the LDA feature vector Y of the text, thereby establishing a semantic relationship between the two modal objects.
  • the linear generalized regression model establishes a regression relationship in the modal associated projection subspace by using the principle of least squares, and then maps to the original modal space to establish a regression relationship, which can be expressed by the formula:
  • B the regression coefficient matrix that establishes the modal association for the present invention, that is, the correlation matrix between two different modalities
  • E the residual matrix
  • Step 3 Estimate the eigenvectors of each sample in the database belonging to the posterior probability of a certain category.
  • the data in the feature vector of each sample belongs to one of a plurality of categories, and the data in the feature vectors of the plurality of samples may belong to a common class. Therefore, the present invention first uses a multi-class Lo glS t 1C regression algorithm to estimate the posterior probability that the eigenvectors of each sample in the database belong to a certain category z for subsequent similarity calculations:
  • z is the category
  • X is the feature vector
  • w is the weight of the feature vector X, that is, the regression parameter of the database model, which can be learned by the Maximum Likelihood Estimation method.
  • Step 4 The user inputs the object to be retrieved, and performs corresponding feature extraction according to the type of the object to be retrieved.
  • the SIFT feature is extracted using the Scale Invariant Feature Transform (SIFT) algorithm, and if the object to be retrieved is text, the LDA feature is extracted using the Hidden Drillley Distribution (LDA) algorithm.
  • SIFT Scale Invariant Feature Transform
  • LDA Hidden Drillley Distribution
  • Step 5 Perform feature conversion on the extracted features of the object to be retrieved by using the correlation matrix.
  • the image feature data X is multiplied by the correlation matrix B, that is, the feature data BP of the text corresponding to the image is obtained:
  • the transformed object to be retrieved belongs to a posterior probability of a certain category.
  • Step 6 Calculate the transformed feature of the object to be retrieved and the sample of the corresponding category in the database The similarity between the features of the object.
  • the similarity is characterized by a correlation coefficient, which is calculated as:
  • Step 7 Sort the sample objects of the corresponding categories in the database according to the similarity calculated in step 6 and return to them The most similar sample objects are used as cross-media retrieval results.
  • the most similar first sample objects retrieved in the database can be returned based on user-set parameters.
  • 2,866 image and text multimedia documents containing the same semantic information in the database are randomly divided into a training set of 2173 samples and a test set of 693 samples.
  • the whole search process can be divided into two stages of learning and retrieval. The specific steps of the learning stage are as follows:
  • the category corresponding to the maximum posterior probability is taken as the sample to be tested, that is, the image or text submitted by the user.
  • the category of this example is taken as the sample to be tested, that is, the image or text submitted by the user.
  • Figure 3 is a cross-media search engine query returns the most similar top 6 images and corresponding posters by submitting a text describing the geographic content on Wikipedia (http://www.wikipedia.org/). Probability distribution histogram.
  • the retrieval process is as follows: The user first submits the text segment that needs to be retrieved, then extracts the LDA feature of the text, uses the linear generalized regression model to convert the text LDA feature into the SIFT feature of the image, and then uses the multi-class logistic regression method to estimate the image to be tested.
  • the posterior probability in the model calculates the correlation coefficient between the posterior probability of the query image and the posterior probability of the data, and sorts it, and finally displays the image corresponding to the first six largest correlation coefficients. It can be seen from Fig. 3 that the descriptive image corresponding to the text to be retrieved has great similarity with the retrieved image.
  • the method based on linear generalized regression model for cross-modal retrieval is simpler than the traditional method, and it theoretically explains and effectively establishes the mapping relationship between different modes. Thereby ensuring the validity and robustness of information conversion between different modalities.
  • the proposed method effectively crosses the semantic gap between different modal media. Compared with the traditional cross-media retrieval method, the present invention shows a wider application prospect and greater market value.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于线性泛化回归模型的跨媒体检索方法。该方法首先提取不同模态对象的语义特征,再利用线性泛化回归模型建立各个模态特征之间的回归关系,实现不同模态特征的相互转换,接着利用多类Logistic回归算法估计转换后模态对象的后验概率分布,最后利用距离度量的方法来计算测试样本和数据库样本之间的距离,从而输出检索得到的最相似的前N个数据库中的样本。本发明在跨越不同模态的语义鸿沟时,可以最大限度地防止不同模态媒体在转换时有效信息的泄露,从而保证不同模态信息传递的有效性,进一步提高跨媒体搜索的鲁棒性和准确性,具有良好的运用前景和可观的市场价值。

Description

基于线性泛化回归模型的跨媒体检索方法 技术领域 本发明涉及模式识别领域, 特别涉及一种基于线性泛化回归模型的 跨媒体检索方法。
背景技术 人类如今生活在信息大爆炸时代, 人类可以通过互联网搜索弓 I擎如 谷哥欠 (http://www.google.com)> 百度 (http://www.baidu.com) 等搜寻自 己想要的文章、 图片、 音乐和电影等。 然而, 目前互联网用户主要还是 通过关键字搜索得到所需要的信息, 这个限制主要是归结于搜索引擎无 法理解异构模态媒体之间的相互关系, 从而限制了搜索引擎的发展。 众 所周知, 互联网搜索引擎具有巨大的市场价值, 如何增强搜索引擎的性 能, 以吸引更多的用户和客户, 将是下一代搜索引擎发展的关键和生存 之道。
跨媒体搜索引擎研究得到了国际学术界的重视, 我国近年来也开始 重点关注该项技术的发展, 设立 973计划和国家支撑计划对该领域的相 关技术进行研发。 目前国际上提出的一些方法虽然可以被用于建立不同 模态之间的关系, 但是仍然存在很多的不合理和不足之处, 如信息传递 的泄漏问题和信息传递的不均衡问题。 其中一种主流方法是基于关联子 空间恒等同构的方法。 基于关联子空间的典型方法如典型相关分析 (Canonical Correlation Analysis, CCA) , 它通过对偶综合变量之间的相 关性联合降维的方法, 将不同模态的数据降到相同维数的关联子空间, 这种方法在压缩模态的同时不可避免地造成了原始模态信息的泄漏, 从 而丢掉了原始模态特征描述中的一些细节信息; 另外, 该方法在模态转 换时在恒等子空间直接进行信息交互, 并没有考虑子空间映射的合理关 系,只是运用了子空间映射的特殊情况。后续工作还提出了一些与 CAA 组合的方法来建立 CCA投影子空间映射之间的关系, 这些组合方法的 明显不足之处在于, 在运用 CCA方法时就已经产生了信息的泄漏; 此 外这些方法并不能从理论上给出有效的子空间关联性的解释, 因此无法 估计需要运用多少次组合的方法, 也无法估计组合方法产生的冗余性。
利用基于线性泛化回归模型的跨媒体检索方法可以有效和合理改 进之前方法存在的问题, 其基本思想是利用最小二乘的原理在模态关联 投影子空间建立回归关系, 然后映射到原始空间建立回归关系, 从理论 上解释了模态直接转换的关系。 在子空间建立回归关系在一定程度上可 以消除不同模态变量交叉噪声的干扰, 在原始空间建立回归关系可以保 留一些细节信息的传递, 从而提高不同模态之间信息的转换有效性和鲁 棒性, 进而保证了下一歩分类器的分类精度和最终的识别效果。 该方法 的提出有效地实现了不同模态媒体之间的语义鸿沟的跨越, 进而使得搜 索引擎返回的结果更加准确和更趋于人性化, 在商业用途上, 它可以满 足更广大互联网用户不同的喜好和需求, 进而吸引更多的互联网用户和 客户, 因此具有良好的运用前景和可观的市场价值。
发明内容 为了解决现有跨媒体搜索弓 I擎技术存在的问题, 特别是为了解决现 阶段不同多媒体模态信息传递的有效性问题, 本发明提供一种基于线性 泛化回归模型的跨媒体检索方法, 该方法包括以下歩骤:
歩骤 1, 搜集不同模态的样本, 建立跨模态检索数据库, 并提取数 据库中不同模态样本的特征向量;
歩骤 2, 利用线性泛化回归模型来估计不同模态样本特征向量之间 的关联矩阵;
歩骤 3, 估计数据库中各个样本的特征向量属于某一个类别的后验 概率;
歩骤 4, 用户输入待检索对象, 并根据待检索对象的类型进行相应 的特征提取;
歩骤 5, 使用所述关联矩阵对提取到的待检索对象的特征进行特征 转换;
歩骤 6, 计算待检索对象转换后的特征与数据库中对应类别的样本 对象的特征之间的相似度;
歩骤 7, 根据所述歩骤 6计算得到的相似度对数据库中对应类别的 样本对象进行排序, 并返回其中最相似的几个样本对象作为跨媒体检索 结果。
与传统方法相比较, 本发明利用最小二乘的原理在模态关联投影子 空间建立回归关系, 然后映射到原始空间建立回归关系, 从理论上解释 了模态直接转换的关系, 在子空间建立回归关系在一定程度上可以消除 不同模态变量交叉噪声的干扰, 在原始空间建立回归关系可以保留一些 细节信息的传递, 从而提高不同媒体模态之间转换的有效性和鲁棒性, 进而保证分类器的分类精度和最终的识别效果。 该方法有效地跨越了不 同模态媒体之间的语义鸿沟, 进而使得跨媒体搜索引擎返回的结果更加 准确。
附图说明 图 1是本发明方法的流程图;
图 2是本发明方法的实现示意图 ·'
图 3是根据本发明的从文本到图像的跨媒体检索效果示意图。
具体实施方式 为使本发明的目的、 技术方案和优点更加清楚明白, 以下结合具体 实施例, 并参照附图, 对本发明进一歩详细说明。
本发明通过线性泛化回归模型来学习不同模态对象之间的语义关 系, 获得不同模态对象特征之间进行转换的关联矩阵, 从而建立不同模 态对象之间的转换途径, 然后利用获得的关联矩阵对待检索对象进行转 换, 再用相似性度量的方法来寻找数据库中与转换后的待检索对象最为 相似的样本对象, 最终实现跨媒体检索的目的。
图 1是本发明方法的流程图, 图 2是本发明方法的实现示意图, 如图 1和图 2所示, 本发明所提出的一种基于线性泛化回归模型的跨媒体检索 方法包括以下几个歩骤:
歩骤 1, 搜集不同模态的样本, 建立跨模态检索数据库, 并提取数 据库中不同模态样本的特征向量。
所述不同模态的样本之间为一一对应, 比如可以是一一对应的图像 和文本, 本发明中以图像和文本这两种模态对象为例来描述所述跨媒体 检索方法。本发明中,分别使用尺度不变特征变换( Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布 (Latent Dirichlet Allocation, LDA) 算法对图像和文本进行特征的提取。 具体地, SIFT 算法首先找到图像 样本中以某关键点为中心的局部区域, 然后对该区域进行梯度滤波, 得 到梯度响应, 最后统计各方向的梯度信息作为该图像样本的特征向量。
LDA算法是一个包含词、 主题和文档三层结构的概率混合模型, LDA算 法将每个文档表示为一个主题混合, 其中每个主题是固定词表上的一个 多项式分布。 LDA算法假设词由一个主题混合产生, 同时每个主题是在 固定词表上的一个多项式分布, 这些主题被集合中的文档所共享, 每个 文档从狄雷克雷分布中抽样产生一个特定的主题作为特征向量。
歩骤 2, 利用线性泛化回归模型来估计不同模态样本特征向量之间 的关联矩阵。
本发明利用线性泛化回归模型来估计图像的 SIFT特征向量 X和文 本的 LDA特征向量 Y之间的关联矩阵, 从而建立两种模态对象之间的语 义关系。 所述线性泛化回归模型为利用最小二乘的原理在模态关联投影 子空间建立回归关系, 然后再映射到原始模态空间建立回归关系, 其用 公式可表示为:
Y = XB + E (1) 其中, B为本发明建立模态关联的回归系数矩阵, 即两个不同模态 之间的关联矩阵, E为残差矩阵。
如果数据库中含有多个模态对象, 则需要估计两两模态对象之间的 关联矩阵。
歩骤 3, 估计数据库中各个样本的特征向量属于某一个类别的后验 概率。
每个样本的特征向量中的数据属于多个类别中的一个, 多个样本的 特征向量中的数据有可能属于共同的某一类。 因此, 本发明首先采用多 类 LoglSt1C回归算法来估计数据库中各个样本的特征向量属于某一个类 别 z的后验概率, 以用于后续的相似度计算:
其中, z表示类别, X是特征向量, w是特征向量 X的权重, 即数据 库模型的回归参数, 可以通过最大似然估计 (Maximum Likelihood Estimation) 法学习得到。
歩骤 4, 用户输入待检索对象, 并根据待检索对象的类型进行相应 的特征提取。
如果待检索对象是图像则使用尺度不变特征变换 (SIFT) 算法提取 其 SIFT特征, 如果待检索对象是文本则使用隐狄雷克雷分布 (LDA)算法 提取其 LDA特征。
歩骤 5, 使用所述关联矩阵对提取到的待检索对象的特征进行特征 转换。
首先, 由于提取的待检索对象的特征与数据库样本特征之间存在语 义鸿沟, 无法直接跨越, 因此需要将这些提取到的特征使用所述关联矩 阵 B来进行特征转换:
如果已经提取到用户输入的图像的特征数据 , 将图像特征数据 X 乘以所述关联矩阵 B, 即得到与该图像对应的文本的特征数据 BP:
Ϋ = ΧΒ (3) 如果数据库中含有多个模态对象, 则根据相应的关联矩阵对待检索 对象特征进行转换。
然后, 利用所述多类 LoglSt1C回归算法, 估计转换后的待检索对象特 征属于某一个类别的后验概率。
歩骤 6, 计算待检索对象转换后的特征与数据库中对应类别的样本 对象的特征之间的相似度。 所述相似度使用相关系数来表征, 其计算公 式为:
Figure imgf000008_0001
其中, A。„为相关系数, π和 π'表示两个待比较对象特征的后验概率。 歩骤 7, 根据所述歩骤 6计算得到的相似度对数据库中对应类别的样 本对象进行排序, 并返回其中最相似的几个样本对象作为跨媒体检索结 果。
在返回跨媒体检索结果时, 可以根据用户设定的参数返回在数据库 中检索到的最相似的前 Ν个样本对象。 假设数据库中有 2866个包含相同语义信息的图像和文本多媒体文 档, 这些文档被随机划分为 2173个样本的训练集和 693个样本的测试 集。 整个检索过程可分为学习和检索两个阶段, 其中学习阶段的具体歩 骤为:
1) 提取 128维的图像 SIFT特征和 10维的 LDA文本语义特征;
2) 将提取得到的图像和文本特征输入到线性泛化回归模型中, 利用线 性泛化回归模型计算不同模态特征之间的回归关系, 即计算出关联 矩阵 B ;
3) 将提取到的图像和文本特征输入多类 LoglSt1C回归器中进行训练,生 成数据库模型的回归参数 ^和对应的后验概率分布。
检索阶段的具体歩骤为:
1) 用户提交需要检索的图像或文本实例;
2) 提取实例图像的 SIFT特征或实例文本的 LDA特征;
3) 把实例图像特征乘以关联矩阵 B, 实现文本与图像特征之间的转换;
4) 将转换得到的图像或文本特征输入到训练过程生成的多类 LoglSt1C 回归分类模型中进行测试, 估计用户提交的图像或文本实例的后验 概率分布;
5) 将最大后验概率对应的类别作为待测样本, 即用户提交的图像或文 本实例的类别;
6) 度量待测样本和对应类别数据库样本之间的相似性, 其中, 相似性 指标用相关系数来度量;
7) 根据相关性的大小对数据库中的样本, 即媒体对象进行排序, 根据 用户设定的参数返回在数据库中检索到的最相似的前 6个媒体对象。 图 3 是用户通过提交一段维基百科 (http://www.wikipedia.org/) 上 的描述地理内容的文本, 让跨媒体搜索引擎查询返回得到的最相似的前 6 幅图像和对应的后验概率分布直方图。 检索过程如下: 用户首先提交 需要检索的文本片断, 接着提取文本的 LDA特征, 利用线性泛化回归 模型将文本 LDA特征转换为图像的 SIFT特征,然后利用多分类 Logistic 回归的方法估计待测图像在模型中的后验概率, 计算查询图像后验概率 与该类数据后验概率之间的相关系数, 并进行排序, 最后显示前 6个最 大相关系数所对应的图像。 从图 3可以看出待检索文本对应的描述性图 像与检索出的图像具有很大的相似性。
从上面的例子可以看出, 基于线性泛化回归模型方法用于跨模态检 索比传统方法更加简单, 并且它从理论上更加合理地解释和有效地建立 了不同模态之间的映射关系, 从而保证不同模态之间信息转换的有效性 和鲁棒性。 该方法的提出有效地跨越了不同模态媒体之间的语义鸿沟, 与传统的跨媒体检索方法比较, 本发明表现出更广泛的运用前景和更大 的市场价值。
以上所述的具体实施例, 对本发明的目的、 技术方案和有益效果进 行了进一歩详细说明, 所应理解的是, 以上所述仅为本发明的具体实施 例而已, 并不用于限制本发明, 凡在本发明的精神和原则之内, 所做的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求
1、 一种基于线性泛化回归模型的跨媒体检索方法, 其特征在于, 该方法包括以下歩骤:
歩骤 1, 搜集不同模态的样本, 建立跨模态检索数据库, 并提取数 据库中不同模态样本的特征向量;
歩骤 2, 利用线性泛化回归模型来估计不同模态样本特征向量之间 的关联矩阵;
歩骤 3, 估计数据库中各个样本的特征向量属于某一个类别的后验 概率;
歩骤 4, 用户输入待检索对象, 并根据待检索对象的类型进行相应 的特征提取;
歩骤 5, 使用所述关联矩阵对提取到的待检索对象的特征进行特征 转换;
歩骤 6, 计算待检索对象转换后的特征与数据库中对应类别的样本 对象的特征之间的相似度;
歩骤 7, 根据所述歩骤 6计算得到的相似度对数据库中对应类别的 样本对象进行排序, 并返回其中最相似的几个样本对象作为跨媒体检索 结果。
2、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 1 中, 所 述不同模态的样本之间为一一对应。
3、 根据权利要求 1 所述的方法, 其特征在于, 分别使用尺度不变 特征变换算法和隐狄雷克雷分布算法对图像和文本进行特征的提取。
4、 根据权利要求 1所述的方法, 其特征在于, 所述线性泛化回归模 型表示为:
Y = XB + E ,
其中, X和 Y分别代表两个不同模态的特征向量, B为 X和 Y之间的关 联矩阵, E为残差矩阵。
5、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 3 中, 采 用多类 LoglSt1C回归算法来估计数据库中各个样本的特征向量属于某一 个类别 z的后验概率:
Figure imgf000011_0001
其中, z表示类别, X是特征向量, w是特征向量 X的权重, 通过最大似 然估计法学习得到。
6、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 5中, 使 用所述关联矩阵对提取到的待检索对象的特征进行特征转换表示为:
Ϋ = ΧΒ ,
其中, 为待检索对象的特征, B为关联矩阵, f为转换后得到的特征。
7、 根据权利要求 1 所述的方法, 其特征在于, 若数据库中含有多 个模态对象, 则根据相应的关联矩阵对待检索对象特征进行转换。
8、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 5中进一 歩包括, 利用多类 LoglSt1C回归算法估计转换后的待检索对象特征属于 某一个类别的后验概率。
9、 根据权利要求 1所述的方法, 其特征在于, 所述相似度使用相关
Figure imgf000011_0002
PCT/CN2012/076212 2012-05-29 2012-05-29 基于线性泛化回归模型的跨媒体检索方法 WO2013177751A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/076212 WO2013177751A1 (zh) 2012-05-29 2012-05-29 基于线性泛化回归模型的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/076212 WO2013177751A1 (zh) 2012-05-29 2012-05-29 基于线性泛化回归模型的跨媒体检索方法

Publications (1)

Publication Number Publication Date
WO2013177751A1 true WO2013177751A1 (zh) 2013-12-05

Family

ID=49672282

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/076212 WO2013177751A1 (zh) 2012-05-29 2012-05-29 基于线性泛化回归模型的跨媒体检索方法

Country Status (1)

Country Link
WO (1) WO2013177751A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275685B2 (en) 2014-12-22 2019-04-30 Dolby Laboratories Licensing Corporation Projection-based audio object extraction from audio content
US10528882B2 (en) 2015-06-30 2020-01-07 International Business Machines Corporation Automated selection of generalized linear model components for business intelligence analytics
CN113792167A (zh) * 2021-11-11 2021-12-14 南京码极客科技有限公司 一种基于注意力机制和模态依赖的跨媒体交叉检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102262670A (zh) * 2011-07-29 2011-11-30 中山大学 一种基于移动可视设备的跨媒体信息检索系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102262670A (zh) * 2011-07-29 2011-11-30 中山大学 一种基于移动可视设备的跨媒体信息检索系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUE, XIANGYANG: "Techniques of Content-based Multimedia and Cross-media Information Retrieval", WORLD SCIENCE, December 2005 (2005-12-01), pages 21 - 22 *
ZHANG, HONG ET AL.: "Cross-Media Retrieval Method Based on Content Correlations", CHINESE JOURNAL OF COMPUTERS, vol. 31, no. 5, May 2008 (2008-05-01), pages 821 - 826 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275685B2 (en) 2014-12-22 2019-04-30 Dolby Laboratories Licensing Corporation Projection-based audio object extraction from audio content
US10528882B2 (en) 2015-06-30 2020-01-07 International Business Machines Corporation Automated selection of generalized linear model components for business intelligence analytics
CN113792167A (zh) * 2021-11-11 2021-12-14 南京码极客科技有限公司 一种基于注意力机制和模态依赖的跨媒体交叉检索方法

Similar Documents

Publication Publication Date Title
JP5749279B2 (ja) アイテム関連付けのための結合埋込
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN102693316B (zh) 基于线性泛化回归模型的跨媒体检索方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
Wang et al. Semantic gap in cbir: Automatic objects spatial relationships semantic extraction and representation
JP2017518588A (ja) 会話理解システムのためのセッションコンテキストモデリング
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN102549603A (zh) 基于相关性的图像选择
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
JP2016540332A (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
Xu et al. Instance-level coupled subspace learning for fine-grained sketch-based image retrieval
Zhang et al. Boosting cross-media retrieval via visual-auditory feature analysis and relevance feedback
Boato et al. Exploiting visual saliency for increasing diversity of image retrieval results
Sergieh et al. Geo-based automatic image annotation
CN108052680A (zh) 基于数据图谱、信息图谱和知识图谱的图像数据目标识别增强方法
WO2013177751A1 (zh) 基于线性泛化回归模型的跨媒体检索方法
Dourado et al. Event prediction based on unsupervised graph-based rank-fusion models
CN107423294A (zh) 一种社群图像检索方法及系统
Su et al. Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering
Li et al. Evidence-based SVM fusion for 3D model retrieval
Xia et al. Self‐training with one‐shot stepwise learning method for person re‐identification
Thollard et al. Content-based re-ranking of text-based image search results
Gupta et al. Semantics Preserving Hierarchy based Retrieval of Indian heritage monuments

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12877624

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12877624

Country of ref document: EP

Kind code of ref document: A1