WO2018145604A1

WO2018145604A1 - 样本选择方法、装置及服务器

Info

Publication number: WO2018145604A1
Application number: PCT/CN2018/075114
Authority: WO
Inventors: 黄圣君; 高能能; 袁坤; 陈伟; 王迪
Original assignee: 南京航空航天大学; 腾讯科技（深圳）有限公司
Priority date: 2017-02-08
Filing date: 2018-02-02
Publication date: 2018-08-16
Also published as: EP3582144A4; CN108399414B; US20190213447A1; MA47466A; EP3582144A1; US10885390B2; CN108399414A

Abstract

一种样本选择方法、装置及服务器，属于度量学习技术领域。所述方法包括：从未标注样本集中选取n组样本对，每一组样本对包括两个样本，每一个样本包括p种模态的数据（101）；对于每一组样本对，计算样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度（102）；根据p×p个部分相似度计算样本对包括的两个样本之间的整体相似度（103）；获取p×p个部分相似度与整体相似度之间的差异程度（104）；从n组样本对中选择符合预设条件的样本对作为训练样本（105）。所述方法、装置及服务器通过选择高质量的训练样本训练度量模型，能够用更少的训练样本训练出更高精度的度量模型。

Description

样本选择方法、装置及服务器

本申请要求于2017年2月8日提交国家知识产权局、申请号为201710069595.X、发明名称为“样本选择方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及度量学习技术领域，特别涉及一种样本选择方法、装置及服务器。

背景技术

度量学习(metric learning)是指从已标注相关性的样本对中自动学习出合理描述两个对象之间的语义相似度的距离度量，是图像检索领域中常用的一种机器学习技术。

目前，已经有一些较为成熟的有关度量学习的技术，但这些技术大多是针对单模态数据(如图像和图像)之间的相关性度量，并不适用于跨模态数据(如图像和文本)之间的相关性度量。针对跨模态数据的度量学习，在现有技术中，预先构建训练样本集，该训练样本集中包括大量的训练样本，每一个训练样本包括一组已标注相关性的样本对，而后采用该训练样本集训练度量模型，该度量模型用于度量一组跨模态数据之间的相关性。训练样本集的构建方式通常采用随机抽样方式从未标注样本集中选取样本对作为训练样本，并将选取的训练样本交由标注人员进行相关性标注。

在现有技术中，采用随机抽样方式选取的训练样本质量偏低，导致最终训练得到的度量模型的准确性较低。并且，由于需要大量已标注相关性的训练样本来训练度量模型，导致模型的训练效率较低，且对训练样本的标注需要耗费较多的时间和成本。

发明内容

本申请实施例提供了一种样本选择方法、装置及服务器，用以解决现有技术在针对跨模态数据的度量学习中，所存在的模型的准确性较低，模型的训练效率较低，以及对训练样本的标注需要耗费较多的时间和成本的问题。所述技术方案如下：

一方面，提供了一种样本选择方法，应用于服务器中，所述方法包括：

从未标注样本集中选取n组样本对，每一组样本对包括两个样本，每一个样本包括p种模态的数据，所述n为正整数，所述p为大于1的整数；

对于所述n组样本对中的每一组样本对，计算所述样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度；

根据所述p×p个部分相似度计算所述样本对包括的两个样本之间的整体相似度；

获取所述p×p个部分相似度与所述整体相似度之间的差异程度；

从所述n组样本对中符合预设条件的样本对中选择训练样本；其中，所述预设条件满足所述差异程度大于第一阈值且所述整体相似度小于第二阈值。

另一方面，提供了一种样本选择装置，应用于服务器中，所述装置包括：

选取模块，用于从未标注样本集中选取n组样本对，每一组样本对包括两个样本，每一个样本包括p种模态的数据，所述n为正整数，所述p为大于1的整数；

第一计算模块，用于对于所述n组样本对中的每一组样本对，计算所述样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度；

第二计算模块，用于根据所述p×p个部分相似度计算所述样本对包括的两个样本之间的整体相似度；

第三计算模块，用于获取所述p×p个部分相似度与所述整体相似度之间的差异程度；

选择模块，用于从所述n组样本对中符合预设条件的样本对中选择训练样本；其中，所述预设条件满足所述差异程度大于第一阈值且所述整体相似度小于第二阈值。

再一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的样本选择方法。

又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的样本选择方法。

还一方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的样本选择方法。

本申请实施例提供的技术方案带来的有益效果包括：

将主动学习(active learning)技术应用于针对跨模态数据的度量学习中，通过主动选择最有价值的样本对作为训练样本，能够显著提升训练样本的质量。其中，最有价值的样本对是指对提升度量模型的准确性具有积极效果的样本对，例如度量模型在之前的训练过程中还未学习掌握的样本对。由于本申请实施例相较于现有技术选择的训练样本的质量更高，因此存在如下优势：第一，在选择同等数量的训练样本的情况下，采用本申请实施例提供的方法选择的训练样本训练得到的度量模型的准确性更高；第二，在为了获得同等精度的度量模型的情况下，采用本申请实施例提供的方法所需的训练样本的数量更少，有助于提高模型的训练效率，减少对训练样本的标注所需耗费的时间和成本。所以，相较于现有技术，本申请实施例提供的技术方案，通过选择高质量的训练样本训练度量模型，能够用更少的训练样本训练出更高精度的度量模型。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的样本选择方法的流程图；

图2是本申请另一实施例提供的样本选择方法的流程图；

图3是本申请一个实施例提供的模型训练过程的流程图；

图4是本申请一个实施例提供的模型优化过程的流程图；

图5是本申请实施例涉及的标注界面的示意图；

图6是本申请实施例涉及的检索界面的示意图；

图7是本申请一个实施例提供的样本选择装置的框图；

图8是本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本申请实施例中，将主动学习技术应用于针对跨模态数据的度量学习中，通过主动选择最有价值的样本对作为训练样本进行相关性标注并用于模型训练，能够显著提升训练样本的质量，从而达到提升最终训练得到的度量模型的准确性，提高度量模型的训练效率，以及减少对训练样本的标注所需耗费的时间和成本的技术效果。下面将基于上面所述的本申请实施例涉及的共性方面，对本申请实施例进行进一步详细说明。

本申请实施例提供的方法，各步骤的执行主体可以是服务器。例如，该服务器可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

本申请实施例提供的技术方案可应用于跨模态数据检索领域，例如跨图像和文本两种模态数据的检索领域。通过本申请实施例提供的度量模型能够精确计算相同模态数据、跨模态数据之间的相关性，从而达到向用户精准反馈所需检索的内容的目的。

请参考图1，其示出了本申请一个实施例提供的样本选择方法的流程图。该方法可以包括如下几个步骤：

步骤101，从未标注样本集中选取n组样本对，每一组样本对包括两个样本，每一个样本包括p种模态的数据，n为正整数，p为大于1的整数。

未标注样本集中包括多个样本，每一个样本包括多种模态的数据。对于每一个样本包括的p种模态的数据，这p种模态的数据之间具有相关性。示例性地，每一个样本包括图像和文本两种模态的数据，其中文本是用于描述图像的文字信息，比如文本用于对图像的内容进行介绍。

在本申请实施例中，对模态的划分角度不作限定。在一个示例中，从数据类型角度对模态进行划分，不同种模态的数据可以是不同数据类型的数据，例如图像和文本、音频和文本、视频和文本、图像和音频等。在另一个示例中，从数据内容角度对模态进行划分，不同种模态的数据可以是不同数据内容的数据，例如有关身体健康状况的数据可分为如下多种不同的模态：血压数据、血糖数据、心电图数据、体重数据等。

可选地，采用随机抽样方式从未标注样本集中选取n组样本对。

例如，未标注样本集以集合U表示，集合U中包括N ₁个样本。采用随机抽样方式从N ₁个样本中选取n组样本对，该n组样本对构成候选训练样本集，候选训练样本集以集合P表示。示例性地，假设每一个样本包括图像和文本两种模态的数据。

步骤102，对于n组样本对中的每一组样本对，计算样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度。

对于每一组样本对，计算得到的p×p个部分相似度包括：p个相同模态数据之间的相似度，以及p×p-p个跨模态数据之间的相似度。仍然以上述示例为例，假设每一个样本包括图像和文本两种模态的数据，对于每一个样本对(包括第一样本和第二样本)能够计算得到4个部分相似度，其中2个相同模态数据之间的相似度分别为第一样本的图像和第二样本的图像之间的相似度、第一样本的文本和第二样本的文本之间的相似度，另外2个跨模态数据之间的相似度分别为第一样本的图像和第二样本的文本之间的相似度、第一样本的文本和第二样本的图像之间的相似度。

可选地，步骤102包括如下几个子步骤：

步骤102a，对于n组样本对中的每一组样本对，从样本对包括的每一个样本的每一种模态的数据中提取特征；

在实际应用中，针对不同模态的数据，所提取的特征也有所不同，其可根据实际应用需求预先设定，本实施例对此不作限定。示例性地，假设每一个样本包括图像和文本两种模态的数据，则从每一个样本中提取的特征包括图像特征和文本特征。其中，图像特征从样本包括的图像中提取，图像特征的提取方式可采用数字图像处理教科书中的经典方法，图像特征包括但不限于颜色特征、纹理特征、形状特征中的至少一种。文本特征从样本包括的文本中提取，文本特征的提取方式可采用自然语言处理领域中的经典方法，文本特征包括但不限于TF-IDF(Term Frequency–Inverse Document Frequency，词频-反文档频率)特征、LDA(Latent Dirichlet Allocation，隐含狄利克雷模型)特征、词性特征等。

例如，样本以o表示，从样本o中提取的图像特征为

从样本o中提取的文本特征为

该样本o即可以特征向量的形式表示为o＝[x；z]；其中，D _x表示图像特征的维度数(即项数)，D _z表示文本特征的维度数(即项数)。

步骤102b，根据样本对包括的一个样本的每一种模态的数据的特征和另一个样本的每一种模态的数据的特征，计算得到p×p个部分相似度。

采用已经训练得到的度量模型根据样本对包括的一个样本的每一种模态的数据的特征和另一个样本的每一种模态的数据的特征，计算得到p×p个部分相似度。其中，已经训练得到的度量模型采用已经构建的训练样本集进行训练得到。已经构建的训练样本集以集合L表示，其包括N ₂个训练样本，每一个训练样本包括一组已标注相关性的样本对。在本申请实施例中，通过本实施例提供的方法流程选取高质量的训练样本，并采用这些高质量的训练样本更新训练样本集L，而后采用更新后的训练样本集L对度量模型重新进行训练，以达到优化度量模型的目的。

最初的度量模型可由最初的训练样本集进行训练得到。最初的训练样本集中可以包含少量的训练样本，这部分少量的训练样本可采用随机抽样方式从未标注样本集中选取，并将选取的训练样本交由标注人员进行相关性标注后用于训练最初的度量模型。在本实施例中，度量模型以M表示，度量模型M为k行k列的矩阵，k表示一个样本包括的p种模态数据的特征的维度数(即项数)之和，k为大于1的整数。示例性地，假设每一个样本包括图像和文本两种模态的数据，从样本o中提取的图像特征为

从样本o中提取的文本特征为

则度量模型M是一个(D _x+D _z)行(D _x+D _z)列的矩阵。度量模型M可以看作是由p×p个子度量模型构成。每一个子度量模型用于根据一个对象的一种模态的数据的特征和另一个对象的一种模态的数据的特征，计算得到一个部分相似度。度量模型M用于根据p×p个部分相似度计算两个对象之间的整体相似度。上述对象可以是训练样本中的一个样本，也可以是采用该度量模型进行相关性度量时输入的数据。

示例性地，假设p为2，每一个样本包括图像和文本两种模态的数据，从样本o中提取的图像特征为

从样本o中提取的文本特征为

则度量模型M可以表示为：

度量模型M可以看作是由4个子度量模型构成，分别为M ₁₁、M ₁₂、M ₂₁ (即

)和M ₂₂。其中，子度量模型M ₁₁为D _x行D _x列的矩阵，用于根据一个对象的图像特征和另一个对象的图像特征计算这两个对象的图像之间的相似度；子度量模型M ₁₂为D _x行D _z列的矩阵，用于根据一个对象的图像特征和另一个对象的文本特征计算这一个对象的图像和另一个对象的文本之间的相似度；子度量模型M ₂₁为D _z行D _x列的矩阵，用于根据一个对象的文本特征和另一个对象的图像特征计算这一个对象的文本和另一个对象的图像之间的相似度；子度量模型M ₂₂为D _z行D _z列的矩阵，用于根据一个对象的文本特征和另一个对象的文本特征计算这两个对象的文本之间的相似度。采用该度量模型M能够计算得到4个部分相似度，分别表示为

和

步骤103，根据p×p个部分相似度计算样本对包括的两个样本之间的整体相似度。

可选地，将p×p个部分相似度相加得到整体相似度。在本实施例中，整体相似度以S _M表示。

以计算样本对(o _i,o _j)包括的两个样本o _i和o _j之间的整体相似度S _M(o _i,o _j)为例，计算过程如下：

其中，x _i表示样本o _i的图像特征，z _i表示样本o _i的文本特征，x _j表示样本o _j的图像特征，z _j表示样本o _j的文本特征。

另外，仍然采用已经训练得到的度量模型M根据p×p个部分相似度计算样本对包括的两个样本之间的整体相似度。

步骤104，获取p×p个部分相似度与整体相似度之间的差异程度。

上述差异程度可以由多种衡量标准，例如方差、残差等。

可选地，当采用方差衡量差异程度时，样本对(o _i,o _j)对应的差异程度var(o _i,o _j)为：

其中，S _M表示样本对(o _i,o _j)包括的两个样本o _i和o _j之间的整体相似度，也即S _M(o _i,o _j)，此处简写为S _M；

和

分别表示样本对(o _i,o _j)包括的两个样本o _i和o _j之间的部分相似度，也即

和

此处简写为

和

差异程度var(o _i,o _j)同时考虑了相同模态数据和跨模态数据之间的部分相似度，并反映了各个部分相似度与整体相似度之间的不一致程度。

步骤105，从n组样本对中符合预设条件的样本对中选择训练样本；其中，预设条件满足差异程度大于第一阈值且整体相似度小于第二阈值。

在计算得到每一组样本对对应的整体相似度和差异程度之后，据此选择最有价值的样本对作为训练样本。其中，最有价值的样本对是指对提升度量模型的准确性具有积极效果的样本对，例如度量模型在之前的训练过程中还未学习掌握的样本对。

在本申请实施例中，通过选取差异程度较大且整体相似度较小的样本对作为训练样本，能够达到选取高质量的训练样本的目的。

在一个示例中，步骤105包括：从n组样本对中选择差异程度大于第一阈值且整体相似度小于第二阈值的样本对作为训练样本。第一阈值的取值可根据实际需求预先设定，若想选择的样本对对应的差异程度越大，则第一阈值的取值越大。第二阈值的取值也可根据实际需求预先设定，若想选择的样本对对应的整体相似度越小，则第二阈值的取值越小。

在另一个示例中，步骤105包括如下几个子步骤：

步骤105a，对于n组样本对中的每一组样本对，根据样本对对应的整体相似度和差异程度，计算样本对对应的信息量；

样本对(o _i,o _j)对应的信息量dis(o _i,o _j)为：

步骤105b，从n组样本对中选择信息量大于第三阈值的样本对作为训练样本。

第三阈值的取值可根据实际需求预先设定，若想选择的样本对对应的差异程度越大且整体相似度越小，则第三阈值的取值较大。

在另一种可能的实施方式中，在计算得到每一组样本对对应的信息量之后，按照信息量由大到小的顺序对n组样本对进行排序得到样本对序列，从样本对序列中选择前m个样本对作为训练样本，m为正整数。其中，m的取值可根据实际需要选取的训练样本的数量预先设定。

通过计算样本对对应的信息量，能够实现将样本对对应的差异程度最大化，并将样本对对应的整体相似度最小化，从而选取符合预设条件的样本对作为训练样本。

综上所述，本实施例提供的方法，将主动学习技术应用于针对跨模态数据的度量学习中，通过主动选择最有价值的样本对作为训练样本，能够显著提升训练样本的质量。由于本申请实施例相较于现有技术选择的训练样本的质量更高，因此存在如下优势：第一，在选择同等数量的训练样本的情况下，采用本申请实施例提供的方法选择的训练样本训练得到的度量模型的准确性更高；第二，在为了获得同等精度的度量模型的情况下，采用本申请实施例提供的方法所需的训练样本的数量更少，有助于提高模型的训练效率，减少对训练样本的标注所需耗费的时间和成本。所以，相较于现有技术，本申请实施例提供的技术方案，通过选择高质量的训练样本训练度量模型，能够用更少的训练样本训练出更高精度的度量模型。

在基于图1所示实施例提供的一个可选实施例中，如图2所示，上述步骤105之后还包括如下几个步骤。

步骤106，获取由标注人员标注的训练样本对应的相关性，训练样本对应的相关性用于指示训练样本包括的两个样本相关或不相关。

通过上述图1所示实施例筛选出高质量的训练样本之后，需要由标注人员对这些训练样本进行相关性标注，也即由标注人员判断训练样本包括的两个样本相关或不相关，并标注出判断结果。标注人员可认为是专家，其标注的相关性具有较高的准确性和权威性。

可选地，假设从上述n组样本对中选取的训练样本构成待标注训练样本集，待标注训练样本集以集合Q表示，将集合Q中的每一个训练样本提供给标注人员进行相关性标注。

示例性地，服务器向标注人员对应的用户设备发送待标注训练样本集Q，用户设备接收到待标注训练样本集Q之后，将各个训练样本进行显示，获取由标注人员标注的各个训练样本对应的相关性，并发送给服务器。

步骤107，将训练样本添加至训练样本集。

在完成相关性标注之后，将已标注相关性的训练样本添加至训练样本集L，实现对训练样本集L进行更新。

步骤108，采用训练样本集训练度量模型，度量模型用于度量两个对象之间的相关性，每一个对象包括至少一种模态的数据。

采用更新后的训练样本集L重新训练度量模型M，以达到对度量模型M进行准确性优化的目的。

在实际实现时，可通过多次重新训练度量模型，以最终训练出一个高精度的度量模型。采用已经训练得到的度量模型从未标注样本集中选取少量的高质量的训练样本，结合已有的训练样本和新选取的训练样本重新训练得到一个更高精度的度量模型。之后，采用这个重新训练出的度量模型再次从未标注样本集中选取少量的高质量的训练样本，结合已有的训练样本和新选取的训练样本重新训练得到一个更高精度的度量模型，以此循环，直至重新训练出的度量模型的准确性达到要求时停止。

可选地，如图3所示，步骤108包括如下几个子步骤：

步骤108a，初始化度量模型。

在上文已经介绍，度量模型M为k行k列的矩阵，k表示一个样本包括的p种模态数据的特征的维度数(即项数)之和，k为大于1的整数。可选地，将度量模型M初始化为单位矩阵。

可选地，在本实施例中，采用加速近邻梯度(Accelerated Proximal Gradient，APG)方法优化度量模型M对应的目标函数，还需初始化度量模型M对应的搜索序列Q。搜索序列Q是在优化目标函数的过程中度量模型M的一个临时变量，其用于记录度量模型M的次优解，根据搜索序列Q便能够计算得到度量模型M的最优解。搜索序列Q也是一个k行k列的矩阵。在本实施例中，采用APG方法优化目标函数，可以加快目标函数的优化过程。

可选地，将度量模型M初始化为单位矩阵，将搜索序列Q初始化为元素全为零的矩阵。

示例性地，假设每一个样本包括图像和文本两种模态的数据，从样本o中提取的图像特征为

从样本o中提取的文本特征为

则度量模型M和搜索序列Q均是一个(D _x+D _z)×(D _x+D _z)大小的矩阵。

另外，对于训练样本集L可以做如下处理：

如果训练样本(也即样本对(o _i,o _j))标注的相关性为相关，则将样本对(o _i,o _j)添加至集合S中，其相关性y _ij取值为+1；如果样本对(o _i,o _j)标注的相关性为不相关，则将样本对(o _i,o _j)添加至集合D中，其相关性y _ij取值为-1。采用如下式子表示：

步骤108b，采用训练样本集对度量模型对应的目标函数进行优化，得到优化后的目标函数。

可选地，目标函数为：

其中，w _ij表示样本对(o _i,o _j)对应的权重，y _ij表示样本对(o _i,o _j)对应的相关性，S _M(o _i,o _j)表示样本对(o _i,o _j)对应的整体相似度。在本申请实施例中，采用如下形式的双线性相似性度量函数计算样本对(o _i,o _j)之间的整体相似度：

可选地，为了便于计算，将标注的相关性为相关的样本对(o _i,o _j)对应的权重w _ij设为

将标注的相关性为不相关的样本对(o _i,o _j)对应的权重w _ij设为

记号|·|表示集合中元素的个数，即|S|表示集合S中元素的个数，|D|表示集合D中元素的个数。

另外，||M|| _*表示矩阵M的核范数。在本实施例中，对矩阵M施加核范数的正则化是为了学习不同模态数据之间的联系。

目标函数可以简写成：

其中，

在本实施例中，采用APG方法优化目标函数，优化后的目标函数为：

其中，l′(Q _t)为函数l(M)关于Q _t的一阶导数。

需要说明的是，在本实施例中，仅以采用APG方法优化目标函数为例，本实施例并不限定采用其它方法对目标函数进行优化。

步骤108c，根据优化后的目标函数确定度量模型对应的增广矩阵。

将上述优化后的目标函数整理后可得：

其中，

表示度量模型M的増广矩阵，

步骤108d，对度量模型对应的増广矩阵进行奇异值分解，得到奇异值分解结果。

对

进行奇异值分解，得到奇异值分解结果：

其中，U是(D _x+D _z)×(D _x+D _z)阶酉矩阵；Σ是半正定(D _x+D _z)×(D _x+D _z)阶对角矩阵；V ^T是V的共轭转置，是(D _x+D _z)×(D _x+D _z)阶酉矩阵。Σ的对角元素表示为Σ _ii，i即为

的第i个奇异值。

步骤108e，根据奇异值分解结果对度量模型进行更新，得到更新后的度量模型。

可选地，按照下述公式对度量模型M和搜索序列Q进行更新：

其中，

α ₁＝1，M _t表示更新前的度量模型M，M _t+1表示更新后的度量模型M，Q _t表示更新前的搜索序列Q，Q _t+1表示更新后的搜索序列Q。如果在下述步骤108f判断出更新后的度量模型未达到预设的停止训练条件，则还需要重复进行下一轮训练，在下一轮训练中，利用更新后的搜索序列Q计算度量模型的增广矩阵。

步骤108f，判断更新后的度量模型是否达到预设的停止训练条件；若否，则再次从上述步骤108b开始执行；若是，则结束流程。

其中，预设的停止训练条件包括以下至少一项：迭代轮数达到预设值，度量模型M不再发生变化。上述预设值可综合考虑模型的训练精度和速度后预先进行设定，若对模型的训练精度要求较高则可取较大值，若对模型的训练速度要求较高则可取较小值。

通过本实施例提供的方法，采用更新后的训练样本集重新训练度量模型，以使得度量模型的准确性得到优化。

请参考图4，其示出了本申请一个实施例提供的模型优化过程的流程图。该模型优化过程包括如下几个步骤：

步骤401，构建最初的训练样本集；

最初的训练样本集中可以包含少量的训练样本，这部分少量的训练样本可采用随机抽样方式从未标注样本集中选取，并将选取的训练样本交由标注人员进行相关性标注后用于训练最初的度量模型。

步骤402，采用训练样本集训练度量模型；

有关模型的训练过程参见上述图3所示实施例中的介绍说明，此处不再赘述。

步骤403，输出度量模型；

步骤404，采用验证样本集对度量模型的准确性进行验证；

其中，验证样本集包括至少一个验证样本，每一个验证样本包括一组已标注相关性的样本对。通过将验证样本输入至度量模型，采用度量模型预测验证样本所包括的样本对之间的相关性，并将预测得到的相关性与标注的相关性进行比对，即可确定预测结果是否准确。在实际应用中，可综合考虑多个验证样本对应的预测结果，得到度量模型的准确性。例如，度量模型的准确性＝预测结果为正确的验证样本的数量/验证样本的总数量。

步骤405，判断度量模型的准确性是否达到要求；若是，则结束流程；若否，则执行下述步骤406；

可选地，判断度量模型的准确性是否大于等于预设的准确性阈值；若度量模型的准确性大于等于预设的准确性阈值，则确定达到要求；若度量模型的准确性小于预设的准确性阈值，则确定未达到要求。其中，准确性阈值可预先根据对度量模型的精度要求进行设定，精度要求越高该准确性阈值设定地越大。

步骤406，采用主动学习技术从未标注样本集中选取高质量的训练样本，并将选取的训练样本交由标注人员进行相关性标注后添加至训练样本集中；步骤406之后再次从步骤402开始执行。

其中，训练样本的选取过程可参见上述图1实施例中的介绍说明，训练样本的标注过程可参见上述图2所示实施例中的介绍说明。

本申请实施例提供的技术方案可应用于跨模态数据检索领域，例如跨图像和文本两种模态数据的检索领域。利用主动学习技术选择最有价值的样本对作为训练样本，并交由专业的标注人员进行相关性标注，能够减少标注代价，且能够高效训练出精准的度量模型。示例性地，以公众号搜索为例，一个公众号的相关信息通常包括图像(如公众号的图标)和文本(如公众号的简介)两种跨模态数据。假设当前训练样本集中已有少量的训练样本，利用这些少量的训练样本训练出最初的度量模型，采用主动学习技术从未标注样本集中选择高质量的训练样本(比如公众号南京楼市和江北楼市)，交由标注人员进行相关性标注，相应地标注界面可参见图5示例性示出。而后将已标注相关性的训练样本添加至训练样本集中，采用更新后的训练样本集重新训练度量模型。如果训练出的度量模型准确性未达到要求，则继续选取训练样本更新训练样本集，并再次重新训练度量模型。如果训练出的度量模型的准确性达到要求，则说明已经得到精准的度量模型。而后，利用该度量模型即可根据用户输入的检索信息检索出与检索信息相关的公众号，检索界面可参见图6示例性示出。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，其示出了本申请一个实施例提供的样本选择装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：选取模块710、第一计算模块720、第二计算模块730、第三计算模块740和选择模块750。

选取模块710，用于执行上述步骤101。

第一计算模块720，用于执行上述步骤102。

第二计算模块730，用于执行上述步骤103。

第三计算模块740，用于执行上述步骤104。

选择模块750，用于执行上述步骤105。

可选地，选择模块750，包括：计算单元和选择单元。计算单元用于执行上述步骤105a。选择单元用于执行上述步骤105b。

可选地，第一计算模块720，包括：提取单元和计算单元。提取单元用于执行上述步骤102a。计算单元用于执行上述步骤102b。

可选地，所述装置还包括：获取模块、添加模块和训练模块。获取模块用于执行上述步骤106。添加模块用于执行上述步骤107。训练模块用于执行上述步骤108。

可选地，所述训练模块，包括：初始化单元、优化单元、确定单元、分解单元、更新单元和判断单元。初始化单元用于执行上述步骤108a。优化单元用于执行上述步骤108b。确定单元用于执行上述步骤108c。分解单元用于执行上述步骤108d。更新单元用于执行上述步骤108e。判断单元用于执行上述步骤108f。

相关细节可参考上述方法实施例。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的方法。具体来讲：

所述服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，所述服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。

在示例性实施例中，还提供了一种包括计算机程序的非临时性计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由服务器的处理器执行以完成上述方法实施例中的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述方法实施例中的各个步骤的功能。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种样本选择方法，其特征在于，应用于服务器中，所述方法包括：

从未标注样本集中选取n组样本对，每一组样本对包括两个样本，每一个样本包括p种模态的数据，所述n为正整数，所述p为大于1的整数；

对于所述n组样本对中的每一组样本对，计算所述样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度；

根据所述p×p个部分相似度计算所述样本对包括的两个样本之间的整体相似度；

获取所述p×p个部分相似度与所述整体相似度之间的差异程度；

从所述n组样本对中符合预设条件的样本对中选择训练样本；其中，所述预设条件满足所述差异程度大于第一阈值且所述整体相似度小于第二阈值。
根据权利要求1所述的方法，其特征在于，所述从所述n组样本对中符合预设条件的样本对中选择训练样本，包括：

对于所述n组样本对中的每一组样本对，根据所述样本对对应的整体相似度和差异程度，计算所述样本对对应的信息量；

从所述n组样本对中选择所述信息量大于第三阈值的样本对作为所述训练样本。
根据权利要求1或2所述的方法，其特征在于，所述对于所述n组样本对中的每一组样本对，计算所述样本对包括的一个样本的每一种模态的数据和另一个样本的每一种模态的数据之间的部分相似度，得到p×p个部分相似度，包括：

对于所述n组样本对中的每一组样本对，从所述样本对包括的每一个样本的每一种模态的数据中提取特征；

根据所述样本对包括的一个样本的每一种模态的数据的特征和另一个样本的每一种模态的数据的特征，计算得到所述p×p个部分相似度。
根据权利要求1至3任一项所述的方法，其特征在于，所述从所述n组