WO2021022572A1

WO2021022572A1 - 一种基于元学习的主动采样方法

Info

Publication number: WO2021022572A1
Application number: PCT/CN2019/100002
Authority: WO
Inventors: 李国翔; 唐英鹏; 俞扬
Original assignee: 南京智谷人工智能研究院有限公司
Priority date: 2019-08-07
Filing date: 2019-08-09
Publication date: 2021-02-11
Also published as: CN110569982A

Abstract

一种基于元学习的主动采样方法，该方法借鉴元学习的思想，通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标。回归模型M的输入是根据设计的一些关于某个未标记样本x和当前分类模型C的底层特征，这些设计的Meta特征与数据集的特征空间和分类模型的形式无关，输出值是衡量x对于提升分类模型C的作用大小；并且，这些Meta特征独立于数据集的特征空间和分类模型的形式，因此具有更好的泛化能力。

Description

一种基于元学习的主动采样方法

技术领域

本发明涉及一种基于元学习的主动采样方法；属于机器学习技术领域。

背景技术

在大数据时代的背景下，我们能够轻易地获得大量的未标记数据集，而绝大部分机器学习模型，尤其是深度学习模型都需要大量的有标记样本进行训练。然而，获取有标记样本是十分困难且昂贵的，特别是在需要高度相关的专业知识背景的领域，例如医学图像领域。主动学习的概念正是针对上述问题而提出的，目的是挑选尽可能少的未标记样本进行标记，使得模型的性能达到一个令人满意的效果。

目前，大部分主动采样(AL)策略都是针对不同的分类任务而设计相应的指标，在面对不同任务时，没有一种主动采样策略能够明显优于其他策略。因此，研究者提出了许多Meta-AL方法来自动选择最佳策略。但是它们需要对分类模型性能进行可靠的评估以此去选择最佳的策略，因为有标记的数据很少，这往往是不准确的。这些Meta-AL的方法也很难超越现有人为设计AL策略的组合。鉴于上述原因，有必要对采样方法进行改进。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明的目的在于提供一种基于元学习的主动采样方法。

为实现上述目的，本发明采用的技术方案为：

一种基于元学习的主动采样方法，包括以下步骤：

(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据Meta特征设计规则，获取足够量的MetaData数据；

(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；

(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征；

(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M，选择输出值最大的未标记样本，向用户查询真实标记；

(五)根据得到的真实标记更新模型；

(六)返回步骤(三)或结束并输出分类模型C。

进一步的，所述步骤(一)在大量已有标记的数据集上获取MetaData数据，具体方法为：

假设当前分类模型为C，当前考虑的未标记样本为x；设MetaData数据集结构为[Z,ΔP]，其中Z为设计的Meta特征，ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值，其中Meta特征Z设计具体细节为：

1)关于数据集的传统的元特征(共19维)

a)简单的元特征

样本的数量及其对数，特征的数量及其对数，样本数与特征数之比及其对数，特征数与样本数之比及其对数；

b)统计特征

计算所有数值特征的峰度(kurtosis),取其最小值，最大值，均值，标准差；

计算所有数值特征的偏度(skewness),取其最小值，最大值，均值，标准差；

c)PCA统计特征

利用主成分分析PCA的方法，将主成分占比95％的每个成分所解释的方差量进行求和；利用PCA将数据集降维至一维后，计算该特征值的峰度和偏度。

2)样本本身的信息(共35维)

a)数据集特征维度(属性维度)；

b)已标记的数据集中正样本的比例，负样本的比例；

c)根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；

d)在整个数据集(包含已标记和未标记)中进行聚类，获取10个聚类中心点a _i，并按照每个中心点与x的距离从小到大排序记为

(这10个点的顺序是根据不同的x变化的)。计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：

其中x _j是在整个数据集范围内的；

e)按照当前模型对已标记数据集的预测值进行排序，选出10等分点的数据

计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：

其中x _j是在整个数据集范围内的；

f)按照当前模型对未标记数据集的预测值进行排序，选出10等分点的数据

其中x _j是在整个数据集范围内的。

3)模型本身的信息(共180维)

a)在已标记数据上计算TP、FP、TN、FN的比例；

b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；

c)计算2)中10个值(归一化后)的均值和方差；

d)在未标记数据上，根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；

e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；

f)计算e)中10个值的均值和方差；

g)将在此轮之前的五轮主动学习过程中，上述a)到f)的特征全部用作本轮的特征。

4)模型在样本上预测的信息(共181维)

首先根据当前模型对整个数据集的预测值，做归一化处理；

a)记录C(x)；

b)计算当前C(x)与a，b，c三组共30个样本预测值的差；

c)将在此轮之前的五轮主动学习过程中，上述1)到2)的特征全部用作本轮的特征(注意a、b、c三组样本都是本轮选出来的，而不是前5轮选出的)。

其中ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值。模型的性能在本文中选取为模型在测试集上的准确率，针对不同任务可以选择不同的评测标准。

进一步的所述步骤(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征，并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本，具体方法为：

x ^*＝argmax _x∈UM(φ(x,C))

其中φ(x,C)是按照步骤(一)中设计的Meta特征，根据当前模型C和未标记样本x计算出对应的Meta特征，M是根据步骤(二)训练得到的回归模型，x ^*即为主动学习过程中被挑选出，给人类专家进行标注的未标记样本。

步骤(一)中，在已有标记数据集上获取MetaData的步骤如下：

S11、从已有标记的数据集D＝{D ₁,…,D _n}中挑选一个数据集D；

S12、将该数据集随机划分成训练集和测试集T；

S13、针对训练进一步划分成有标记样本集L和未标记样本集U，用于模拟主动学习的过程；

S14、依次随机地从U中选取5个样本加入至L，生成主动学习前五轮数据；

S15、根据当前有标记集L训练分类模型C，并在测试集T上获的性能评分p ₀；

S16、用生成MetaData数据，从U中随机挑选一个样本x加入L中，重新训练模型C，然后根据当前分类模型C计算x的Meta特征Z＝φ(x,C)；

S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p ₁，计算ΔP＝p ₁-p ₀分类模型C性能变化值，生成MetaData数据[Z,ΔP]；

S18、判断训练集划分成L和U的次数是否达到要求数量，若达到要求，跳至S19，否则转至步骤S13；

S19、判断训练集和测试集的划分次数是否达到要求数量，达到要求则结束，否则转至步骤S12。

优选地，为了保证分类模型测试性能的准确性，将测试集T占整个数据集的比例设置0.5。

有益效果：本发明的基于元学习的主动采样方法借鉴了Meta Learning的思想，通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标，而不是人为设计一个指标。回归模型M的输入是根据我们设计的一些关于某个样本x和当前分类模型C的底层特征，这些设计的Meta特征与数据集的特征空间和分类模型的形式无关，输出值是衡量x对于提升分类模型C的作用大小。并且，这些Meta特征独立于数据集的特征空间和分类模型的形式，因此本发明的主动采样方法具有更好的泛化能力。

附图说明

图1是以数据为驱动的元学习主动采样方法的工作流程图；

图2是在已有标记数据集上获取MetaData的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作具体的介绍。

参见图1，本实施例的采样方法具体流程如下：

首先，需要生成大量的MetaData数据集。假设可以获取到大量已有标记的数据集D＝{D ₁,…,D _n}。该步骤1中，对于D中的每个数据集，按照本方案设计的Meta特征生成相对应的MetaData数据集，具体过程参见图2。

接着，步骤2对于获得MetaData数据集，利用Sklearn机器学习工具包中的集成学习算法ExtraTressRegressor训练一个回归模型M。

然后，针对当前主动学习任务D ^*，假设共有N ₁个已标记样本，用L表示；另一部分是未经用户标注的，假设共有N ₂个未标记样本，用U表示。

最后，用已标记的数据L训练出初始模型C。

(1)如果模型达到要求，则结束训练。在这里，判断模型是否达到要求可以采用机器学习或模式识别教科书中常用的方法，比如迭代轮数达到用户指定的次数或是模型在测试集上性能表现达到要求。

(2)如果模型达不到要求，则根据当前分类模型C和本文设计的Meta特征，对未标记样本集U中的每一个样本计算出对应的Meta特征φ(x,C)，其中x为未标记样本集中的样本，C是当前分类模型，φ是Meta特征映射函数。通过已经训练好的回归模型M计算出预计模型性能变化值。选取能够使分类模型C性能提升最大的样本x ^*，公式表达为：x ^*＝argmax _x∈UM(φ(x,C))。然后将选取的x ^*交给用户进行标注，更新L和U，并返回步骤3。

图2所示为在已有标记数据集D上获取MetaData的流程图：

首先，步骤11从已有标记的数据集D＝{D ₁,…,D _n}中挑选一个数据集D，步骤12将该数据集随机划分成训练集和测试集T，其中为了保证分类模型测试性能的准确性，将测试集T占整个数据集的比例设置0.5。然后，步骤13针对训练进一步划分成有标记样本集L和未标记样本集U，用于模拟主动学习的过程。步骤14依次随机地从未标记样本集U中选取5个样本加入至L，生成主动学习前五轮数据。步骤15根据当前有标记集L训练分类模型C，并在测试集T上获得性能评分p ₀。步骤16用生成MetaData数据，从U中随机挑选一个样本x加入L中，重新训练模型C，然后根据当前分类模型C计算x的Meta特征Z＝φ(x,C)。步骤17，将在x加入L中后重新训练的分类模型C在测试集T上获得性能评分p ₁，计算ΔP＝p ₁-p ₀分类模型C性能变化值，生成MetaData数据[Z,ΔP]。步骤18判断训练集划分成L和U的次数是否达到要求数量，若达到要求，则步骤19判断训练集和测试集的划分次数是否达到要求数量，否则转至步骤12；若没达到要求则转至步骤13。该数据处理过程的目的是为尽可能多的覆盖不同的主动学习情况，使得学得主动学习选择标准更具有泛化性能。

综上，本发明的基于元学习的主动采样方法借鉴了Meta Learning的思想，通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标，而不是人为设计一个指标。回归模型M的输入是根据我们设计的一些关于某个样本x和当前分类模型C的底层特征，这些设计的Meta特征与数据集的特征空间和分类模型的形式无关，输出值是衡量x对于提升分类模型C的作用大小。并且，这些Meta特征独立于数据集的特征空间和分类模型的形式，因此本发明的基于元学习的主动采样方法具有更好的泛化能力。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种基于元学习的主动采样方法，包括以下步骤：

(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据Meta特征设计规则，获取足够量的MetaData数据；

(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；

(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征；

(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M，选择输出值最大的未标记样本，向用户查询真实标记；

(五)根据得到的真实标记更新分类模型C；

(六)返回步骤(三)或结束并输出分类模型C。
根据权利要求1所述的一种基于元学习的主动学习方法，其特征在于：所述步骤(一)在大量已有标记的数据集上获取MetaData数据，具体方法为：

假设当前分类模型为C，当前考虑的未标记样本为x；设MetaData数据集结构为[Z,ΔP]，其中Z为设计的Meta特征，ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值。
根据权利要求2所述的一种基于元学习的主动学习方法，其特征在于：Meta特征Z设计具体细节为：

1)关于数据集的传统的元特征

a)简单的元特征

样本的数量及其对数，特征的数量及其对数，样本数与特征数之比及其对数，特征数与样本数之比及其对数；

b)统计特征

计算所有数值特征的峰度(kurtosis),取其最小值，最大值，均值，标准差；

计算所有数值特征的偏度(skewness),取其最小值，最大值，均值，标准差；

c)PCA统计特征

利用主成分分析PCA的方法，将主成分占比95％的每个成分所解释的方差量进行求和；利用PCA将数据集降维至一维后，计算该特征值的峰度和偏度；

2)样本本身的信息

a)数据集特征维度，所述特征维度为属性维度；

b)已标记的数据集中正样本的比例，负样本的比例；

c)根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；

d)在整个数据集(包含已标记和未标记)中进行聚类，获取10个聚类中心点a _i，并按照每个中心点与x的距离从小到大排序记为
这10个点的顺序是根据不同的x变化的；计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：
其中x _j是在整个数据集范围内的；

e)按照当前模型对已标记数据集的预测值进行排序，选出10等分点的数据
计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：
其中x _j是在整个数据集范围内的；

f)按照当前模型对未标记数据集的预测值进行排序，选出10等分点的数据
计算x与上述10个代表性样本数据点的欧氏距离，并做归一化处理：
其中x _j是在整个数据集范围内的；

3)模型本身的信息

a)在已标记数据上计算TP、FP、TN、FN的比例；

b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；

c)计算2)中10个值(归一化后)的均值和方差；

d)在未标记数据上，根据当前模型的预测值，计算未标记数据集中，模型预测为正样本的比例，负样本的比例；

e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化)，并进行排序，选出10等分点的值记录；

f)计算e)中10个值的均值和方差；

g)将在此轮之前的五轮主动学习过程中，上述a)到f)的特征全部用作本轮的特征；

4)模型在样本上预测的信息

首先根据当前模型C对整个数据集的预测值，做归一化处理；

a)记录C(x)；

b)计算当前C(x)与a，b，c三组共30个样本预测值的差；

c)将在此轮之前的五轮主动学习过程中，上述1)到2)的特征全部用作本轮的特征，注意a、b、c三组样本都是本轮选出来的，而不是前5轮选出的；

其中ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值；分类模型的性能在本文中选取为分类模型在测试集上的准确率，针对不同任务可以选择不同的评测标准。
根据权利要求3所述的一种基于元学习的主动学习方法，其特征在于：所述关于数据集的传统的元特征共19维，所述样本本身的信息共35维，所述模型本身的信息共180维，所述模型在样本上预测的信息共181维。
根据权利要求1所述的一种基于元学习的主动学习方法，其特征在于：所述步骤(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征，并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本，具体方法为：

x ^*＝argmax _x∈UM(φ(x,C))

其中，φ(x,C)是按照步骤(一)中设计的Meta特征，根据当前模型C和未标记样本x计算出对应的Meta特征，M是根据步骤(二)训练得到的回归模型，x ^*即为主动学习过程中被挑选出，给人类专家进行标注的未标记样本。
根据权利要求1所述的一种基于元学习的主动学习方法，其特征在于：步骤(六)达到要求则结束并输出分类模型C；否则返回步骤(三)。
根据权利要求6所述的一种基于元学习的主动学习方法，其特征在于：步骤(六)达不到要求时，根据当前分类模型C和本文设计的Meta特征，对未标记样本集U中的每一个样本计算出对应的Meta特征φ(x,C)，其中x为未标记样本集中的样本，C是当前分类模型，φ是Meta特征映射函数，返回步骤(三)。
根据权利要求1～7任一项所述的一种基于元学习的主动学习方法，其特征在于：在已有标记数据集上获取MetaData的步骤如下：

S11、从已有标记的数据集D＝{D ₁,…,D _n}中挑选一个数据集D；

S12、将该数据集随机划分成训练集和测试集T；

S13、针对训练进一步划分成有标记样本集L和未标记样本集U，用于模拟主动学习的过程；

S14、依次随机地从U中选取5个样本加入至L，生成主动学习前五轮数据；

S15、根据当前有标记集L训练分类模型C，并在测试集T上获的性能评分p ₀；

S16、用生成MetaData数据，从U中随机挑选一个样本x加入L中，重新训练模型C，然后根据当前分类模型C计算x的Meta特征Z＝φ(x,C)；

S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p ₁，计算ΔP＝p ₁-p ₀分类模型C性能变化值，生成MetaData数据[Z,ΔP]；

S18、判断训练集划分成L和U的次数是否达到要求数量，若达到要求，跳至S19，否则转至步骤S13；

S19、判断训练集和测试集的划分次数是否达到要求数量，达到要求则结束，否则转至步骤S12。
根据权利要求8所述的一种基于元学习的主动学习方法，其特征在于：为了保证分类模型测试性能的准确性，将测试集T占整个数据集的比例设置0.5。