WO2021022572A1 - 一种基于元学习的主动采样方法 - Google Patents

一种基于元学习的主动采样方法 Download PDF

Info

Publication number
WO2021022572A1
WO2021022572A1 PCT/CN2019/100002 CN2019100002W WO2021022572A1 WO 2021022572 A1 WO2021022572 A1 WO 2021022572A1 CN 2019100002 W CN2019100002 W CN 2019100002W WO 2021022572 A1 WO2021022572 A1 WO 2021022572A1
Authority
WO
WIPO (PCT)
Prior art keywords
meta
sample
data set
model
data
Prior art date
Application number
PCT/CN2019/100002
Other languages
English (en)
French (fr)
Inventor
李国翔
唐英鹏
俞扬
Original Assignee
南京智谷人工智能研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京智谷人工智能研究院有限公司 filed Critical 南京智谷人工智能研究院有限公司
Publication of WO2021022572A1 publication Critical patent/WO2021022572A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the invention relates to an active sampling method based on meta-learning; it belongs to the technical field of machine learning.
  • the objective of the present invention is to provide an active sampling method based on meta-learning.
  • An active sampling method based on meta-learning includes the following steps:
  • step (3) Return to step (3) or end and output the classification model C.
  • step (1) obtains MetaData data on a large number of labeled data sets, and the specific method is:
  • MetaData data set structure [Z, ⁇ P], where Z is the designed Meta feature, and ⁇ P is the classification model C after retraining with the unlabeled sample x .
  • Z is the designed Meta feature
  • ⁇ P is the classification model C after retraining with the unlabeled sample x
  • the performance change value before and after on the test set, the specific details of Meta feature Z design are:
  • PCA principal component analysis
  • ⁇ P is the value of the before and after performance change of the classification model C on the test set after retraining with the unlabeled sample x.
  • the performance of the model is selected in this article as the accuracy of the model on the test set, and different evaluation criteria can be selected for different tasks.
  • the further step (3) is to calculate the Meta feature of each unlabeled sample on the current active learning task according to the Meta feature design rule, and use the regression model M trained in step (2) in step (4)
  • the unlabeled sample with the largest output value the specific method is:
  • ⁇ (x, C) is the Meta feature designed in step (1)
  • the corresponding Meta feature is calculated according to the current model C and the unlabeled sample x
  • M is the regression model trained according to step (2)
  • x * It is an unlabeled sample selected during the active learning process and annotated by human experts.
  • step (1) the steps to obtain MetaData on an existing labeled data set are as follows:
  • step S19 It is judged whether the number of times the training set and the test set are divided reaches the required number, and if the required number is reached, it ends, otherwise, go to step S12.
  • the ratio of the test set T to the entire data set is set to 0.5.
  • the meta-learning-based active sampling method of the present invention draws on the idea of Meta Learning, and uses a regression model M to learn a query strategy index through the previous experience of active learning tasks (MetaData) instead of artificially designing one index.
  • the input of regression model M is based on some of the underlying features we designed about a certain sample x and the current classification model C.
  • These designed Meta features have nothing to do with the feature space of the data set and the form of the classification model.
  • the output value is a measure of the improvement of x
  • the effect of classification model C are independent of the feature space of the data set and the form of the classification model, so the active sampling method of the present invention has better generalization ability.
  • Figure 1 is a work flow chart of a data-driven meta-learning active sampling method
  • Figure 2 is a flowchart of acquiring MetaData on an existing labeled data set.
  • step 2 for obtaining the MetaData data set, use the integrated learning algorithm ExtraTressRegressor in the Sklearn machine learning toolkit to train a regression model M.
  • Figure 2 shows the flow chart of obtaining MetaData on the existing labeled data set D:
  • step 13 is further divided into a labeled sample set L and an unlabeled sample set U for training to simulate the process of active learning.
  • Step 14 randomly selects 5 samples from the unlabeled sample set U and adds them to L to generate the first five rounds of active learning data.
  • Step 15 Train the classification model C according to the current labeled set L, and obtain the performance score p 0 on the test set T.
  • Step 18 Determine whether the number of times the training set is divided into L and U meets the required number. If it meets the requirements, then step 19: Determine whether the number of times the training set and test set are divided up to the required number; otherwise, go to Step 12; Go to step 13.
  • the purpose of the data processing process is to cover as many different active learning situations as possible, so that the learned active learning selection criteria have more generalized performance.
  • the meta-learning-based active sampling method of the present invention draws on the idea of Meta Learning, and uses a regression model M to learn a query strategy index through the previous experience of active learning tasks (MetaData), instead of artificially designing one. index.
  • the input of regression model M is based on some of the underlying features we designed about a certain sample x and the current classification model C.
  • These designed Meta features have nothing to do with the feature space of the data set and the form of the classification model.
  • the output value is a measure of the improvement of x The effect of classification model C.
  • these Meta features are independent of the feature space of the data set and the form of the classification model, so the active sampling method based on meta-learning of the present invention has better generalization ability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于元学习的主动采样方法,该方法借鉴元学习的思想,通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标。回归模型M的输入是根据设计的一些关于某个未标记样本x和当前分类模型C的底层特征,这些设计的Meta特征与数据集的特征空间和分类模型的形式无关,输出值是衡量x对于提升分类模型C的作用大小;并且,这些Meta特征独立于数据集的特征空间和分类模型的形式,因此具有更好的泛化能力。

Description

一种基于元学习的主动采样方法 技术领域
本发明涉及一种基于元学习的主动采样方法;属于机器学习技术领域。
背景技术
在大数据时代的背景下,我们能够轻易地获得大量的未标记数据集,而绝大部分机器学习模型,尤其是深度学习模型都需要大量的有标记样本进行训练。然而,获取有标记样本是十分困难且昂贵的,特别是在需要高度相关的专业知识背景的领域,例如医学图像领域。主动学习的概念正是针对上述问题而提出的,目的是挑选尽可能少的未标记样本进行标记,使得模型的性能达到一个令人满意的效果。
目前,大部分主动采样(AL)策略都是针对不同的分类任务而设计相应的指标,在面对不同任务时,没有一种主动采样策略能够明显优于其他策略。因此,研究者提出了许多Meta-AL方法来自动选择最佳策略。但是它们需要对分类模型性能进行可靠的评估以此去选择最佳的策略,因为有标记的数据很少,这往往是不准确的。这些Meta-AL的方法也很难超越现有人为设计AL策略的组合。鉴于上述原因,有必要对采样方法进行改进。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明的目的在于提供一种基于元学习的主动采样方法。
为实现上述目的,本发明采用的技术方案为:
一种基于元学习的主动采样方法,包括以下步骤:
(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;
(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;
(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;
(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;
(五)根据得到的真实标记更新模型;
(六)返回步骤(三)或结束并输出分类模型C。
进一步的,所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:
假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值,其中Meta特征Z设计具体细节为:
1)关于数据集的传统的元特征(共19维)
a)简单的元特征
样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其对数,特征数与样本数之比及其对数;
b)统计特征
计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标 准差;
计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;
c)PCA统计特征
利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度。
2)样本本身的信息(共35维)
a)数据集特征维度(属性维度);
b)已标记的数据集中正样本的比例,负样本的比例;
c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点a i,并按照每个中心点与x的距离从小到大排序记为
Figure PCTCN2019100002-appb-000001
Figure PCTCN2019100002-appb-000002
(这10个点的顺序是根据不同的x变化的)。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
Figure PCTCN2019100002-appb-000003
其中x j是在整个数据集范围内的;
e)按照当前模型对已标记数据集的预测值进行排序,选出10等分点的数据
Figure PCTCN2019100002-appb-000004
计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
Figure PCTCN2019100002-appb-000005
其中x j是在整个数据集范围内 的;
f)按照当前模型对未标记数据集的预测值进行排序,选出10等分点的数据
Figure PCTCN2019100002-appb-000006
计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
Figure PCTCN2019100002-appb-000007
其中x j是在整个数据集范围内的。
3)模型本身的信息(共180维)
a)在已标记数据上计算TP、FP、TN、FN的比例;
b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
c)计算2)中10个值(归一化后)的均值和方差;
d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
f)计算e)中10个值的均值和方差;
g)将在此轮之前的五轮主动学习过程中,上述a)到f)的特征全部用作本轮的特征。
4)模型在样本上预测的信息(共181维)
首先根据当前模型对整个数据集的预测值,做归一化处理;
a)记录C(x);
b)计算当前C(x)与a,b,c三组共30个样本预测值的差;
c)将在此轮之前的五轮主动学习过程中,上述1)到2)的特征全部用作本轮的特征(注意a、b、c三组样本都是本轮选出来的,而不是前5轮选出的)。
其中ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。模型的性能在本文中选取为模型在测试集上的准确率,针对不同任务可以选择不同的评测标准。
进一步的所述步骤(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征,并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本,具体方法为:
x *=argmax x∈UM(φ(x,C))
其中φ(x,C)是按照步骤(一)中设计的Meta特征,根据当前模型C和未标记样本x计算出对应的Meta特征,M是根据步骤(二)训练得到的回归模型,x *即为主动学习过程中被挑选出,给人类专家进行标注的未标记样本。
步骤(一)中,在已有标记数据集上获取MetaData的步骤如下:
S11、从已有标记的数据集D={D 1,…,D n}中挑选一个数据集D;
S12、将该数据集随机划分成训练集和测试集T;
S13、针对训练进一步划分成有标记样本集L和未标记样本集U,用于模拟主动学习的过程;
S14、依次随机地从U中选取5个样本加入至L,生成主动学习前五轮数 据;
S15、根据当前有标记集L训练分类模型C,并在测试集T上获的性能评分p 0
S16、用生成MetaData数据,从U中随机挑选一个样本x加入L中,重新训练模型C,然后根据当前分类模型C计算x的Meta特征Z=φ(x,C);
S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p 1,计算ΔP=p 1-p 0分类模型C性能变化值,生成MetaData数据[Z,ΔP];
S18、判断训练集划分成L和U的次数是否达到要求数量,若达到要求,跳至S19,否则转至步骤S13;
S19、判断训练集和测试集的划分次数是否达到要求数量,达到要求则结束,否则转至步骤S12。
优选地,为了保证分类模型测试性能的准确性,将测试集T占整个数据集的比例设置0.5。
有益效果:本发明的基于元学习的主动采样方法借鉴了Meta Learning的思想,通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标,而不是人为设计一个指标。回归模型M的输入是根据我们设计的一些关于某个样本x和当前分类模型C的底层特征,这些设计的Meta特征与数据集的特征空间和分类模型的形式无关,输出值是衡量x对于提升分类模型C的作用大小。并且,这些Meta特征独立于数据集的特征空间和分类模型的形式,因此本发明的主动采样方法具有更好的泛化能力。
附图说明
图1是以数据为驱动的元学习主动采样方法的工作流程图;
图2是在已有标记数据集上获取MetaData的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作具体的介绍。
参见图1,本实施例的采样方法具体流程如下:
首先,需要生成大量的MetaData数据集。假设可以获取到大量已有标记的数据集D={D 1,…,D n}。该步骤1中,对于D中的每个数据集,按照本方案设计的Meta特征生成相对应的MetaData数据集,具体过程参见图2。
接着,步骤2对于获得MetaData数据集,利用Sklearn机器学习工具包中的集成学习算法ExtraTressRegressor训练一个回归模型M。
然后,针对当前主动学习任务D *,假设共有N 1个已标记样本,用L表示;另一部分是未经用户标注的,假设共有N 2个未标记样本,用U表示。
最后,用已标记的数据L训练出初始模型C。
(1)如果模型达到要求,则结束训练。在这里,判断模型是否达到要求可以采用机器学习或模式识别教科书中常用的方法,比如迭代轮数达到用户指定的次数或是模型在测试集上性能表现达到要求。
(2)如果模型达不到要求,则根据当前分类模型C和本文设计的Meta特征,对未标记样本集U中的每一个样本计算出对应的Meta特征φ(x,C),其中x为未标记样本集中的样本,C是当前分类模型,φ是Meta特征映射函数。通过已经训练好的回归模型M计算出预计模型性能变化值。选取能够使 分类模型C性能提升最大的样本x *,公式表达为:x *=argmax x∈UM(φ(x,C))。然后将选取的x *交给用户进行标注,更新L和U,并返回步骤3。
图2所示为在已有标记数据集D上获取MetaData的流程图:
首先,步骤11从已有标记的数据集D={D 1,…,D n}中挑选一个数据集D,步骤12将该数据集随机划分成训练集和测试集T,其中为了保证分类模型测试性能的准确性,将测试集T占整个数据集的比例设置0.5。然后,步骤13针对训练进一步划分成有标记样本集L和未标记样本集U,用于模拟主动学习的过程。步骤14依次随机地从未标记样本集U中选取5个样本加入至L,生成主动学习前五轮数据。步骤15根据当前有标记集L训练分类模型C,并在测试集T上获得性能评分p 0。步骤16用生成MetaData数据,从U中随机挑选一个样本x加入L中,重新训练模型C,然后根据当前分类模型C计算x的Meta特征Z=φ(x,C)。步骤17,将在x加入L中后重新训练的分类模型C在测试集T上获得性能评分p 1,计算ΔP=p 1-p 0分类模型C性能变化值,生成MetaData数据[Z,ΔP]。步骤18判断训练集划分成L和U的次数是否达到要求数量,若达到要求,则步骤19判断训练集和测试集的划分次数是否达到要求数量,否则转至步骤12;若没达到要求则转至步骤13。该数据处理过程的目的是为尽可能多的覆盖不同的主动学习情况,使得学得主动学习选择标准更具有泛化性能。
综上,本发明的基于元学习的主动采样方法借鉴了Meta Learning的思想,通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标,而不是人为设计一个指标。回归模型M的输入是根 据我们设计的一些关于某个样本x和当前分类模型C的底层特征,这些设计的Meta特征与数据集的特征空间和分类模型的形式无关,输出值是衡量x对于提升分类模型C的作用大小。并且,这些Meta特征独立于数据集的特征空间和分类模型的形式,因此本发明的基于元学习的主动采样方法具有更好的泛化能力。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

  1. 一种基于元学习的主动采样方法,包括以下步骤:
    (一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;
    (二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;
    (三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;
    (四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;
    (五)根据得到的真实标记更新分类模型C;
    (六)返回步骤(三)或结束并输出分类模型C。
  2. 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:
    假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。
  3. 根据权利要求2所述的一种基于元学习的主动学习方法,其特征在于:Meta特征Z设计具体细节为:
    1)关于数据集的传统的元特征
    a)简单的元特征
    样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其 对数,特征数与样本数之比及其对数;
    b)统计特征
    计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标准差;
    计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;
    c)PCA统计特征
    利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度;
    2)样本本身的信息
    a)数据集特征维度,所述特征维度为属性维度;
    b)已标记的数据集中正样本的比例,负样本的比例;
    c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
    d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点a i,并按照每个中心点与x的距离从小到大排序记为
    Figure PCTCN2019100002-appb-100001
    这10个点的顺序是根据不同的x变化的;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
    Figure PCTCN2019100002-appb-100002
    其中x j是在整个数据集范围内的;
    e)按照当前模型对已标记数据集的预测值进行排序,选出10等分点的 数据
    Figure PCTCN2019100002-appb-100003
    计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
    Figure PCTCN2019100002-appb-100004
    其中x j是在整个数据集范围内的;
    f)按照当前模型对未标记数据集的预测值进行排序,选出10等分点的数据
    Figure PCTCN2019100002-appb-100005
    计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:
    Figure PCTCN2019100002-appb-100006
    其中x j是在整个数据集范围内的;
    3)模型本身的信息
    a)在已标记数据上计算TP、FP、TN、FN的比例;
    b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
    c)计算2)中10个值(归一化后)的均值和方差;
    d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
    e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
    f)计算e)中10个值的均值和方差;
    g)将在此轮之前的五轮主动学习过程中,上述a)到f)的特征全部用作本轮的特征;
    4)模型在样本上预测的信息
    首先根据当前模型C对整个数据集的预测值,做归一化处理;
    a)记录C(x);
    b)计算当前C(x)与a,b,c三组共30个样本预测值的差;
    c)将在此轮之前的五轮主动学习过程中,上述1)到2)的特征全部用作本轮的特征,注意a、b、c三组样本都是本轮选出来的,而不是前5轮选出的;
    其中ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值;分类模型的性能在本文中选取为分类模型在测试集上的准确率,针对不同任务可以选择不同的评测标准。
  4. 根据权利要求3所述的一种基于元学习的主动学习方法,其特征在于:所述关于数据集的传统的元特征共19维,所述样本本身的信息共35维,所述模型本身的信息共180维,所述模型在样本上预测的信息共181维。
  5. 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征,并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本,具体方法为:
    x *=argmax x∈UM(φ(x,C))
    其中,φ(x,C)是按照步骤(一)中设计的Meta特征,根据当前模型C和未标记样本x计算出对应的Meta特征,M是根据步骤(二)训练得到的回 归模型,x *即为主动学习过程中被挑选出,给人类专家进行标注的未标记样本。
  6. 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:步骤(六)达到要求则结束并输出分类模型C;否则返回步骤(三)。
  7. 根据权利要求6所述的一种基于元学习的主动学习方法,其特征在于:步骤(六)达不到要求时,根据当前分类模型C和本文设计的Meta特征,对未标记样本集U中的每一个样本计算出对应的Meta特征φ(x,C),其中x为未标记样本集中的样本,C是当前分类模型,φ是Meta特征映射函数,返回步骤(三)。
  8. 根据权利要求1~7任一项所述的一种基于元学习的主动学习方法,其特征在于:在已有标记数据集上获取MetaData的步骤如下:
    S11、从已有标记的数据集D={D 1,…,D n}中挑选一个数据集D;
    S12、将该数据集随机划分成训练集和测试集T;
    S13、针对训练进一步划分成有标记样本集L和未标记样本集U,用于模拟主动学习的过程;
    S14、依次随机地从U中选取5个样本加入至L,生成主动学习前五轮数据;
    S15、根据当前有标记集L训练分类模型C,并在测试集T上获的性能评分p 0
    S16、用生成MetaData数据,从U中随机挑选一个样本x加入L中,重新训练模型C,然后根据当前分类模型C计算x的Meta特征Z=φ(x,C);
    S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p 1,计算ΔP=p 1-p 0分类模型C性能变化值,生成MetaData数据[Z,ΔP];
    S18、判断训练集划分成L和U的次数是否达到要求数量,若达到要求,跳至S19,否则转至步骤S13;
    S19、判断训练集和测试集的划分次数是否达到要求数量,达到要求则结束,否则转至步骤S12。
  9. 根据权利要求8所述的一种基于元学习的主动学习方法,其特征在于:为了保证分类模型测试性能的准确性,将测试集T占整个数据集的比例设置0.5。
PCT/CN2019/100002 2019-08-07 2019-08-09 一种基于元学习的主动采样方法 WO2021022572A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910725779.6 2019-08-07
CN201910725779.6A CN110569982A (zh) 2019-08-07 2019-08-07 一种基于元学习的主动采样方法

Publications (1)

Publication Number Publication Date
WO2021022572A1 true WO2021022572A1 (zh) 2021-02-11

Family

ID=68774808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/100002 WO2021022572A1 (zh) 2019-08-07 2019-08-09 一种基于元学习的主动采样方法

Country Status (2)

Country Link
CN (1) CN110569982A (zh)
WO (1) WO2021022572A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113288091A (zh) * 2021-05-06 2021-08-24 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备
CN113642610A (zh) * 2021-07-15 2021-11-12 南京航空航天大学 一种分布式异步主动标注方法
CN113705869A (zh) * 2021-08-17 2021-11-26 东南大学 无监督元学习网络的机电设备少样本退化趋势预测方法
CN115329657A (zh) * 2022-07-06 2022-11-11 中国石油化工股份有限公司 钻井参数优化方法及装置
CN115829036A (zh) * 2023-02-14 2023-03-21 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置
CN116006453A (zh) * 2023-03-24 2023-04-25 合肥通用机械研究院有限公司 一般用动力压缩机出厂快速检测试验台及其测量方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469251B (zh) * 2021-07-02 2024-07-26 南京邮电大学 不平衡数据的分类方法
CN113793214B (zh) * 2021-09-27 2023-07-11 武汉众邦银行股份有限公司 一种解决小微企业信贷授信风险控制和管理方法及装置
CN113688944B (zh) * 2021-09-29 2022-12-27 南京览众智能科技有限公司 一种基于元学习的图像识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040049721A (ko) * 2002-12-07 2004-06-12 한국전자통신연구원 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법
CN106779086A (zh) * 2016-11-28 2017-05-31 北京大学 一种基于主动学习和模型剪枝的集成学习方法及装置
CN106886821A (zh) * 2017-02-21 2017-06-23 中山大学 一种支持自主学习的个性化知识元表的自动生成方法及系统
CN107247996A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种应用于异分布数据环境的主动学习方法
CN109886337A (zh) * 2019-02-22 2019-06-14 清华大学 基于自适应采样的深度度量学习方法及系统
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040049721A (ko) * 2002-12-07 2004-06-12 한국전자통신연구원 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법
CN106779086A (zh) * 2016-11-28 2017-05-31 北京大学 一种基于主动学习和模型剪枝的集成学习方法及装置
CN106886821A (zh) * 2017-02-21 2017-06-23 中山大学 一种支持自主学习的个性化知识元表的自动生成方法及系统
CN107247996A (zh) * 2017-06-29 2017-10-13 哈尔滨工程大学 一种应用于异分布数据环境的主动学习方法
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN109886337A (zh) * 2019-02-22 2019-06-14 清华大学 基于自适应采样的深度度量学习方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113288091A (zh) * 2021-05-06 2021-08-24 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备
CN113288091B (zh) * 2021-05-06 2023-10-03 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备
CN113642610A (zh) * 2021-07-15 2021-11-12 南京航空航天大学 一种分布式异步主动标注方法
CN113642610B (zh) * 2021-07-15 2024-04-02 南京航空航天大学 一种分布式异步主动标注方法
CN113705869A (zh) * 2021-08-17 2021-11-26 东南大学 无监督元学习网络的机电设备少样本退化趋势预测方法
CN113705869B (zh) * 2021-08-17 2022-11-04 东南大学 无监督元学习网络的机电设备少样本退化趋势预测方法
CN115329657A (zh) * 2022-07-06 2022-11-11 中国石油化工股份有限公司 钻井参数优化方法及装置
CN115329657B (zh) * 2022-07-06 2023-06-09 中国石油化工股份有限公司 钻井参数优化方法及装置
CN115829036A (zh) * 2023-02-14 2023-03-21 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置
CN115829036B (zh) * 2023-02-14 2023-05-05 山东山大鸥玛软件股份有限公司 面向文本知识推理模型持续学习的样本选择方法和装置
CN116006453A (zh) * 2023-03-24 2023-04-25 合肥通用机械研究院有限公司 一般用动力压缩机出厂快速检测试验台及其测量方法
CN116006453B (zh) * 2023-03-24 2023-06-20 合肥通用机械研究院有限公司 一般用动力压缩机出厂快速检测试验台及其测量方法

Also Published As

Publication number Publication date
CN110569982A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
WO2021022572A1 (zh) 一种基于元学习的主动采样方法
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
WO2021120934A1 (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN107391906A (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN113705597B (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN110770850B (zh) 在实体之间学习和应用背景相似性
WO2020248847A1 (zh) 智能心脏疾病检测方法、装置及计算机可读存储介质
WO2021104323A1 (zh) 用于确定文本相似度的方法、获取语义答案文本的方法及问答方法
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN110222771A (zh) 一种零样本图片的类别识别方法
CN107357763B (zh) 一种基于自步学习的众包分类数据质量控制方法
CN109935337B (zh) 一种基于相似性度量的病案查找方法及系统
CN111813962A (zh) 一种用于知识图谱融合的实体相似度计算方法
CN106407664B (zh) 呼吸气体诊断系统的领域自适应装置
WO2020224433A1 (zh) 基于机器学习的目标对象属性预测方法及相关设备
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN110580339B (zh) 一种医疗术语知识库完善的方法和装置
CN109271546A (zh) 图像检索特征提取模型建立、数据库建立及检索方法
CN116821698A (zh) 基于半监督学习的小麦赤霉病孢子检测方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN107545075A (zh) 一种基于在线评论和情境感知的餐馆推荐方法
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及系统
Younis et al. A new parallel bat algorithm for musical note recognition.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19940816

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19940816

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19940816

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11.08.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 19940816

Country of ref document: EP

Kind code of ref document: A1