WO2021022572A1 - 一种基于元学习的主动采样方法 - Google Patents
一种基于元学习的主动采样方法 Download PDFInfo
- Publication number
- WO2021022572A1 WO2021022572A1 PCT/CN2019/100002 CN2019100002W WO2021022572A1 WO 2021022572 A1 WO2021022572 A1 WO 2021022572A1 CN 2019100002 W CN2019100002 W CN 2019100002W WO 2021022572 A1 WO2021022572 A1 WO 2021022572A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- meta
- sample
- data set
- model
- data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the invention relates to an active sampling method based on meta-learning; it belongs to the technical field of machine learning.
- the objective of the present invention is to provide an active sampling method based on meta-learning.
- An active sampling method based on meta-learning includes the following steps:
- step (3) Return to step (3) or end and output the classification model C.
- step (1) obtains MetaData data on a large number of labeled data sets, and the specific method is:
- MetaData data set structure [Z, ⁇ P], where Z is the designed Meta feature, and ⁇ P is the classification model C after retraining with the unlabeled sample x .
- Z is the designed Meta feature
- ⁇ P is the classification model C after retraining with the unlabeled sample x
- the performance change value before and after on the test set, the specific details of Meta feature Z design are:
- PCA principal component analysis
- ⁇ P is the value of the before and after performance change of the classification model C on the test set after retraining with the unlabeled sample x.
- the performance of the model is selected in this article as the accuracy of the model on the test set, and different evaluation criteria can be selected for different tasks.
- the further step (3) is to calculate the Meta feature of each unlabeled sample on the current active learning task according to the Meta feature design rule, and use the regression model M trained in step (2) in step (4)
- the unlabeled sample with the largest output value the specific method is:
- ⁇ (x, C) is the Meta feature designed in step (1)
- the corresponding Meta feature is calculated according to the current model C and the unlabeled sample x
- M is the regression model trained according to step (2)
- x * It is an unlabeled sample selected during the active learning process and annotated by human experts.
- step (1) the steps to obtain MetaData on an existing labeled data set are as follows:
- step S19 It is judged whether the number of times the training set and the test set are divided reaches the required number, and if the required number is reached, it ends, otherwise, go to step S12.
- the ratio of the test set T to the entire data set is set to 0.5.
- the meta-learning-based active sampling method of the present invention draws on the idea of Meta Learning, and uses a regression model M to learn a query strategy index through the previous experience of active learning tasks (MetaData) instead of artificially designing one index.
- the input of regression model M is based on some of the underlying features we designed about a certain sample x and the current classification model C.
- These designed Meta features have nothing to do with the feature space of the data set and the form of the classification model.
- the output value is a measure of the improvement of x
- the effect of classification model C are independent of the feature space of the data set and the form of the classification model, so the active sampling method of the present invention has better generalization ability.
- Figure 1 is a work flow chart of a data-driven meta-learning active sampling method
- Figure 2 is a flowchart of acquiring MetaData on an existing labeled data set.
- step 2 for obtaining the MetaData data set, use the integrated learning algorithm ExtraTressRegressor in the Sklearn machine learning toolkit to train a regression model M.
- Figure 2 shows the flow chart of obtaining MetaData on the existing labeled data set D:
- step 13 is further divided into a labeled sample set L and an unlabeled sample set U for training to simulate the process of active learning.
- Step 14 randomly selects 5 samples from the unlabeled sample set U and adds them to L to generate the first five rounds of active learning data.
- Step 15 Train the classification model C according to the current labeled set L, and obtain the performance score p 0 on the test set T.
- Step 18 Determine whether the number of times the training set is divided into L and U meets the required number. If it meets the requirements, then step 19: Determine whether the number of times the training set and test set are divided up to the required number; otherwise, go to Step 12; Go to step 13.
- the purpose of the data processing process is to cover as many different active learning situations as possible, so that the learned active learning selection criteria have more generalized performance.
- the meta-learning-based active sampling method of the present invention draws on the idea of Meta Learning, and uses a regression model M to learn a query strategy index through the previous experience of active learning tasks (MetaData), instead of artificially designing one. index.
- the input of regression model M is based on some of the underlying features we designed about a certain sample x and the current classification model C.
- These designed Meta features have nothing to do with the feature space of the data set and the form of the classification model.
- the output value is a measure of the improvement of x The effect of classification model C.
- these Meta features are independent of the feature space of the data set and the form of the classification model, so the active sampling method based on meta-learning of the present invention has better generalization ability.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (9)
- 一种基于元学习的主动采样方法,包括以下步骤:(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;(五)根据得到的真实标记更新分类模型C;(六)返回步骤(三)或结束并输出分类模型C。
- 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。
- 根据权利要求2所述的一种基于元学习的主动学习方法,其特征在于:Meta特征Z设计具体细节为:1)关于数据集的传统的元特征a)简单的元特征样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其 对数,特征数与样本数之比及其对数;b)统计特征计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标准差;计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;c)PCA统计特征利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度;2)样本本身的信息a)数据集特征维度,所述特征维度为属性维度;b)已标记的数据集中正样本的比例,负样本的比例;c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点a i,并按照每个中心点与x的距离从小到大排序记为 这10个点的顺序是根据不同的x变化的;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理: 其中x j是在整个数据集范围内的;3)模型本身的信息a)在已标记数据上计算TP、FP、TN、FN的比例;b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;c)计算2)中10个值(归一化后)的均值和方差;d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;f)计算e)中10个值的均值和方差;g)将在此轮之前的五轮主动学习过程中,上述a)到f)的特征全部用作本轮的特征;4)模型在样本上预测的信息首先根据当前模型C对整个数据集的预测值,做归一化处理;a)记录C(x);b)计算当前C(x)与a,b,c三组共30个样本预测值的差;c)将在此轮之前的五轮主动学习过程中,上述1)到2)的特征全部用作本轮的特征,注意a、b、c三组样本都是本轮选出来的,而不是前5轮选出的;其中ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值;分类模型的性能在本文中选取为分类模型在测试集上的准确率,针对不同任务可以选择不同的评测标准。
- 根据权利要求3所述的一种基于元学习的主动学习方法,其特征在于:所述关于数据集的传统的元特征共19维,所述样本本身的信息共35维,所述模型本身的信息共180维,所述模型在样本上预测的信息共181维。
- 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征,并在步骤(四)中利用步骤(二)中训练好的回归模型M输出值最大的未标记样本,具体方法为:x *=argmax x∈UM(φ(x,C))其中,φ(x,C)是按照步骤(一)中设计的Meta特征,根据当前模型C和未标记样本x计算出对应的Meta特征,M是根据步骤(二)训练得到的回 归模型,x *即为主动学习过程中被挑选出,给人类专家进行标注的未标记样本。
- 根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:步骤(六)达到要求则结束并输出分类模型C;否则返回步骤(三)。
- 根据权利要求6所述的一种基于元学习的主动学习方法,其特征在于:步骤(六)达不到要求时,根据当前分类模型C和本文设计的Meta特征,对未标记样本集U中的每一个样本计算出对应的Meta特征φ(x,C),其中x为未标记样本集中的样本,C是当前分类模型,φ是Meta特征映射函数,返回步骤(三)。
- 根据权利要求1~7任一项所述的一种基于元学习的主动学习方法,其特征在于:在已有标记数据集上获取MetaData的步骤如下:S11、从已有标记的数据集D={D 1,…,D n}中挑选一个数据集D;S12、将该数据集随机划分成训练集和测试集T;S13、针对训练进一步划分成有标记样本集L和未标记样本集U,用于模拟主动学习的过程;S14、依次随机地从U中选取5个样本加入至L,生成主动学习前五轮数据;S15、根据当前有标记集L训练分类模型C,并在测试集T上获的性能评分p 0;S16、用生成MetaData数据,从U中随机挑选一个样本x加入L中,重新训练模型C,然后根据当前分类模型C计算x的Meta特征Z=φ(x,C);S17、将在x加入L中后重新训练的分类模型C在测试集T上获的性能评分p 1,计算ΔP=p 1-p 0分类模型C性能变化值,生成MetaData数据[Z,ΔP];S18、判断训练集划分成L和U的次数是否达到要求数量,若达到要求,跳至S19,否则转至步骤S13;S19、判断训练集和测试集的划分次数是否达到要求数量,达到要求则结束,否则转至步骤S12。
- 根据权利要求8所述的一种基于元学习的主动学习方法,其特征在于:为了保证分类模型测试性能的准确性,将测试集T占整个数据集的比例设置0.5。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910725779.6 | 2019-08-07 | ||
CN201910725779.6A CN110569982A (zh) | 2019-08-07 | 2019-08-07 | 一种基于元学习的主动采样方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021022572A1 true WO2021022572A1 (zh) | 2021-02-11 |
Family
ID=68774808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/100002 WO2021022572A1 (zh) | 2019-08-07 | 2019-08-09 | 一种基于元学习的主动采样方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110569982A (zh) |
WO (1) | WO2021022572A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113288091A (zh) * | 2021-05-06 | 2021-08-24 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
CN113642610A (zh) * | 2021-07-15 | 2021-11-12 | 南京航空航天大学 | 一种分布式异步主动标注方法 |
CN113705869A (zh) * | 2021-08-17 | 2021-11-26 | 东南大学 | 无监督元学习网络的机电设备少样本退化趋势预测方法 |
CN115329657A (zh) * | 2022-07-06 | 2022-11-11 | 中国石油化工股份有限公司 | 钻井参数优化方法及装置 |
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
CN116006453A (zh) * | 2023-03-24 | 2023-04-25 | 合肥通用机械研究院有限公司 | 一般用动力压缩机出厂快速检测试验台及其测量方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469251B (zh) * | 2021-07-02 | 2024-07-26 | 南京邮电大学 | 不平衡数据的分类方法 |
CN113793214B (zh) * | 2021-09-27 | 2023-07-11 | 武汉众邦银行股份有限公司 | 一种解决小微企业信贷授信风险控制和管理方法及装置 |
CN113688944B (zh) * | 2021-09-29 | 2022-12-27 | 南京览众智能科技有限公司 | 一种基于元学习的图像识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040049721A (ko) * | 2002-12-07 | 2004-06-12 | 한국전자통신연구원 | 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법 |
CN106779086A (zh) * | 2016-11-28 | 2017-05-31 | 北京大学 | 一种基于主动学习和模型剪枝的集成学习方法及装置 |
CN106886821A (zh) * | 2017-02-21 | 2017-06-23 | 中山大学 | 一种支持自主学习的个性化知识元表的自动生成方法及系统 |
CN107247996A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种应用于异分布数据环境的主动学习方法 |
CN109886337A (zh) * | 2019-02-22 | 2019-06-14 | 清华大学 | 基于自适应采样的深度度量学习方法及系统 |
CN109919299A (zh) * | 2019-02-19 | 2019-06-21 | 西安交通大学 | 一种基于元学习器逐步梯度校正的元学习算法 |
-
2019
- 2019-08-07 CN CN201910725779.6A patent/CN110569982A/zh active Pending
- 2019-08-09 WO PCT/CN2019/100002 patent/WO2021022572A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040049721A (ko) * | 2002-12-07 | 2004-06-12 | 한국전자통신연구원 | 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법 |
CN106779086A (zh) * | 2016-11-28 | 2017-05-31 | 北京大学 | 一种基于主动学习和模型剪枝的集成学习方法及装置 |
CN106886821A (zh) * | 2017-02-21 | 2017-06-23 | 中山大学 | 一种支持自主学习的个性化知识元表的自动生成方法及系统 |
CN107247996A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种应用于异分布数据环境的主动学习方法 |
CN109919299A (zh) * | 2019-02-19 | 2019-06-21 | 西安交通大学 | 一种基于元学习器逐步梯度校正的元学习算法 |
CN109886337A (zh) * | 2019-02-22 | 2019-06-14 | 清华大学 | 基于自适应采样的深度度量学习方法及系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113288091A (zh) * | 2021-05-06 | 2021-08-24 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
CN113288091B (zh) * | 2021-05-06 | 2023-10-03 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
CN113642610A (zh) * | 2021-07-15 | 2021-11-12 | 南京航空航天大学 | 一种分布式异步主动标注方法 |
CN113642610B (zh) * | 2021-07-15 | 2024-04-02 | 南京航空航天大学 | 一种分布式异步主动标注方法 |
CN113705869A (zh) * | 2021-08-17 | 2021-11-26 | 东南大学 | 无监督元学习网络的机电设备少样本退化趋势预测方法 |
CN113705869B (zh) * | 2021-08-17 | 2022-11-04 | 东南大学 | 无监督元学习网络的机电设备少样本退化趋势预测方法 |
CN115329657A (zh) * | 2022-07-06 | 2022-11-11 | 中国石油化工股份有限公司 | 钻井参数优化方法及装置 |
CN115329657B (zh) * | 2022-07-06 | 2023-06-09 | 中国石油化工股份有限公司 | 钻井参数优化方法及装置 |
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
CN115829036B (zh) * | 2023-02-14 | 2023-05-05 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
CN116006453A (zh) * | 2023-03-24 | 2023-04-25 | 合肥通用机械研究院有限公司 | 一般用动力压缩机出厂快速检测试验台及其测量方法 |
CN116006453B (zh) * | 2023-03-24 | 2023-06-20 | 合肥通用机械研究院有限公司 | 一般用动力压缩机出厂快速检测试验台及其测量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110569982A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021022572A1 (zh) | 一种基于元学习的主动采样方法 | |
CN108492200B (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
WO2021120934A1 (zh) | 一种基于卷积神经网络的DRGs自动分组方法 | |
CN107391906A (zh) | 基于神经网络和图谱结构的健康饮食知识网络构建方法 | |
CN113705597B (zh) | 一种图像处理方法、装置、计算机设备以及可读存储介质 | |
CN110135459B (zh) | 一种基于双三元组深度度量学习网络的零样本分类方法 | |
CN110647904B (zh) | 一种基于无标记数据迁移的跨模态检索方法及系统 | |
CN110770850B (zh) | 在实体之间学习和应用背景相似性 | |
WO2020248847A1 (zh) | 智能心脏疾病检测方法、装置及计算机可读存储介质 | |
WO2021104323A1 (zh) | 用于确定文本相似度的方法、获取语义答案文本的方法及问答方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110222771A (zh) | 一种零样本图片的类别识别方法 | |
CN107357763B (zh) | 一种基于自步学习的众包分类数据质量控制方法 | |
CN109935337B (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN111813962A (zh) | 一种用于知识图谱融合的实体相似度计算方法 | |
CN106407664B (zh) | 呼吸气体诊断系统的领域自适应装置 | |
WO2020224433A1 (zh) | 基于机器学习的目标对象属性预测方法及相关设备 | |
CN108520038B (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
CN110580339B (zh) | 一种医疗术语知识库完善的方法和装置 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN116821698A (zh) | 基于半监督学习的小麦赤霉病孢子检测方法 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN107545075A (zh) | 一种基于在线评论和情境感知的餐馆推荐方法 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
Younis et al. | A new parallel bat algorithm for musical note recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19940816 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19940816 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19940816 Country of ref document: EP Kind code of ref document: A1 |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11.08.2022) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19940816 Country of ref document: EP Kind code of ref document: A1 |