WO2022063274A1

WO2022063274A1 - 一种数据标注方法、系统和电子设备

Info

Publication number: WO2022063274A1
Application number: PCT/CN2021/120710
Authority: WO
Inventors: 姚超
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-09-27
Filing date: 2021-09-26
Publication date: 2022-03-31
Also published as: CN114282586A

Abstract

本说明书实施例公开了一种数据标注方法，包括以下步骤：创建训练集和测试集，将待标注数据归入测试集；提取测试集数据进行标注并放入训练集；设定训练参数，根据训练集数据启动AutoML模型训练；将AutoML训练模型应用于所述测试集，输出满足质检要求的标注数据。

Description

一种数据标注方法、系统和电子设备

交叉引用

本申请基于申请号为“202011031077.7”、申请日为2020年09月27日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本说明书涉及信息技术技术领域，尤其涉及一种自动化数据标注方法、系统和电子设备。

背景技术

随着5G新基建的高速发展，通信网络越来越复杂，网络运维也逐渐从人工运维向着半自动化甚至全自动化的方向发展。这其中机器学习算法的作用越来越大。通常而言，有监督的机器学习算法效果更好，因此，需要大量的标注数据来训练、改进机器学习算法的性能。

当前进行网络运维数据的标注的方式普遍都比较原始，即以手工的方式进行标注。这主要是因为：不像图像、音视频领域的研究比较集中，沉淀了诸多的算法和工具，网络优化提效的课题多种多样，虽然在某些领域，例如异常检测，会有一些通用的界面化工具或者无监督算法辅助标注，但更多的情况下是需要研究人员根据情况手工标注或开发定制程序辅助。课题很多，人工标注工作量巨大，每次写特定程序来辅助也很麻烦。面对动辄几万至几百万记录的待标注数据量，给机器学习算法的探索带来了极大的困难和挑战，亟需一种方式或工具对数据标注进行提效。

另一方面，AutoML(Auto Machine Learning自动机器学习)是近年来兴起的将机器学习应用于实际问题的端到端流程自动化构建的方法，它组合了特征工程、模型选择和优化算法选择这三个构建机器学习所需的步骤，并自动对各部分进行优化，使得领域专家可以不依赖数据科学家，靠自己构建机器学习流程，具有较广泛的通用性。但同时因为通用，不会针对特定问题进行优化，往往无法得到最佳效果。

发明内容

本申请的第一方面，提出了一种数据标注方法，包括以下步骤：

创建训练集和测试集，将待标注数据归入测试集；

提取测试集数据进行标注并放入训练集；

设定训练参数，根据训练集数据启动AutoML模型训练；

将AutoML训练模型应用于所述测试集，输出满足质检要求的标注数据。

本申请的第二方面，提出了一种数据标注系统，包括用户处理模块、数据选取模块、质检模块、AutoML引擎以及可扩展模型库，其中：

所述用户处理模块，用于提供用户可视化交互界面，方便用户处理和理解数据；

所述数据选取模块，用于根据指定策略从全量大数据里选取部分数据，策略包括随机抽取和按预测概率排序抽取；

所述质检模块，用于提供用户抽检数据的置信度支持；

所述可扩展模型库，用于提供AutoML可搜索的模型，可插件式扩展，增强AutoML引擎的能力。

本申请的第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述操作。

本申请的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述操作。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的本说明书实施例提供的一种数据标注系统结构示意图。

图2是本说明书的一个实施例提供的数据标注方法的步骤示意图。

图3是本说明书的一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

下面，结合图1所示，介绍本说明书实施例提供的一种数据标注系统，该数据标注系统可以包括：用户处理模块10、数据选取模块20、质检模块30、AutoML引擎40以及可扩展模型库50。其实，数据标注系统并不限于包括上述模块，还可以包括其它辅助实现数据标注的功能模块，在此不做一一描述。

<用户处理模块>

所述用户处理模块10，用于提供用户可视化交互界面，方便用户处理和理解数据。

<数据选取模块>

所述数据选取模块20用于从全量大数据里按指定策略选取部分数据，策略包括随机抽取和按预测概率排序抽取。

<质检模块>

质检模块30用于提供用户抽检数据的置信度支持。

<可扩展模型库>

可扩展模型库40用于给AutoML提供可搜索的模型，可插件式扩展，以增强AutoML引擎的能力。

<AutoML引擎>

AutoML引擎50用于接收训练数据自动化训练出机器学习模型，以及接收测试数据用指定模型给出推理结果。

通过上述技术方案，可用AutoML辅以人工迭代式提升标注质量；AutoML各个步骤都可以自动化，较为通用，每次迭代人工处理模型预测最差的数据，快速提升模型对剩余数据的精度；质检模块实时给出用户抽检的多个置信度区间，支撑用户的下一步动作。这样，利用AutoML适用场景广的特点，可以在大多数场景协助人工进行数据标注。同时让模型处理大部分数据，人工关注模型测不准的或模型预测有问题的少部分数据，规避了AutoML可能精度不高的问题。扬长避短使得需要人工标注的数据量大幅降低，极大减少了人的工作量。

参照图2所示，为本说明书实施例提供的数据标注方法的步骤示意图，该方法可以包括以下步骤：创建训练集和测试集，将待标注数据归入测试集；提取测试集数据进行标注并放入训练集；设定训练参数，根据训练集数据启动AutoML模型训练；将AutoML训练模型应用于所述测试集，输出满足质检要求的标注数据。具体为：

步骤101：训练集为空，所有数据放入测试集。

可选地，根据待标注结构化数据和字段信息，创建测试集和训练集。训练集为空，所有数据放入测试集，具体包括以下操作之一或组合：

接收信息操作：接收给定的一份待标注结构化数据及字段信息；

创建集合操作：系统自动创建一个测试集，一个训练集，初始训练集为空，所有待标注数据默认归入测试集。

步骤102：对测试集进行质检。

可选地，步骤202在对测试集进行质检时，具体执行为：系统随机抽取用户指定数量的数据，由用户检查标注的正确性，并根据抽查结果给出不同置信度水平下的错误率指标。

在步骤103，判断质检结果是否满足要求。

可选地，步骤103在判断质检结果是否满足要求时，具体执行为：由用户判定是否接受抽查结果。用户接受则进入步骤108，否则进入步骤104。用户也可以继续增加抽检数据以提高期望指标的置信度。

应理解，对预测结果进行抽样检测，当满足预定正确率指标时，流程继续，否则跳转至步骤108。

在步骤104，从测试集提取n条数据进行人工标注，并放入训练集。

可选地，步骤104在从测试集提取n条数据进行人工标注，并放入训练集时，具体执行为：系统从测试集中抽取n条数据(n可由用户设置)在界面呈现，由用户手工标注。第一次时系统判断预测概率为空，则随机选取n条；预测概率不为空时，按预测概率排序，选取概率最小的top n。

进一步，可具体采用以下两种方式从测试集中提取数据：

方式一：

第一次选取数据时，从测试集中随机选取n条数据进行人工标注(n规模较小)，标注完成后放入训练集。

方式二：

在迭代中经过模型的预测，根据预测概率进行排序，选取概率最小的top n，即模型最拿不准的n条数据进行人工修正重新标注，将修正后的标注数据放入训练集，使后续模型对剩余测试数据快速收敛。

在步骤105，设定训练参数。

可选地，步骤105在设定训练参数时，具体执行为：用户设定训练参数，后面迭代可以沿用。

应理解，为加快训练速度，用户可以仅指定跟标注结果有关的列作为输入，以及用户可以指定AutoML的模型搜索空间，例如设定仅尝试GBT、随机森林和LinearSVC三种模型。

在步骤106，用训练集训练模型。

可选地，在步骤106用训练集训练模型时，具体执行为：使用训练集启动AutoML引擎训练模型。

在步骤107，将模型应用于测试集，执行步骤102。

可选地，在步骤107将模型应用于测试集时，具体执行为：训练结束后，将模型应用于测试集，得到测试集数据的预测结果，执行步骤102。

在步骤108，合并训练集和测试集，输出结果。

可选地，在步骤108合并训练集和测试集，输出结果时，具体执行为：(5)合并训练集和经过预测的测试集，输出完成的标注数据。

其中，图2所示各步骤的具体实现可参照实施例一所提供的数据标注系统方案，在此不做赘述。

图3是本说明书的一个实施例电子设备的结构示意图。请参考图3，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成共享资源访问控制装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

创建训练集和测试集，将待标注数据归入测试集；

提取测试集数据进行标注并放入训练集；

设定训练参数，根据训练集数据启动AutoML模型训练；

上述如本说明书图中所示实施例揭示的数据标注系统执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行附图中的方法，并实现数据标注系统在附图所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行附图中所示实施例的方法，并具体用于执行以下方法：

创建训练集和测试集，将待标注数据归入测试集；

提取测试集数据进行标注并放入训练集；

设定训练参数，根据训练集数据启动AutoML模型训练；

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

一种数据标注方法，包括以下步骤：

创建训练集和测试集，将待标注数据归入测试集；

提取测试集数据进行标注并放入训练集；

设定训练参数，根据训练集数据启动AutoML模型训练；

将AutoML训练模型应用于所述测试集，输出满足质检要求的标注数据。
如权利要求1所述的数据标注方法，其中，所述创建训练集和测试集，将待标注数据归入测试集的步骤，包括，

根据待标注结构化数据和字段信息，创建测试集和训练集；

初始训练集为空，所有数据放入测试集。
如权利要求1所述的数据标注方法，其中，所述提取测试集数据进行标注并放入训练集的步骤，包括，

初次选取数据时，将从测试集中随机选取的数据进行人工标注后放入训练集；

根据迭代中AutoML模型的预测概率进行排序，选取概率最小的数据进行人工标注，将修正后的数据放入训练集中。
如权利要求1至3中任一项所述的数据标注方法，其中，所述设定训练参数，根据训练集数据启动AutoML模型训练的步骤，包括，指定标注结果有关的列和AutoML的模型搜索空间作为训练参数。
如权利要求1至4中任一项所述的数据标注方法，其中，所述将AutoML训练模型应用于所述测试集，输出满足质检要求的标注数据的步骤，包括，

获取AutoML训练模型应用于测试集的数据预测结果；

判断预测结果是否满足质检要求；

将满足质检要求的测试集和训练集合并，输出标注结果；

将不满足质检要求的测试集重新提取测试集数据进行标注并放入训练集，进行模型训练。
如权利要求5所述的数据标注方法，其中，所述判断预测结果是否满足质检要求的步骤，包括，设置不同置信度下的正确率指标，对预测结果进行抽样检测，判断检测结果是否满足预设正确率指标。
一种数据标注系统，包括用户处理模块、数据选取模块、质检模块、AutoML引擎以及可扩展模型库：

所述用户处理模块，用于提供用户可视化交互界面，方便用户处理和理解数据；

所述数据选取模块，用于根据指定策略从全量大数据里选取部分数据，策略包括随机抽取和按预测概率排序抽取；

所述质检模块，用于提供用户抽检数据的置信度支持；

所述可扩展模型库，用于提供AutoML可搜索的模型，可插件式扩展，增强AutoML引擎的能力。
一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-6任一项所述数据标注方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1-6任一项所述数据标注方法的步骤。