WO2023179038A1

WO2023179038A1 - 数据标注的方法、ai开发平台、计算设备集群和存储介质

Info

Publication number: WO2023179038A1
Application number: PCT/CN2022/130153
Authority: WO
Inventors: 李明磊; 糜飞; 陈志毅; 王雅圣; 邓晓峰; 怀宝兴
Original assignee: 华为云计算技术有限公司
Priority date: 2022-03-24
Filing date: 2022-11-05
Publication date: 2023-09-28

Abstract

本申请提供了一种数据标注的方法、AI开发平台、计算设备集群，方法可以由AI开发平台执行，首先，AI开发平台可以基于用户输入的提示模板和提前部署AI平台中的基础模型，对第一数据集进行数据标注，然后，生成显示界面以向所述第一用户显示第一数据集中的难例集，最后，AI平台根据所述第一用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型。该方法可以降低对初始标注数据的依赖、数据标注所需的人力成本，该方法还能通过难例挖掘的确认结果，对部署在AI开发平台中的这个基础模型进行更新，让基础模型持续新知识，使得基础模型能力越来越强，推理效率越来越高。

Description

数据标注的方法、AI开发平台、计算设备集群和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种数据标注的方法、AI开发平台、计算设备集群以及存储介质。

背景技术

随着AI技术的广泛应用，AI技术中需要大量的已标注数据来进行算法训练，因此高效准确地标注数据成为当务之急。

一方面，在各个领域，海量的标注数据获取成本是非常高的，当前主要是通过人工标注，因此，如何降低标注成本成为一个亟需解决的问题。

另一方面，不同的任务使用不同的模型，不同任务的数据分别训练不同的模型，会导致不同任务的标注数据积累的知识无法汇总，会造成模型和知识碎片，因此，如何解决模型和知识碎片，使得知识可以持续积累也是一个亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种数据标注的方法，可以降低对初始标注数据的依赖，实现零样本和少样本的推理，来进一步降低数据标注所需的人力成本，该方法还能通过不同任务共用的基础模型持续吸收知识，使得基础模型能力越来越强，推理效率越来越高。此外，该方法更适合放到云端，实现终生学习，对于不同客户的知识可以实现继承和共享，从而达成知识即服务，经验即服务。本申请还提供了对应的AI开发平台、计算设备集群、计算机可读存储介质以及计算机程序产品。

第一方面，本申请实施例提供了一种数据标注的方法，该方法中：首先，AI开发平台接收到第一用户输入的第一提示模板，第一提示模板用于描述输入数据和标注结果之间的关系，其次，AI开发平台基于该提示模板和提前部署AI平台中的基础模型，对第一数据集进行数据标注；接着，AI开发平台确定所述第一数据集中的第一难例集，并生成显示界面以向所述第一用户显示所述第一难例集，所述第一难例集中包括至少一个难例，用户会在显示界面中对第一难例的标注情况进行确认(包括：正确的标注直接确认，错误的标注修改后确认)；最后，AI平台根据所述第一用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型。

该方法可以基于提示模板和基础模型直接开始推理，降低对初始标注数据的依赖、数据标注所需的人力成本，该方法还能通过难例挖掘的确认结果，对部署在AI开发平台中的这个基础模型进行更新，让基础模型持续新知识，使得基础模型能力越来越强，推理效率越来越高。

一种可选的实现方式中，在得到所述更新后的基础模型之后，该数据标注方法还包括：AI开发平台基于所述更新后的基础模型，对所述第一数据集中进行数据标注，在所述更新后的基础模型的标注准确率高于或等于阈值时，返回标注完成响应，或，在所述更新后的基础模型的标注准确率低于阈值时，确定所述第一数据集中的第二难例集，并生成显示界面以向所述第一用户显示所述第二难例集，用户会在显示界面中对第二难例的标注情况进行确认；然后，AI开发平台根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练，以再次更新基础模型。可见，该方法根据标注准确率情况向用户显示多轮难例集，并根据用户对难例集的确认情况，对基础模型进行多次训练，直到基础模型的标注准确率达标，该方法通过多次迭代，在不断优化标注结果的同时，还能不断优化基础模型的推理能力。

一种可选的实现方式中，所述根据所述用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型，该数据标注方法包括：根据所述第一用户对所述第一难例集的标注进行确认后的结果和所述第一提示模板，对所述基础模型进行训练，以得到更新后的基础模型。

一种可选的实现方式中，该数据标注方法还包括：接收第二用户输入的第二提示模板；基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。

一种可选的实现方式中，该数据标注方法还包括：根据所述用户对所述第一难例集的标注进行确认后的结果和非难例集的标注，确定已标注的第一数据集，其中，所述非难例集的标注是在所述基于基础模型和所述提示模板，对第一数据集进行数据标注的步骤中生成的标注，所述非难例集是所述第一数据集除去所述第一难例集余下的数据组成的集合。

一种可选的实现方式中，获取所述第一用户的目标需求，所述目标需求中包括任务类型；基于所述目标需求、和所述已标注的第一数据集，在所述更新后的基础模型上进行知识蒸馏，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。

一种可选的实现方式中，获取所述已标注的第一数据集和所述第一用户的目标需求，所述目标需求中包括任务类型；基于所述已标注的第一数据集和所述目标需求进行模型训练，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。

一种可选的实现方式中，所述目标需求中还包括模型能力，所述性能需求用于描述所述目标模型的精度或性能。

一种可选的实现方式中，所述任务类型包括：文本情感分析、文本分类、实体命名、命名实体识别、声音分类、语音内容识别、图像分类、物体检测、图像分割、视频标注中的任意一种。

一种可选的实现方式中，所述输入的第一提示模板是预设在所述AI开发平台中的，所述AI开发平台中预设了多个提示模板，每个预设的提示模板对应一种任务类型；或，所述第一提示模板是用户在所述显示界面中设计的。

第二方面，本申请实施例提供了一种人工智能AI开发平台，该AI开发平台包括多个模块，多个模块的组合可以实现第一方面或第一方面的任意一种可选的实现方式中所述的方法。

第三方面，本申请实施例提供了一种人工智能AI开发平台，该AI开发平台可以包括：输入输出IO模块，用于：接收第一用户输入的第一提示模板，所述第一提示模板用于描述输入数据和标注结果之间的关系；推理模块，用于：基于基础模型和所述提示模板，对第一数据集进行数据标注，其中，所述基础模型部署于所述AI开发平台；难例挖掘模块，用于：确定所述第一数据集中的第一难例集，并生成显示界面以向所述第一用户显示所述第一难例集，所述第一难例集中包括至少一个难例；基础模型更新模块，用于：根据所述第一用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型。

一种可选的实现方式中，所述AI开发平台包括：所述推理模块，还用于：基于所述更新后的基础模型，对所述第一数据集中进行数据标注；所述推理模块，还用于：在所述更新后的基础模型的标注准确率高于或等于阈值时，返回标注完成响应；所述难例挖掘模块，还用于：在所述更新后的基础模型的标注准确率低于阈值时，确定所述第一数据集中的第二难例集，并生成显示界面以向所述第一用户显示所述第二难例集，并根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练。

一种可选的实现方式中，所述基础模型更新模块，用于：根据所述第一用户对所述第一难例集的标注进行确认后的结果和所述第一提示模板，对所述基础模型进行训练，以得到更新后的基础模型。

一种可选的实现方式中，所述IO模块，还用于：接收第二用户输入的第二提示模板；所述推理模块，还用于：基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。

一种可选的实现方式中，所述IO模块，还用于：接收第二用户输入的第二提示模板；所述难例挖掘模块，还用于：根据所述用户对所述第一难例集的标注进行确认后的结果和非难例集的标注，确定已标注的第一数据集，其中，所述非难例集的标注是在所述基于基础模型和所述提示模板，对第一数据集进行数据标注的步骤中生成的标注，所述非难例集是所述第一数据集除去所述第一难例集余下的数据组成的集合。

一种可选的实现方式中，所述AI开发平台还包括：模型蒸馏模块，用于：获取所述第一用户的目标需求，所述目标需求中包括任务类型；基于所述目标需求、和所述已标注的第一数据集，在所述更新后的基础模型上进行知识蒸馏，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。

一种可选的实现方式中，所述AI开发平台还包括：模型训练模块，用于：获取所述已标注的第一数据集和所述第一用户的目标需求，所述目标需求中包括任务类型；基于所述已标注的第一数据集和所述目标需求进行模型训练，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。

第三方面，本申请提供一种计算设备集群，所述计算设备包括至少一个计算设备，所述至少一个计算设备包括至少一个处理器和至少一个存储器；所述至少一个存储器用于存储指令，所述至少一个处理器执行所述至少一个存储器存储的该指令，以使所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中的数据标注的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在至少一个计算设备上运行时，使得所述至少一个计算设备执行上述第一方面或第一方面的任一种实现方式所述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在至少一个计算设备上运行时，使得所述计算设备集群执行上述第一方面或第一方面的任一种实现方式所述的数据标注的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1是本申请实施例提供的一种AI开发平台100的基础功能示意图。

图2是本申请实施例提供的一种AI开发平台100的网络架构示意图。

图3是本申请实施例提供的另一种AI开发平台100的网络架构示意图。

图4是本申请实施例给出的一种AI开发平台100上的数据标注方案示意图。

图5是本申请实施例提供的一种数据标注和模型训练的方法流程图。

图6(a)是本申请实施例提供的一种创建智能标注的用户界面示意图。

图6(b)是本申请实施例提供的一种创建新建提示模板的用户界面示意图。

图6(c)是本申请实施例提供的另一种创建智能标注的用户界面示意图。

图6(d)是本申请实施例提供的一种少样本标注界面的用户界面示意图。

图6(e)是本申请实施例提供的一种展示标注结果情况界面的用户界面示意图。

图6(f)是本申请实施例提供的一种难例人工确认的界面的用户界面示意图。

图6(g)是本申请实施例提供的一种数据标注完成响应的用户界面示意图。

图6(h)是本申请实施例提供的一种模型构蒸馏的用户界面示意图。

图7是本申请实施例提供的一种数据标注装置300示意图。

图8是本申请实施例提供的一种计算设备400的结构示意图。

图9是本申请实施例提供的一种计算设备集群的示意图。

图10是本申请实施例提供的一种计算设备集群的实现方式的示意图。

具体实施方式

首先，为了便于理解本申请提供的技术方案和实施例，在此对AI开发平台、AI模型、数据标注、难例、难例挖掘等概念进行说明：

AI开发平台：是一种为AI开发者和用户提供便捷的AI开发环境以及便利的开发工具的平台。AI开发平台基于用户自己的算法和训练图像集，可以训练出一个可用于实现用户需要的AI模型，用户可利用训练完成的AI模型完成自己的特定任务，在这个过程中，AI开发平台可以为用户提供数据标注、模型训练、模型优化、模型部署等服务。

基础模型(Foundation Models)指一个预训练好的、参数体量很大的AI模型，我们可以基于基础模型进行微调，从而适配多种下游任务模型，换句话说，它是下游任务的“基础”，因此被称为基础模型。由于基础模型的参数规模通常较大，因此有些情况下也可以称之为大模型，这类大模型是由海量无标注数据训练得来，参数体量通常在10亿以上，例如,目前华为云的盘古CV大模型有30亿、盘古NLP大模型参数量甚至达到1000亿。

数据标注：是对未标注数据添加在相应场景中的标签的过程。例如，未标注数据为未标注图像，在图像分类的场景中，为未标注图像添加所属类别，在目标检测的场景中，为未标注图像中的目标添加位置信息以及类别。经过标注的数据携带了标签，当数据作为输入数据用于训练AI模型时，可以根据数据的标签调整AI模型中的参数。

自动数据标注：是利用主动学习完成数据标注，核心原理是随机选择一部分数据进行标注，然后根据已标注的数据训练一个模型，根据验证数据集确定置信度阈值；然后对未标注数据进行预测，并对每一个数据生成置信度得分，对于高于置信度阈值的数据直接视为自动标记，对于低于置信度阈值的数据发送给用户重新标注，这个自动标注的过程部分可以降低人工标注量。

难例，是指在训练、评估或者推理过程中，挖掘AI模型在性能表现上不佳的数据的过程，对于AI模型不能给出较准确的推理结果的输入数据称为该AI模型的难例。例如，在AI模型的训练过程中，将训练时预测结果与标签结果之间的损失函数值大于一定阈值的输入数据作为难例。在AI模型的推理过程中，将推理数据集中的D数据输入至AI模型，输出的推理结果的错误率高于目标阈值，则该D数据为难例。在一种场景下，AI模型也可以用于对未标注的数据进行智能标注，利用AI模型做智能标注过程实际也是AI模型的推理过程，被标注错误或者被标注错误率较高的输入数据，被确定为难例。

难例挖掘：指确定一个图像为难例的方法。

小样本学习：小样本学习问题是指只给定目标少量训练样本的条件下，训练有效地识别这些目标的AI模型，以获得准确分类测试样本的模型。按照训练样本的多少可以将小样本学习分为三类，如下：a)少样本学习：训练样本在数十个量级的左右的模型训练问题。b)单样本学习：只有一个训练样本，也是最接近人类处理方式的模式b)零样本学习：在没有任何标记数据的情况下进行预测，目的是预测训练数据集中没有出现过的类。

模型微调：基于预训练的大模型，在小样本数据集上对神经网络模型的全连接层或者顶端几层进行参数微调，得到微调后的模型，以匹配不同的下游任务，使得微调后的模型在下游任务上的效果显著提升。模型微调实现了用更少的特定领域数据、且不经过精调步骤来解决目标问题的目的。

提示(promot)模板：“提示”就是伴随着输入一起，给予模型的一种上下文，它告诉、指导模型接下来你应当要做什么任务，是一个提示。换一种说法，可以理解为前面的“提示”能够将下游任务改造成预训练模型期望的样子。在进行数据标注时，提示模板可以理解为我们期望大模型如何对数据进行标注，换句话说，它是一个用于提示数据和标注结果之间的关系的模板，这里的“关系”可以是上下文关系或其他逻辑关系，就像构建了一个完型填空的模板，大模型只需要完成填空即可，提示模板的举例请见后文的表1。

提示学习(Prompt learning):目前主要应用于NLP领域，在不显著改变预训练语言模型(基础模型)结构和参数的情况下，通过向输入增加提示信息将下游任务改为文本生成任务。预训练语言模型中存在很多知识和模式，有的是现成的、可以直接使用，有的则需要一定的方法来“激发”出来。提示学习可以应用于知识探索(事实探索和语言学探索)、分类任务(文本分类和自然语言推理)、信息提取(关系提取、语义分析和命名实体识别)、NLP中的推理(常识推理和数学推理)、问答、文本生成、文本生成的自动评估、多模态学习、元应用(域自适应、除偏和数据集创建)等任务类型，本申请不对任务类型作任何限制。

自动数据标注：是利用主动学习完成数据标注，核心原理是随机选择一部分数据进行标注，然后根据已标注的数据训练一个模型，根据验证数据集确定置信度阈值；接着对未标注数据进行预测，并对每一个数据生成置信度得分，对于高于置信度阈值的数据直接视为自动标记，对于低于置信度阈值的数据发送给用户重新标注。这个自动标注的过程部分可以降低人工标注量。

知识蒸馏(knowledge distillation)：是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，可以将一个网络的知识转移到另一个网络，两个网络可以是同构或者异构。只是蒸馏的做法是先训练一个教师(teacher)网络，然后使用这个teacher网络的输出和数据的真实标签去训练学生(student)网络， student模型通过蒸馏训练来获取教师的知识，可以以轻微的性能损失为代价将复杂teacher模型的知识迁移到简单的学生模型中，以获得在下游任务上更好的性能。

下面，本申请说明书从AI开发平台的基础功能模块(图1)、AI开发平台的网络结构(图2-图3)、AI开发平台的数据标注流程图(图4)、本申请方法流程图(图5)、用户图形界面示意图(图6a～图6h)、软件装置(图7)、硬件结构(图8-图10)等多个方面介绍本申请。

图1是本申请实施例给出的一种AI开发平台100的基础功能示意图。AI开发平台100是云平台中一项PaaS云服务，是基于云服务提供商所拥有的大量基础资源和软件能力对用户(也称为：租户、AI开发者等)提供的辅助进行AI模型的构建、训练、部署以及AI应用的开发和部署的软件平台。

如图1所示，AI开发平台100提供的基础能力可以包括如下六大部分：数据预处理110、模型构建与训练120、模型管理130、模型部署140、数据优化150、模型优化更新160，各个功能模块介绍如下：

数据预处理110：用户可以根据需求对数据集进行数据选择、数据标注、数据增强、数据清洗、特征分析等一种或多种操作。其中，数据标注是数据预处理110中最重要的步骤，数据标注的数据通常指AI模型的训练所需的数据集，这里的数据集可以由用户根据实际的应用场景进预先采集并上传到平台100上的，也可以使用业界已经形成的开源数据集。数据标注111具体介绍请参见后文图3的描述。

模型构建与训练120：对AI模型的构建和训练是AI基础开发平台的重点能力，主要是：(1)基于用户的目标(例如：任务类型、目标精度等)，为用户自动选择AI基础开发平台中内置的初始模型并对其进行训练，获得满足用户的目标的AI模型；(2)基于用户的目标，以及用户提供或者用户在AI基础开发平台上选择的初始AI模型，对初始AI模型进行训练，获得满足用户的目标的AI模型(3)基于用户的目标，AI基础开发平台利用后台的神经网络架构搜索算法，自动搜索到合适的AI模型，对其进行训练，获得满足用户的目标的AI模型。

上述三种方式中，前两种方式主要是利用云环境的算力对AI模型进行训练，第三种方式中既包括AI模型架构的搜索，又包括AI模型的训练，AI模型训练的原理此处不再赘述。

模型管理130：AI基础开发平台还提供模型管理的功能，模型可以来自前述训练完成的AI模型、以及用户自带的AI模型。对模型进行统一管理包括对模型进行评估和诊断、优化、转换等，其中，对模型进行评估，主要是利用至少一个评估指标衡量已训练的AI模型的性能，例如：可以计算已训练的AI模型对评估数据集的推理结果的准确率。

模型部署140：前述的目标AI模型可以被部署在云环境中的节点或者边缘环境中的节点，其中，云环境中的节点可以是虚拟机实例、容器实例、物理服务器等。一方面，当AI模型的规模较大时，可以基于模型并行的思想将AI模型分布式地部署在多个节点上。另一方面，也可以在多个节点分别独立地部署AI模型，以支撑较大的在线服务的访问量。边缘环境中的节点可以是各种边缘设备。

被部署后的AI模型可以成为一项AI应用，或者成为AI应用中的一部分。所示，用户可以通过Web网页在线访问AI应用，或者通过客户端app在线访问AI应用，当AI应用被使用时，可以通过在线调用的方式，调用部署在边缘环境或者云环境的AI模型来提供响应。由此，通过AI基础开发平台开发和训练的AI模型可以实现对在线请求数据的推理，返回推理结果。在利用AI模型提供在线服务对过程中，云平台可以根据AI模型的调用次数计费，也可以根据AI模型推理的资源消耗计费。

应理解，在另一些情况下，由前述AI基础开发平台开发和训练的AI模型也可以不被在线部署，而是供用户下载训练完成的AI模型至本地，供用户自由地进行本地部署。例如：用户可以选择将训练完成的AI模型保存至OBS，进而用户从OBS下载AI模型至本地。

在另一些情况下，用户1利用前述AI基础开发平台100训练完成了AI模型后可以发布至AI市场，在AI市场的AI模型可以被其他用户订阅使用，例如：可以使得AI模型的功能被集成至其他用户的AI应用中。

基于上述的各种功能，用户可以基于AI基础开发平台100完成AI模型的开发和AI应用的部署和管理。AI基础开发平台中的各个能力可以整合起来供用户进行AI全流程的使用，也可以分别为用户提供独立的功能。

图2为本申请实施例中提供的一种AI开发平台100的网络架构示意图。

由于AI开发平台的售卖实际上是软件能力整合硬件虚拟化基础资源一起售卖的形式，并且支撑AI开发平台中任何一个流程的基础资源可能是分布于不同的物理设备上的。在图1中，AI开发平台100可以独立地部署在云环境的数据中心中的服务器或虚拟机上，AI开发平台100也可以分布式地部署在数据中心中的多台服务器上、或者分布式地部署在数据中心中的多台虚拟机上。

一种可能的实施方式中，图2中的数据中心是云服务提供商的中心云数据中心。

如图2所示，用户与AI开发平台100的交互形态主要包括：用户通过客户端网页登录云平台，在云平台中选择并购买AI开发平台100的云服务，通常，用户需要先购买完预付套餐包，即可以利用AI基础开发平台提供的能力，以及预付套餐包中包括的基础计算资源进行数据标注、模型的构建、训练、部署等。购买后，用户即可以基于AI开发平台100提供的功能进行全流程的AI开发。用户在AI基平台上开发和训练自己的AI模型时，是基于云服务提供商的数据中心中的基础资源(包括计算资源、存储资源和网络资源，其中计算资源包括如CPU、GPU、NPU等)进行的。在当资源使用量超出当前预付套餐包的额度时，云平台按照按需收费的方式，对超出的资源部分进行收费。在使用AI开发平台的云服务时，用户可以通过应用程序接口(application program interface，API)或者图形用户界面(Graphical User Interface，GUI)指定要AI模型完成的任务、上传未标注数据集至云环境，云环境中的AI开发平台100接收用户的任务信息、未标注图像集等，执行数据预处理、AI模型训练、使用训练完成的AI模型进行推理，训练完成的AI模型可被用户下载或者在线部署，用于完成特定的任务。

另一种实施例中，前述的数据中心还可以包括云服务提供商向用户提供的边缘数据中心。

图3是本申请实施例提供的另一种AI开发平台100的网络架构示意图，图3中的AI开发平台100还可以分布式地部署在不同的环境中，AI开发平台100可以在逻辑上分成多个部分，每个部分具有不同的功能。例如，AI开发平台100中的一部分可以部署在边缘环境中的计算设备中(也称边缘计算设备)，另一部分可以部署在云环境中的设备中。边缘环境为在地理位置上距离用户的终端计算设备较近的环境，边缘环境包括边缘计算设备，例如：边缘服务器、拥有计算能力的边缘小站等，

例如，在公有云与私有云结合的场景中，利用公有云中的资源运行AI开发平台中提供的图1中的模型构建与训练120和模型管理130的功能，利用私有云中的资源运行AI开发平台中提供的数据存储OBS和数据预处理110的功能，这样可以为用户的数据提供更强的安全性。这种场景下，公有云的资源可以是来自中心云数据中心，私有云的资源可以是来自边缘数据中心。

图4是本申请实施例给出的一种AI开发平台100上的数据标注方案示意图，该流程主要包括：用户输入提示模板111、AI开发平台进行智能标注112、难例人工确认113、训练基础模型114。

传统的数据标注通常由人工进行，由于需要标注的数据通常数据量巨大，需要消耗较多的人力资源，现有的AI开发平台的虽然可以通过主动学习模型对未标注数据进行自动标注，但是即使是自动标注，也需要人工初始标注一部分数据用于模型训练效率低，人工标注成本高导致冷启动成本高。

本申请实施例中的数据标注流程包括：首先，用户输入提示模板111，AI开发平台100基于基础模型B对数据集A进行智能标注112，与此同时，AI开发平台100对智能标注112进行难例挖掘；接着，AI开发平台100将难例发给用户，进行难例人工确认113；然后，AI开发平台100基于难例确认后的结果对基础模型B进行继续训练114，学习本次数据集A带来的新知识，并基于训练后的基础再次进行智能标注112。在如图3所示的流程中，AI开发平台100不断重复智能标注111、难例人工确认113、训练基础模型114的过程，直到智能标注112的准确率满足条件。

一种可能的实施方式中，第一次进行智能标注112(或后文的步骤203)后的标注准确率就满足条件，例如准确率达到阈值99.8％，此时，可以不进入难例人工确认113的步骤，而直接返回标注完成响应。这种方式是一种理想情况，可能发生在该数据标注功能模块上线AI开发平台较长时间后，由于基础模型B持续吸收知识，模型能力越来越强，零样本效果越来越好，效率越来越高，甚至可以一次性完成较高准确率的智能标注。

具体的，步骤111-114的具体介绍如下：

步骤111、输入提示模板。

用户C根据自己想要实现的标注任务，在GUI中选择或输入特定的提示模板，表1中给出了一些任务类型和提示模板的示例：

表1

任务类型	提示模板
文本情感分析	X，情感极性是<MASK>
命名实体识别	X中有哪些Z这样实体？回答：<MASK>
文本分类	X是<MASK>类新闻
声音分类	X是<MASK>的声音
语音内容识别	X的内容是<MASK>
图像分类	X是一种Z？回答：<MASK>
物体检测	X中的物体Z的坐标是<MASK>
视频标注	X中的物体<MASK>的坐标是<MASK>

表1

其中，X代表输入的数据，可以是文本、图像、音频、视频，<MASK>代表输出，即数据标注的结果。需要说明的是，上述示例仅作为举例，不用于限定本申请中的提示模板的格式，其中，X或<MASK>在一些情况下也可以省略。下面给出一些具体举例：

对于自然语言理解类任务，例如文本情感分析、文本分类、命名实体识别等，表1中的X代表输入的是一个句子，“情感极性”、“新闻”这类指向性词语都是一种提示，NLP大模型可以结合提示模板的上下文的含义，输出<MASK>对应的结果。例如，文本情感分析任务中，X为“这个手机拍照不错”,则NLP补全提示模板后得到“这个手机拍照不错，情感极性是<好>“，其中，“好”就为MASK对于的输出。再例如，若客户上传新闻命名实体识别数据数据，他可以选择命名实体识别模板“X中有哪些Z这样实体？回答：<MASK>”，其中X是原始文本内容，Z是某个实体类别的示例实体词，MASK是提示模板要生成的内容。

对于计算机视觉类任务，例如图像分类、物体检测、物体识别等，当用户的数据集是包含的动物的数据集，想要做分类任务来识别一种黑色的狗，那么用户可以给的提示模板可以是“X是一种Z，回答：<MASK>”,类似于自然语言理解类任务，只不过这里的输入X从一个句子变成了一个图片，后面的Z也可以是我们输入的一张图片，图片中有一只黑色狗。CV大模型就在在它看过的4亿张图片里面可能就有跟这张图片Z类似的狗的照片。

一种可能的实施例中，用户只需要输入提示模板，基础模型B可以基于提示模型进行零样本学习，来进行智能标注。

另一种可能的实施例中，用户只在输入提示模板的同时，还可以输入和提示模板格式对应的少量样本，帮助基础模型B进行少样本学习，来进行智能标注。

步骤112、智能标注。

AI开发平台基于基础模型B进行提示学习，对数据集A进行标注，具体的：基于前面的步骤112输入的提示模板，或基于前面的提示模板和少量样本数据，对数据集A中未标注的数据进行推理(即提示学习)，例如零样本推理/少样本推理，输出未标注的数据对应的标注结果。

其中，基础模型B是部署在AI开发平台上的预训练好的大模型。这类大模型通常是由海量无标注数据训练得来，基础模型的参数规模通常较大，具备极佳泛化能力。大模型根据训练数据的不同类型，主要分为两类：自然语言处理(Natural Language Processing,NLP)大模型和CV计算机视觉(Computer Vision，CV)大模型。此外，大模型还可以包括：多模态大模型、科学计算大模型等，本申请对此不做限定，本申请实施例中的基础模型B可以是以上描述的任一种大模型。

步骤113、难例人工确认。

AI开发平台100中还引入了难例挖掘技术，使得AI开发平台可以基于预训练的基础模型B进行推理、难例挖掘、训练、再推理的闭环过程。

一种可能的实施方式，在基础模型进行推理(智能标注)之后，AI开发平台通过难例挖掘算法，对模型预测把握不大的样本(即难例)进行排序，确定第数据集中的难例以及难例属性，然后通过用户界面程序给用户，来人工进行标注，这里标注的难例比例可以由人工调整。

一种可能的实施方式中，AI开发平台100可以使用时序一致性算法、基于数据特征分布算法、基于数据增强一致性算法、基于不确定性算法、基于聚类算法或基于异常检测算法中的一种或多种，确定出未标注图像集中的难例以及各难例的难例属性。在AI开发平台课使用多种算法，确定难例以及难例属性时，不同算法的权重不相同，且不同特征的权重也不相同。

可选的，用户可以看到需要进行确认的难例的数量，以及难例或非难例占未标注数据集A的比例，进而可以确定出当前的基础模型的推理性能是否满足要求，难例占未标注图像集的比例越小，AI模型的推理性能越好。

可选的，用户还可以看到当前智能标注的准确率。

一种可能的实施方式，AI开发平台根据基础模型的推理结果，确定未标注图像集中的难例以及各难例的难例属性，该难例属性包括难例系数，难例系数用于描述难例的程度。例如，难例系数可以为0至1之间的数，用于反映难例的难例程度(例如，通过AI模型进行分类或者检测获得正确结果的难度)，难例系数越大，难例程度越高，反之难例系数越小，难例程度越低。AI开发平台对难例进行排序，并根据设置的标注比例(或难例系数阈值)将至少部分的难例发送给用户，例如，AI开发平台可以只将难度系数阈值设定为0.6，换句话说，只有难例系数大于0.6的难例才返给用户进行确认。

步骤114、训练基础模型。在步骤114中难例人工确认后，AI开发平台对基础模型继续进行训练，以更新该基础模型。具体的，这里的更新指：基于难例确认后的标注结果和前述提示模板，对AI开发平台中的基础模型进行训练，以调整基础模型115中的参数。

可选的，在步骤115的模型更新完成后，再基于当前的基础模型B再对数据集A中的样本再次进行智能标注、难例人工确认、更新基础模型，即重复步骤112-步骤115，直到某次步骤112中基础模型自动标注的准确率高于(或等于)阈值T，才中止上述的标注流程。

完成图3中的数据标注后，有两种方式来生成用于实现目标任务类型的目标模型：①蒸馏出目标模型：即从基础模型中蒸馏得到一个小模型(目标模型)②训练出目标模型：即基于标注后的数据训练得到目标模型。

需要说明的是，AI开发平台的不同客户的不同任务会在不同时间到来，所有用户的任务共用同一个基础模型，这样不同客户的知识可以实现继承和共享，实现知识即服务，经验即服务。例如，图3的场景中，T时刻，用户C开始使用对数据集A进行标注，而在此之前的T-1时刻，已经有另一个在先客户D对另一个数据集进行了执行数据标注111的流程，AI开发平台基于此对基础模型115进行了训练，从而更新了基础模型115。因此，T时刻的基础模型和T-1时刻的基础模型B必然是不同的，其中的部分参数已经发生变化，在后的基础模型会比在前的基础模型更健壮、能力更强，尤其是在相似任务上得到的性能提升会更高，例如，如果客户C和客户D要做的标注任务都是情感分析任务，客户C得到的非难例数据占比会比在先客户D使用的时候会更高，难例人工确认的数量和轮次会更少，即自动标注整体效率会更高。

图5是本申请实施例提供的一种数据标注和模型训练的方法流程图，该方法由AI开发平台执行，下面将结合情感分析为任务类型、文本类数据的标注为例，来介绍申请提出的数据标注及模型训练方法。

情感分析(sentiment analysis)是自然语言理解领域一个重要分支，主要是针对文本片段，自动识别出该文本片段是正面、负面还是中性评价，该问题是一个文本分类问题，类别标签为正、负、中性。例如，用户在看完电影之后可以选择在团购网站上留下自己对电影的评价。接下来，本申请实施例将基于情感分析的任务介绍本方法，步骤包括：

步骤201、AI开发平台接收第一用户上传的第一数据集。

第一数据集可以由第一用户根据实际的应用场景进预先采集的，也可以使用业界已经形成的开源数据集。例如，第一用户提前收集了800条电影评论作为待标注的第一数据集。

在一些实施例中，用户可以预先在云平台购买对象存储服务object storage service(OBS)，这是一种基于对象的云存储服务，用户可以将数据集存储于OBS的某个路径中，然后在利用AI基础开发平台提供的数据预处理110(例如，数据标注)的功能时，直接在用户界面输入OBS的路径，在后面执行智能标注时，再从OBS读取数据集中的数据。可选的，用户也可以在数据标注服务的用户界面中直接上传待标注的第一数据集。

图6(a)是本申请实施例给出的一种创建任务的用户图形界面示意图，用于创建本次的智能标注任务。首先，用户可以直接“选择”一个现有的OBS目录“obs/buckets/test”，这个目录下已存储了用户之前上传的数据集，或者“新建”一个OBS目录并上传800条电影评论。

步骤202、AI开发平台接收第一用户输入的第一提示模板，所述输入的第一提示模板用于描述第一数据集中的数据和标注结果之间的关系。

在本申请实施例中，AI开发平台100可以提供基于基础模型的提供智能标注，例如华为云上的盘古NLP大模型、盘古CV大模型。

用户可以仅提供一个“提示模板”作为参考，由基础模型来执行智能标注，即用户无需提供标注样本就可以直接开始智能标注服务,这种方式称为零样本学习。可选地，用户处理输入提示模板，还仅需标注少量样本(例如1～10个)就可以快速开始智能标注。

一种可选的实施方式，如图6(a)所示，第一用户在GUI中直接在任务类型的下拉框中选择自己需要的任务类型为“文本情感分析”，再第一用户选择任务类型之后，“提示模板”一栏中就出现了可选的提示模板“文本X，情感极性是<MASK>”，第一用户直接选择该提示模板即可。

另一种可选的实施方式，第一用户还可以直接点击“新建模板”设计自己符合自己需求的模板。图6(b)是本申请实施例提供的一种创建新建提示模板的第一用户界面。如图6(b)所示，第一用户想要设计一个提示模板来识别电影评论的情感极性，首先由于电影评论是文本，第一用户先选择数据类型为“文本”，在阅读AI开发平台的“格式说明”后，设计出了一个更符合自己需求的提示模型“评论X，这个电影真<MASK>看”。

如图6(c)，为了实现更好的标注效果，本申请实施例还提供了少样本学习的标注方式，即第一用户除了输入合适的提示模板，还需要提供少量的标注样本，就可以快速开启智能标注。图6(c)是本申请实施例提供的另一种创建智能标注任务界面图，在该界面中第一用户还可以选择标注方式为“少样本”，点击“下一步”后，第一用户即进入图6(d)中的少样本标注界面，第一用户在界面中提供几个样例，如“电影很感人,情感极性是<好>”、“情节很无聊，情感极性是<不好>”，AI开发平台100通过基于这两个例子进行少样本学习，对数据集中的其他样本，生成提示模板中<MASK>对应的内容，进而实现直接对数据直接进行预测，不需要人工标注数据。

步骤203、AI开发平台基于基础模型和所述第一提示模板，对所述第一数据集中的数据进行数据标注。

AI开发平台100获取到基础模型B(例如NLP大模型)，基于第一用户输入的第一提示模板，对第一数据集中的数据直接进行推理，从而实现对数据集的自动数据标注。例如，“我看了这个电影，很喜欢。这个电影很<MASK>”，基础模型可以预测出<MASK>对应的词最可能是“好”，进而映射成“正面”评价。

可选的，当用户选择了“少样本”的方式时，AI开发平台100基于基础模型、用户输入的提示模板、以及少量已标注的样本进行学习，对第一数据集中的数据的推理，从而实现对数据集的自动标注。

同时，AI开发平台100还会将已标注数据存储到OBS的相应路径中。

可见，本申请实施例的方案和现有的自动标注区别点之一在于，本方案无需大量人工标注来启动标注，现有的智能技术都需要一部分数据用于训练初始模型，或基于这部分数据对预训练的模型进行微调，然后基于该模型对未标注数据进行预测，而可以基于提示模型和基础模型直接对数据集中的数据进行推理并输出标注结果。而本方案仅需借助提示模板，或少量样本，就可以将下游任务的输入输出形式改造成适合预训练模型的样子，从而直接启动标注流程，而不必对预训练的大模型的参数进行调整，才能生成适配当前任务类型的模型。

步骤204、AI开发平台确定所述第一数据集中的第一难例集，通过显示界面向所述第一用户显示所述第一难例集。其中的第一难例集中包括一个或多个难例。

本申请实施例中的AI开发平台100中引入难例挖掘技术，可以在基础模型进行推理的过程中，识别出哪些输入数据为难例，也即确定第一难例集，第一难例集在包括一个或多个难例。在本实施例中，AI开发平台100获得难例后，可以通过显示界面将一个或多个难例提供给用户。

一种可能的实施方式中，用户可以看到当前数据标注的结果，以及难例的数量、准确率，如图6(e)所示，有80个数据被系统认定为难例，基础模型的准确率为90％。

其中，关于基础模型的自动标注的准确率，一种可能的实施方式中，当前基础模型的自动标注的准确率可定义为非难例占未标注数据集A的比例。例如，若当前的基础模型对数据集A进行自动标注后，非难例占未标注数据集A的比例为90％，则可以理解为当前基础模型自动标注的准确率为90％。需要说明的是，第一用户C根据自己的任务类型选择了特定的第一提示模板，基础模型基于该提示模型进行自动标注，因此，这里的自动标注准确率是针对当前的任务类型来说的。

另一种可能的实施方式中，当前基础模型的自动标注的准确率还可定义为其在测试集合B上的预测准确率。例如，第一用户可以在步骤111中同步上传一个测试集B，若当前的基础模型在测试集B上的测试准确率为85％，则可以理解为基础模型自动标注的准确率为90％。

可选的，第一用户可以点击图6(e)中的“设置”，对标注的难例比例、难例系数阈值进行人工调整，相关内容请参照前文。在第一用户确认完当前的标注结果后，可以点击“难例人工确认”进入图6(f)中的难例人工确认的界面。

在本实施例中，用户可以在显示界面中，对AI开发平台提供的难例的标注，进行确认(具体包括直接确认、修改后确认等)。例如，图6(f)是本申请实施例给出的一种难例人工确认的界面，在本示例中，难例的标注结果包括图中文本评论内容所传达的对电影的评价是正面还是侧面的，如果用户认同自动标注的结果，则直接点击“确认”，如果用户不认同自动标注的结果，则点击“修改”。

步骤205、AI开发平台获取所述第一用户在所述显示界面中对所述第一难例集进行确认后的标注结果。

AI开发平台获取到第一用户对对第一难例进行标注确认的标注结果。具体的，对于不同任务类型中的难例，标注结果包括不同的内容。这样，由于AI开发平台在进行第一次智能标注后，给用户提供一个或多个难例，用户仅需要标注确认难例，并将确认结果提供给AI开发平台,进而可以帮助平台优化基础模型，使基础模型下一次提供的自动标注更准确。

可选的，在第一用户对难例进行标注确认后，AI开发平台会将确认的难例同步至已标注的第一数据集中，即存储到OBS的相应路径中。另外，AI开发平台还可以根据第一用户的标注确认，将第一用户待确认的难例集转变为已标注的难例集，或者已标注的非难例集，或者未标注的难例集，未标注的非难例集。

步骤206、根据所述第一难例确认后的标注结果，对所述基础模型进行训练，以更新所述基础模型。

具体的，基于第一用户对所述难例的标注进行人工确认后的结果，先对第一数据集的标注(例如，这里的标注是步骤203中的自动标注生成的)进行更新，并基于更新后的第一数据集(已标注)对所述基础模型进行训练，以更新所述基础模型。

需要说明的是，本步骤中的“对所述基础模型进行训练，以更新所述基础模型”是一种泛指，并不用于限定只对模型进行了一次更新。换句话说，AI开发平台可能已经返回了一轮或多轮难例集让用户确认，并基于确认后的第一数据集对基础模型进行训练。

一种可能的实施方式，AI开发平台100根据第一用户在前面步骤中输入的第一提示模板和进行难例人工确认后的第一数据集(已标注)，对基础模型进行训练，以更新所述基础模型。例如，由于第一用户执行的类型为“文本情感分析”，AI开发平台基于前面的第一数据集(已标注)和第一提示模板对平台中的NLP大模型进行微调，以更新基础模型中的部分参数。步骤207、基于当前的基础模型，对所述第一数据集中的数据进行标注。

步骤207、基于更新后的基础模型，对所述第一数据集中进行数据标注。

可选的,在步骤205中更新完基础模型之后，还需要再次对第一数据集进行自动标注。一种可能的实施方式中，AI开发平台100会返回标注结果，第一用户可以看到本次标注完成情况，以及难例的数量、准确率。

一种可能的实施方式中，若在此时(已完成了对基础模型的至少一次更新)，第二用户也登录了AI开发平台100，开始使用该平台提供的数据标注功能，则AI平台100：首先接收第二用户输入的第二提示模板，并基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。可见，基础模型在训练后，已经积累第一用户数据中的知识，此时利用更新后的基础模型对第二用户的第二数据进行标注，准确率可以得到在一定程度上得到提升。

步骤208、判断更新后的基础模型的标注准确率是否低于阈值。

一种可能的实施方式中，AI开发平台100会判断当前的基础模型的标注准确率是否满足条件(即步骤208)，例如，准确率是否低于阈值S(S＝95％)，此时，有两种情况：

若本次标注的准确率低于阈值，则重新回到步骤204-步骤208，直到某次的标注的准确率不低于阈值例如，在所述更新后的基础模型的标注准确率低于阈值时，AI开发平台确定所述第一数据集中的第二难例集，并生成显示界面以向所述第一用户显示所述第二难例集，并根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练，从而再次更新AI开发平台在的基础模型B。

若本次标注准确率不低于阈值，准则进入步骤209，即返回标注完成的响应。

可选的，在步骤203的标注之后，AI开发平台也会判断更新后的基础模型的标注准确率是否低于阈值。一种理想情况中，即当基础模型B的泛化能力很强的时候，若步骤203的标注之后的标注准确率就达到条件，系统可以直接返回标注完成响应(步骤209)。

步骤209、返回所述第一数据集的标注完成响应。

如前文所述，如果本次标注准确率是否低于阈值，AI开发平台会返回第一数据标注完成的响应。图6(g)是本申请实施例给出的一种数据标注完成响应的用户界面示意图，此时的准确率高达99.9％，可以认为更新后基础模型在第一数据集和文本情感分析任务上的推理性能很优秀。

一种可能的实施方式中，本步骤中返回的已完成标注第一数据集中包括：步骤205中将难例确认结果同步至已标注的第一数据集后的第一数据集，即这里的已完成标注第一数据集中包括自动标注和难例确认的结果。

可选的，本步骤中返回的已完成标注第一数据集中包括：由更新后的基础模型对第一数据集合进行自动标注的结果(即步骤207的自动标注结果)。

步骤210、获取已标注的第一数据集和第一用户的目标需求。

本申请实施例中，还提供模型构建和训练的方法，可以基于第一用户的目标需求，生成符合第一用户完成预期任务的AI模型(即目标模型)。第一用户目标需求中可以包括：任务类型、模型能力，其中模型能力指第一用户期望目标模型能达到的精度、性能和价格等要求。

步骤211、基于所述已标注的第一数据集和所述目标需求，训练得到目标模型，或从更新后的基础模型中蒸馏得到目标模型。在本申请的实施例中，给出以下两类模型构建/训练的方法：

(1)蒸馏：基于用户的目标需求(例如：任务类型、目标性能等)，从AI开发平台上的基础模型中蒸馏出符合用户目标需求的目标AI模型。

关于此处的“蒸馏”，又称作知识蒸馏，即利用性前述的基础模型的作为监督信息，以已标注的第一数据集为训练样本，来训练得到目标模型(轻量化的小模型)，从而将和基础模型的知识转移到目标模型中，以提升在用户设定的任务类型(例如情感分析任务)上的推理能力。由于用户C的任务类型是文本类的，则本次蒸馏将基于AI开发平台中的NLP大模型进行。

图6(h)是本申请实施例提供的一种模型构蒸馏的界面，第一用户再次选择数据集的OBS位置和任务类型，经过前面的自动标注流程后，obs/buckets/test1路径下的第一数据集中已经存储了数据的标注。可选的，第一用户还可以在界面中设定自己期望目标模型的性能是什么样的，例如，目标模型是“高精度”、“高性能”或“经济”，其中经济代表生成目标模型的综合成本较低，即第一用户支付一个合理的低价就可以获得蒸馏的目标模型。进一步的，第一用户还可以在模型蒸馏时，进一步设置期望模型达到的精度和性能的参数，具体的：精度可以用于指示模型准确率、精确率、召回率、等常规指标，性能可代表运算时间、空间消耗等性能指标。

(2)常规训练：基于用户的目标需求和标注好的数据集，为用户自动选择AI基础开发平台中内置的初始模型，并基于标注好的数据集对初始模型进行训练，获得满足用户需求的目标AI模型；或者基于用户的目标需求，以及用户提供或者用户在AI基础开发平台上选择的初始AI模型，对初始AI模型进行训练，获得满足用户的目标的AI模型。

例如，用户可以创建一个模型训练任务,在用户界面输入训练作业的参数，例如任务类型、输入路径、算法名称、AI引擎、计算节点个数、训练规格等参数，其中输入路径指输入数据的OBS路径。进一步的，用户还可以在模型训练时，进一步设置和管理期望目标模型达到的精度、性能的参数，具体的：精度可以用于指示模型准确率、精确率、召回率等常规指标，性能可代表运算时间、空间消耗等性能指标。

可见，相比与基于常规的模型训练来得到目标模型，本申请实施例提供的模型蒸馏的方式，是基于参数量庞大的基础模型来进行知识蒸馏得到，由于基础模型学习了不同用户、不同任务的知识，可以以更高的效率来训练出符合用户需求的目标模型。

一种可能的实施方式中，AI开发平台向用户提供本申请实施例中的服务时，可分为两部分，即：智能标注服务和模型训练/模型蒸馏服务。用户在云服务平台可先仅购买智能标注服务，也可以仅购买模型训练/模型蒸馏服务。例如，用户可在购买基础服务云服务后，由云服务提供商提供这两类服务的API，最终按照调用API的次数对智能标注服务和模型训练/模型蒸馏服务进行额外计费。

图7是本申请实施例提供的一种数据标注装置300(也可以理解为一种AI开发平台300) 的示例，可选的，该装置还可以提供模型训练的功能。装置300可以通过软件、硬件或者两者的结合实现成为AI开发平台100中的部分或者全部，即可用于实现本申请实施例图3、图4中的方法。示例的，该装置300包括：输入输出IO模块301、数据存储模块302、推理模块303、基础模型存储模块304、难例挖掘模块305、基础模型更新模块306、模型蒸馏模块307和模型训练模块308。

输入输出IO模块301，用于接收第一用户通过显示界面输入的第一提示模板，所述输入的第一提示模板用于描述第一数据集中的数据和标注结果之间的关系。一种可能的实施例中，用户只需要输入提示模板，基础模型B可以基于提示模型进行零样本学习，来进行智能标注。另一种可能的实施例中，用户只在输入提示模板的同时，还可以输入和提示模板格式对应的少量样本，帮助基础模型B进行少样本学习，来进行智能标注。

一种可能的实施方式中，模块301预设了多个提示模板，每个预设的提示模板对应一种业务类型；可选的，所述提示模板还可以是第一用户在所述显示界面中自己设计的。

可选的，IO模块301还用于接收第一用户上传的第一数据集，并将第一数据及存储于存储模块301，第一数据集合是未标注的数据集。可选的，用户可以预先在云平台购买OBS服务，用户可以将数据集存储于OBS的某个路径中，然后在本步骤中仅需要在用户界面输入OBS的路径即可。在后面执行智能标注时，再从OBS读取数据集中的数据。用户也可以在数据标注服务的用户界面中直接上传待标注的第一数据集。

数据存储模块302，用于存储第一用户上传的第一数据集。可选的，数据存储模块302可以是云平台提供的OBS服务，在进行自动标注后，AI开发平台100还会将已标注的第一数据存储到OBS的相应路径中。一种可能实施例中，OBS服务是区别于AI开发平台的另一种云服务。

推理模块303，用于基于更新后的基础模型和所述第一提示模板，对所述第一数据集中的数据进行标注，其中，所述基础模型是部署于所述AI开发平台中的预训练AI模型。

一种可能的实施方式中，推理模块303基于基础模型进行提示学习，对数据集A进行标注，具体的：基于前面的步骤112输入的第一提示模板，或基于前面的第一提示模板和少量样本数据，对第一数据集的数据进行推理(即提示学习)，例如零样本推理/少样本推理，并输出未标注的数据对应的标注。可选的，推理模块303，还用于在更新后的基础模型的标注准确率达到阈值时，返回所述第一数据集的标注完成响应。

基础模型存储模块304，用于存储基础模型，这里的基础模型是指部署在AI开发平台100上的预训练好的大模型。这类大模型通常是由海量无标注数据训练得来，基础模型的参数规模通常较大，具备极佳泛化能力。大模型根据训练数据的不同类型，主要分为两类：自然语言处理(Natural Language Processing,NLP)大模型和CV计算机视觉(Computer Vision，CV)大模型。此外，大模型还可以包括：多模态大模型、科学计算大模型等，本申请对此不做限定，本申请实施例中的基础模型可以是以上描述的任一种大模型。

难例挖掘模块305，用于确定所述第一数据集中的一个或多个难例(即第一难例集)，并通过显示界面向所述第一用户显示所述第一数据集中的第一难例集。AI开发平台100中还引入了难例挖掘技术，使得AI开发平台可以基于预训练的基础模型B进行推理、难例挖掘、训练、再推理的闭环过程。

一种可能的实施方式，在基础模型进行推理(智能标注)之后，AI开发平台100通过难例挖掘算法，对模型预测把握不大的样本(即难例)进行排序，确定第一数据集中的难例以及难例属性，然后通过用户界面程序给第一用户，来人工进行确认和修改难例的标注结果。

可选的，难例挖掘模型305还用于：在更新后的基础模型对所述第一数据集的标注准确率低于阈值时，确定所述第一数据集中的第二难例集，通过显示界面向所述第一用户显示所述第二难例集。

可选的，在第一用户对难例进行标注确认后，AI开发平台会将确认的难例同步至已标注的第一数据集中，即将难例确认后的结果存储到OBS的相应路径中。

基础模型更新模块306，用于：根据所述第一用户对所述难例的标注进行确认后的结果，对所述基础模型进行训练，以更新所述基础模型。具体的，基于第一用户对所述难例的标注进行确认后的结果，先对OBS中第一数据集中的标注进行更新，并基于更新后的第一数据集(已标注)对所述基础模型进行训练，以更新所述基础模型。

基础模型更新模块306，还用于：基础模型更新模块306会根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练。

一种可能的实施方式中，若在对所述基础模型进行训练之后，第二用户也开始使用数据标注装置300的功能，则此时：IO模块301接收第二用户输入的第二提示模板，并基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。可见，基础模型在训练后，已经积累第一用户数据中的知识，此时利用更新后的基础模型对第二用户的第二数据进行标注，准确率可以得到在一定程度上得到提升。

模型蒸馏模块307，用于：获取第一用户的目标需求目标需求，所述目标需求目标需求中包括任务类型；基于所述任务类型，利用更新后的基础模型知识蒸馏得到目标模型，所述目标模型用于实现所述任务类型指示的任务。其中，任务类型包括：文本情感分析、文本分类、实体命名、命名实体识别、声音分类、语音内容识别、图像分类、物体检测、图像分割、视频标注中的任意一种。

模型训练模块308，用于：获取已标注的第一数据集和第一用户的目标需求目标需求，所述目标需求目标需求中包括任务类型，基于所述已标注的第一数据集和所述目标需求，训练得到目标模型，所述目标模型用于实现所述任务类型指示的任务。

需要说明的是，上述的模块功能的划分仅作为示例，模块301-模块308的任一模块均可以用于执行本申请图4、图5的方法中的部分或全部步骤。换句话说，在其他实施例中，推理模块303可以用于执行本申请实施例中的方法的任意步骤，通用，其他各个模块也可以用于执行本申请实施例中的方法的任意步骤,模块301-模块308负责实现的步骤可根据需要指定，通过A模块、B模块、以及C模块分别实现本申请实施例中的方法中不同的步骤来实现数据标注装置300的全部功能。

接下来，以推理模块303为例，介绍推理模块303的实现方式(软件方式和硬件方式)。类似的，装置300中的其他模块的实现方式均可以参考推理模块303的实现方式：

模块作为软件功能单元的一种举例，例如，推理模块303可以是运行在计算机设备上的应用程序或代码块。其中，计算机设备可以是物理主机、虚拟机、容器等计算设备中的至少一种。进一步地，上述计算机设备可以是一台或者多台。例如，推理模块303可以是运行在多个主机/虚拟机/容器上的应用程序。需要说明的是，用于运行该应用程序的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中，也可以分布在不同的AZ中。用于运行该应用程序的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。其中，通常一个region可以包括多个AZ。同样，用于运行该应用程序的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中，也可以分布在多个VPC中。其中，通常一个region可以包括多个VPC，而一个VPC中可以包括多个AZ。

模块作为硬件功能单元的一种举例，例如，推理模块303中可以包括至少一个计算设备，如服务器等。或者，A模块也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。推理模块303包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。A模块包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。同样，A模块包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

图8示出了一种计算设备400的结构示意图，上述模型训练装置可以部署在该计算设备上，该计算设备可以是云环境中的计算设备(如服务器)，或边缘环境中的计算设备，或终端设备等具体可以用于实现上述装置300中各个模块的功能。

如图8所示，计算设备400包括处理器401、存储器402、通信接口403和总线404。处理器401、存储器402和通信接口403之间通过总线404通信。总线404可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口403用于与外部通信，例如接收第一用户提供的原始数据以及待训练的特征提取网络模型等。

其中，处理器401可以为中央处理器(central processing unit，CPU)、专用集成电路(application specific integrated circuit,ASIC)、图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。处理器401还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，模型训练装置中各个模块的功能可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。处理器401还可以是通用处理器、数据信号处理器(digital signal process,DSP)、现场可编程逻辑门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件，分立门或者晶体管逻辑器件，分立硬件组件，可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，结合本申请实施例所公开的方法可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成模型训练装置中各模块的功能。

存储器402可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器402还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。

存储器402中存储有可执行代码，处理器401执行该可执行代码以执行本申请实施例中提出的数据标注和模型训练的方法，以分别实现前述301模块-308模块的功能。所述存储器 402中还存储了本方法执行时所需要的数据,例如第一数据集和基础模型文件。

图9是本申请实施例提供了一种计算设备集群。该计算设备集群包括至少一台计算设备400，该计算设备可以是服务器，例如是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。计算设备集群中的一个或多个计算设备400中的存储器401中可以存有相同的数据标注装置300用于执行本申请实施例中提出的数据标注和模型训练的方法的指令。

一种可能的实现方式中，该计算设备集群中的一个或多个计算设备400也可以用于实现数据标注装置300中部分模块的功能，即用于执行本申请实施例中的方法的部分指令。换言之，一个或多个计算设备400的组合可以共同存储数据标注装置300中模块用于执行本申请实施例中提出的数据标注和模型训练的方法的指令。

需要说明的是，计算设备集群中的不同的计算设备400中的存储器402可以存储不同的指令，用于执行数据标注装置300装置的部分功能，也即，不同的计算设备400中的存储器401存储的指令可以实现IO模块301、数据存储模块302、推理模块303、基础模型存储模块304、难例挖掘模块305、基础模型更新模块306、模型蒸馏模块307和模型训练模块308中的一个或多个模块的功能。此外，存储器402中还存储了本方法执行时所需要的数据,例如第一数据集和基础模型的模型文件。

图10是本申请实施例提供的一种计算设备集群可能的实现方式。如图10所示，三个计算设备400A、400B、400C和400D之间通过网络进行连接，其中，所述网络可以是广域网或局域网等等。具体地，通过各个计算设备中的通信接口与所述网络进行连接。不同的计算设备400中的存储器401存储的指令或程序代码可以实现IO模块301、数据存储模块302、推理模块303、基础模型存储模块304、难例挖掘模块305、基础模型更新模块306、模型蒸馏模块307和模型训练模块308中的一个或多个模块的功能。

一种可能的实现方式中，考虑到自动标注(基础模型的推理和更新)、模型训练、难例挖掘、数据存储可以是作为独立的云服务给云平台100上的用户，例如用户可以单独购买难例挖掘服务来进行难例挖掘，因此，它们的功能可能是由不同的计算设备实现的。

一种实现方式举例，计算设备400A中的存储器401中存有执行IO模块301、推理模块303、基础模型存储模块304、基础模型更新模块306的程序代码，计算设备400A用于实现同时自动标注的功能，具体的，包括：基于基础模型和用户输入的提示模板进行推理，实现对第一数据集的自动标注，并根据难例确认后的第一数据集(已标注)对基础模型进行更新。同时，计算设备400B中的存储器402中存有执行模型蒸馏模块307和模型训练模块308的功能的程序代码，可以实现基于已标注的第一数据集进行模型训练和模型蒸馏。同时，计算设备400C中的存储器402中存有实现难例挖掘模块305功能的程序代码，可以对基于AI模型进行推理、难例挖掘、训练、再推理的闭环过程。同时，计算设备400D中的存储器402中存有实现数据存储模块302功能的程序代码，例如该数据存储模块302可以是OBS服务，用于存储用户上传的第一数据集。然后在计算设备400A执行模型模块303的功能时，计算设备400A可以从OBS读取数据集中的数据。

应理解，图10中示出的计算设备400A的功能也可以由多个计算设备400完成。同理，计算设备400B、400C、400D的功能也可以分别由多个计算设备400完成。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在一个或者多个计算设备上运行时，使得该一个或者多个计算设备执行上述实施例模型训练装置的各个模块所执行的方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被一个或者多个计算设备执行时，所述一个或者多个计算设备执行前述模型训练方法中的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述模型训练方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种数据标注的方法，其特征在于，应用于人工智能AI开发平台，包括：

接收第一用户输入的第一提示模板，所述第一提示模板用于描述输入数据和标注结果之间的关系；

基于基础模型和所述提示模板，对第一数据集进行数据标注，其中，所述基础模型部署于所述AI开发平台；

确定所述第一数据集中的第一难例集，并生成显示界面以向所述第一用户显示所述第一难例集，所述第一难例集中包括至少一个难例；

根据所述第一用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型。
根据权利要求1所述的方法，其特征在于，在得到所述更新后的基础模型之后，所述方法还包括：

基于所述更新后的基础模型，对所述第一数据集中进行数据标注；

在所述更新后的基础模型的标注准确率高于或等于阈值时，返回标注完成响应；或，

在所述更新后的基础模型的标注准确率低于阈值时，确定所述第一数据集中的第二难例集，并生成显示界面以向所述第一用户显示所述第二难例集，并根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练。
根据权利要求1所述的方法，其特征在于，所述根据所述用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型，包括：

根据所述第一用户对所述第一难例集的标注进行确认后的结果和所述第一提示模板，对所述基础模型进行训练，以得到更新后的基础模型。
根据权利要求1或3所述的方法，其特征在于，所述方法包括：

接收第二用户输入的第二提示模板；

基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。
根据权利要求1所述方法，其特征在于，所述方法包括：

根据所述用户对所述第一难例集的标注进行确认后的结果和非难例集的标注，确定已标注的第一数据集，其中，所述非难例集的标注是在所述基于基础模型和所述提示模板，对第一数据集进行数据标注的步骤中生成的标注，所述非难例集是所述第一数据集除去所述第一难例集余下的数据组成的集合。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述第一用户的目标需求，所述目标需求中包括任务类型；

基于所述目标需求、和所述已标注的第一数据集，在所述更新后的基础模型上进行知识蒸馏，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述已标注的第一数据集和所述第一用户的目标需求，所述目标需求中包括任务类型；

基于所述已标注的第一数据集和所述目标需求进行模型训练，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。
根据权利要求6或7所述的方法，其特征在于，所述目标需求中还包括模型能力，所述性能需求用于描述所述目标模型的精度或性能。
根据权利要求6-8任一项所述的方法，其特征在于，所述任务类型包括：文本情感分析、文本分类、实体命名、命名实体识别、声音分类、语音内容识别、图像分类、物体检测、图像分割、视频标注中的任意一种。
根据权利要求1-9任一项所述的方法，其特征在于，

所述输入的第一提示模板是预设在所述AI开发平台中的，所述AI开发平台中预设了多个提示模板，每个预设的提示模板对应一种任务类型；或，所述第一提示模板是用户在所述显示界面中设计的。
一种人工智能AI开发平台，其特征在于，所述AI开发平台包括：

输入输出IO模块，用于：接收第一用户输入的第一提示模板，所述第一提示模板用于描述输入数据和标注结果之间的关系；

推理模块，用于：基于基础模型和所述提示模板，对第一数据集进行数据标注，其中，所述基础模型部署于所述AI开发平台；

难例挖掘模块，用于：确定所述第一数据集中的第一难例集，并生成显示界面以向所述第一用户显示所述第一难例集，所述第一难例集中包括至少一个难例；

基础模型更新模块，用于：根据所述第一用户对所述第一难例集的标注进行确认后的结果，对所述基础模型进行训练，以得到更新后的基础模型。
根据权利要求11所述的AI开发平台，其特征在于，所述AI开发平台包括：

所述推理模块，还用于：基于所述更新后的基础模型，对所述第一数据集中进行数据标注；

所述推理模块，还用于：在所述更新后的基础模型的标注准确率高于或等于阈值时，返回标注完成响应；

所述难例挖掘模块，还用于：在所述更新后的基础模型的标注准确率低于阈值时，确定所述第一数据集中的第二难例集，并生成显示界面以向所述第一用户显示所述第二难例集，并根据所述第一用户对所述第二难例集的标注进行确认后的结果，对所述更新后的基础模型进行训练。
根据权利要求11所述的AI开发平台，其特征在于，所述基础模型更新模块，用于：

根据所述第一用户对所述第一难例集的标注进行确认后的结果和所述第一提示模板，对所述基础模型进行训练，以得到更新后的基础模型。
根据权利要求11或13所述的AI开发平台，其特征在于，

所述IO模块，还用于：接收第二用户输入的第二提示模板；

所述推理模块，还用于：基于所述更新后的基础模型和所述第二提示模板，对第二数据集进行数据标注。
根据权利要求11所述的AI开发平台，其特征在于，

所述难例挖掘模块，还用于：根据所述用户对所述第一难例集的标注进行确认后的结果和非难例集的标注，确定已标注的第一数据集，其中，所述非难例集的标注是在所述基于基础模型和所述提示模板，对第一数据集进行数据标注的步骤中生成的标注，所述非难例集是所述第一数据集除去所述第一难例集余下的数据组成的集合。
根据权利要求15所述的AI开发平台，其特征在于，所述AI开发平台还包括：

模型蒸馏模块，用于：

获取所述第一用户的目标需求，所述目标需求中包括任务类型；

基于所述目标需求、和所述已标注的第一数据集，在所述更新后的基础模型上进行知识蒸馏，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。
根据权利要求15所述的AI开发平台，其特征在于，所述AI开发平台还包括：

模型训练模块，用于：

获取所述已标注的第一数据集和所述第一用户的目标需求，所述目标需求中包括任务类型；

基于所述已标注的第一数据集和所述目标需求进行模型训练，以得到目标模型，所述目标模型用于实现所述任务类型指示的任务。
根据权利要求16或17所述的AI开发平台，其特征在于，所述目标需求中还包括模型能力，所述性能需求用于描述所述目标模型的精度或性能。
根据权利要求16或17所述的AI开发平台，其特征在于，所述任务类型包括：文本情感分析、文本分类、实体命名、命名实体识别、声音分类、语音内容识别、图像分类、物体检测、图像分割、视频标注中的任意一种。
根据权利要求11-19任一项所述的AI开发平台，其特征在于，所述输入的第一提示模板是预设在所述AI开发平台中的，所述AI开发平台中预设了多个提示模板，每个预设的提示模板对应一种任务类型；或，所述第一提示模板是用户在所述显示界面中设计的。
一种计算设备集群，其特征在于，包括至少一个计算设备，每个计算设备包括处理器和存储器；

所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令，以使得所述计算设备集群执行如权利要求1至10任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令由计算设备集群执行时，所述计算设备集群执行如权利要求1至10任一项所述的方法。