WO2016150328A1

WO2016150328A1 - 一种数据标注的管理方法及装置

Info

Publication number: WO2016150328A1
Application number: PCT/CN2016/076570
Authority: WO
Inventors: 吴海潜; 董石鸣; 黄峰
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-03-25
Filing date: 2016-03-17
Publication date: 2016-09-29
Also published as: CN106156025A; CN106156025B

Abstract

一种数据标注的管理方法及装置。其方法包括：获取与数据标注任务对应的数据集（110），及与该数据集中各类数据对应的标注规则（120）；将数据集分成数据子集（130）；根据获取的与各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息（140）并发布（150）；响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集（160）；接收来自第一认领请求的发送方的标注后的数据（170），其中，该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送；和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。避免了对标注后的数据进行数据格式转换。

Description

一种数据标注的管理方法及装置

交叉参考相关引用

本申请要求2015年3月25日提交的申请号为201510130022.4的中国专利申请的优先权，上述申请参考并入本文。

技术领域

本发明涉及计算机数据处理领域，尤其涉及一种数据标注的管理方法及装置。

背景技术

数据标注是指对文本、图片、语音等数据进行描述或者标记的过程，例如，在人脸样本图片上标注左眼外眼角、右眼外眼角等位置。

现有的数据标注过程为：手动将数据标注任务切分为多个子任务并分发给多个标注者；各标注者根据子任务的数据的数据类型选择对应的单机版标注工具进行标注；所有子任务的标注工作完成后，将各标注者标注后的数据整合保存。

目前，标注工具多种多样。即使同一个数据类型，也可能对应多种标注工具。不同的标注工具，导出的数据格式可能不同。因此，采用现有的数据标注过程，对一个数据标注任务，各个子任务对应的标注后的数据格式可能不尽相同，且与实际需要的数据格式不符，需要转换为需要的数据格式后才能整合。数据格式转换，特别是大数据量的数据标注任务的数据格式转换，降低了数据标注、整合过程的效率。

发明内容

本发明的一个目的是，提供一种数据标注的管理方法及装置，它能提高数据标注、整合过程的效率。

根据本发明的一方面，提供了一种数据标注的管理方法，其中，该管理方法包括以下步骤：

获取与数据标注任务对应的数据集；

获取与所述数据集中各类数据对应的标注规则；

将所述数据集分成数据子集；

根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息；

发布数据子集的数据标注子任务描述信息；

响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集；

接收来自第一认领请求的发送方的标注后的数据，

其中：

该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。

根据本发明的另一方面，还提供了一种数据标注的管理装置，其中，该管理装置包括：

数据集获取单元，用于获取与数据标注任务对应的数据集；

标注规则获取单元，用于获取与所述数据集中各类数据对应的标注规则；

数据子集划分单元，用于将所述数据集分成数据子集；

标注任务描述信息生成单元，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息；

标注任务描述信息发布单元，用于发布数据子集的数据标注子任务描述信息；

数据子集发送单元，用于响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集；

标注后数据接收单元，用于接收来自第一认领请求的发送方的标注后的数据，

其中：

该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

与现有技术相比，本发明的实施例具有以下优点：提供的标注工具导出的数据为该标注工具对应的这类数据的目标标注后数据格式，和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式，从而保证了标注后的数据为目标标注后的数据格式，避免对标注后的数据进行数据格式转换，提高了数据标注、整合过程的效率。另外，本发明实施例还将数据标注任务对应的数据集分成若干数据子集，生成并发布每个数据子集的数据标注子任务描述信息，即以众包的形式实现数据标注，将数据标注任务分割为若干数据标注子任务众包给网络用户，提高大数据量的数据标注任务的处理效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一个实施例提供的方法的流程图；

图2为本发明实施例提供的标注规则模板及自定义标注规则显示界面示意图；

图3为本发明实施例提供的数据标注子任务描述信息的显示界面示意图；

图4为本发明另一个实施例提供的方法流程图；

图5为本发明又一个实施例提供的方法流程图；

图6为本发明再一个实施例提供的方法流程图；

图7为本发明实施例提供的系统架构图；

图8为本发明实施例提供的发布多个数据子集的数据标注子任务描述信息的总发布界面的示意图；

图9为本发明一个实施例提供的装置示意图；

图10为本发明另一个实施例提供的装置示意图；

图11为本发明又一个实施例提供的装置示意图；

图12为本发明再一个实施例提供的装置示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是，其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的存续指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是，这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1为本发明一个实施例的数据标注的管理方法流程图。根据本发明的方法1至少包括步骤110、步骤120、步骤130、步骤140、步骤150、步骤160和步骤170。

数据标注的管理是指将数据标注的任务分包给用户、对用户数据标注后的数据进行整合以完成数据标注的任务的整个过程。

该数据标注的管理方法可以由数据标注任务发布者本身的平台执行，也可以由独立与数据标注任务发布者和进行数据标注的用户的第三方平台执行。

参照图1，在步骤110中，获取与数据标注任务对应的数据集。

数据标注任务是指一项需要完成的数据标注的工作。例如，需要将大量人脸、狗脸、猫脸等图片进行脸部各位置(例如，左眼眼角、右眼眼角等)的标注，以便用作机器学习的训练样本。对所有这些图片进行脸部位置标注就是一项数据标注任务。

与数据标注任务对应的数据集是指在数据标注任务中数据标注所针对的数据的集合。在对这些图片进行脸部位置标注的数据标注任务中，这些图片就构成与数据标注任务对应的数据集。

获取与数据标注任务对应的数据集例如可以通过以下方式进行：通过数据标注任务发布者使用的计算机设备向发布者显示数据导入界面，从而提供数据导入的接口，以便发布者将与数据标注任务对应的数据集导入。这样，执行方法1的平台就可以获取与数据标注任务对应的数据集。

数据导入界面既可以是WEB界面，也可以是本地客户端界面，还可以是其他形式的界面，本发明对此不作限定。

参照图1，在步骤120中，获取与上述数据集中各类数据对应的标注规则。

本发明实施例中，数据按照不同的标注对象划分为不同的类型。例如，在上面对人脸、狗脸、猫脸等图片进行脸部位置标注的数据标注任务中，数据类型包括：人脸图片数据，狗脸图片数据，猫脸图片数据等等。

本发明实施例中，标注规则是对数据标注内容和如何标注的规定。例如，与人脸图片数据对应的标注规则包括在人脸图片上需要标注哪些位置(例如，左眼眼角、右眼眼角)、对某一位置如何标注(例如重标、轻标、画大点、画小点等)；与狗脸图片数据对应的标注规则包括在狗脸图片上需要标注哪些位置(例如，左狗耳尖、右狗耳尖)、对某一位置如何标注(例如，重标、轻标、画大点、画小点等)。

表1是对于人脸图片数据来说需要标注的内容、及如何标注的一个例子。

序号	标注内容	如何标注
0	左眼外眼角	重标
1	左眼中心点	轻标
2	左眼内眼角	重标
3	右眼内眼角	重标
4	右眼中心点	轻标
5	右眼外眼角	重标
6	鼻尖	重标
7	左嘴角	重标
8	嘴中心	轻标
9	右嘴角	重标
10	左耳朵顶点	重标
11	左耳朵底点	轻标
12	右耳朵顶点	重标
13	右耳朵底点	轻标

表1

虽然表1是用表格形式表示的需要标注的内容、及如何标注的一个例子，但实际上，标注规则一般是以机器语言写成的，例如：

在本发明实施例中，可以接收与上述数据集中各类数据对应的标注规则，也可以参考数据类型与标注规则的对应关系，调取与上述数据集中各类数据对应的标注规则。

具体地，上述数据集中各类数据对应的标注规则可以全部通过接收的方式获取，也可以全部通过调取的方式获取；还可以是部分类型数据对应的标注规则通过接收的方式获取，部分类型数据对应的标注规则通过调取的方式获取。

如果通过调取方式获取标注规则，优选地，可以预先配置各类数据对应的标注规则，并存储数据类型与标注规则的对应关系。因此，参考该数据类型与标注规则的对应关系，就可以调取与该数据类型对应的标注规则。

如果通过接收方式获取标注规则，执行管理方法1的平台从发布者处接收发布者自定义的标注规则。为便于发布者自定义标注规则，优选地，预置可修改的对应于各种数据类型的标注规则模板，通过界面呈现给发布者。例如，预置有与人脸图片数据对应的人脸标注规则模板，与狗脸图片数据对应的狗脸标注规则模板等等。如图2所示，标注规则模板可包括模板名、模板类型、规则样例、自定义规则等部分。模板名是标注规则模板的名称，它在标注规则模板中有默认值，但发布者可以根据自身需要对该模板名进行修改。模板类型是标注规则模板对应的数据类型，如上述的人脸图片数据、狗脸图片数据等。发布者可以根据自身需要对模板类型进行修改。规则样例是与数据类型对应的标注规则模板的一个样例，发布者可以仿照该样例在自定义规则处创建符合发布者实际需求的标注规则。例如，在对应于人脸图片的标注规则模板中，规则样例给出的样例是标注左眼眼角和左眼中心点的规则，但发布者不需要对左眼中心点的标注，可以将该规则样例拷贝到自定义规则处后，删除其中标注左眼中心点的部分，并将填好的标注规则模板提交给执行管理方法1的平台。执行管理方法1的平台从填好的标注规则模板的自定义规则部分可以读取发布者定义的与人脸图片数据对应的标注规则。

参照图1，步骤130中，将上述数据集分成数据子集。

其中，可以将上述数据集等分成数据子集。等分的数据子集的数量可以是默认值，也可以是从发布者处接收的。例如，在用于让发布者将与数据标注任务对应的数据集导入的界面上设置发布者希望将数据标注任务分成多少个数据标注子任务的选项，供发布者填写。发布者希望分成的数据标注子任务的数量对应于等分成的数据子集的数量。该实现方式尤其适用于数据集中只有一类数据的情形。

其中，也可以将上述数据集按照数据集中的数据类型分成数据子集。该划分方式的具体实现方式又分为多种。例如，数据集中包括人脸图片数据、狗脸图片数据和文本数据。可以将上述数据集中的所有人脸图片数据分为一个数据子集，将所有狗脸图片数据分为另一个数据子集，并将所有文本数据分为又一个数据子集。或者，在此基础上，由于人脸图片数据较多，则进一步将人脸图片数据分为多个数据子集，由于狗脸图片数据和文本数据较少，则进一步将狗脸图片数据的数据子集和文本数据的数据子集合并为一个数据子集。

参照图1，步骤140中，根据获取的与上述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息。

在一个实施例中，其包括：

判断数据子集中包含的数据类型；

对于数据子集中包含的每一数据类型，将与该类数据对应的标注规则转换成自然语言；

将转换成自然语言的与每类数据对应的标注规则整合，以获得数据标注子任务描述信息。

以既包含狗脸图片数据、又包含文本数据的数据子集为例，首先判断出该数据子集包含的数据类型是狗脸图片数据和文本数据。然后，将与狗脸图片数据对应的标注规则转化为自然语言(即以文字的方式而非机器语言的方式描述需要标注的内容、及如何标注)，将与文本数据对应的标注规则转化为自然语言。注意，虽然获取的与各类数据对应的标注规则还包括与人脸图片数据对应的标注规则，但由于当前数据子集中不包含人脸图片数据，因此与人脸图片数据对应的标注规则在当前数据子集中不使用。然后，将转换成自然语言的与狗脸图片数据对应的标注规则、与文本数据对应的标注规则整合，以获得数据标注子任务描述信息。数据标注子任务描述信息的一个例子如下：

“对于狗脸图片，用圆圈标出左耳朵顶点、左耳朵底点、右耳朵顶点、右耳朵底点，用圆点标出鼻尖、左嘴角、右嘴角；

对于文本数据，用波浪线标出动词，用下横线标出名词。”

应当指出的是，步骤140既可以是自动执行的，也可以是按照发布者输入的操作指令执行的。

参照图1，步骤150中，发布数据子集的数据标注子任务描述信息。

其中，发布的数据标注子任务描述信息既可以显示在WEB页面上，也可以发布式显示在众多用户APP客户端的界面上。以WEB页面为例，数据标注子任务描述信息的显示界面可以如图3所示。注意，据以生成图3的数据标注子任务描述信息的标注规则中只含有需要标注的内容，不含有如何标注(例如用圆圈、圆点等)的信息，因此，图3所示的数据标注子任务描述信息只描述了需要标注的内容，但实际的数据标注子任务描述信息可能会对如何标注也要进行描述。

参照图1，步骤160中，响应于接收到对数据子集的第一认领请求，向该第一认领请求的发送方发送该数据子集。

如图3所示，在发布数据子集的数据标注子任务描述信息的页面上，可以含有一个认领选项。例如，用户在看到该页面后，希望认领该数据子集，即接受数据标注子任务，选择该认领选项，就接受了该数据标注子任务，即发出了对该数据子集的第一认领请求。执行管理方法1的平台接收到该第一认领请求，将该数据子集发送到发出该第一认领请求的用户。

参照图1，步骤170中，接收来自第一认领请求的发送方的标注后的数据。

例如，在用户选择图3中的认领选项后，执行管理方法1的平台将数据子集发送到用户。向用户显示数据子集中的各类数据。用户对各类数据进行数据标注后选择界面上的提交选项，则将标注后的数据提交到执行管理方法1的平台。

在一种实施方式中，为了保证标注后的数据为目标标注后的数据格式，该管理方法1还可以包括：将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方(图中未示)，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式。

标注工具是指对数据进行标注时使用的应用等。一般某一类数据可以用一种或多种标注工具标注，使用的标注工具不同，导出的数据格式也不同。该实施方式中，将一类数据与唯一一种标注工具对应，保证对于这一类数据来说，导出的数据都是一种数据格式的，即目标标注后数据格式。

上述步骤的一种具体实现方式可以是：

参考数据类型与标注工具对应关系，确定与数据子集中各类数据对应的标注工具；根据获取的与各类数据对应的标注规则，配置确定出的与数据子集中各类数据对应的标注工具的参数；将配置好参数的标注工具的调用指令发送到第一认领请求的发送方。

该实施方式中，事先根据对于每种数据类型希望导出的目标标注后数据格式(其例如由平台凭经验确定对于特定数据类型，导出哪种标注后数据格式更好)，平台确定能够导出该希望导出的目标标注后数据格式的一种标注工具作为与数据子集中该类数据对应的标注工具。然后平台根据获取的与各类数据对应的标注规则，配置确定出的与数据子集中各类数据对应的标注工具的参数，例如线条的粗细等。例如，标注规则指出对于人脸图片中的左耳朵顶点，需要用直径2cm的圆点，则必须要配置与人脸图片数据对应的标注工具，使其能够画出直径2cm的圆点。接着，平台将将配置好参数的标注工具的调用指令发送到第一认领请求的发送方，该发送可以在步骤160中向第一认领请求的发送方发送数据子集的同时执行，也可以单独执行。

例如，数据子集中有狗脸图片数据和文本数据。对于狗脸图片数据，希望的目标标注后数据格式是G1。对于文本数据，希望的目标标注后数据格式是G2。为了产生目标标注后数据格式G1，确定用标注工具T1。为了产生目标标注后数据格式G2，需要用标注工具T2。平台会将配置好参数的标注工具T1的调用指令和配置好参数的标注工具T2的调用指令发送给发送第一认领请求的用户，以便该用户标注后产生的数据格式对于狗脸图片数据是G1，对于文本数据是G2。

在另一种实施方式中，在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下，上述步骤150的实现方式可以是：

参考数据类型与目标标注后数据格式对应关系，确定数据子集中各类数据的目标标注后数据格式；将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。

例如，事先确定对于每种数据类型希望导出的目标标注后数据格式(其例如由平台凭经验确定对于特定数据类型，导出哪种标注后数据格式更好)，将该数据类型与希望导出的目标标注后数据格式的对应关系事先存储。然后，就可以根据数据子集中含有的数据类型，参考数据类型与目标标注后数据格式对应关系，确定数据子集中各类数据的目标标注后数据格式，并将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。

例如，数据子集中有狗脸图片数据和文本数据。对于狗脸图片数据，希望的目标标注后数据格式是G1。对于文本数据，希望的目标标注后数据格式是G2。因此，在发布数据子集的数据标注子任务描述信息时，在发布的数据标注子任务描述信息中含有对于狗脸图片数据希望的目标标注后数据格式G1、对于文本数据希望的目标标注后数据格式G2。发送第一认领请求的用户不管采用什么标注工具，只要保证对于狗脸图片数据，标注工具导出的标注后数据格式是G1，对于文本数据，标注工具导出的标注后数据格式是G2就可以。

本发明实施例提供的技术方案，保证了标注后的数据为目标标注后的数据格式，避免对标注后的数据进行数据格式转换，提高了数据标注过程的效率。另外，将数据标注任务对应的数据集分成若干数据子集，生成并发布每个数据子集的数据标注子任务描述信息，即以众包的形式实现数据标注，将数据标注任务分割为若干数据标注子任务众包给网络用户，提高了大数据量的数据标注任务的处理效率。

基于上述任意方法实施例，可选地，上述管理方法还包括步骤180。参考图4，步骤180中，将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。即，将数据集分成的各数据子集各自的来自第一认领请求的发送方的标注后的数据，按照数据子集在数据集中的顺序，重新组合在一起并存储。例如，在数据集S包括数据子集S1、S2、S3的情况下，按照数据子集S1、S2、S3在数据集S中的顺序，将数据子集S1、S2、S3各自的来自第一认领请求的发送方的标注后的数据合在一起成为一个整体，即标注后的数据集，然后进行存储。

为了提高数据资源的利用广泛性，优选地，将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。如果仅仅将整合后的标注后的数据发送给发布者，只有发布者能够使用该整合后的标注后的数据。在某些情况下，需要更多的人能共享该整合后的标注后的数据。例如，需要发布者所在公司的所有人甚至公众都能够使用该整合后的标注后的数据。因此整合存储到云存储器的方式提高了标注成果的利用广泛性。

进一步地，该管理方法还包括步骤181～步骤185。

参照图5，步骤181中，根据获取的与上述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息。其具体实现方式可以参照上述数据标注子任务描述信息的实现，此处不再赘述。校验是对标注的一种检验，因此，这种校验与标注采用同样的标注工具，标注内容和如何标注都是与标注时一致的，因此其数据校验子任务描述信息也基本类似于数据标注子任务描述信息。

参照图5，步骤182中，获取该数据子集对应的校验者信息。

其中，该数据子集对应的校验者信息可以是发布者在让发布者导入与数据标注任务对应的数据集的界面中填写好的，也可以是单独向发布者发出询问获取的，还可以是通过其他方式获取的。校验者可以是发布者所在团体中的专门人员。

参照图5，步骤183中，根据上述校验者信息发送上述校验子任务描述信息和该数据子集的标注后的数据。例如，向校验者信息指示的校验者发送上述校验子任务描述信息和该数据子集的标注后的数据。

参照图5，步骤184中，接收该数据子集的经过校验的标注后的数据。即，校验者校验后向平台发送该数据子集的经过校验的标注后的数据，由平台接收该数据。

参照图5，步骤185中，将对于各数据子集的经过校验的标注后的数据整合存储。即，将各数据子集的经过校验的标注后的数据，按照数据子集在数据集中的顺序，重新组合在一起并存储。例如，在数据集S包括数据子集S1、S2、S3的情况下，按照数据子集S1、S2、S3在数据集S中的顺序，将数据子集S1、S2、S3各自的经过校验的标注后的数据合在一起成为一个整体，即校验后的标注后的数据集，然后进行存储。

其中，可以使用经过校验的标注后的数据替换掉步骤180中存储的数据，也可以分别存储，不做替换。

另外，该管理方法也可以包括步骤181、步骤186、步骤187、步骤188和步骤185，如图6。

步骤181与图5中步骤181相同。

参照图6，步骤186中，发布数据子集的数据校验子任务描述信息。

其中，发布的数据校验子任务描述信息既可以显示在WEB页面上，也可以分布式显示在多个用户的APP客户端的界面上。

参照图6，步骤187中，响应于接收到对数据子集的第二认领请求，向该第二认领请求的发送方发送该数据子集的标注后的数据。

第二认领请求即接收校验该数据子集的数据标注的子任务的请求。也就是说，与图5中专门人员校验不同，图6的实施方式中仍然是将各数据子集的标注后的数据的校验发布并外包给公众等。

参照图6，步骤188中，接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据。

其中，该管理方法1还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。

其中，步骤185中，将对于各数据子集的经过校验的标注后的数据整合存储。例如，将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。

下面以具体应用场景为例，对本发明实施例提供的方法进行详细说明。

图7所示的应用场景中，数据标注任务的发布者使用的计算机设备701，数据标注任务管理服务器702，数据标注任务发布平台服务器703，数据中心存储服务器704和数据标注任务的认领者使用的计算机设备705通过互联网实现通信。

其中，数据标注任务管理服务器702可以由一台服务器实现，也可以由多台服务器组成的架构实现。数据标注任务发布平台服务器703可以由一台服务器实现，也可以由多台服务器组成的架构实现。数据中心存储服务器704可以由一台服务器实现，也可以由多台服务器组成的架构实现。

其中，数据标注任务管理服务器702、数据标注任务发布平台服务器703和数据中心存储服务器704的功能还可以集成在一台或多台设备上实现。

参照图7所示的系统架构，其具体工作原理如下：

步骤一、数据标注任务的发布者使用的计算机设备701向发布者显示数据导入界面，以便发布者通过该界面导入数据标注任务对应的数据集。

步骤二、上述计算机设备701将发布者导入的数据标注任务对应的数据集发送给数据标注任务管理服务器702，即数据标注任务管理服务器702获取数据标注任务对应的数据集。

其中，该数据集中仅包含人脸标注数据。

步骤三、上述计算机设备701根据发布者的操作指令调取并显示人脸标注规则模板，以供发布者自定义标注规则。

相应的界面如图2所示。

其中，计算机设备701调取的人脸标注规则模板可以是预先存储在本地的，也可以是向上述服务器702请求获取的。

步骤四、上述计算机设备701将发布者自定义配置的人脸标注数据对应的标注规则发送给上述服务器702，即上述服务器702获取与上述数据集中各类数据对应的标注规则。

应当指出的是，如果发布者没有自定义标注规则(即不执行步骤三和步骤四)，那么，可以由上述计算机设备701调取预先配置的人脸标注数据对应的标注规则并发送给上述服务器702，还可以由上述服务器702调取预先配置的人脸标注数据对应的标注规则。

步骤五、上述服务器702将上述数据集等分成数据子集。

其中，等分的数量可以是默认值，也可以是发布者设定的值。

应当指出的是，也可以由上述计算机设备701将上述数据集等分成数据子集后再发送给上述服务器702。

步骤六、上述服务器702根据获取的标注规则，生成数据子集的数据标注子任务描述信息。

步骤七、上述服务器702将生成的数据子集的数据标注子任务描述信息连同发布请求发送给数据标注任务发布平台服务器703。

其中，上述服务器702既可以自动将数据子集的数据标注子任务描述信息连同发布请求发送给上述服务器703，也可以在接收到发布者发送的操作指令后发送。

其中，发布请求用于指示将子任务描述信息发布到目标网络平台的指定显示区域。

步骤八、上述服务器703根据发布请求，将数据子集的数据标注子任务描述信息发布到目标网络平台的指定显示区域，如图8所示。

步骤九、数据标注任务的认领者使用的计算机设备705根据认领者的操作指令向认领者显示图8所示的界面，并进一步根据认领者的操作指令显示图3所示的操作界面。

步骤十、上述计算机设备705根据认领者的操作指令向上述服务器702发送对人脸标注子任务1对应的数据子集1的第一认领请求。

步骤十一、上述服务器702响应于对数据子集1的第一认领请求，将数据子集1和人脸标注工具的调用指令发送给上述计算机设备705。

其中，在调用人脸标注工具之前，上述服务器702根据接收到的标注规则配置人脸标注工具的参数。

步骤十二、上述计算机设备705根据调用指令调用WEB版的人脸标注工具并显示给认领者，根据认领者的操作指令完成对数据子集1的人脸标注。

步骤十三、上述计算机设备705将标注后的数据连同校验者信息发送给上述服务器 702。

本发明中，校验者信息可以但不仅限于是账户标识、设备地址、设备标识等等。

本实施例中，校验者信息为上述发布者的账户标识。

步骤十四、上述服务器702接收到来自计算机设备705的对人脸标注子任务1对应的数据子集1的标注后的数据和来自其他计算机设备的对人脸标注子任务2、3……对应的数据子集2、3……的标注后的数据后，将数据子集1、2、3……的标注后的数据整合存储到数据中心存储服务器704中。

步骤十五、上述服务器702根据人脸标注数据对应的标注规则生成数据子集1的数据校验子任务描述信息。

步骤十六、上述服务器702根据上述校验者信息，向上述计算机设备701发送上述校验子任务描述信息和该数据子集的标注后的数据。

步骤十七、上述计算机设备701根据发布者的操作指令完成数据校验工作。

步骤十八、上述服务器702接收上述计算机设备701发送的数据子集的经过校验的标注后的数据。

步骤十九、上述服务器702在接收到该数据子集1的经过校验的标注后的数据、以及数据子集2、3……的经过校验的标注后的数据整合，并存储在上述服务器704中。

基于与方法同样的发明构思，本发明还提供一种数据标注的管理装置。图9所示为数据标注的管理装置9示意图。该管理装置包括：

数据集获取单元910，用于获取与数据标注任务对应的数据集；

标注规则获取单元920，用于获取与所述数据集中各类数据对应的标注规则；

数据子集划分单元930，用于将所述数据集分成数据子集；

标注任务描述信息生成单元940，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息；

标注任务描述信息发布单元950，用于发布数据子集的数据标注子任务描述信息；

数据子集发送单元960，用于响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集；

标注后数据接收单元970，用于接收来自第一认领请求的发送方的标注后的数据，

其中，该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元(图中未示)，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。

其中，所述标注规则获取单元920用于：

接收与所述数据集中各类数据对应的标注规则；和/或

参考数据类型与标注规则的对应关系，调取与所述数据集中各类数据对应的标注规则。

其中，所述数据子集划分单元930用于：

将所述数据集等分成数据子集；或者

将所述数据集按照数据集中的数据类型分成数据子集。

其中，所述标注任务描述信息生成单元940用于：

判断数据子集中包含的数据类型；

其中，参照图10，该管理装置还包括标注后数据存储单元980，用于：

将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。

其中，所述标注后数据存储单元980用于：

将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。

其中，所述第一调用指令发送单元被配置为：

参考数据类型与标注工具对应关系，确定与数据子集中各类数据对应的标注工具；

根据获取的与各类数据对应的标注规则，配置确定出的与数据子集中各类数据对应的标注工具的参数；

将配置好参数的标注工具的调用指令连同该数据子集一同发送到第一认领请求的发送方。

其中，在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下，所述标注任务描述信息发布单元950用于：

参考数据类型与目标标注后数据格式对应关系，确定数据子集中各类数据的目标标注后数据格式；

将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。

其中，参照图11，该管理装置还包括：

校验任务描述信息生成单元990，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息；

校验者信息获取单元9100，用于获取该数据子集对应的校验者信息；

第一校验任务发送单元9110，用于根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据；

第一校验后数据接收单元9120，用于接收该数据子集的经过校验的标注后的数据；

校验后数据存储单元9130，用于将对于各数据子集的经过校验的标注后的数据整合存储。

其中，参照图12，该管理装置还包括：

校验任务描述信息发布单元9140，用于发布数据子集的数据校验子任务描述信息；

第二校验任务发送单元9150，用于响应于接收到对数据子集的第二认领请求，向所述第二认领请求的发送方发送该数据子集的标注后的数据；

第二校验后数据接收单元9160，用于接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据；

校验后数据存储单元9130，用于将对于各数据子集的经过校验的标注后的数据整合存储，

其中，该管理装置还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方的第二调用指令发送单元，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。

其中，所述校验后数据存储单元9130包括：

将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。

Claims

一种数据标注的管理方法(1)，其中，该管理方法包括以下步骤：

获取与数据标注任务对应的数据集(110)；

获取与所述数据集中各类数据对应的标注规则(120)；

将所述数据集分成数据子集(130)；

根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息(140)；

发布数据子集的数据标注子任务描述信息(150)；

响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集(160)；

接收来自第一认领请求的发送方的标注后的数据(170)，

其中：

该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
根据权利要求1所述的管理方法，其中，所述获取与所述数据集中各类数据对应的标注规则的步骤(120)包括：

接收与所述数据集中各类数据对应的标注规则；和/或

参考数据类型与标注规则的对应关系，调取与所述数据集中各类数据对应的标注规则。
根据权利要求1所述的管理方法，其中，所述将所述数据集分成数据子集的步骤(130)包括以下中的一种：

将所述数据集等分成数据子集；

将所述数据集按照数据集中的数据类型分成数据子集。
根据权利要求1所述的管理方法，其中，所述根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息的步骤(140)包括：

判断数据子集中包含的数据类型；

对于数据子集中包含的每一数据类型，将与该类数据对应的标注规则转换成自然语言；

将转换成自然语言的与每类数据对应的标注规则整合，以获得数据标注子任务描述信息。
根据权利要求1所述的管理方法，其中，该管理方法还包括：

将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储(180)。
根据权利要求5所述的管理方法，其中，所述将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储的步骤(180)还包括：

将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。
根据权利要求1所述的管理方法，其中，所述将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的步骤包括：

参考数据类型与标注工具对应关系，确定与数据子集中各类数据对应的标注工具；

根据获取的与各类数据对应的标注规则，配置确定出的与数据子集中各类数据对应的标注工具的参数；

将配置参数后的标注工具的调用指令发送到第一认领请求的发送方。
根据权利要求1所述的管理方法，其中，在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下，所述发布数据子集的数据标注子任务描述信息的步骤(150)包括：

参考数据类型与目标标注后数据格式对应关系，确定数据子集中各类数据的目标标注后数据格式；

将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
根据权利要求5所述的管理方法，其中，该管理方法还包括：

根据获取的与所述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息(181)；

获取该数据子集对应的校验者信息(182)；

根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据(183)；

接收该数据子集的经过校验的标注后的数据(184)；

将对于各数据子集的经过校验的标注后的数据整合存储(185)。
根据权利要求5所述的管理方法，其中，该管理方法还包括：

根据获取的与所述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息(181)；

发布数据子集的数据校验子任务描述信息(186)；

响应于接收到对数据子集的第二认领请求，向所述第二认领请求的发送方发送该数据子集的标注后的数据(187)；

接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据(188)；

将对于各数据子集的经过校验的标注后的数据整合存储(185)，

其中：

该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
根据权利要求9或10所述的管理方法，其中，所述将对于各数据子集的经过校验的标注后的数据整合存储的步骤(185)包括：

将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。
一种数据标注的管理装置(9)，其中，该管理装置包括：

数据集获取单元(910)，用于获取与数据标注任务对应的数据集；

标注规则获取单元(920)，用于获取与所述数据集中各类数据对应的标注规则；

数据子集划分单元(930)，用于将所述数据集分成数据子集；

标注任务描述信息生成单元(940)，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据标注子任务描述信息；

标注任务描述信息发布单元(950)，用于发布数据子集的数据标注子任务描述信息；

数据子集发送单元(960)，用于响应于接收到对数据子集的第一认领请求，向所述第一认领请求的发送方发送该数据子集；

标注后数据接收单元(970)，用于接收来自第一认领请求的发送方的标注后的数据，

其中：

该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
根据权利要求12所述的管理装置，其中，所述标注规则获取单元(920)被配置为：

接收与所述数据集中各类数据对应的标注规则；和/或

参考数据类型与标注规则的对应关系，调取与所述数据集中各类数据对应的标注规则。
根据权利要求12所述的管理装置，其中，所述数据子集划分单元(930)被配置为：

将所述数据集等分成数据子集；或者

将所述数据集按照数据集中的数据类型分成数据子集。
根据权利要求12所述的管理装置，其中，所述标注任务描述信息生成单元(940)被配置为：

判断数据子集中包含的数据类型；

对于数据子集中包含的每一数据类型，将与该类数据对应的标注规则转换成自然语言；

将转换成自然语言的与每类数据对应的标注规则整合，以获得数据标注子任务描述信息。
根据权利要求12所述的管理装置，其中，该管理装置还包括标注后数据存储单元(980)，用于将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。
根据权利要求16所述的管理装置，其中，所述标注后数据存储单元(980)被配置为：

将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。
根据权利要求12所述的管理装置，其中，所述第一调用指令发送单元被配置为：

参考数据类型与标注工具对应关系，确定与数据子集中各类数据对应的标注工具；

根据获取的与各类数据对应的标注规则，配置确定出的与数据子集中各类数据对应的标注工具的参数；

将配置好参数的标注工具的调用指令发送到第一认领请求的发送方。
根据权利要求12所述的管理装置，其中，在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下，所述标注任务描述信息发布单元(950)被配置为：

参考数据类型与目标标注后数据格式对应关系，确定数据子集中各类数据的目标标注后数据格式；

将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
根据权利要求16所述的管理装置，其中，该管理装置还包括：

校验任务描述信息生成单元(990)，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息；

校验者信息获取单元(9100)，用于获取该数据子集对应的校验者信息；

第一校验任务发送单元(9110)，用于根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据；

第一校验后数据接收单元(9120)，用于接收该数据子集的经过校验的标注后的数据；

校验后数据存储单元(9130)，用于将对于各数据子集的经过校验的标注后的数据整合存储。
根据权利要求16所述的管理装置，其中，该管理装置还包括：

校验任务描述信息生成单元(990)，用于根据获取的与所述各类数据对应的标注规则，生成数据子集的数据校验子任务描述信息；

校验任务描述信息发布单元(9140)，用于发布数据子集的数据校验子任务描述信息；

第二校验任务发送单元(9150)，用于响应于接收到对数据子集的第二认领请求，向所述第二认领请求的发送方发送该数据子集的标注后的数据；

第二校验后数据接收单元(9160)，用于接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据；

校验后数据存储单元(9130)，用于将对于各数据子集的经过校验的标注后的数据整合存储，

其中：

该管理装置还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方的第二调用指令发送单元，其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式；和/或

在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
根据权利要求20或21所述的管理装置，其中，所述校验后数据存储单元(9130)包括：

将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。