WO2016150328A1 - 一种数据标注的管理方法及装置 - Google Patents

一种数据标注的管理方法及装置 Download PDF

Info

Publication number
WO2016150328A1
WO2016150328A1 PCT/CN2016/076570 CN2016076570W WO2016150328A1 WO 2016150328 A1 WO2016150328 A1 WO 2016150328A1 CN 2016076570 W CN2016076570 W CN 2016076570W WO 2016150328 A1 WO2016150328 A1 WO 2016150328A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
subset
labeling
annotation
description information
Prior art date
Application number
PCT/CN2016/076570
Other languages
English (en)
French (fr)
Inventor
吴海潜
董石鸣
黄峰
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2016150328A1 publication Critical patent/WO2016150328A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to the field of computer data processing, and in particular, to a method and device for managing data annotation.
  • Data annotation refers to the process of describing or marking data such as text, picture, voice, etc., for example, marking the outer corner of the left eye and the outer corner of the right eye on the face sample picture.
  • the existing data labeling process is: manually dividing the data labeling task into multiple subtasks and distributing them to multiple labelers; each labeler selects the corresponding stand-alone labeling tool according to the data type of the subtask data; After the task labeling work is completed, the data marked by each labeler is integrated and saved.
  • a method for managing data annotation comprises the following steps:
  • the management method further includes: sending a call instruction of the annotation tool corresponding to each type of data in the data subset to the sender of the first claim request, wherein the data derived by the annotation tool corresponding to the one type of data is marked with the target of the data.
  • the data labeling subtask description information of the published data subset contains the target labeled data format of various types of data in the data subset.
  • a management apparatus for data annotation comprises:
  • a data set obtaining unit configured to acquire a data set corresponding to the data labeling task
  • An annotation rule obtaining unit configured to acquire an annotation rule corresponding to each type of data in the data set
  • a data subset dividing unit configured to divide the data set into a data subset
  • An annotation task description information generating unit is configured to generate data labeling subtask description information of the data subset according to the obtained labeling rules corresponding to the type of data;
  • An annotation task description information publishing unit configured to publish data annotation subtask description information of the data subset
  • a data subset sending unit configured to send the data subset to the sender of the first claim request in response to receiving the first claim request for the data subset
  • An annotated data receiving unit configured to receive the annotated data from the sender of the first claim request
  • the management device further includes a first call instruction sending unit for transmitting a call instruction of the markup tool corresponding to each type of data in the data subset to the sender of the first claim request, wherein the markup tool corresponding to the type of data is derived Data is the data format of the target of this type of data; and/or
  • the data labeling subtask description information of the published data subset contains the target labeled data format of various types of data in the data subset.
  • the embodiment of the present invention has the following advantages: the data extracted by the provided annotation tool is the target labeled data format of the data corresponding to the annotation tool, and/or the data in the published data subset.
  • Label The subtask description information contains the data format of the target labeling of various types of data in the data subset, thereby ensuring that the marked data is the data format after the target labeling, avoiding data format conversion on the labeled data, and improving data labeling. The efficiency of the integration process.
  • the embodiment of the present invention further divides the data set corresponding to the data labeling task into a plurality of data subsets, generates and publishes data labeling subtask description information of each data subset, that is, implements data labeling in the form of crowdsourcing, and labels the data.
  • the task is divided into a number of data labeling sub-tasks for network users to improve the processing efficiency of data annotation tasks with large data volumes.
  • FIG. 1 is a flowchart of a method according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of an annotation rule template and a custom annotation rule display interface according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram of a display interface of data labeling subtask description information according to an embodiment of the present disclosure
  • FIG. 5 is a flowchart of a method according to still another embodiment of the present invention.
  • FIG. 6 is a flowchart of a method according to still another embodiment of the present invention.
  • FIG. 7 is a schematic structural diagram of a system according to an embodiment of the present invention.
  • FIG. 8 is a schematic diagram of a total publishing interface for publishing data labeling subtask description information of multiple data subsets according to an embodiment of the present invention
  • FIG. 9 is a schematic diagram of an apparatus according to an embodiment of the present invention.
  • FIG. 10 is a schematic diagram of a device according to another embodiment of the present invention.
  • FIG. 11 is a schematic diagram of a device according to still another embodiment of the present invention.
  • FIG. 12 is a schematic diagram of a device according to still another embodiment of the present invention.
  • Computer device also referred to as “computer” in the context, is meant an intelligent electronic device that can perform predetermined processing, such as numerical calculations and/or logical calculations, by running a predetermined program or instruction, which can include a processor and The memory is executed by the processor to execute a predetermined process pre-stored in the memory to execute a predetermined process, or is executed by hardware such as an ASIC, an FPGA, a DSP, or the like, or a combination of the two.
  • Computer devices include, but are not limited to, servers, personal computers, notebook computers, tablets, smart phones, and the like.
  • the computer device includes a user device and a network device.
  • the user equipment includes, but is not limited to, a computer, a smart phone, a PDA, etc.
  • the network device includes but is not limited to a single network server, a server group composed of multiple network servers, or a cloud computing based computer Or a cloud composed of a network server, wherein cloud computing is a type of distributed computing, a super virtual computer composed of a group of loosely coupled computers.
  • the computer device can be operated separately to implement the present invention, and can also access the network and implement the present invention by interacting with other computer devices in the network.
  • the network in which the computer device is located includes, but is not limited to, the Internet, a wide area network, a metropolitan area network, a local area network, a VPN network, and the like.
  • the user equipment, the network equipment, the network, and the like are merely examples, and other existing or future possible computer equipment or networks, such as those applicable to the present invention, are also included in the scope of the present invention. It is included here by reference.
  • FIG. 1 is a flowchart of a method for managing data annotation according to an embodiment of the present invention.
  • the method 1 according to the invention comprises at least step 110, step 120, step 130, step 140, step 150, step 160 and step 170.
  • the management of data annotation refers to the whole process of subcontracting the data labeling task to the user and integrating the data after the user data is marked to complete the data labeling task.
  • the management method of the data annotation may be performed by the platform of the data annotation task publisher itself, or by a third party platform of the user who independently and the data annotation task publisher and the data annotation.
  • step 110 a data set corresponding to a data annotation task is acquired.
  • a data annotation task is the work of a data annotation that needs to be completed. For example, a large number of faces, dog faces, cat faces, and the like need to be labeled for each position of the face (for example, the left eye corner, the right eye corner, etc.) to be used as a training sample for machine learning. Face annotation for all of these images is a data annotation task.
  • the data set corresponding to the data annotation task refers to the set of data targeted by the data annotation in the data annotation task.
  • these images constitute a data set corresponding to the data annotation task.
  • Obtaining the data set corresponding to the data annotation task can be performed, for example, by displaying the data import interface to the publisher through the computer device used by the data annotation task publisher, thereby providing an interface for data import, so that the publisher will correspond to the data annotation task.
  • the data set is imported.
  • the platform executing Method 1 can acquire the data set corresponding to the data annotation task.
  • the data import interface may be a WEB interface, a local client interface, or other forms of interfaces, which is not limited by the present invention.
  • step 120 an annotation rule corresponding to each type of data in the data set is acquired.
  • data is divided into different types according to different labeling objects.
  • the data types include: face image data, dog face image data, cat face image data, and the like.
  • the labeling rule is a specification for labeling content and how to label the data.
  • the labeling rules corresponding to the face image data include which positions need to be marked on the face image (for example, the left eye corner and the right eye corner), and how to mark a certain position (for example, re-marking, light-marking, drawing a large dot) , drawing small points, etc.);
  • the labeling rules corresponding to the dog face image data include which positions need to be marked on the dog face image (for example, the left dog ear tip, the right dog ear tip), how to mark a certain position (for example, re-marking, Light mark, draw big dots, draw small dots, etc.).
  • Table 1 is an example of what needs to be marked for face image data and how to label it.
  • Table 1 is an example of what needs to be labeled in tabular form and how to label it, in practice, the labeling rules are generally written in machine language, for example:
  • an annotation rule corresponding to each type of data in the data set may be received, or a correspondence relationship between the data type and the labeling rule may be referred to, and an annotation rule corresponding to each type of data in the data set is retrieved.
  • the labeling rules corresponding to the data of the foregoing data sets may all be obtained by means of receiving, or may be acquired by means of retrieving; or the labeling rules corresponding to the partial type data may be obtained by receiving, part of the type data.
  • the corresponding labeling rules are obtained by means of retrieval.
  • the labeling rule corresponding to each type of data may be pre-configured, and the correspondence between the data type and the labeling rule may be stored. Therefore, referring to the correspondence between the data type and the labeling rule, the labeling rule corresponding to the data type can be retrieved.
  • the platform of the execution management method 1 receives the publisher-defined annotation rule from the publisher.
  • the modifiable rule templates corresponding to the various data types are preset and presented to the publisher through the interface.
  • a face labeling rule template corresponding to the face image data, a dog face labeling rule template corresponding to the dog face image data, and the like are preset.
  • the labeling rule template may include a template name, a template type, a rule sample, a custom rule, and the like.
  • the template name is the name of the labeling rule template, which has default values in the labeling rule template, but the publisher can modify the template name according to its own needs.
  • the template type is a data type corresponding to the labeling rule template, such as the face image data, the dog face image data, and the like described above. Publishers can modify the template type according to their needs.
  • a rule exemplification is an example of an annotation rule template that corresponds to a data type.
  • the publisher can model the annotation rules that match the actual needs of the publisher at the custom rules.
  • the example given by the rule example is a rule for labeling the left eye corner and the left eye center point, but the publisher does not need to mark the left eye center point, and
  • the part marked with the center point of the left eye is deleted, and the filled labeling rule template is submitted to the platform of the execution management method 1.
  • the platform of the execution management method 1 can read the labeling rules corresponding to the face image data defined by the publisher from the custom rule portion of the filled labeling rule template.
  • step 130 the above data set is divided into data subsets.
  • the above data set can be equally divided into data subsets.
  • the number of aliquoted subsets of data can be either a default value or received from the publisher.
  • an option for the publisher to divide the data annotation task into a number of data annotation subtasks is provided on the interface for the publisher to import the dataset corresponding to the data annotation task for the publisher to fill out.
  • the number of data labeling subtasks that the publisher wishes to divide corresponds to the number of equally divided data subsets. This implementation is especially useful in situations where there is only one type of data in the data set.
  • the data set may also be divided into data subsets according to the data type in the data set.
  • the specific implementation of the division method is further divided into multiple types.
  • the data set includes face image data, dog face image data, and text data. All facial image data in the above data set can be divided into one data subset, all dog face image data is divided into another data subset, and all text data is divided into another data subset. Or, on the basis of this, since the face image data is more, the face image data is further divided into a plurality of data subsets, and since the dog face image data and the text data are less, the data of the dog face image data is further A subset of the data of the subset and text data is a subset of the data.
  • step 140 data sub-task description information of a subset of data is generated according to the obtained labeling rules corresponding to the above-mentioned various types of data.
  • it includes:
  • the labeling rules corresponding to the data are converted into natural language
  • the labeling rules corresponding to the dog face image data are converted into natural language (that is, the content to be labeled is described in a textual manner instead of a machine language, and how to mark it), and the labeling rules corresponding to the text data are converted into nature. Language.
  • the obtained labeling rules corresponding to the various types of data further include the labeling rules corresponding to the face image data, since the current data subset does not include the face image data, the labeling rules corresponding to the face image data are currently The data subset is not used.
  • the labeling rules corresponding to the dog face image data converted into the natural language and the labeling rules corresponding to the text data are integrated to obtain the data labeling subtask description information.
  • An example of data tagging subtask description information is as follows:
  • verbs are used to mark verbs, and under horizontal lines are used to mark nouns. ”
  • step 140 can be performed either automatically or in accordance with an operational command input by the publisher.
  • step 150 data of a subset of data is published to sub-task description information.
  • the published data labeling subtask description information may be displayed on the WEB page or displayed on the interface of the plurality of user APP clients.
  • the display interface of the data labeling subtask description information can be as shown in FIG. 3.
  • the labeling rule for generating the data sub-task description information of FIG. 3 only contains the content to be labeled, and does not contain information on how to mark (for example, using a circle, a dot, etc.), therefore, the data labeling shown in FIG.
  • the subtask description information only describes the content that needs to be labeled, but the actual data labeling subtask description information may also describe how to label it.
  • step 160 in response to receiving a first claim request for a subset of data, the subset of data is sent to the sender of the first claim request.
  • a claim option may be included on the page of the data sub-task description information of the data subset.
  • the user wants to claim the subset of data, that is, accepts the data labeling subtask, selects the claim option, and accepts the data labeling subtask, that is, issues the first claim for the data subset. request.
  • the platform executing the management method 1 receives the first claim request and transmits the data subset to the user who issued the first claim request.
  • step 170 the tagged data from the sender of the first claim request is received.
  • the platform executing the management method 1 transmits the subset of data to the user. Display various types of data in the data subset to the user. After the user performs data annotation on various types of data and selects the submit option on the interface, the marked data is submitted to the platform of the execution management method 1.
  • the management method 1 may further include: sending a call instruction of the annotation tool corresponding to each type of data in the data subset to the first claim request The sender (not shown), wherein the data exported by the annotation tool corresponding to a type of data is the target data format of the data.
  • An annotation tool is an application used when annotating data.
  • a certain type of data can be marked with one or more labeling tools.
  • the labeling tools used are different, and the format of the exported data is different.
  • a type of data is associated with a unique annotation tool, and for this type of data, the derived data is in a data format, that is, the target labeled data format.
  • Corresponding relationship between the reference data type and the annotation tool determining a labeling tool corresponding to each type of data in the data subset; and configuring the determined labeling tool corresponding to each type of data in the data subset according to the obtained labeling rules corresponding to the various types of data Parameter; sends the call instruction of the annotation tool with the configured parameters to the sender of the first claim request.
  • the platform determines that the desired data format can be derived based on the target post-labeled data format that is desired to be derived for each data type (which is, for example, empirically determined by the platform to derive which post-labeled data format is preferred for a particular data type).
  • An annotation tool for the exported data format of the target annotation is used as the annotation tool corresponding to the data in the data subset.
  • the platform configures the parameters of the labeling tool corresponding to the various types of data in the data subset, such as the thickness of the line, according to the obtained labeling rules corresponding to the various types of data.
  • the labeling rule indicates that for a left ear vertex in a face image, a dot having a diameter of 2 cm is required, and a labeling tool corresponding to the face image data must be configured so that it can draw a dot having a diameter of 2 cm.
  • the platform sends the calling instruction of the labeling tool configured with the parameter to the sender of the first claim request, and the sending may be performed at the same time as sending the data subset to the sender of the first claim request in step 160, or may be separate carried out.
  • the desired target data format is G1.
  • the desired target data format is G2.
  • the labeling tool T1 is determined.
  • the annotation tool T2 is required.
  • the platform sends the calling instruction of the labeling tool T1 configured with the parameter and the calling instruction of the labeling tool T2 configured with the parameter to the user who sends the first claim request, so that the data format generated by the user after labeling is G1 for the dog face image data.
  • For text data is G2.
  • the data labeling subtask description information of the published data subset includes the target labeled data format of each type of data in the data subset.
  • step 150 In the case that the data labeling subtask description information of the released data subset contains the target labeled data format of the data in the data subset, the implementation of the above step 150 may be:
  • Corresponding relationship between the reference data type and the data format after the target labeling determining the data format of the target labeling of various types of data in the data subset; and determining the data label of the data after the target labeling of the various data in the determined data subset Published in the subtask description information.
  • the data type and the desired export target The correspondence of the data format after labeling is stored in advance. Then, according to the data type contained in the data subset, the reference data type and the target data format correspondence, the target data format of the data in the data subset is determined, and the data subsets in the data subset are determined. After the target is annotated, the data format is put into the number According to the data of the subset, the subtask description information is published.
  • the desired target data format is G1.
  • the desired target data format is G2. Therefore, when the data sub-task description information of the data subset is published, the published data labeling sub-task description information includes the target label data format G1 for the dog face image data and the target label data for the text data. Format G2. Regardless of the labeling tool used by the user who sends the first claim request, as long as the dog face image data is guaranteed, the labeled data format of the labeling tool is G1. For the text data, the labeled data format of the labeling tool is G2.
  • the technical solution provided by the embodiment of the invention ensures that the marked data is the data format after the target is marked, avoids data format conversion on the marked data, and improves the efficiency of the data labeling process.
  • the data set corresponding to the data labeling task is divided into several data subsets, and the data labeling subtask description information of each data subset is generated and distributed, that is, the data labeling is implemented in the form of crowdsourcing, and the data labeling task is divided into several data. Labeling sub-tasks to network users increases the processing efficiency of data annotation tasks with large data volumes.
  • the foregoing management method further includes step 180.
  • step 180 the annotated data from the sender of the first claim request for each subset of data is integrated and stored. That is, the labeled data from the sender of the first claim request for each data subset divided into data sets is recombined and stored in the order of the data subsets in the data set.
  • the data set S includes the data subsets S1, S2, S3, the data subsets S1, S2, S3 are each from the first in the order of the data subsets S1, S2, S3 in the data set S.
  • the labeled data of the sender of the claim is combined into a whole, that is, the marked data set, and then stored.
  • the labeled data from the sender of the first claim request for each data subset into the cloud storage. If only the integrated annotated data is sent to the publisher, only the publisher can use the consolidated labeled data. In some cases, more people are needed to share the integrated, annotated data.
  • the integrated post-labeled data can be used by the owner of the company where the publisher is located or even by the public. Therefore, the way of integrating storage into cloud storage improves the extensive use of annotation results.
  • the management method further includes steps 181 to 185.
  • step 181 data verification subtask description information of the data subset is generated according to the obtained labeling rules corresponding to the above various types of data.
  • Verification is a test of the label, so this check is the same as the label
  • the annotation tool, the label content and how to label are consistent with the labeling time, so the data verification subtask description information is also basically similar to the data labeling subtask description information.
  • step 182 the checker information corresponding to the data subset is obtained.
  • the checker information corresponding to the data subset may be filled in by the publisher in the interface for allowing the publisher to import the data set corresponding to the data labeling task, or may be separately sent to the publisher for the query, and may also be It was obtained by other means.
  • the verifier can be a specialist in the group in which the publisher is located.
  • step 183 the verification subtask description information and the labeled data of the data subset are transmitted according to the checker information.
  • the checker task description information and the labeled data of the data subset are transmitted to the verifier indicated by the verifier information.
  • step 184 the verified labeled data of the subset of data is received. That is, after the checker verifies, the verified labeled data of the data subset is sent to the platform, and the data is received by the platform.
  • the verified labeled data for each subset of data is integrated and stored. That is, the verified labeled data of each data subset is recombined and stored in the order of the data subsets in the data set. For example, in the case where the data set S includes the data subsets S1, S2, S3, the respective subsets of the data subsets S1, S2, S3 are verified according to the order of the data subsets S1, S2, S3 in the data set S. The labeled data is combined into a whole, that is, the verified labeled data set is then stored.
  • the data stored in step 180 may be replaced by the verified labeled data, or may be stored separately without replacement.
  • the management method may also include step 181, step 186, step 187, step 188, and step 185, as shown in FIG. 6.
  • Step 181 is the same as step 181 in FIG.
  • step 186 the data verification subtask description information of the data subset is released.
  • the published data verification subtask description information may be displayed on the WEB page or distributed on the interface of the APP client of multiple users.
  • step 187 in response to receiving a second claim request for the subset of data, the labeled data of the subset of data is sent to the sender of the second claim request.
  • the second claim request is a request to receive a subtask that verifies the data annotation of the subset of data. That is to say, unlike the verification of the special personnel in FIG. 5, in the embodiment of FIG. 6, the verification of the labeled data of each data subset is still released and outsourced to the public and the like.
  • step 188 the verified verification of the subset of data from the sender of the second claim request is received.
  • the marked data is received.
  • the management method 1 further includes: sending a call instruction of the annotation tool corresponding to each type of data in the data subset to the sender of the second claim request, wherein the data derived by the annotation tool corresponding to the type of data is the data of the type The data format after the target is marked; and/or the data labeling subtask description information of the published data subset contains the target data format of the various types of data in the data subset.
  • step 185 the verified and labeled data for each data subset is integrated and stored.
  • the verified annotated data for each subset of data is integrated into cloud storage.
  • Computer device 701 used by the publisher of the data labeling task, the data labeling task management server 702, the data labeling task publishing platform server 703, the data center storage server 704, and the claimer of the data labeling task are used.
  • Computer device 705 communicates over the Internet.
  • the data annotation task management server 702 can be implemented by one server or by an architecture composed of multiple servers.
  • the data annotation task publishing platform server 703 can be implemented by one server or by an architecture composed of multiple servers.
  • the data center storage server 704 can be implemented by one server or by an architecture composed of multiple servers.
  • the functions of the data annotation task management server 702, the data annotation task publishing platform server 703, and the data center storage server 704 can also be implemented by being integrated on one or more devices.
  • Step 1 The computer device 701 used by the publisher of the data annotation task displays a data import interface to the publisher, so that the publisher imports the data set corresponding to the data annotation task through the interface.
  • Step 2 The computer device 701 sends the data set corresponding to the data labeling task imported by the publisher to the data labeling task management server 702, that is, the data labeling task management server 702 acquires the data set corresponding to the data labeling task.
  • the data set only contains face annotation data.
  • Step 3 The computer device 701 retrieves and displays a face labeling rule template according to an operation instruction of the publisher, so that the publisher customizes the labeling rule.
  • the face tagging rule template retrieved by the computer device 701 may be stored locally in advance, or may be requested to be obtained from the server 702.
  • Step 4 The computer device 701 uses the labeling rule corresponding to the facial annotation data of the publisher's custom configuration.
  • the server 702 is sent to the server 702, and the server 702 obtains an labeling rule corresponding to various types of data in the data set.
  • the labeling rule corresponding to the pre-configured face label data may be retrieved by the computer device 701 and sent to the server. 702.
  • the labeling rule corresponding to the pre-configured face label data may also be retrieved by the server 702.
  • Step 5 The server 702 divides the data set into equal data subsets.
  • the number of aliquots can be either a default value or a value set by the publisher.
  • Step 6 The server 702 generates data labeling subtask description information of the data subset according to the obtained labeling rule.
  • Step 7 The server 702 sends the data labeling subtask description information of the generated data subset together with the publishing request to the data labeling task publishing platform server 703.
  • the server 702 may automatically send the data labeling subtask description information of the data subset together with the publishing request to the server 703, or may send the data after receiving the operation command sent by the publisher.
  • the publishing request is used to indicate that the subtask description information is published to a designated display area of the target network platform.
  • Step 8 The server 703 publishes the data labeling subtask description information of the data subset to the designated display area of the target network platform according to the publishing request, as shown in FIG. 8.
  • Step 9 The computer device 705 used by the claimant of the data labeling task displays the interface shown in FIG. 8 to the claimer according to the operation instruction of the claimer, and further displays the operation interface shown in FIG. 3 according to the operation instruction of the claimer.
  • Step 10 The computer device 705 sends a first claim request for the data subset 1 corresponding to the face labeling subtask 1 to the server 702 according to an operation instruction of the claimer.
  • Step 11 The server 702 sends a call instruction of the data subset 1 and the face tagging tool to the computer device 705 in response to the first claim request for the data subset 1.
  • the server 702 configures parameters of the face tagging tool according to the received tagging rules before the face tagging tool is invoked.
  • Step 12 The computer device 705 calls the WEB version of the face annotation tool according to the calling instruction and displays it to the claimant, and completes the face annotation of the data subset 1 according to the operation instruction of the claimer.
  • Step 13 The computer device 705 sends the marked data together with the checker information to the server. 702.
  • the checker information may be, but is not limited to, an account identifier, a device address, a device identifier, and the like.
  • the checker information is the account identifier of the publisher.
  • Step 14 The server 702 receives the labeled data of the data subset 1 corresponding to the face labeling subtask 1 from the computer device 705 and the face labeling subtasks 2, 3, ... from other computer devices. After the labeled data of the data subsets 2, 3, ..., the labeled data of the data subsets 1, 2, 3, ... are integrated and stored in the data center storage server 704.
  • Step 15 The server 702 generates data verification subtask description information of the data subset 1 according to the labeling rule corresponding to the face label data.
  • Step 16 The server 702 sends the verification subtask description information and the labeled data of the data subset to the computer device 701 according to the checker information.
  • Step 17 The computer device 701 performs the data verification operation according to the operation instruction of the publisher.
  • Step 18 The server 702 receives the verified labeled data of the data subset sent by the computer device 701.
  • Step 19 The server 702 receives the verified labeled data of the data subset 1 and the verified labeled data of the data subsets 2, 3, . . . and stores the data in the server. 704.
  • FIG. 9 is a schematic diagram of the management device 9 for data annotation.
  • the management device includes:
  • a data set obtaining unit 910 configured to acquire a data set corresponding to the data labeling task
  • An annotation rule obtaining unit 920 configured to acquire an annotation rule corresponding to each type of data in the data set
  • a data subset dividing unit 930 configured to divide the data set into a data subset
  • the labeling task description information generating unit 940 is configured to generate data labeling subtask description information of the data subset according to the obtained labeling rules corresponding to the type of data;
  • An annotation task description information issuing unit 950, configured to publish data annotation subtask description information of the data subset;
  • the data subset sending unit 960 is configured to send the data subset to the sender of the first claim request in response to receiving the first claim request for the data subset;
  • the post-labeling data receiving unit 970 is configured to receive the labeled data from the sender of the first claim request,
  • the management device further includes a first call instruction sending unit (not shown) for transmitting a call instruction of the labeling tool corresponding to each type of data in the data subset to the sender of the first claim request, wherein Class data
  • the data exported by the corresponding annotation tool is the target data format of the data of the type of data; and/or the data annotation sub-task description information of the published data subset contains the target data format of the data in the data subset.
  • the labeling rule obtaining unit 920 is configured to:
  • the labeling rules corresponding to the various types of data in the data set are retrieved.
  • the data subset dividing unit 930 is configured to:
  • the data set is divided into subsets of data according to the type of data in the data set.
  • the labeling task description information generating unit 940 is configured to:
  • the labeling rules corresponding to the data are converted into natural language
  • the management apparatus further includes a post-labeled data storage unit 980 for:
  • the annotated data from the sender of the first claim request for each subset of data is integrated and stored.
  • the post-labeled data storage unit 980 is configured to:
  • the annotated data from the sender of the first claim request for each subset of data is integrated into the cloud storage.
  • the first call instruction sending unit is configured to:
  • the call instruction of the annotation tool with the configured parameters is sent along with the data subset to the sender of the first claim request.
  • the labeling task description information issuing unit 950 is configured to:
  • the target data format of the various types of data in the determined data subset is placed in the data labeling subtask description information of the data subset.
  • the management apparatus further includes:
  • the verification task description information generating unit 990 is configured to generate data verification subtask description information of the data subset according to the obtained labeling rules corresponding to the various types of data;
  • a checker information obtaining unit 9100 configured to acquire checker information corresponding to the data subset
  • the first verification task sending unit 9110 is configured to send the verification subtask description information and the labeled data of the data subset according to the checker information;
  • a first post-check data receiving unit 9120 configured to receive the verified labeled data of the data subset
  • the post-check data storage unit 9130 is configured to integrate the verified labeled data for each data subset.
  • the management apparatus further includes:
  • the verification task description information generating unit 990 is configured to generate data verification subtask description information of the data subset according to the obtained labeling rules corresponding to the various types of data;
  • a verification task description information issuing unit 9140 configured to release data verification subtask description information of the data subset
  • a second verification task sending unit 9150 configured to send the labeled data of the data subset to the sender of the second claim request in response to receiving the second claim request for the data subset;
  • a second post-check data receiving unit 9160 configured to receive the verified labeled data of the data subset from the sender of the second claim request
  • a post-check data storage unit 9130 configured to integrate the verified labeled data for each data subset
  • the management device further includes a second call instruction sending unit that sends a call instruction of the labeling tool corresponding to each type of data in the data subset to the sender of the second claim request, wherein the labeling tool corresponding to the type of data is derived
  • the data is the target data format of the target of the data; and/or the data labeling subtask description information of the published data subset contains the target data format of the data in the data subset.
  • the post-check data storage unit 9130 includes:
  • the verified annotated data for each subset of data is integrated into cloud storage.
  • the present invention can be implemented in software and/or a combination of software and hardware.
  • the various devices of the present invention can be implemented using an application specific integrated circuit (ASIC) or any other similar hardware device.
  • the software program of the present invention may be executed by a processor to implement the steps or functions described above.
  • the software program (including related data structures) of the present invention can be stored in a computer readable recording medium such as a RAM memory, a magnetic or optical drive or a floppy disk and the like.
  • some of the steps or functions of the present invention may be implemented in hardware, for example, as a circuit that cooperates with a processor to perform various steps or functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种数据标注的管理方法及装置。其方法包括:获取与数据标注任务对应的数据集(110),及与该数据集中各类数据对应的标注规则(120);将数据集分成数据子集(130);根据获取的与各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息(140)并发布(150);响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集(160);接收来自第一认领请求的发送方的标注后的数据(170),其中,该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送;和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。避免了对标注后的数据进行数据格式转换。

Description

一种数据标注的管理方法及装置
交叉参考相关引用
本申请要求2015年3月25日提交的申请号为201510130022.4的中国专利申请的优先权,上述申请参考并入本文。
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种数据标注的管理方法及装置。
背景技术
数据标注是指对文本、图片、语音等数据进行描述或者标记的过程,例如,在人脸样本图片上标注左眼外眼角、右眼外眼角等位置。
现有的数据标注过程为:手动将数据标注任务切分为多个子任务并分发给多个标注者;各标注者根据子任务的数据的数据类型选择对应的单机版标注工具进行标注;所有子任务的标注工作完成后,将各标注者标注后的数据整合保存。
目前,标注工具多种多样。即使同一个数据类型,也可能对应多种标注工具。不同的标注工具,导出的数据格式可能不同。因此,采用现有的数据标注过程,对一个数据标注任务,各个子任务对应的标注后的数据格式可能不尽相同,且与实际需要的数据格式不符,需要转换为需要的数据格式后才能整合。数据格式转换,特别是大数据量的数据标注任务的数据格式转换,降低了数据标注、整合过程的效率。
发明内容
本发明的一个目的是,提供一种数据标注的管理方法及装置,它能提高数据标注、整合过程的效率。
根据本发明的一方面,提供了一种数据标注的管理方法,其中,该管理方法包括以下步骤:
获取与数据标注任务对应的数据集;
获取与所述数据集中各类数据对应的标注规则;
将所述数据集分成数据子集;
根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务 描述信息;
发布数据子集的数据标注子任务描述信息;
响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集;
接收来自第一认领请求的发送方的标注后的数据,
其中:
该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
根据本发明的另一方面,还提供了一种数据标注的管理装置,其中,该管理装置包括:
数据集获取单元,用于获取与数据标注任务对应的数据集;
标注规则获取单元,用于获取与所述数据集中各类数据对应的标注规则;
数据子集划分单元,用于将所述数据集分成数据子集;
标注任务描述信息生成单元,用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息;
标注任务描述信息发布单元,用于发布数据子集的数据标注子任务描述信息;
数据子集发送单元,用于响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集;
标注后数据接收单元,用于接收来自第一认领请求的发送方的标注后的数据,
其中:
该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
与现有技术相比,本发明的实施例具有以下优点:提供的标注工具导出的数据为该标注工具对应的这类数据的目标标注后数据格式,和/或在发布的数据子集的数据标注 子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式,从而保证了标注后的数据为目标标注后的数据格式,避免对标注后的数据进行数据格式转换,提高了数据标注、整合过程的效率。另外,本发明实施例还将数据标注任务对应的数据集分成若干数据子集,生成并发布每个数据子集的数据标注子任务描述信息,即以众包的形式实现数据标注,将数据标注任务分割为若干数据标注子任务众包给网络用户,提高大数据量的数据标注任务的处理效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个实施例提供的方法的流程图;
图2为本发明实施例提供的标注规则模板及自定义标注规则显示界面示意图;
图3为本发明实施例提供的数据标注子任务描述信息的显示界面示意图;
图4为本发明另一个实施例提供的方法流程图;
图5为本发明又一个实施例提供的方法流程图;
图6为本发明再一个实施例提供的方法流程图;
图7为本发明实施例提供的系统架构图;
图8为本发明实施例提供的发布多个数据子集的数据标注子任务描述信息的总发布界面的示意图;
图9为本发明一个实施例提供的装置示意图;
图10为本发明另一个实施例提供的装置示意图;
图11为本发明又一个实施例提供的装置示意图;
图12为本发明再一个实施例提供的装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图 中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是,这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复 数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1为本发明一个实施例的数据标注的管理方法流程图。根据本发明的方法1至少包括步骤110、步骤120、步骤130、步骤140、步骤150、步骤160和步骤170。
数据标注的管理是指将数据标注的任务分包给用户、对用户数据标注后的数据进行整合以完成数据标注的任务的整个过程。
该数据标注的管理方法可以由数据标注任务发布者本身的平台执行,也可以由独立与数据标注任务发布者和进行数据标注的用户的第三方平台执行。
参照图1,在步骤110中,获取与数据标注任务对应的数据集。
数据标注任务是指一项需要完成的数据标注的工作。例如,需要将大量人脸、狗脸、猫脸等图片进行脸部各位置(例如,左眼眼角、右眼眼角等)的标注,以便用作机器学习的训练样本。对所有这些图片进行脸部位置标注就是一项数据标注任务。
与数据标注任务对应的数据集是指在数据标注任务中数据标注所针对的数据的集合。在对这些图片进行脸部位置标注的数据标注任务中,这些图片就构成与数据标注任务对应的数据集。
获取与数据标注任务对应的数据集例如可以通过以下方式进行:通过数据标注任务发布者使用的计算机设备向发布者显示数据导入界面,从而提供数据导入的接口,以便发布者将与数据标注任务对应的数据集导入。这样,执行方法1的平台就可以获取与数据标注任务对应的数据集。
数据导入界面既可以是WEB界面,也可以是本地客户端界面,还可以是其他形式的界面,本发明对此不作限定。
参照图1,在步骤120中,获取与上述数据集中各类数据对应的标注规则。
本发明实施例中,数据按照不同的标注对象划分为不同的类型。例如,在上面对人脸、狗脸、猫脸等图片进行脸部位置标注的数据标注任务中,数据类型包括:人脸图片数据,狗脸图片数据,猫脸图片数据等等。
本发明实施例中,标注规则是对数据标注内容和如何标注的规定。例如,与人脸图片数据对应的标注规则包括在人脸图片上需要标注哪些位置(例如,左眼眼角、右眼眼角)、对某一位置如何标注(例如重标、轻标、画大点、画小点等);与狗脸图片数据对应的标注规则包括在狗脸图片上需要标注哪些位置(例如,左狗耳尖、右狗耳尖)、对某一位置如何标注(例如,重标、轻标、画大点、画小点等)。
表1是对于人脸图片数据来说需要标注的内容、及如何标注的一个例子。
序号 标注内容 如何标注
0 左眼外眼角 重标
1 左眼中心点 轻标
2 左眼内眼角 重标
3 右眼内眼角 重标
4 右眼中心点 轻标
5 右眼外眼角 重标
6 鼻尖 重标
7 左嘴角 重标
8 嘴中心 轻标
9 右嘴角 重标
10 左耳朵顶点 重标
11 左耳朵底点 轻标
12 右耳朵顶点 重标
13 右耳朵底点 轻标
表1
虽然表1是用表格形式表示的需要标注的内容、及如何标注的一个例子,但实际上,标注规则一般是以机器语言写成的,例如:
Figure PCTCN2016076570-appb-000001
Figure PCTCN2016076570-appb-000002
在本发明实施例中,可以接收与上述数据集中各类数据对应的标注规则,也可以参考数据类型与标注规则的对应关系,调取与上述数据集中各类数据对应的标注规则。
具体地,上述数据集中各类数据对应的标注规则可以全部通过接收的方式获取,也可以全部通过调取的方式获取;还可以是部分类型数据对应的标注规则通过接收的方式获取,部分类型数据对应的标注规则通过调取的方式获取。
如果通过调取方式获取标注规则,优选地,可以预先配置各类数据对应的标注规则,并存储数据类型与标注规则的对应关系。因此,参考该数据类型与标注规则的对应关系,就可以调取与该数据类型对应的标注规则。
如果通过接收方式获取标注规则,执行管理方法1的平台从发布者处接收发布者自定义的标注规则。为便于发布者自定义标注规则,优选地,预置可修改的对应于各种数据类型的标注规则模板,通过界面呈现给发布者。例如,预置有与人脸图片数据对应的人脸标注规则模板,与狗脸图片数据对应的狗脸标注规则模板等等。如图2所示,标注规则模板可包括模板名、模板类型、规则样例、自定义规则等部分。模板名是标注规则模板的名称,它在标注规则模板中有默认值,但发布者可以根据自身需要对该模板名进行修改。模板类型是标注规则模板对应的数据类型,如上述的人脸图片数据、狗脸图片数据等。发布者可以根据自身需要对模板类型进行修改。规则样例是与数据类型对应的标注规则模板的一个样例,发布者可以仿照该样例在自定义规则处创建符合发布者实际需求的标注规则。例如,在对应于人脸图片的标注规则模板中,规则样例给出的样例是标注左眼眼角和左眼中心点的规则,但发布者不需要对左眼中心点的标注,可以将该规则样例拷贝到自定义规则处后,删除其中标注左眼中心点的部分,并将填好的标注规则模板提交给执行管理方法1的平台。执行管理方法1的平台从填好的标注规则模板的自定义规则部分可以读取发布者定义的与人脸图片数据对应的标注规则。
参照图1,步骤130中,将上述数据集分成数据子集。
其中,可以将上述数据集等分成数据子集。等分的数据子集的数量可以是默认值,也可以是从发布者处接收的。例如,在用于让发布者将与数据标注任务对应的数据集导入的界面上设置发布者希望将数据标注任务分成多少个数据标注子任务的选项,供发布者填写。发布者希望分成的数据标注子任务的数量对应于等分成的数据子集的数量。该实现方式尤其适用于数据集中只有一类数据的情形。
其中,也可以将上述数据集按照数据集中的数据类型分成数据子集。该划分方式的具体实现方式又分为多种。例如,数据集中包括人脸图片数据、狗脸图片数据和文本数据。可以将上述数据集中的所有人脸图片数据分为一个数据子集,将所有狗脸图片数据分为另一个数据子集,并将所有文本数据分为又一个数据子集。或者,在此基础上,由于人脸图片数据较多,则进一步将人脸图片数据分为多个数据子集,由于狗脸图片数据和文本数据较少,则进一步将狗脸图片数据的数据子集和文本数据的数据子集合并为一个数据子集。
参照图1,步骤140中,根据获取的与上述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息。
在一个实施例中,其包括:
判断数据子集中包含的数据类型;
对于数据子集中包含的每一数据类型,将与该类数据对应的标注规则转换成自然语言;
将转换成自然语言的与每类数据对应的标注规则整合,以获得数据标注子任务描述信息。
以既包含狗脸图片数据、又包含文本数据的数据子集为例,首先判断出该数据子集包含的数据类型是狗脸图片数据和文本数据。然后,将与狗脸图片数据对应的标注规则转化为自然语言(即以文字的方式而非机器语言的方式描述需要标注的内容、及如何标注),将与文本数据对应的标注规则转化为自然语言。注意,虽然获取的与各类数据对应的标注规则还包括与人脸图片数据对应的标注规则,但由于当前数据子集中不包含人脸图片数据,因此与人脸图片数据对应的标注规则在当前数据子集中不使用。然后,将转换成自然语言的与狗脸图片数据对应的标注规则、与文本数据对应的标注规则整合,以获得数据标注子任务描述信息。数据标注子任务描述信息的一个例子如下:
“对于狗脸图片,用圆圈标出左耳朵顶点、左耳朵底点、右耳朵顶点、右耳朵底点,用圆点标出鼻尖、左嘴角、右嘴角;
对于文本数据,用波浪线标出动词,用下横线标出名词。”
应当指出的是,步骤140既可以是自动执行的,也可以是按照发布者输入的操作指令执行的。
参照图1,步骤150中,发布数据子集的数据标注子任务描述信息。
其中,发布的数据标注子任务描述信息既可以显示在WEB页面上,也可以发布式显示在众多用户APP客户端的界面上。以WEB页面为例,数据标注子任务描述信息的显示界面可以如图3所示。注意,据以生成图3的数据标注子任务描述信息的标注规则中只含有需要标注的内容,不含有如何标注(例如用圆圈、圆点等)的信息,因此,图3所示的数据标注子任务描述信息只描述了需要标注的内容,但实际的数据标注子任务描述信息可能会对如何标注也要进行描述。
参照图1,步骤160中,响应于接收到对数据子集的第一认领请求,向该第一认领请求的发送方发送该数据子集。
如图3所示,在发布数据子集的数据标注子任务描述信息的页面上,可以含有一个认领选项。例如,用户在看到该页面后,希望认领该数据子集,即接受数据标注子任务,选择该认领选项,就接受了该数据标注子任务,即发出了对该数据子集的第一认领请求。执行管理方法1的平台接收到该第一认领请求,将该数据子集发送到发出该第一认领请求的用户。
参照图1,步骤170中,接收来自第一认领请求的发送方的标注后的数据。
例如,在用户选择图3中的认领选项后,执行管理方法1的平台将数据子集发送到用户。向用户显示数据子集中的各类数据。用户对各类数据进行数据标注后选择界面上的提交选项,则将标注后的数据提交到执行管理方法1的平台。
在一种实施方式中,为了保证标注后的数据为目标标注后的数据格式,该管理方法1还可以包括:将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方(图中未示),其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式。
标注工具是指对数据进行标注时使用的应用等。一般某一类数据可以用一种或多种标注工具标注,使用的标注工具不同,导出的数据格式也不同。该实施方式中,将一类数据与唯一一种标注工具对应,保证对于这一类数据来说,导出的数据都是一种数据格式的,即目标标注后数据格式。
上述步骤的一种具体实现方式可以是:
参考数据类型与标注工具对应关系,确定与数据子集中各类数据对应的标注工具;根据获取的与各类数据对应的标注规则,配置确定出的与数据子集中各类数据对应的标注工具的参数;将配置好参数的标注工具的调用指令发送到第一认领请求的发送方。
该实施方式中,事先根据对于每种数据类型希望导出的目标标注后数据格式(其例如由平台凭经验确定对于特定数据类型,导出哪种标注后数据格式更好),平台确定能够导出该希望导出的目标标注后数据格式的一种标注工具作为与数据子集中该类数据对应的标注工具。然后平台根据获取的与各类数据对应的标注规则,配置确定出的与数据子集中各类数据对应的标注工具的参数,例如线条的粗细等。例如,标注规则指出对于人脸图片中的左耳朵顶点,需要用直径2cm的圆点,则必须要配置与人脸图片数据对应的标注工具,使其能够画出直径2cm的圆点。接着,平台将将配置好参数的标注工具的调用指令发送到第一认领请求的发送方,该发送可以在步骤160中向第一认领请求的发送方发送数据子集的同时执行,也可以单独执行。
例如,数据子集中有狗脸图片数据和文本数据。对于狗脸图片数据,希望的目标标注后数据格式是G1。对于文本数据,希望的目标标注后数据格式是G2。为了产生目标标注后数据格式G1,确定用标注工具T1。为了产生目标标注后数据格式G2,需要用标注工具T2。平台会将配置好参数的标注工具T1的调用指令和配置好参数的标注工具T2的调用指令发送给发送第一认领请求的用户,以便该用户标注后产生的数据格式对于狗脸图片数据是G1,对于文本数据是G2。
在另一种实施方式中,在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下,上述步骤150的实现方式可以是:
参考数据类型与目标标注后数据格式对应关系,确定数据子集中各类数据的目标标注后数据格式;将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
例如,事先确定对于每种数据类型希望导出的目标标注后数据格式(其例如由平台凭经验确定对于特定数据类型,导出哪种标注后数据格式更好),将该数据类型与希望导出的目标标注后数据格式的对应关系事先存储。然后,就可以根据数据子集中含有的数据类型,参考数据类型与目标标注后数据格式对应关系,确定数据子集中各类数据的目标标注后数据格式,并将确定出的数据子集中各类数据的目标标注后数据格式放入数 据子集的数据标注子任务描述信息中发布。
例如,数据子集中有狗脸图片数据和文本数据。对于狗脸图片数据,希望的目标标注后数据格式是G1。对于文本数据,希望的目标标注后数据格式是G2。因此,在发布数据子集的数据标注子任务描述信息时,在发布的数据标注子任务描述信息中含有对于狗脸图片数据希望的目标标注后数据格式G1、对于文本数据希望的目标标注后数据格式G2。发送第一认领请求的用户不管采用什么标注工具,只要保证对于狗脸图片数据,标注工具导出的标注后数据格式是G1,对于文本数据,标注工具导出的标注后数据格式是G2就可以。
本发明实施例提供的技术方案,保证了标注后的数据为目标标注后的数据格式,避免对标注后的数据进行数据格式转换,提高了数据标注过程的效率。另外,将数据标注任务对应的数据集分成若干数据子集,生成并发布每个数据子集的数据标注子任务描述信息,即以众包的形式实现数据标注,将数据标注任务分割为若干数据标注子任务众包给网络用户,提高了大数据量的数据标注任务的处理效率。
基于上述任意方法实施例,可选地,上述管理方法还包括步骤180。参考图4,步骤180中,将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。即,将数据集分成的各数据子集各自的来自第一认领请求的发送方的标注后的数据,按照数据子集在数据集中的顺序,重新组合在一起并存储。例如,在数据集S包括数据子集S1、S2、S3的情况下,按照数据子集S1、S2、S3在数据集S中的顺序,将数据子集S1、S2、S3各自的来自第一认领请求的发送方的标注后的数据合在一起成为一个整体,即标注后的数据集,然后进行存储。
为了提高数据资源的利用广泛性,优选地,将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。如果仅仅将整合后的标注后的数据发送给发布者,只有发布者能够使用该整合后的标注后的数据。在某些情况下,需要更多的人能共享该整合后的标注后的数据。例如,需要发布者所在公司的所有人甚至公众都能够使用该整合后的标注后的数据。因此整合存储到云存储器的方式提高了标注成果的利用广泛性。
进一步地,该管理方法还包括步骤181~步骤185。
参照图5,步骤181中,根据获取的与上述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息。其具体实现方式可以参照上述数据标注子任务描述信息的实现,此处不再赘述。校验是对标注的一种检验,因此,这种校验与标注采用同样的 标注工具,标注内容和如何标注都是与标注时一致的,因此其数据校验子任务描述信息也基本类似于数据标注子任务描述信息。
参照图5,步骤182中,获取该数据子集对应的校验者信息。
其中,该数据子集对应的校验者信息可以是发布者在让发布者导入与数据标注任务对应的数据集的界面中填写好的,也可以是单独向发布者发出询问获取的,还可以是通过其他方式获取的。校验者可以是发布者所在团体中的专门人员。
参照图5,步骤183中,根据上述校验者信息发送上述校验子任务描述信息和该数据子集的标注后的数据。例如,向校验者信息指示的校验者发送上述校验子任务描述信息和该数据子集的标注后的数据。
参照图5,步骤184中,接收该数据子集的经过校验的标注后的数据。即,校验者校验后向平台发送该数据子集的经过校验的标注后的数据,由平台接收该数据。
参照图5,步骤185中,将对于各数据子集的经过校验的标注后的数据整合存储。即,将各数据子集的经过校验的标注后的数据,按照数据子集在数据集中的顺序,重新组合在一起并存储。例如,在数据集S包括数据子集S1、S2、S3的情况下,按照数据子集S1、S2、S3在数据集S中的顺序,将数据子集S1、S2、S3各自的经过校验的标注后的数据合在一起成为一个整体,即校验后的标注后的数据集,然后进行存储。
其中,可以使用经过校验的标注后的数据替换掉步骤180中存储的数据,也可以分别存储,不做替换。
另外,该管理方法也可以包括步骤181、步骤186、步骤187、步骤188和步骤185,如图6。
步骤181与图5中步骤181相同。
参照图6,步骤186中,发布数据子集的数据校验子任务描述信息。
其中,发布的数据校验子任务描述信息既可以显示在WEB页面上,也可以分布式显示在多个用户的APP客户端的界面上。
参照图6,步骤187中,响应于接收到对数据子集的第二认领请求,向该第二认领请求的发送方发送该数据子集的标注后的数据。
第二认领请求即接收校验该数据子集的数据标注的子任务的请求。也就是说,与图5中专门人员校验不同,图6的实施方式中仍然是将各数据子集的标注后的数据的校验发布并外包给公众等。
参照图6,步骤188中,接收来自第二认领请求的发送方的该数据子集的经过校验 的标注后的数据。
其中,该管理方法1还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
其中,步骤185中,将对于各数据子集的经过校验的标注后的数据整合存储。例如,将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。
下面以具体应用场景为例,对本发明实施例提供的方法进行详细说明。
图7所示的应用场景中,数据标注任务的发布者使用的计算机设备701,数据标注任务管理服务器702,数据标注任务发布平台服务器703,数据中心存储服务器704和数据标注任务的认领者使用的计算机设备705通过互联网实现通信。
其中,数据标注任务管理服务器702可以由一台服务器实现,也可以由多台服务器组成的架构实现。数据标注任务发布平台服务器703可以由一台服务器实现,也可以由多台服务器组成的架构实现。数据中心存储服务器704可以由一台服务器实现,也可以由多台服务器组成的架构实现。
其中,数据标注任务管理服务器702、数据标注任务发布平台服务器703和数据中心存储服务器704的功能还可以集成在一台或多台设备上实现。
参照图7所示的系统架构,其具体工作原理如下:
步骤一、数据标注任务的发布者使用的计算机设备701向发布者显示数据导入界面,以便发布者通过该界面导入数据标注任务对应的数据集。
步骤二、上述计算机设备701将发布者导入的数据标注任务对应的数据集发送给数据标注任务管理服务器702,即数据标注任务管理服务器702获取数据标注任务对应的数据集。
其中,该数据集中仅包含人脸标注数据。
步骤三、上述计算机设备701根据发布者的操作指令调取并显示人脸标注规则模板,以供发布者自定义标注规则。
相应的界面如图2所示。
其中,计算机设备701调取的人脸标注规则模板可以是预先存储在本地的,也可以是向上述服务器702请求获取的。
步骤四、上述计算机设备701将发布者自定义配置的人脸标注数据对应的标注规则 发送给上述服务器702,即上述服务器702获取与上述数据集中各类数据对应的标注规则。
应当指出的是,如果发布者没有自定义标注规则(即不执行步骤三和步骤四),那么,可以由上述计算机设备701调取预先配置的人脸标注数据对应的标注规则并发送给上述服务器702,还可以由上述服务器702调取预先配置的人脸标注数据对应的标注规则。
步骤五、上述服务器702将上述数据集等分成数据子集。
其中,等分的数量可以是默认值,也可以是发布者设定的值。
应当指出的是,也可以由上述计算机设备701将上述数据集等分成数据子集后再发送给上述服务器702。
步骤六、上述服务器702根据获取的标注规则,生成数据子集的数据标注子任务描述信息。
步骤七、上述服务器702将生成的数据子集的数据标注子任务描述信息连同发布请求发送给数据标注任务发布平台服务器703。
其中,上述服务器702既可以自动将数据子集的数据标注子任务描述信息连同发布请求发送给上述服务器703,也可以在接收到发布者发送的操作指令后发送。
其中,发布请求用于指示将子任务描述信息发布到目标网络平台的指定显示区域。
步骤八、上述服务器703根据发布请求,将数据子集的数据标注子任务描述信息发布到目标网络平台的指定显示区域,如图8所示。
步骤九、数据标注任务的认领者使用的计算机设备705根据认领者的操作指令向认领者显示图8所示的界面,并进一步根据认领者的操作指令显示图3所示的操作界面。
步骤十、上述计算机设备705根据认领者的操作指令向上述服务器702发送对人脸标注子任务1对应的数据子集1的第一认领请求。
步骤十一、上述服务器702响应于对数据子集1的第一认领请求,将数据子集1和人脸标注工具的调用指令发送给上述计算机设备705。
其中,在调用人脸标注工具之前,上述服务器702根据接收到的标注规则配置人脸标注工具的参数。
步骤十二、上述计算机设备705根据调用指令调用WEB版的人脸标注工具并显示给认领者,根据认领者的操作指令完成对数据子集1的人脸标注。
步骤十三、上述计算机设备705将标注后的数据连同校验者信息发送给上述服务器 702。
本发明中,校验者信息可以但不仅限于是账户标识、设备地址、设备标识等等。
本实施例中,校验者信息为上述发布者的账户标识。
步骤十四、上述服务器702接收到来自计算机设备705的对人脸标注子任务1对应的数据子集1的标注后的数据和来自其他计算机设备的对人脸标注子任务2、3……对应的数据子集2、3……的标注后的数据后,将数据子集1、2、3……的标注后的数据整合存储到数据中心存储服务器704中。
步骤十五、上述服务器702根据人脸标注数据对应的标注规则生成数据子集1的数据校验子任务描述信息。
步骤十六、上述服务器702根据上述校验者信息,向上述计算机设备701发送上述校验子任务描述信息和该数据子集的标注后的数据。
步骤十七、上述计算机设备701根据发布者的操作指令完成数据校验工作。
步骤十八、上述服务器702接收上述计算机设备701发送的数据子集的经过校验的标注后的数据。
步骤十九、上述服务器702在接收到该数据子集1的经过校验的标注后的数据、以及数据子集2、3……的经过校验的标注后的数据整合,并存储在上述服务器704中。
基于与方法同样的发明构思,本发明还提供一种数据标注的管理装置。图9所示为数据标注的管理装置9示意图。该管理装置包括:
数据集获取单元910,用于获取与数据标注任务对应的数据集;
标注规则获取单元920,用于获取与所述数据集中各类数据对应的标注规则;
数据子集划分单元930,用于将所述数据集分成数据子集;
标注任务描述信息生成单元940,用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息;
标注任务描述信息发布单元950,用于发布数据子集的数据标注子任务描述信息;
数据子集发送单元960,用于响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集;
标注后数据接收单元970,用于接收来自第一认领请求的发送方的标注后的数据,
其中,该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元(图中未示),其中与一类数据 对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
其中,所述标注规则获取单元920用于:
接收与所述数据集中各类数据对应的标注规则;和/或
参考数据类型与标注规则的对应关系,调取与所述数据集中各类数据对应的标注规则。
其中,所述数据子集划分单元930用于:
将所述数据集等分成数据子集;或者
将所述数据集按照数据集中的数据类型分成数据子集。
其中,所述标注任务描述信息生成单元940用于:
判断数据子集中包含的数据类型;
对于数据子集中包含的每一数据类型,将与该类数据对应的标注规则转换成自然语言;
将转换成自然语言的与每类数据对应的标注规则整合,以获得数据标注子任务描述信息。
其中,参照图10,该管理装置还包括标注后数据存储单元980,用于:
将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。
其中,所述标注后数据存储单元980用于:
将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。
其中,所述第一调用指令发送单元被配置为:
参考数据类型与标注工具对应关系,确定与数据子集中各类数据对应的标注工具;
根据获取的与各类数据对应的标注规则,配置确定出的与数据子集中各类数据对应的标注工具的参数;
将配置好参数的标注工具的调用指令连同该数据子集一同发送到第一认领请求的发送方。
其中,在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下,所述标注任务描述信息发布单元950用于:
参考数据类型与目标标注后数据格式对应关系,确定数据子集中各类数据的目标标注后数据格式;
将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
其中,参照图11,该管理装置还包括:
校验任务描述信息生成单元990,用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息;
校验者信息获取单元9100,用于获取该数据子集对应的校验者信息;
第一校验任务发送单元9110,用于根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据;
第一校验后数据接收单元9120,用于接收该数据子集的经过校验的标注后的数据;
校验后数据存储单元9130,用于将对于各数据子集的经过校验的标注后的数据整合存储。
其中,参照图12,该管理装置还包括:
校验任务描述信息生成单元990,用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息;
校验任务描述信息发布单元9140,用于发布数据子集的数据校验子任务描述信息;
第二校验任务发送单元9150,用于响应于接收到对数据子集的第二认领请求,向所述第二认领请求的发送方发送该数据子集的标注后的数据;
第二校验后数据接收单元9160,用于接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据;
校验后数据存储单元9130,用于将对于各数据子集的经过校验的标注后的数据整合存储,
其中,该管理装置还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方的第二调用指令发送单元,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
其中,所述校验后数据存储单元9130包括:
将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。 同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。

Claims (22)

  1. 一种数据标注的管理方法(1),其中,该管理方法包括以下步骤:
    获取与数据标注任务对应的数据集(110);
    获取与所述数据集中各类数据对应的标注规则(120);
    将所述数据集分成数据子集(130);
    根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息(140);
    发布数据子集的数据标注子任务描述信息(150);
    响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集(160);
    接收来自第一认领请求的发送方的标注后的数据(170),
    其中:
    该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
    在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
  2. 根据权利要求1所述的管理方法,其中,所述获取与所述数据集中各类数据对应的标注规则的步骤(120)包括:
    接收与所述数据集中各类数据对应的标注规则;和/或
    参考数据类型与标注规则的对应关系,调取与所述数据集中各类数据对应的标注规则。
  3. 根据权利要求1所述的管理方法,其中,所述将所述数据集分成数据子集的步骤(130)包括以下中的一种:
    将所述数据集等分成数据子集;
    将所述数据集按照数据集中的数据类型分成数据子集。
  4. 根据权利要求1所述的管理方法,其中,所述根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息的步骤(140)包括:
    判断数据子集中包含的数据类型;
    对于数据子集中包含的每一数据类型,将与该类数据对应的标注规则转换成自然 语言;
    将转换成自然语言的与每类数据对应的标注规则整合,以获得数据标注子任务描述信息。
  5. 根据权利要求1所述的管理方法,其中,该管理方法还包括:
    将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储(180)。
  6. 根据权利要求5所述的管理方法,其中,所述将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储的步骤(180)还包括:
    将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。
  7. 根据权利要求1所述的管理方法,其中,所述将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的步骤包括:
    参考数据类型与标注工具对应关系,确定与数据子集中各类数据对应的标注工具;
    根据获取的与各类数据对应的标注规则,配置确定出的与数据子集中各类数据对应的标注工具的参数;
    将配置参数后的标注工具的调用指令发送到第一认领请求的发送方。
  8. 根据权利要求1所述的管理方法,其中,在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下,所述发布数据子集的数据标注子任务描述信息的步骤(150)包括:
    参考数据类型与目标标注后数据格式对应关系,确定数据子集中各类数据的目标标注后数据格式;
    将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
  9. 根据权利要求5所述的管理方法,其中,该管理方法还包括:
    根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息(181);
    获取该数据子集对应的校验者信息(182);
    根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据(183);
    接收该数据子集的经过校验的标注后的数据(184);
    将对于各数据子集的经过校验的标注后的数据整合存储(185)。
  10. 根据权利要求5所述的管理方法,其中,该管理方法还包括:
    根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息(181);
    发布数据子集的数据校验子任务描述信息(186);
    响应于接收到对数据子集的第二认领请求,向所述第二认领请求的发送方发送该数据子集的标注后的数据(187);
    接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据(188);
    将对于各数据子集的经过校验的标注后的数据整合存储(185),
    其中:
    该管理方法还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
    在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
  11. 根据权利要求9或10所述的管理方法,其中,所述将对于各数据子集的经过校验的标注后的数据整合存储的步骤(185)包括:
    将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。
  12. 一种数据标注的管理装置(9),其中,该管理装置包括:
    数据集获取单元(910),用于获取与数据标注任务对应的数据集;
    标注规则获取单元(920),用于获取与所述数据集中各类数据对应的标注规则;
    数据子集划分单元(930),用于将所述数据集分成数据子集;
    标注任务描述信息生成单元(940),用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据标注子任务描述信息;
    标注任务描述信息发布单元(950),用于发布数据子集的数据标注子任务描述信息;
    数据子集发送单元(960),用于响应于接收到对数据子集的第一认领请求,向所述第一认领请求的发送方发送该数据子集;
    标注后数据接收单元(970),用于接收来自第一认领请求的发送方的标注后的数据,
    其中:
    该管理装置还包括用于将与数据子集中各类数据对应的标注工具的调用指令发送到第一认领请求的发送方的第一调用指令发送单元,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
    在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
  13. 根据权利要求12所述的管理装置,其中,所述标注规则获取单元(920)被配置为:
    接收与所述数据集中各类数据对应的标注规则;和/或
    参考数据类型与标注规则的对应关系,调取与所述数据集中各类数据对应的标注规则。
  14. 根据权利要求12所述的管理装置,其中,所述数据子集划分单元(930)被配置为:
    将所述数据集等分成数据子集;或者
    将所述数据集按照数据集中的数据类型分成数据子集。
  15. 根据权利要求12所述的管理装置,其中,所述标注任务描述信息生成单元(940)被配置为:
    判断数据子集中包含的数据类型;
    对于数据子集中包含的每一数据类型,将与该类数据对应的标注规则转换成自然语言;
    将转换成自然语言的与每类数据对应的标注规则整合,以获得数据标注子任务描述信息。
  16. 根据权利要求12所述的管理装置,其中,该管理装置还包括标注后数据存储单元(980),用于将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储。
  17. 根据权利要求16所述的管理装置,其中,所述标注后数据存储单元(980)被配置为:
    将对于各数据子集的来自第一认领请求的发送方的标注后的数据整合存储到云存储器中。
  18. 根据权利要求12所述的管理装置,其中,所述第一调用指令发送单元被配置为:
    参考数据类型与标注工具对应关系,确定与数据子集中各类数据对应的标注工具;
    根据获取的与各类数据对应的标注规则,配置确定出的与数据子集中各类数据对应的标注工具的参数;
    将配置好参数的标注工具的调用指令发送到第一认领请求的发送方。
  19. 根据权利要求12所述的管理装置,其中,在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式的情况下,所述标注任务描述信息发布单元(950)被配置为:
    参考数据类型与目标标注后数据格式对应关系,确定数据子集中各类数据的目标标注后数据格式;
    将确定出的数据子集中各类数据的目标标注后数据格式放入数据子集的数据标注子任务描述信息中发布。
  20. 根据权利要求16所述的管理装置,其中,该管理装置还包括:
    校验任务描述信息生成单元(990),用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息;
    校验者信息获取单元(9100),用于获取该数据子集对应的校验者信息;
    第一校验任务发送单元(9110),用于根据所述校验者信息发送所述校验子任务描述信息和该数据子集的标注后的数据;
    第一校验后数据接收单元(9120),用于接收该数据子集的经过校验的标注后的数据;
    校验后数据存储单元(9130),用于将对于各数据子集的经过校验的标注后的数据整合存储。
  21. 根据权利要求16所述的管理装置,其中,该管理装置还包括:
    校验任务描述信息生成单元(990),用于根据获取的与所述各类数据对应的标注规则,生成数据子集的数据校验子任务描述信息;
    校验任务描述信息发布单元(9140),用于发布数据子集的数据校验子任务描述信息;
    第二校验任务发送单元(9150),用于响应于接收到对数据子集的第二认领请求,向所述第二认领请求的发送方发送该数据子集的标注后的数据;
    第二校验后数据接收单元(9160),用于接收来自第二认领请求的发送方的该数据子集的经过校验的标注后的数据;
    校验后数据存储单元(9130),用于将对于各数据子集的经过校验的标注后的数据整合存储,
    其中:
    该管理装置还包括将与数据子集中各类数据对应的标注工具的调用指令发送到第二认领请求的发送方的第二调用指令发送单元,其中与一类数据对应的标注工具导出的数据为该类数据的目标标注后数据格式;和/或
    在发布的数据子集的数据标注子任务描述信息中含有该数据子集中各类数据的目标标注后数据格式。
  22. 根据权利要求20或21所述的管理装置,其中,所述校验后数据存储单元(9130)包括:
    将对于各数据子集的经过校验的标注后的数据整合存储到云存储器中。
PCT/CN2016/076570 2015-03-25 2016-03-17 一种数据标注的管理方法及装置 WO2016150328A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510130022.4A CN106156025B (zh) 2015-03-25 2015-03-25 一种数据标注的管理方法及装置
CN201510130022.4 2015-03-25

Publications (1)

Publication Number Publication Date
WO2016150328A1 true WO2016150328A1 (zh) 2016-09-29

Family

ID=56976919

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/076570 WO2016150328A1 (zh) 2015-03-25 2016-03-17 一种数据标注的管理方法及装置

Country Status (2)

Country Link
CN (1) CN106156025B (zh)
WO (1) WO2016150328A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809980A (zh) * 2018-06-11 2018-11-13 厦门华厦学院 一种教育数据处理服务器系统
CN110400029A (zh) * 2018-04-24 2019-11-01 北京京东尚科信息技术有限公司 一种标注管理的方法和系统
CN111309995A (zh) * 2020-01-19 2020-06-19 北京市商汤科技开发有限公司 标注方法及装置、电子设备和存储介质
CN112968941A (zh) * 2021-02-01 2021-06-15 中科视拓(南京)科技有限公司 一种基于边缘计算的数据采集和人机协同标注方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368565A (zh) * 2017-07-10 2017-11-21 美的集团股份有限公司 数据处理方法、数据处理装置和计算机可读存储介质
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN107705034B (zh) * 2017-10-26 2021-06-29 医渡云(北京)技术有限公司 众包平台实现方法及装置、存储介质和电子设备
CN108108390B (zh) * 2017-11-15 2019-02-19 北京达佳互联信息技术有限公司 数据分发方法和装置
CN108182448B (zh) * 2017-12-22 2020-08-21 北京中关村科金技术有限公司 一种标注策略的选择方法及相关装置
CN111902829A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理设备、信息处理方法和程序
CN108829435A (zh) * 2018-06-19 2018-11-16 数据堂(北京)科技股份有限公司 一种图像标注方法及通用图像标注工具
CN109408788A (zh) * 2018-09-26 2019-03-01 南京大学 一种面向裁判文书的文本标注方法
CN109492698B (zh) * 2018-11-20 2022-11-18 腾讯科技(深圳)有限公司 一种模型训练的方法、对象检测的方法以及相关装置
CN109710933A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 训练语料的获取方法、装置、计算机设备和存储介质
CN110443294A (zh) * 2019-07-25 2019-11-12 丰图科技(深圳)有限公司 视频标注方法、装置、服务器、用户终端及存储介质
CN110674355B (zh) * 2019-09-25 2022-07-01 上海依图信息技术有限公司 描述数据标注任务的dsl应用系统及其方法
CN110851630A (zh) * 2019-10-14 2020-02-28 武汉市慧润天成信息科技有限公司 一种深度学习标注样本的管理系统及方法
CN112699906B (zh) * 2019-10-22 2023-09-22 杭州海康威视数字技术股份有限公司 获取训练数据的方法、装置及存储介质
CN112749308A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 一种数据标注方法、装置及电子设备
CN111353059A (zh) * 2020-03-02 2020-06-30 腾讯科技(深圳)有限公司 图片处理方法和装置、计算机可读的存储介质及电子装置
CN111400581B (zh) * 2020-03-13 2024-02-06 京东科技控股股份有限公司 用于标注样本的系统、方法和装置
CN111881106B (zh) * 2020-07-30 2024-03-29 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN113312131B (zh) * 2021-06-11 2023-04-18 北京百度网讯科技有限公司 标注工具的生成、运行方法和装置
CN113407083A (zh) * 2021-06-24 2021-09-17 上海商汤科技开发有限公司 一种数据标注方法及装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936892A (zh) * 2006-10-17 2007-03-28 浙江大学 图像内容语义标注方法
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN103136360A (zh) * 2013-03-07 2013-06-05 北京宽连十方数字技术有限公司 一种互联网行为标注引擎及对应该引擎的行为标注方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100573528C (zh) * 2007-10-30 2009-12-23 北京航空航天大学 数字博物馆网格及其构造方法
US20120084323A1 (en) * 2010-10-02 2012-04-05 Microsoft Corporation Geographic text search using image-mined data
CN102843364A (zh) * 2012-08-10 2012-12-26 北京鹏泰互动广告有限公司 发送、处理和提供现场验证数据的方法和装置
CN103824045A (zh) * 2012-11-16 2014-05-28 中兴通讯股份有限公司 一种人脸识别跟踪方法及系统
CN103914334B (zh) * 2012-12-31 2017-06-20 北京百度网讯科技有限公司 地图的标注方法和系统
CN104050238A (zh) * 2014-05-23 2014-09-17 北京中交兴路信息科技有限公司 一种地图标注方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936892A (zh) * 2006-10-17 2007-03-28 浙江大学 图像内容语义标注方法
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN103136360A (zh) * 2013-03-07 2013-06-05 北京宽连十方数字技术有限公司 一种互联网行为标注引擎及对应该引擎的行为标注方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400029A (zh) * 2018-04-24 2019-11-01 北京京东尚科信息技术有限公司 一种标注管理的方法和系统
CN108809980A (zh) * 2018-06-11 2018-11-13 厦门华厦学院 一种教育数据处理服务器系统
CN111309995A (zh) * 2020-01-19 2020-06-19 北京市商汤科技开发有限公司 标注方法及装置、电子设备和存储介质
CN112968941A (zh) * 2021-02-01 2021-06-15 中科视拓(南京)科技有限公司 一种基于边缘计算的数据采集和人机协同标注方法
CN112968941B (zh) * 2021-02-01 2022-07-08 中科视拓(南京)科技有限公司 一种基于边缘计算的数据采集和人机协同标注方法

Also Published As

Publication number Publication date
CN106156025A (zh) 2016-11-23
CN106156025B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
WO2016150328A1 (zh) 一种数据标注的管理方法及装置
US11509729B2 (en) Field service management mobile offline synchronization
JP2019536139A5 (zh)
US8726176B2 (en) Active business client
CN100578495C (zh) 以透明方式公开计算机生成文档中嵌套数据的方法和系统
US9330077B2 (en) Dynamic image generation for customizable user interfaces
CN103593236A (zh) 一种业务流程调度的计算机设备、方法和装置
WO2007001640A2 (en) Data centric workflows
US8788248B2 (en) Transparent flow model simulation implementing bi-directional links
EP2869195B1 (en) Application coordination system, application coordination method, and application coordination program
US20190050811A1 (en) Project scheduling system and method
US20140033014A1 (en) Launching workflow processes based on annotations in a document
WO2019182794A1 (en) Cross-application feature linking and educational messaging
CN102306164A (zh) 用于web服务的后期资源本地化绑定
CN113900650A (zh) 一种数据处理的方法、装置、电子设备及可读存储介质
US20150370874A1 (en) In-Application File Conversion using Cloud Services
US20130138782A1 (en) Tiered xml services in a content management system
US20150324438A1 (en) Rules based universal format presentation content translation
US20180173776A1 (en) Mapping 1:Many Relationships for Elements in a Database System
US20150286620A1 (en) Interactive project management
US20130138690A1 (en) Automatically identifying reused model artifacts in business process models
JP5469985B2 (ja) データ受渡方法及び汎用データ取得方法
US11663199B1 (en) Application development based on stored data
JP6166390B2 (ja) ソーシャルネットワークサーバ、画面表示方法およびプログラム
US20160231882A1 (en) Unified-person record having periodic table of relationships

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16767705

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16767705

Country of ref document: EP

Kind code of ref document: A1