KR102138573B1 - Method for selecting annotators using associated requirements and apparatus thereof - Google Patents

Method for selecting annotators using associated requirements and apparatus thereof Download PDF

Info

Publication number
KR102138573B1
KR102138573B1 KR1020190009278A KR20190009278A KR102138573B1 KR 102138573 B1 KR102138573 B1 KR 102138573B1 KR 1020190009278 A KR1020190009278 A KR 1020190009278A KR 20190009278 A KR20190009278 A KR 20190009278A KR 102138573 B1 KR102138573 B1 KR 102138573B1
Authority
KR
South Korea
Prior art keywords
task
annotator
evaluation
data annotation
candidate
Prior art date
Application number
KR1020190009278A
Other languages
Korean (ko)
Inventor
박민우
김주영
Original Assignee
주식회사 크라우드웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 크라우드웍스 filed Critical 주식회사 크라우드웍스
Priority to KR1020190009278A priority Critical patent/KR102138573B1/en
Priority to PCT/KR2020/000986 priority patent/WO2020153698A1/en
Application granted granted Critical
Publication of KR102138573B1 publication Critical patent/KR102138573B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063112Skill-based matching of a person or a group to a task
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Abstract

Provided are a method for selecting annotators using associated requirements to select an annotator with high reliability and a device thereof. According to the present invention, the method executed by a computer comprises the following steps of: before transmission of a data annotation task for actual use, transmitting one or more data annotation tasks for evaluation including a first input item about data annotation and a second input item related to one or more associated requirements corresponding to the data annotation to one or more candidate annotator terminals; receiving an execution result of the data annotation task for evaluation by the one or more candidate annotators from the one or more candidate annotator terminals; using the execution result of the data annotation task for evaluation to evaluate annotation ability of the candidate annotators; and using the evaluation result to select one or more annotators for actual use among the one or more candidate annotators. The one or more associated requirements have different priorities and have different weights in accordance with the priority in evaluation of the annotation ability of the candidate annotators.

Description

연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치{METHOD FOR SELECTING ANNOTATORS USING ASSOCIATED REQUIREMENTS AND APPARATUS THEREOF}METHOD FOR SELECTING ANNOTATORS USING ASSOCIATED REQUIREMENTS AND APPARATUS THEREOF}

본 발명은 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for selecting an annotator using associated conditions.

최근, 기업 활동의 일부 과정에 일반 대중을 참여시키는 크라우드 소싱 기반으로 많은 양의 데이터를 가공하는 기업이 늘고 있다. 기업은 일반 대중을 기업 활동의 일부 과정에 참여시킴으로써, 일반 대중이 참여한 업무를 하는 인력을 채용하지 않아도 되어 인력비를 저감할 수 있었다.In recent years, more and more companies are processing large amounts of data based on crowdsourcing that involve the general public in some process of business activity. By incorporating the general public into some process of corporate activities, the company was able to reduce manpower costs by not having to hire the workforce involved in the general public.

하지만, 기업 활동을 제대로 이해하지 못한 일반 대중이 기업 활동의 일부 과정을 하게 되면, 제대로된 데이터를 가공할 수 없어서 일반 대중을 교육하고, 교육받은 일반 대중 중 소정의 능력 이상인 대중을 선별하는 방법이 필요하게 되었다. 일반 대중을 교육하는 방법으로써, OX 퀴즈나 샘플 테스트 등이 사용되어 왔다. 하지만, OX 퀴즈는 일반 대중이 문제를 제대로 이해하지 않고 임의로 답을 선택해도 우연히 OX 퀴즈를 통과하는 경우가 발생할 수 있다. 또한, 샘플 테스트는 누구나 문제를 보면 이해할 수 있을 정도로 쉬운 맞보기 문제이므로, 일반 대중이 나중에 실제로 해야 하는 작업과 난이도의 차이가 상당하다. 또한, OX 퀴즈나 샘플 테스트와 같은 튜토리얼 문제는 일반 대중이 문제를 틀리게 되면 실제 작업에서는 제공되지 않는 힌트를 계속 제공하여 일반 대중이 결국 정답을 맞힐 수 있도록 유도해야만 한다. 이와 같이, 기존의 교육 방법은 실제 기업 활동과 부합하지 않기 때문에, 기존 교육 방법을 통과한 일반 대중이 실제 기업 활동에 참여하여 데이터를 가공하게 되면 제대로 된 결과물을 만들어 낼 수 없었다. However, if the general public who does not properly understand corporate activities does some process of corporate activities, it is necessary to educate the general public because it cannot process the proper data, and to select a trained general public who is above a certain level of ability. Was done. As a method of educating the general public, OX quizzes and sample tests have been used. However, in the OX quiz, even if the general public does not understand the problem properly and chooses the answer at random, it may happen that the OX quiz is accidentally passed. In addition, the sample test is a guessing problem that is easy to understand by anyone looking at the problem, so the difference between the task and the difficulty that the general public should actually do later is considerable. In addition, tutorial questions such as OX quizzes and sample tests should lead the general public to get the correct answer by continuing to provide hints that are not provided in the actual work if the general public goes wrong. As such, the existing training method does not correspond to the actual business activity, so if the general public who has passed the existing training method participates in the actual business activity and processes the data, it cannot produce a proper result.

따라서, 기업 활동에 참여하고자 하는 일반 대중을 기업 활동의 목적에 부합하게 교육하고, 소정의 기준을 통과한 일반 대중을 선별하는 방법이 필요하게 되었다.Accordingly, there is a need for a method of educating the general public who wants to participate in corporate activities in accordance with the purpose of corporate activities and selecting the general public that has passed certain criteria.

공개특허공보 제10-2014-0095956호, 2014.08.04Patent Publication No. 10-2014-0095956, 2014.08.04

본 발명이 해결하고자 하는 과제는 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치를 제공하는 것이다.The problem to be solved by the present invention is to provide a method and apparatus for selecting an annotator using associated conditions.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 연관 조건을 이용한 어노테이터를 선별하는 방법은, 컴퓨터에 의해 수행되는 방법으로서, 실전용 데이터 어노테이션 태스크를 송신하기 전에, 데이터 어노테이션(Annotation)에 관한 제1 입력 항목 및 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목을 포함하는 하나 이상의 평가용 데이터 어노테이션 태스크를 하나 이상의 후보 어노테이터(Annotator)의 단말기에 송신하는 단계, 상기 하나 이상의 후보 어노테이이터에 의한 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 상기 하나 이상의 후보 어노테이터의 단말기로부터 수신하는 단계, 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계, 및 상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 단계를 포함하고, 상기 하나 이상의 연관 조건은, 서로 다른 우선 순위를 갖고, 상기 후보 어노테이터의 어노테이션 능력의 평가 시 상기 우선 순위에 따른 서로 다른 가중치를 갖는다.A method for selecting an annotator using a related condition according to an aspect of the present invention for solving the above-described problem is a method performed by a computer, before transmitting a data annotation task for practical use, to data annotation (Annotation). Transmitting to the terminal of at least one candidate annotator one or more data annotation tasks for evaluation, including a first input item relating to the data input and a second input item relating to one or more associated conditions corresponding to the data annotation; Receiving a result of performing the evaluation data annotation task by the above candidate annotator from a terminal of the one or more candidate annotators, and using the result of performing the evaluation data annotation task, an annotation capability of the candidate annotator Comprising the step of evaluating, and using the evaluation result, selecting one or more actual annotators among the one or more candidate annotators, wherein the one or more association conditions have different priorities, and the candidate annotations When evaluating an annotation ability of data, they have different weights according to the priority.

일부 실시예에서, 사전 준비된 모든 상기 평가용 데이터 어노테이션 태스크가 상기 후보 어노테이터의 단말기에 송신되고, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계는, 상기 후보 어노테이터에 대해서, 상기 사전 준비된 모든 상기 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수를 총합하여 산출하고, 상기 점수가 소정의 기준 점수 미만이면 상기 후보 어노테이터의 어노테이션 능력을 신뢰 불가능으로 평가하고, 상기 점수가 상기 소정의 기준 점수 이상이면 상기 후보 어노테이터의 어노테이션 능력을 신뢰 가능으로 평가한다.In some embodiments, all the pre-prepared data annotation tasks for evaluation are transmitted to the terminal of the candidate annotator, and evaluating the annotation ability of the candidate annotator includes: for the candidate annotator, all the pre-prepared The score for the result of the performance of the data annotation task for evaluation is calculated in total, and if the score is less than a predetermined reference score, the annotation ability of the candidate annotator is evaluated as unreliable, and if the score is greater than or equal to the predetermined reference score The annotation ability of the candidate annotator is evaluated as reliable.

일부 실시예에서, 상기 하나 이상의 평가용 데이터 어노테이션 태스크가 복수의 태스크 단계로 구분되고, 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 미만이면 통과 실패로서 상기 제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되지 않으며, 상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 상기 소정의 기준 점수 이상이면 통과로서 상기 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되며, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계는, 상기 후보 어노테이터에 대해서, 최종 태스크 단계를 통과하면, 상기 후보 어노테이터의 어노테이션 능력을 신뢰 가능으로 평가하고, 상기 최종 태스크 단계 또는 상기 최종 태스크 단계의 이전 단계에서 통과 실패하면, 상기 후보 어노테이터의 어노테이션 능력을 신뢰 불가능으로 평가한다.In some embodiments, if the one or more evaluation data annotation tasks are divided into a plurality of task steps, and the score for the result of the execution of the data annotation task for evaluation in the first task step is less than a predetermined reference score, the rejection as the pass If the data annotation task for evaluation of the second task step, which is the next step of the task step, is not transmitted, and the score for the result of performing the data annotation task for evaluation of the first task step is greater than or equal to the predetermined reference score, the pass The data annotation task for evaluation of the second task step is transmitted, and the step of evaluating the annotation capability of the candidate annotator is, when the final task step is passed to the candidate annotator, trusting the annotation capability of the candidate annotator If it evaluates as possible and fails to pass in the final task step or the previous step of the final task step, the annotating ability of the candidate annotator is evaluated as unreliable.

일부 실시예에서, 상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크는 K(K는 2 이상의 자연수) 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함하고, 상기 제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 상기 K 개의 연관 조건 중 가장 우선 순위가 높은 연관 조건이 제외된 K-1 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함한다.In some embodiments, the data annotation task for evaluating the first task step includes the second input item related to the K (K is a natural number greater than or equal to 2) number of conditions, and is the next step of the first task step. The data annotation task for evaluation of the task level 2 includes the second input items related to the K-1 conditions associated with the highest priority among the K associated conditions.

일부 실시예에서, 상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 단계는, 상기 평가 결과에 따라 상기 어노테이션 능력이 신뢰 가능으로 평가된 상기 후보 어노테이터만을 상기 실전 어노테이터로 선별하고, 상기 어노테이션 능력이 신뢰 불가능으로 평가된 상기 후보 어노테이터는 상기 실전 어노테이터로 선별하지 않는다.In some embodiments, the step of selecting one or more actual annotators from the one or more candidate annotators using the evaluation result may include only the candidate annotators for which the annotation ability is evaluated as reliable based on the evaluation result. The candidate annotator is selected as an actual annotator, and the candidate annotator whose annotation ability is evaluated to be unreliable is not selected as the actual annotator.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 연관 조건을 이용한 어노테이터를 선별하는 방법은, 하나 이상의 실전 어노테이터의 단말기에 하나 이상의 실전용 데이터 어노테이션 태스크를 송신하는 단계, 및 상기 하나 이상의 실전 어노테이터에 의한 상기 실전용 데이터 어노테이션 태스크의 수행 결과를 상기 실전 어노테이터의 단말기로부터 수신하는 단계를 더 포함하고, 상기 실전용 데이터 어노테이션 태스크는, 데이터 어노테이션에 관한 제1 입력 항목을 포함하고, 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목은 포함하지 않는다.A method of selecting an annotator using a related condition according to another aspect of the present invention for solving the above-described problems includes transmitting one or more dedicated data annotation tasks to a terminal of one or more actual annotators, and the one or more Further comprising the step of receiving a result of the performance data annotation task performed by the actual annotator from the terminal of the actual annotator, the data annotation task for exclusive use includes a first input item related to data annotation, It does not include a second input item related to one or more association conditions corresponding to the data annotation.

일부 실시예에서, 상기 하나 이상의 평가용 데이터 어노테이션 태스크는 데이터 어노테이션이 요청된 로우(Raw) 상태의 소스 데이터 세트의 일부에 기초하여 생성되고, 상기 하나 이상의 실전용 데이터 어노테이션 태스크는 상기 소스 데이터 세트의 다른 일부에 기초하여 생성된다.In some embodiments, the one or more data annotation tasks for evaluation are generated based on a portion of a raw data set in a raw state where data annotation is requested, and the one or more dedicated data annotation tasks are generated from the source data set. It is created based on some other.

일부 실시예에서, 상기 실전용 데이터 어노테이션 태스크의 수행 결과에 대한 목표 신뢰도가 정의되고, 상기 하나 이상의 연관 조건의 개수는 상기 목표 신뢰도에 상응하여 결정된다.In some embodiments, target reliability is defined for a result of performing the data annotation task for real use, and the number of one or more association conditions is determined corresponding to the target reliability.

상술한 과제를 해결하기 위한 본 발명의 또 다른 면에 따른 연관 조건을 이용한 어노테이터를 선별하는 장치는, 데이터 어노테이션에 관한 제1 입력 항목 및 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목을 포함하는 하나 이상의 평가용 데이터 어노테이션(Annotation) 태스크를 하나 이상의 후보 어노테이터(Annotator)의 단말기에 송신하는 송신부, 상기 하나 이상의 후보 어노테이이터에 의한 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 상기 하나 이상의 후보 어노테이터의 단말기로부터 수신하는 수신부, 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 평가부, 및 상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 선별부를 포함하고, 상기 하나 이상의 연관 조건은, 서로 다른 우선 순위를 갖고, 상기 후보 어노테이터의 어노테이션 능력의 평가 시 상기 우선 순위에 따른 서로 다른 가중치를 갖는다.An apparatus for selecting an annotator using an association condition according to another aspect of the present invention for solving the above-described problem includes: a first input item for data annotation and a second for one or more association conditions corresponding to the data annotation A transmission unit that transmits one or more evaluation data annotation tasks including input items to terminals of one or more candidate annotators, and a result of performing the evaluation data annotation task by the one or more candidate annotators. A receiving unit received from the terminal of the one or more candidate annotators, an evaluation unit evaluating an annotation capability of the candidate annotator using the result of performing the evaluation data annotation task, and the evaluation result, using the evaluation result And a selection unit for selecting one or more actual annotators among candidate annotators, wherein the one or more associated conditions have different priorities, and different weights according to the priorities are evaluated when evaluating the annotation ability of the candidate annotators. Have

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific matters of the present invention are included in the detailed description and drawings.

본 발명의 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치에 따르면, 평가용 데이터 어노테이션 태스크 내에 연관 조건에 관한 입력 항목이 포함되도록 하여, 평가용 데이터 어노테이션 태스크의 평가 결과에 따라 연관 조건을 충분히 이해하여 정확한 데이터 어노테이션이 가능한 어노테이터의 선별을 가능하게 한다.According to the method and apparatus for selecting an annotator using the association conditions of the present invention, an input item regarding the association conditions is included in the evaluation data annotation task, so that the association conditions are sufficiently understood according to the evaluation result of the evaluation data annotation task This enables selection of annotators that can accurately annotate data.

또한, 복수의 연관 조건이 서로 다른 우선 순위를 갖고, 평가용 데이터 어노테이션 태스크의 평가시 우선 순위에 따른 가중치를 갖도록 하여 상대적으로 신뢰도가 높은 어노테이터의 우선적 선별을 가능하게 한다.In addition, it is possible to preferentially select relatively reliable annotators by having a plurality of related conditions having different priorities and weighting according to priorities when evaluating an evaluation data annotation task.

또한, 어노테이터가 수행하게될 평가용 데이터 어노테이션 태스크의 특징에 상응하는 연관 조건 및 연관 조건의 가이드를 어노테이터에게 제공하여, 어노테이터가 평가용 데이터 어노테이션 태스크의 특징을 파악하면서 데이터 어노테이션을 수행하도록 한다.In addition, an annotator is provided with a guide of an association condition and an association condition corresponding to the characteristics of the data annotation task for evaluation to be performed by the annotator, so that the annotator performs data annotation while grasping the characteristics of the data annotation task for evaluation. do.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 연관 조건을 이용한 어노테이터를 선별하는 방법의 개략적인 순서도이다.
도 2는 복수의 연관 조건에 관한 입력 항목을 포함하는 평가용 데이터 어노테이션 태스크의 작업 화면의 예시도이다.
도 3은 복수의 연관 조건에 관한 입력 항목을 포함하는 평가용 데이터 어노테이션 태스크의 수행 결과 화면의 예시도이다.
도 4는 본 발명의 다른 실시예에 따른 연관 조건을 이용하여 어노테이터를 선별하고 실전용 데이터 어노테이션 태스크를 처리하는 방법의 개략적인 순서도이다.
도 5는 일 실시예에 따른 후보 어노테이터의 어노테이션 능력을 평가하는 방법을 개략적으로 설명하는 일 예시도이다.
도 6은 일 실시예에 따른 후보 어노테이터의 어노테이션 능력을 평가하는 방법을 개략적으로 설명하는 다른 예시도이다.
도 7은 하나의 연관 조건에 관한 입력 항목이 제외된 평가용 데이터 어노테이션 태스크의 작업 화면의 예시도이다.
도 8은 실전용 데이터 어노테이션 태스크의 예시도이다.
도 9는 본 발명의 또 다른 실시예에 따른 연관 조건을 이용한 어노테이터를 선별하는 장치의 구성도이다.
1 is a schematic flowchart of a method of selecting an annotator using a related condition according to an embodiment of the present invention.
2 is an exemplary view of an operation screen of an evaluation data annotation task including input items related to a plurality of association conditions.
3 is an exemplary view of an execution result screen of an evaluation data annotation task including input items related to a plurality of association conditions.
4 is a schematic flowchart of a method of selecting an annotator and processing a dedicated data annotation task using an association condition according to another embodiment of the present invention.
5 is an exemplary diagram schematically illustrating a method of evaluating an annotation ability of a candidate annotator according to an embodiment.
6 is another exemplary diagram schematically illustrating a method of evaluating an annotation ability of a candidate annotator according to an embodiment.
7 is an exemplary view of an operation screen of an evaluation data annotation task in which an input item related to one association condition is excluded.
8 is an exemplary diagram of a practical data annotation task.
9 is a block diagram of an apparatus for selecting an annotator using associated conditions according to another embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the present embodiments allow the disclosure of the present invention to be complete, and are common in the technical field to which the present invention pertains. It is provided to fully inform the skilled person of the scope of the present invention, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for describing the embodiments and is not intended to limit the present invention. In the present specification, the singular form also includes the plural form unless otherwise specified in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components other than the components mentioned. Throughout the specification, the same reference numerals refer to the same components, and “and/or” includes each and every combination of one or more of the components mentioned. Although "first", "second", etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are only used to distinguish one component from another component. Therefore, it goes without saying that the first component mentioned below may be the second component within the technical spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used in a sense that can be commonly understood by those skilled in the art to which the present invention pertains. In addition, terms that are defined in a commonly used dictionary are not ideally or excessively interpreted unless specifically defined.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 연관 조건을 이용한 어노테이터를 선별하는 방법의 개략적인 순서도이다.1 is a schematic flowchart of a method of selecting an annotator using a related condition according to an embodiment of the present invention.

도 1을 참조하면, 연관 조건을 이용한 어노테이터를 선별하는 방법은, 평가용 데이터 어노테이션 태스크를 후보 어노테이터의 단말기에 송신하는 단계(S110), 평가용 데이터 어노테이션 태스크의 수행 결과를 후보 어노테이터의 단말기로부터 수신하는 단계(S120), 후보 어노테이터의 어노테이션 능력을 평가하는 단계(S130) 및 실전 어노테이터를 선별하는 단계(S140)를 포함한다.Referring to FIG. 1, a method of selecting an annotator using an association condition includes transmitting a data annotation task for evaluation to a terminal of a candidate annotator (S110), and a result of performing the data annotation task for evaluation of the candidate annotator It includes the step of receiving from the terminal (S120), evaluating the annotation ability of the candidate annotator (S130) and selecting the actual annotator (S140).

단계 S110에서, 데이터 어노테이션(Annotation)에 관한 제1 입력 항목(10) 및 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목(20)을 포함하는 하나 이상의 평가용 데이터 어노테이션 태스크가 하나 이상의 후보 어노테이터(Annotator)의 단말기에 송신된다. 평가용 데이터 어노테이션 태스크는 어노테이터 선별의 관리자가 운영하는 웹 사이트에서 제공되고 후보 어노테이터는 상기 웹 사이트에 접속하여 평가용 데이터 어노테이션 태스크를 수행할 수 있다. In step S110, at least one data annotation task for evaluation, which includes a first input item 10 for data annotation and a second input item 20 for one or more association conditions corresponding to the data annotation, is one or more. It is sent to the terminal of the candidate annotator. The data annotation task for evaluation is provided on a website operated by the administrator of the annotator selection, and a candidate annotator can access the website and perform the data annotation task for evaluation.

어노테이터 선별의 관리자는 평가용 데이터 어노테이션 태스크에 대한 정답 데이터를 사전에 만들어 놓는다. 정답 데이터는 이후에 후보 어노테이터에 의한 평가용 데이터 어노테이션 태스크의 수행 결과를 평가하는데 사용된다.The administrator of the annotator screening pre-creates correct answer data for the data annotation task for evaluation. Correct answer data is then used to evaluate the results of the performance of the data annotation task for evaluation by candidate annotators.

어노테이터 선별 기간은 후술하는 실전용 데이터 어노테이션 태스크 별로 동일 또는 상이하게 결정된다. 어노테이터 선별 기간은 관리자에 의해서 사전 결정될 수 있다. 어노테이터 선별 기간 내에만, 평가용 데이터 어노테이션 태스크가 후보 어노테이터에게 제공되며, 상기 기간 이후에는 평가용 데이터 어노테이션 태스크가 제공되지 않는다. 데이터 어노테이션을 의뢰 고객은 보다 많은 후보 어노테이터들 간의 경쟁을 통한 우수한 어노테이터 선별을 위하여 상기 기간에 관한 의견을 제안할 수 있다.The annotator selection period is determined identically or differently for each practical data annotation task described later. The annotator selection period can be predetermined by the administrator. Only within the annotator selection period, the data annotation task for evaluation is provided to the candidate annotator, and the data annotation task for evaluation is not provided after the period. Customers requesting data annotation can suggest opinions on the above period to select excellent annotators through competition among more candidate annotators.

데이터 어노테이션은 소스 데이터와 관련하여 주석 데이터를 입력하는 행위를 의미한다. 즉, 데이터 어노테이션은 관리자의 지시 사항에 따라 텍스트, 이미지, 오디오 및 비디오 등과 같은 유형의 소스 데이터에 지시 사항에 상응하는 방식으로 주석 데이터를 입력하는 행위를 의미한다. 예들 들어, 데이터 어노테이션은 주어진 지문에서 개체를 찾는 것, 간단한 음성 녹음을 하는 것, 유사한 문장을 찾는 것, 특정 인물의 사진을 수집하는 것 등이 있을 수 있으나, 이에 제한되지 않는다. Data annotation refers to the act of entering annotation data in relation to source data. In other words, data annotation refers to the act of inputting annotation data in a manner corresponding to the instructions in the type of source data such as text, image, audio and video according to the administrator's instructions. For example, data annotation may include, but is not limited to, finding an object in a given fingerprint, making a simple voice recording, finding similar sentences, collecting photos of a specific person, and the like.

데이터 어노테이션은 난이도에 따라 일반 데이터 어노테이션 및 프리미엄 데이터 어노테이션으로 구분될 수 있다. 어노테이터는 자신의 어노테이션 능력의 평가 레벨에 따라 일반 데이터 어노테이션만을 수행하거나, 일반 데이터 어노테이션 및 프리미엄 데이터 어노테이션을 모두 수행할 수 있다.Data annotation can be classified into general data annotation and premium data annotation according to the difficulty. The annotator may perform only general data annotation or both general data annotation and premium data annotation according to the evaluation level of his annotation ability.

제1 입력 항목(10)은 데이터 어노테이션의 문제(11)를 포함한다. 데이터 어노테이션의 문제(11)는 데이터 어노테이션을 의뢰한 고객이 제공한 로우 상태의 소스 데이터 세트의 일부에 기초하여 생성된다. 데이터 어노테이션 문제(11)는 소스 데이터 세트 중 하나일 수 있다. 후보 어노테이터는 제1 입력 항목(10) 상의 데이터 어노테이션의 문제(11)를 수행한다. 예를 들어, 후보 어노테이터가 주어진 지문 상에 개체를 찾는 어노테이션 수행하는 경우, 후보 어노테이터는 데이터 어노테이션 문제(11)의 지문 상에 소정의 지시 사항에 따라 개체를 태깅할 수 있다. 예를 들어, 후보 어노테이터는 데이터 어노테이션 문제(11)의 지문 상에 개체를 태깅하라는 지시 사항에 따라 지문 상의 개체를 태깅할 수 있다.The first input item 10 includes the problem 11 of data annotation. The problem of data annotation 11 is generated based on a portion of the raw source data set provided by the customer requesting the data annotation. The data annotation problem 11 may be one of the source data sets. The candidate annotator performs the problem 11 of data annotation on the first input item 10. For example, when the candidate annotator performs an annotation to find an object on a given fingerprint, the candidate annotator may tag the object according to a predetermined instruction on the fingerprint of the data annotation problem 11. For example, a candidate annotator can tag an object on the fingerprint according to instructions to tag the object on the fingerprint of the data annotation problem 11.

연관 조건은 데이터 어노테이션에 상응하는 조건이다. 연관 조건은 데이터 어노테이션을 수행하는데 있어서 기본적으로 숙지하고 있거나 숙지하여야 하는 사항에 상응하는 조건일 수 있다. 예를 들어, 주어진 지문 상에서 개체를 찾는 어노테이션의 경우, 개체(entity)는 실체적으로 구별되는 사람이나 사물 또는 특정 가능한 개념 등을 의미하므로, 연관 조건에 관한 입력은 개체의 대표적인 몇몇의 유형에 관한 선택 입력 또는 개체의 대부분이 고유명사인 특성에 기초하여 고유명사 정도에 관한 선택 입력을 포함할 수 있다. 제2 입력 항목(20)에는 하나 이상의 연관 조건이 배치될 수 있고, 하나 이상의 연관 조건은 서로 다른 우선 순위를 갖는다. 서로 다른 우선 순위를 갖는 연관 조건은 어노테이터의 어노테이션 능력의 평가 시 서로 다른 가중치를 갖는다. 우선 순위가 상대적으로 높은 연관 조건은 상대적으로 높은 가중치를 갖고, 우순 순위가 상대적으로 낮은 연관 조건은 상대적으로 낮은 가중치를 갖는다. 여기서, 가중치는 어노테이터를 평가하는 점수에 대한 가중치일 수 있다. 어노테이터를 평가하는데 있어서, 가중치가 상대적으로 높은 연관 조건을 틀리는 어노테이터는 상대적으로 낮은 점수를 받게되고, 가중치가 상대적으로 낮은 연관 조건을 틀리는 어노테이터는 상대적으로 높은 점수를 받게된다. 우선 순위가 높은 연관 조건일수록 후보 어노테이터가 쉽게 이해할 수 있는 조건일 수 있다. 따라서, 우선 순위가 높은 연관 조건을 틀리는 후보 어노테이터는 낮은 평가 점수를 받게 된다.The association condition is a condition corresponding to the data annotation. The related condition may be a condition corresponding to a basic knowledge or a thing to be understood in performing data annotation. For example, in the case of annotations for finding an object on a given fingerprint, the entity refers to a person or object that is actually distinguished, or a specific possible concept, etc., so input regarding the association condition relates to some typical types of objects. It may include a selection input or a selection input regarding the degree of proper noun based on a characteristic that most of the entities are proper nouns. One or more association conditions may be disposed in the second input item 20, and the one or more association conditions have different priorities. Association conditions with different priorities have different weights when evaluating the annotation ability of the annotator. Association conditions with a relatively high priority have a relatively high weight, and association conditions with a relatively low priority have a relatively low weight. Here, the weight may be a weight for a score for evaluating an annotator. In evaluating an annotator, an annotator having a wrong association condition with a relatively high weight receives a relatively low score, and an annotator having an association condition having a relatively low weight has a relatively high score. The higher the association condition, the higher the priority may be a condition that can be easily understood by the candidate annotator. Therefore, a candidate annotator that misses the high-priority association condition receives a low evaluation score.

일부 실시예에서, 연관 조건의 개수는 후술하는 실전용 데이터 어노테이션 태스크의 수행 결과에 대한 목표 신뢰도에 상응하여 결정된다. 데이터 어노테이션을 의뢰한 고객은 실전용 데이터 어노테이션 태스크의 수행 결과에 대한 목표 신뢰도를 관리자에게 요구할 수 있을 것이다. 목표 신뢰도가 높을수록 상대적으로 연관 조건의 개수는 많아질 수 있다. 또는, 목표 신뢰도가 높을수록 상대적으로 난이도가 높은 연관 조건이 포함될 수 있다.In some embodiments, the number of association conditions is determined in correspondence with a target confidence level for a result of performing a dedicated data annotation task described below. The customer who requested the data annotation will be able to ask the administrator for the target reliability of the result of the performance of the data annotation task. The higher the target reliability, the more the number of relevant conditions can be increased. Or, the higher the target reliability, the more difficult the relative condition may be.

제2 입력 항목(20)상에 연관 조건이 배치된다. 후보 어노테이터는 제2 입력 항목(20) 상의 연관 조건에 상응하는 작업을 수행한다. 예를 들어, 후보 어노테이터는 제2 입력 항목(20)의 연관 조건 상의 선택 항목 중 하나를 선택하는 작업을 수행한다.The association condition is placed on the second input item 20. The candidate annotator performs a task corresponding to the association condition on the second input item 20. For example, the candidate annotator performs a task of selecting one of selection items on the association condition of the second input item 20.

평가용 데이터 어노테이션 태스크는 후보 어노테이터의 어노테이션 능력을 평가하기 위한 데이터 어노테이션 태스크이다. 평가용 데이터 어노테이션 태스크는 하나 이상의 연관 조건에 관한 입력 항목을 포함하고, 연관 조건의 가중치가 반영되어 어노테이터의 어노테이션 능력을 평가하는데 사용된다. 데이터 어노테이션을 의뢰한 고객은 로우(Raw) 상태의 소스 데이터 세트를 의뢰한다. 로우 상태라는 것은 데이터 어노테이션이 수행되기 전 상태를 의미한다. 평가용 데이터 어노테이션 태스크는 데이터 어노테이션이 요청된 로우 상태의 소스 데이터 세트의 일부에 기초하여 생성된다. 또한, 후술하는 실전용 데이터 어노테이션 태스크는 소스 데이터 세트 중 평가용 데이터 어노테이션 태스크를 생성하는데 사용되지 않은 다른 일부에 기초하여 생성된다. 즉, 어노테이션 선별의 관리자는 사전에 고객으로부터 전달받은 로우 상태의 소스 데이터의 일부에 관하여 직접 데이터 어노테이션 작업한다. 그리고, 관리자는 상기 작업 결과에 기초하여 평가용 데이터 어노테이션 태스크와 정답 데이터를 사전에 만들어 놓는다.The data annotation task for evaluation is a data annotation task for evaluating the annotation ability of a candidate annotator. The evaluation data annotation task includes input items related to one or more association conditions, and is used to evaluate the annotation ability of the annotator by reflecting the weight of the association conditions. Customers requesting data annotation request source data sets in a raw state. A low state means a state before data annotation is performed. The data annotation task for evaluation is generated based on a portion of the raw data set in the low state where data annotation is requested. In addition, the practical data annotation task described later is generated based on another part of the source data set that is not used to generate the data annotation task for evaluation. That is, the administrator of the annotation screening directly performs data annotation on a portion of the raw data in the low state received from the customer in advance. In addition, the administrator makes a data annotation task for evaluation and correct answer data in advance based on the result of the operation.

후보 어노테이터는 어노테이션의 능력이 검증되지 않은 어노테이터로서, 평가용 데이터 어노테이션 태스크를 수행하는 어노테이터이다.The candidate annotator is an annotator whose ability of annotation has not been verified, and is an annotator performing a data annotation task for evaluation.

단계 S120에서, 하나 이상의 후보 어노테이이터에 의한 평가용 데이터 어노테이션 태스크의 수행 결과가 하나 이상의 후보 어노테이터의 단말기로부터 수신된다. 하나 이상의 후보 어노테이터는 관리자가 운영하는 웹 사이트에서 평가용 데이터 어노테이션 태스크를 수행하고, 수행 결과를 저장할 수 있다.In step S120, results of performing the data annotation task for evaluation by one or more candidate annotators are received from terminals of the one or more candidate annotators. One or more candidate annotators may perform a data annotation task for evaluation on a website operated by an administrator and store the results of the execution.

단계 S130에서, 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 후보 어노테이터의 어노테이션 능력이 평가된다. 예를 들어, 후보 어노테이터의 능력은 평가용 데이터 어노테이션 태스크의 수행 결과에 따라, 신뢰 가능 또는 신뢰 불가능으로 평가될 수 있다.In step S130, the annotation ability of the candidate annotator is evaluated using the result of performing the evaluation data annotation task. For example, the ability of the candidate annotator can be evaluated as reliable or unreliable, depending on the result of performing the data annotation task for evaluation.

후보 어노테이터의 어노테이션 능력을 평가하는 단계에 관하여는 도 5 내지 도 6에서 보다 자세히 설명한다.The steps of evaluating the annotation ability of the candidate annotator will be described in more detail in FIGS. 5 to 6.

단계 S140에서, 후보 어노테이터의 어노테이션 능력의 평가 결과를 이용하여, 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터가 선별된다.In step S140, one or more actual annotators are selected from the one or more candidate annotators using the evaluation result of the annotation ability of the candidate annotators.

후보 어노테이터의 어노테이션 능력의 평가 결과에 따라 어노테이션 능력이 신뢰 가능으로 평가된 후보 어노테이터는 실전 어노테이터로 선별된다. 실전 어노테이터는 후술하는 실전용 데이터 어노테이션 태스크를 수행할 수 있다.A candidate annotator whose annotation ability is evaluated as reliable according to the evaluation result of the annotation ability of the candidate annotator is selected as an actual annotator. The actual annotator may perform a dedicated data annotation task described later.

또한, 후보 어노테이터의 어노테이션 능력의 평가 결과에 따라 어노테이션 능력이 신뢰 불가능으로 평가된 후보 어노테이터는 실전 어노테이터로 선별되지 않는다. 실전 어노테이터로 선별되지 못한 후보 어노테이터는 후술하는 실전용 데이터 어노테이션 태스크를 수행하지 못한다.Also, a candidate annotator whose annotation ability is evaluated to be unreliable according to the evaluation result of the annotation ability of the candidate annotator is not selected as an actual annotator. Candidate annotators that have not been selected as actual annotators cannot perform the data annotation task for exclusive use described later.

도 2는 복수의 연관 조건에 관한 입력 항목을 포함하는 평가용 데이터 어노테이션 태스크의 작업 화면의 예시도이다.2 is an exemplary view of an operation screen of an evaluation data annotation task including input items related to a plurality of association conditions.

도 2를 참조하면, 평가용 데이터 어노테이션 태스크를 설명하기 위해서 주어진 지문에서 개체를 찾는 평가용 데이터 어노테이션 태스크의 작업 화면에 대한 예시를 설명한다. 평가용 데이터 어노테이션 태스크는 하나의 데이터 어노테이션에 관한 제1 입력 항목(10) 및 하나 이상의 연관 조건에 관한 제2 입력 항목(20)을 포함한다. Referring to FIG. 2, an example of an operation screen of an evaluation data annotation task for finding an object in a given fingerprint will be described to describe the evaluation data annotation task. The data annotation task for evaluation includes a first input item 10 for one data annotation and a second input item 20 for one or more associated conditions.

제1 입력 항목(10)는 데이터 어노테이션의 문제(11) 및 하이라이트 키워드(12)를 포함한다. 데이터 어노테이션의 문제(11)에는 개체를 찾아야 하는 지문이 배치된다. 후보 어노테이션은 데이터 어노테이션의 문제(11)의 지문 상의 하나의 단어를 태깅하여 개체 찾기 데이터 어노테이션을 수행한다.The first input item 10 includes a data annotation problem 11 and a highlight keyword 12. In the data annotation problem 11, a fingerprint for finding an object is placed. The candidate annotation performs an object search data annotation by tagging one word on the fingerprint of the problem 11 of data annotation.

하이라이트 키워드(12)는 데이터 어노테이션의 문제(11)상의 후보 어노테이터가 태깅한 단어가 자동으로 입력된다. 후보 어노테이터는 하이라트 키워드(12)에 기록된 단어를 확인하여 자신이 태깅하고자 한 단어가 제대로 태깅되었는지를 확인할 수 있다. 또는, 후보 어노테이터는 하이라이트 키워드(12)에 태깅하고자 하는 단어를 직접 입력하여 데이터 어노테이션의 문제(11)상의 단어를 태깅하는 작업을 대체할 수 있다.In the highlight keyword 12, words tagged by candidate annotators on the problem 11 of data annotation are automatically entered. The candidate annotator can confirm whether the word he or she is trying to tag is properly tagged by checking the word recorded in the Hirat keyword 12. Alternatively, the candidate annotator can replace the task of tagging the word on the problem 11 of the data annotation by directly entering the word to be tagged in the highlight keyword 12.

제2 입력 항목(20)은 하나 이상의 개체의 속성에 상응하는 연관 조건이 배치된다. 도 2에서는 개체의 대표적인 몇몇의 유형에 관한 선택을 하는 연관 조건(21)과 고유명사 정도에 관한 선택을 하는 연관 조건(22)이 도시된다. 관리자는 후보 어노테이터에게 각각의 연관 조건에 대한 가이드를 제공한다. 예를 들어, 관리자는 사람, 학문분야, 이론, 인공물, 기관 등 각각에 대한 개체 유형을 정의한 설명을 제공한다. 또한, 관리자는 고유명사 정도의 조건으로서, 별 3개가 선택되면 완전 고유명사 개체라고 판단하고, 별 2개가 선택되면 보통명사와 고유명사의 결합으로 개체가 되는 경우라고 판단하고, 별 1개가 선택되면 지금은 개체가 아니지만 개체가 될 가능성이 있는 것이라고 판단할 수 있음을 설명하는 자료를 제공한다.In the second input item 20, an association condition corresponding to the attribute of one or more entities is disposed. In FIG. 2, there are shown association conditions 21 for making selections regarding several representative types of individuals and association conditions 22 for making selections regarding the degree of proper nouns. The manager provides candidate annotators with a guide to each association condition. For example, the manager provides a description that defines the type of entity for each person, discipline, theory, artifact, institution, etc. In addition, as a condition of the proper noun, the manager judges that if 3 stars are selected, it is a complete proper noun entity, and if 2 stars are selected, it is determined that the combination is a common noun and proper noun, and if 1 star is selected, It provides data explaining that it is not an object at this time, but that it can be judged to be an object.

하나 이상의 연관 조건은 서로 다른 우선 순위를 갖는다. 서로 다른 우선 순위를 갖는 연관 조건은 어노테이터의 어노테이션 능력의 평가 시 서로 다른 가중치를 갖는다. 도 2에서는 개체의 대표적인 유형에 관한 선택을 하는 연관 조건(21)이 고유명사 정도에 관한 선택을 하는 연관 조건(22)보다 우선 순위가 높다. 따라서, 후보 어노테이터가 개체의 대표적인 유형에 관한 선택을 하는 연관 조건(21)을 잘못 입력하는 경우에 고유명사 정도에 관한 선택을 하는 연관 조건(22)을 잘못 입력하는 경우보다 상대적으로 어노테이션 능력이 낮게 평가될 수 있다.One or more association conditions have different priorities. Association conditions with different priorities have different weights when evaluating the annotation ability of the annotator. In FIG. 2, the association condition 21 for selecting a representative type of an individual has a higher priority than the association condition 22 for selecting a proper noun degree. Therefore, when a candidate annotator erroneously enters the association condition (21) for selecting a proper noun degree, the annotating ability is relatively less than when the candidate annotator erroneously enters the association condition (21) for selecting a proper noun. Can be underestimated.

후보 어노테이터는 “추가” 버튼을 클릭함으로써, 하나의 개체에 대해서 개체 찾기 작업을 완료할 수 있고, 완료된 개체에 대해서는 평가용 데이터 어노테이션 태스크 상에 표시될 수 있다.The candidate annotator can complete the object search operation for one object by clicking the “Add” button, and the completed object can be displayed on the evaluation data annotation task.

후보 어노테이터는 “저장하고 다음으로” 버튼을 클릭함으로써, 하나의 평가용 데이터 어노테이션 태스크의 수행을 완료할 수 있다. 하나의 평가용 데이터 어노테이션 태스크의 수행을 완료한 후보 어노테이터는 다음 평가용 데이터 어노테이션 태스크를 수행할 수 있다.The candidate annotator can complete the execution of a data annotation task for evaluation by clicking the “Save and Next” button. A candidate annotator who has completed the execution of one evaluation data annotation task may perform the next evaluation data annotation task.

도 3은 복수의 연관 조건에 관한 입력 항목을 포함하는 평가용 데이터 어노테이션 태스크의 수행 결과 화면의 예시도이다.3 is an exemplary view of an execution result screen of an evaluation data annotation task including input items related to a plurality of association conditions.

도 3을 참조하면, 평가용 데이터 어노테이션 태스크의 수행 결과를 설명하기 위해서 주어진 지문 상의 개체를 찾는 데이터 어노테이션의 수행 결과 화면에 대한 예시를 설명한다. 도 3을 참조하면, 평가용 데이터 어노테이션 태스크의 수행 결과로서 제1 입력 항목(10)의 개체가 태깅되고, 제2 입력 항목(20)의 연관 조건이 선택된다. Referring to FIG. 3, an example of an execution result screen of a data annotation for finding an object on a given fingerprint will be described to describe an execution result of an evaluation data annotation task. Referring to FIG. 3, an object of the first input item 10 is tagged as a result of performing an evaluation data annotation task, and an association condition of the second input item 20 is selected.

후보 어노테이터는 데이터 어노테이션의 문제(11)의 지문 상의 개체인 “맵더소울”를 태깅한다. 태깅된 “맵더소울”은 하이라이트 키워드에 그대로 기록된다. 후보 어노테이터는 “맵더소울”를 이미 알고 있는 상식에 의해 개체라고 판단할 수 있고, 지문의 문맥상 개체라고 판단할 수 있다. 후보 어노테이터는 “맵더소울”이 특정 기관에 해당하는 개체라고 판단하고 제2 입력 항목(20)의 개체의 대표적인 유형에 관한 선택을 하는 연관 조건(21) 상의 “기관”을 선택할 수 있다. 또한, 후보 어노테이터는 “맵더소울”이 보통명사와 고유명사의 결합으로 개체가 되는 경우라고 판단하고 제2 입력 항목(20)의 고유명사 정도에 관한 선택을 하는 연관 조건(22) 상의 별 두 개를 선택할 수 있다. 후보 어노테이터는 “추가”버튼을 클릭하여 “맵더소울”에 대한 개체 찾기 작업을 완료한다. 그 후 데이터 어노테이션의 문제(11) 상의 다른 개체가 있는지를 확인하여 다른 개체가 없다고 판단하는 경우 “저장하고 다음으로” 버튼을 클릭하여 다른 평가용 데이터 어노테이션 태스크를 수행한다.The candidate annotator tags the “map the soul”, an object on the fingerprint of the problem 11 of data annotation. The tagged “map the soul” is recorded as it is in the highlight keyword. The candidate annotator can determine that the object is an object by common sense knowing the "map the soul", and it can determine the object in the context of the fingerprint. The candidate annotator may select “institution” on the association condition 21 to determine that “map the soul” is an entity corresponding to a specific institution and to make a selection regarding the representative type of the entity of the second input item 20. In addition, the candidate annotator determines that “map the soul” is an instance of a common noun and a proper noun and determines two stars on the association condition (22) to select the degree of proper noun of the second input item (20). You can choose a dog. The candidate annotator completes the object search for "map the soul" by clicking the "add" button. Then, if it is determined that there are other objects on the data annotation problem 11, and there is no other object, click the “Save and Next” button to perform another evaluation data annotation task.

도 4는 본 발명의 다른 실시예에 따른 연관 조건을 이용하여 어노테이터를 선별하고 실전용 데이터 어노테이션 태스크를 처리하는 방법의 개략적인 순서도이다.4 is a schematic flowchart of a method of selecting an annotator and processing a dedicated data annotation task using an association condition according to another embodiment of the present invention.

도 4를 참조하면, 실전 어노테이터를 선별하는 단계(S140) 이후에 실전 어노테이터의 단말기에 실전용 데이터 어노테이션 태스크를 송신하는 단계(S150) 및 실전용 데이터 어노테이션 태스크의 수행 결과를 실전 어노테이터의 단말기로부터 수신하는 단계(S160)를 포함한다.Referring to FIG. 4, after the step of selecting the actual annotator (S140), the step of transmitting the actual data annotation task to the terminal of the actual annotator (S150) and the result of performing the actual data annotation task are performed by the actual annotator. It includes the step of receiving from the terminal (S160).

단계 S150에서, 하나 이상의 실전 어노테이터의 단말기에 하나 이상의 실전용 데이터 어노테이션 태스크가 송신된다. 실전용 데이터 어노테이션 태스크는 관리자가 운영하는 웹 사이트에서 제공되고 실전 어노테이터는 상기 웹 사이트에 접속하여 실전용 데이터 어노테이션 태스크를 수행할 수 있다. In step S150, one or more dedicated data annotation tasks are transmitted to the terminals of the one or more actual annotators. The actual data annotation task is provided on the website operated by the administrator, and the actual annotator may access the website and perform the actual data annotation task.

하나 이상의 실전용 데이터 어노테이션 태스크는 소스 데이터 세트 중 평가용 데이터 어노테이션 태스크를 생성하는데 사용되지 않은 다른 일부에 기초하여 생성된다. 실전용 데이터 어노테이션 태스크는 데이터 어노테이션에 관한 제1 입력 항목(10)을 포함하고, 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목(20)은 포함하지 않는다. 실전용 데이터 어노테이션 태스크의 구성에 대해서는 도 8에서 도시된다.The one or more dedicated data annotation tasks are generated based on some of the source data sets that are not used to generate the data annotation task for evaluation. The practical data annotation task includes the first input item 10 for data annotation, and does not include the second input item 20 for one or more association conditions corresponding to the data annotation. The configuration of the dedicated data annotation task is illustrated in FIG. 8.

단계 S160에서, 하나 이상의 실전 어노테이터에 의한 실전용 데이터 어노테이션 태스크의 수행 결과가 실전 어노테이터의 단말기로부터 수신된다. 하나 이상의 실전 어노테이터는 본 발명의 관리자가 운영하는 웹 사이트에서 실전용 데이터 어노테이션 태스크를 수행하고, 수행 결과를 저장할 수 있다.In step S160, a result of performing the data annotation task for dedicated use by one or more actual annotators is received from the terminal of the actual annotator. One or more real-time annotators may perform a data-only data annotation task on a website operated by the administrator of the present invention and store the result of the performance.

도 5는 일 실시예에 따른 후보 어노테이터의 어노테이션 능력을 평가하는 방법을 개략적으로 설명하는 일 예시도이다.5 is an exemplary diagram schematically illustrating a method of evaluating an annotation ability of a candidate annotator according to an embodiment.

도 5를 참조하면, 모든 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수를 총합하여 후보 어노테이터의 어노테이션 능력을 평가한다.Referring to FIG. 5, a candidate annotator's annotation ability is evaluated by summing the scores for the results of all evaluation data annotation tasks.

사전 준비된 모든 평가용 데이터 어노테이션 태스크가 후보 어노테이터의 단말기에 순서대로 송신되고, 각각의 평가용 데이터 어노테이션에 대해서 후보 어노테이터가 순서대로 수행한 평가용 데이터 어노테이션 태스크를 순서대로 수신한다. 도 5에서는 n(n은 1 이상의 자연수)개의 평가용 데이터 어노테이션 태스크가 후보 어노테이터의 단말기에 순서대로 송신되고, 각각의 평가용 데이터 어노테이션 태스크의 수행 결과를 수신한다.All the pre-prepared data annotation tasks for evaluation are sequentially transmitted to the terminals of the candidate annotators, and for each evaluation data annotation, the evaluation data annotation tasks performed by the candidate annotators are sequentially received. In FIG. 5, n (n is a natural number equal to or greater than 1) evaluation data annotation tasks are sequentially transmitted to a terminal of a candidate annotator, and results of performing each evaluation data annotation task are received.

평가용 데이터 어노테이터 태스크를 수행한 후보 어노테이터에 대해서, 사전 준비된 모든 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수를 총합하여 산출된다. 도 5에서는 n(n은 1 이상의 자연수)개의 평가용 데이터 어노테이선 태스크의 수행 결과에 대한 점수를 총합하여 산출한다. 각각의 평가용 데이터 어노테이션 태스크의 점수는 평가용 데이터 어노테이션 태스크의 제2 입력 항목(20)에 배치된 연관 조건에 상응하여 산출된다. 예들 들어, 평가용 데이터 어노테이션 태스크의 점수는 우선 순위가 높은 연관 조건을 틀리는 경우에 우선 순위가 낮은 연관 조건을 틀리는 경우보다 상대적으로 낮게 산출된다.For candidate annotators that have performed the data annotator task for evaluation, it is calculated by summing up the scores of the results of the execution of all the data annotation tasks for evaluation. 5, n (n is a natural number greater than or equal to 1) is calculated by summing up the scores for the results of the evaluation data annotation task. The score of each evaluation data annotation task is calculated in correspondence with the associated condition arranged in the second input item 20 of the evaluation data annotation task. For example, the score of the data annotation task for evaluation is calculated to be relatively lower than the case where the association condition with a low priority is wrong when the association condition with a high priority is wrong.

점수의 총합이 소정의 기준 점수 미만이면 후보 어노테이터의 어노테이션 능력이 신뢰 불가능으로 평가된다. 반면, 점수의 총합이 소정의 기준 점수 이상이면 후보 어노테이터의 어노테이션 능력이 신뢰 가능으로 평가된다.If the sum of the scores is less than a predetermined reference score, the annotator's annotation ability is evaluated as unreliable. On the other hand, if the sum of the scores is equal to or greater than a predetermined reference score, the annotator's annotation ability is evaluated as reliable.

도 6은 일 실시예에 따른 후보 어노테이터의 어노테이션 능력을 평가하는 방법을 개략적으로 설명하는 다른 예시도이다.6 is another exemplary diagram schematically illustrating a method of evaluating an annotation ability of a candidate annotator according to an embodiment.

도 6을 참조하면, 복수의 태스크 단계마다 후보 어노테이터의 통과 여부를 결정하고, 최종 태스크 단계를 통과한 후보 어노테이터의 어노테이션 능력을 평가한다.Referring to FIG. 6, it is determined whether a candidate annotator passes for each of a plurality of task steps, and an annotation capability of the candidate annotator that has passed the final task step is evaluated.

하나 이상의 평가용 데이터 어노테이션 태스크는 복수의 태스크 단계로 구분된다. 복수의 태스크 단계로 구분된 평가용 데이터 어노테이션은 서로 다른 개수의 연관 조건을 포함할 수 있다. 후보 어노테이터는 태스크 단계가 증가함에 따라 연관 조건의 개수가 감소한 평가용 데이터 어노테이션을 수행할 수 있다. 연관 조건은 태스크 단계가 증가함에 따라 우선 순위가 높은 순서대로 제외된다.One or more evaluation data annotation tasks are divided into multiple task steps. The data annotation for evaluation divided into a plurality of task steps may include different numbers of association conditions. The candidate annotator may perform data annotation for evaluation in which the number of association conditions is reduced as the task step increases. Association conditions are excluded in order of increasing priority as task steps increase.

제1 태스크 단계의 평가용 데이터 어노테이션 태스크는 K(K는 2 이상의 자연수) 개의 연관 조건에 관한 제2 입력 항목(20)을 포함한다. K 개의 연관 조건은 서로 다른 우선 순위를 갖고, 우선 순위에 따라 서로 다른 가중치를 갖는다. 따라서, 우선 순위가 가장 높은 연관 조건은 상대적으로 다른 연관 조건보다 가중치가 높다. 우선 순위가 높은 연관 조건은 다른 연관 조건 보다 후보 어노테이터가 상대적으로 선택하기 쉬운 연관 조건에 해당한다.The data annotation task for evaluation of the first task step includes a second input item 20 for K (K is a natural number of 2 or more) related conditions. The K association conditions have different priorities and different weights depending on the priority. Therefore, the association condition having the highest priority has a higher weight than other association conditions. An association condition having a higher priority corresponds to an association condition that a candidate annotator is relatively easier to select than other association conditions.

제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 K 개의 연관 조건 중 가장 우선 순위가 높은 연관 조건이 제외된 K-1 개의 연관 조건에 관한 제2 입력 항목(20)을 포함한다. 따라서, 태스크의 단계가 증가함에 따라 그 단계에서 가장 우순 순위가 높은 연관 조건이 제외된다.The data annotation task for evaluation of the second task step, which is the next step of the first task step, includes a second input item 20 for K-1 related conditions, excluding the highest priority related condition among the K related conditions. Includes. Therefore, as the step of the task increases, the association condition having the highest priority in the step is excluded.

제2 태스크 단계 이후의 태스크 단계도 상기와 유사한 방법으로 연관 조건 중 이전 단계에서 가장 우순 순위가 높은 연관 조건이 제외되어 제2 입력 항목(20)이 구성된다. 최종 태스크 단계에서는 우선 순위가 상대적으로 낮은 연관 조건으로 구성된다. 따라서, 최종 태스크 단계에서는 어노테이터가 입력하기 가장 어려운 연관 조건으로 구성된 평가용 어노테이션 태스크가 어노테이터에게 제공된다.In the task step after the second task step, the second input item 20 is configured by excluding the association condition having the highest priority in the previous step among the association conditions in a similar manner to the above. In the final task stage, it is composed of association conditions with relatively low priority. Therefore, in the final task step, the annotation task for evaluation, which is composed of the association conditions most difficult for the annotator to input, is provided to the annotator.

복수의 태스크 단계마다 후보 어노테이터의 태스크 단계 통과 여부를 결정한다. 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 미만이면 해당 태스크 단계를 통과하지 못하여 제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되지 않는다. 반면, 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 이상이면 해당 태스크 단계를 통과하여 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신된다.It is determined whether the candidate annotator passes the task step for each of the plurality of task steps. If the score for the result of performing the data annotation task for evaluation in the first task step is less than a predetermined reference score, the corresponding task step fails to pass, and the data annotation task for evaluation in the second task step, which is the next step in the first task step, is transmitted. Does not work. On the other hand, if the score for the result of the performance of the data annotation task for evaluation of the first task step is greater than or equal to a predetermined reference score, the data annotation task for evaluation of the second task step is transmitted through the corresponding task step.

후보 어노테이터가 최종 태스크 단계를 통과하면, 후보 어노테이터의 어노테이션 능력을 신뢰 가능으로 평가한다. 반면, 후보 어노테이터가 최종 태스크 단계 또는 최종 태스크 단계의 이전 단계에서 통과 실패하면, 후보 어노테이터의 어노테이션 능력을 신뢰 불가능으로 평가한다.When the candidate annotator passes the final task stage, the annotation ability of the candidate annotator is evaluated as reliable. On the other hand, if the candidate annotator fails to pass in the final task stage or the previous stage of the final task stage, the annotating ability of the candidate annotator is evaluated as unreliable.

관리자는 데이터 어노테이션 태스크의 성격에 따라 상술한 도 5의 방법 및 도 6의 방법 중 하나를 선택하여 후보 어노테이터의 어노테이션 능력을 평가한다. 예를 들어, 상술한 도 5의 방법 및 도 6의 방법은 본 발명의 데이터 어노테이션을 의뢰한 고객이 의뢰한 소스 데이터 세트의 양에 상응하여 결정될 수 있다. 예를 들어, 소스 데이터 세트의 양이 소정의 기준 미만인 경우 도 5의 방법을 이용하여 후보 어노테이터의 어노테이션 능력을 평가하고, 소스 데이터 세트의 양이 소정의 기준 이상인 경우 도 6의 방법을 이용하여 후보 어노테이터의 어노테이션 능력을 평가할 수 있다. According to the nature of the data annotation task, the manager selects one of the method of FIG. 5 and the method of FIG. 6 described above to evaluate the annotation ability of the candidate annotator. For example, the method of FIG. 5 and the method of FIG. 6 described above may be determined according to the amount of the source data set requested by the customer who requested the data annotation of the present invention. For example, when the amount of the source data set is less than a predetermined criterion, the annotation ability of the candidate annotator is evaluated using the method of FIG. 5, and when the amount of the source data set is greater than the predetermined criterion, the method of FIG. 6 is used. The annotator's ability to annotate can be assessed.

소스 데이터 세트의 양이 소정의 기준 미만인 경우, 관리자는 평가용 데이터 어노테이션 태스크의 양을 상대적으로 적게 만들 수밖에 없다. 반면, 소스 데이터 세트의 양이 소정의 기준 이상인 경우, 관리자는 평가용 데이터 어노테이션 태스크의 양을 상대적으로 많이 만들 수 있다. 평가용 데이터 어노테이션 태스크의 양이 적으면 어노테이션 능력을 평가하는 단계를 여러 단계로 구성하기 어렵기 때문에, 관리자는 후보 어노테이션가 모든 평가용 데이터 어노테이션 태스크를 수행한 후, 수행 결과에 대한 점수를 총합하여 후보 어노테이터를 평가할 수 있다. 반면, 평가용 데이터 어노테이션 태스크의 양이 많으면 어노테이션 능력을 평가하는 단계를 여러 단계로 구성하기 수월하기 때문에, 관리자는 여러 단계에 대해서 후보 어노테이터의 통과 여부를 결정하고, 최종 단계를 통과한 후보 어노테이터를 평가할 수 있다.When the amount of the source data set is less than a predetermined criterion, the administrator is forced to make the amount of data annotation tasks for evaluation relatively small. On the other hand, when the amount of the source data set is greater than or equal to a predetermined criterion, the administrator can make a relatively large amount of data annotation task for evaluation. If the amount of data annotation task for evaluation is small, it is difficult to configure the steps of evaluating the annotation ability in multiple steps, so the administrator performs candidates for all evaluation data annotation tasks, and then sums the scores for the results. Annotators can be evaluated. On the other hand, if the amount of data annotation task for evaluation is large, it is easy to configure the steps of evaluating the annotation ability in multiple steps, so the manager determines whether to pass the candidate annotator for several steps, and the candidate annotation that has passed the final step Data can be evaluated.

도 7은 하나의 연관 조건에 관한 입력 항목이 제외된 평가용 데이터 어노테이션 태스크의 작업 화면의 예시도이다.7 is an exemplary view of an operation screen of an evaluation data annotation task in which an input item related to one association condition is excluded.

도 7을 참조하면, 하나의 연관 조건이 제외된 평가용 데이터 어노테이션 태스크의 작업 화면을 설명하기 위해서 주어진 지문 상의 개체를 찾는 평가용 데이터 어노테이션의 작업 화면에 대한 예시를 설명한다. 도 7을 참조하면, 제2 입력 항목(20) 중 하나의 연관 조건이 제외된 평가용 데이터 어노테이션 태스크의 작업 화면이 도시된다. Referring to FIG. 7, an example of an operation screen of an evaluation data annotation for finding an object on a given fingerprint will be described to describe an operation screen of an evaluation data annotation task in which one association condition is excluded. Referring to FIG. 7, a work screen of an evaluation data annotation task in which an association condition of one of the second input items 20 is excluded is illustrated.

도 6에서 상술한 바와 같이 후보 어노테이터가 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 이상인 경우, 제2 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행을 하는데, 도 7의 평가용 데이터 어노테이션 태스크는 제2 태스크 단계의 하나의 연관 조건이 제외된 평가용 데이터 어노테이션 태스크의 작업 화면을 보여준다. 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 제2 입력 항목(20)의 연관 조건 중 일부를 제외할 수 있다. 개체의 대표적인 유형에 관한 선택을 하는 연관 조건(21)이 고유명사 정도에 관한 선택을 하는 연관 조건(22)보다 상대적으로 우선 순위가 높기 때문에 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 개체의 대표적인 유형에 관한 선택을 하는 연관 조건(21)이 제외되고, 고유명사 정도에 관한 선택을 하는 연관 조건(22)만으로 제2 입력 항목(20)이 구성된다.As described above with reference to FIG. 6, when the candidate annotator has a score for a result of performing the data annotation task for evaluation in the first task step equal to or greater than a predetermined reference score, the data annotation task for evaluation in the second task step is performed. The data annotation task for evaluation in FIG. 7 shows a work screen of the data annotation task for evaluation in which one related condition of the second task step is excluded. The data annotation task for evaluation of the second task step may exclude some of the association conditions of the second input item 20. Since the association condition (21) for selecting a representative type of object has a higher priority than the association condition (22) for selecting a proper noun degree, the data annotation task for evaluation in the second task step is representative of the object. The second input item 20 is configured only by the association condition 21 for selecting the degree of proper noun, except for the association condition 21 for selecting the type.

도 8은 실전용 데이터 어노테이션 태스크의 예시도이다.8 is an exemplary diagram of a practical data annotation task.

도 8를 참조하면, 실전용 데이터 어노테이션 태스크를 설명하기 위해서 주어진 지문에서 개체를 찾는 데이터 어노테이션 태스크의 작업 화면에 대한 예시를 설명한다. 도 8를 참조하면, 실전용 데이터 어노테이션 태스크는 제1 입력 항목(10)을 포함하고, 제2 입력 항목(20)을 포함하지 않는다.Referring to FIG. 8, an example of a work screen of a data annotation task for finding an object in a given fingerprint will be described to describe a practical data annotation task. Referring to FIG. 8, the dedicated data annotation task includes the first input item 10 and does not include the second input item 20.

실전용 데이터 어노테이션 태스크는 제2 입력 항목(20)이 포함되지 않고, 제1 입력 항목(10)으로만 구성된다. 실전 어노테이터는 해당 데이터 어노테이션에 숙련된 사람이기 때문에 제2 입력 항목(20)의 연관 조건이 없어도 제1 입력 항목(10)의 지문만을 보고도 개체가 무엇인지 인지하고 개체 찾기를 수행할 수 있다. 실전 어노테이터는 제1 입력 항목(10)의 데이터 어노테이션의 문제(11) 및 하이라이트 키워드(12)에 대해서 평가용 데이터 어노테이션 태스크와 동일한 방법으로 개체를 태깅하는 실전용 데이터 어노테이션 태스크의 수행을 한다.The practical data annotation task does not include the second input item 20, and is composed of only the first input item 10. Since the actual annotator is a person skilled in the corresponding data annotation, even if there is no related condition of the second input item 20, even by looking at the fingerprint of the first input item 10, it is possible to recognize what the object is and perform object search. . The actual annotator performs an actual data annotation task for tagging an object in the same manner as the data annotation task for evaluation on the problem 11 and the highlight keyword 12 of the data annotation of the first input item 10.

도 9는 본 발명의 또 다른 실시예에 따른 연관 조건을 이용한 어노테이터를 선별하는 장치의 구성도이다.9 is a block diagram of an apparatus for selecting an annotator using associated conditions according to another embodiment of the present invention.

도 9를 참조하면, 연관 조건을 이용한 어노테이터를 선별하는 장치(200)는, 송신부(210), 수신부(220), 평가부(230) 및 선별부(240)를 포함한다. 복수의 작업자(300)는 연관 조건을 이용한 어노테이터를 선별하는 장치와 유무선 통신을 이용하여, 데이터 어노테이션을 수행한다.Referring to FIG. 9, an apparatus 200 for selecting an annotator using an association condition includes a transmitter 210, a receiver 220, an evaluation unit 230, and a selector 240. The plurality of workers 300 performs data annotation using a wired/wireless communication and a device for selecting an annotator using the associated conditions.

도 9를 참조하면, 연관 조건을 이용한 어노테이터를 선별하는 장치(200)의 구성요소는 도 1 내지 도 8를 참조하여 설명한 방법의 각각의 구성요소에 상응한다. 이하 장치의 각 구성요소의 기능 또는 동작을 설명함에 있어서 중복된 설명은 생략한다.Referring to FIG. 9, components of the apparatus 200 for selecting an annotators using associated conditions correspond to respective components of the method described with reference to FIGS. 1 to 8. Hereinafter, descriptions of functions or operations of each component of the apparatus will be omitted.

송신부(210)는 데이터 어노테이션에 관한 제1 입력 항목(10) 및 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목(20)을 포함하는 하나 이상의 평가용 데이터 어노테이션 태스크를 하나 이상의 후보 어노테이터의 단말기에 송신한다.The transmitter 210 may include one or more candidate data annotation tasks for one or more evaluation data annotation tasks including a first input item 10 for data annotation and a second input item 20 for one or more related conditions corresponding to the data annotation. Send to the data terminal.

또한, 송신부(210)는 하나 이상의 실전 어노테이터의 단말기에 하나 이상의 실전용 데이터 어노테이션 태스크를 송신한다.Further, the transmitter 210 transmits one or more dedicated data annotation tasks to the terminals of the one or more actual annotators.

수신부(220)는 하나 이상의 후보 어노테이이터에 의한 평가용 데이터 어노테이션 태스크의 수행 결과를 하나 이상의 후보 어노테이터의 단말기로부터 수신한다.The receiving unit 220 receives a result of performing the data annotation task for evaluation by one or more candidate annotators from the terminals of the one or more candidate annotators.

또한, 수신부(220)는 하나 이상의 실전 어노테이터에 의한 실전용 데이터 어노테이션 태스크의 수행 결과를 실전 어노테이터의 단말기로부터 수신한다.In addition, the receiving unit 220 receives the result of performing the data annotation task for dedicated use by one or more actual annotators from the terminal of the actual annotator.

평가부(230)는 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 후보 어노테이터의 어노테이션 능력을 평가한다.The evaluation unit 230 evaluates the annotation ability of the candidate annotator by using the result of performing the evaluation data annotation task.

선별부(240)는 후보 어노테이터의 어노테이션 능력의 평가 결과를 이용하여, 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별한다.The sorting unit 240 selects one or more actual annotators from one or more candidate annotators using the evaluation result of the annotating ability of the candidate annotators.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.The steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, a software module executed by hardware, or a combination thereof. The software modules may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer readable recording medium well known in the art.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다. The embodiments of the present invention have been described above with reference to the accompanying drawings, but those skilled in the art to which the present invention pertains may be implemented in other specific forms without changing the technical spirit or essential features of the present invention. You will understand. Therefore, it should be understood that the above-described embodiments are illustrative in all respects and not restrictive.

210 : 송신부
220 : 수신부
230 : 평가부
240 : 선별부
210: transmitting unit
220: receiver
230: evaluation unit
240: selector

Claims (10)

컴퓨터에 의해 수행되는 방법으로서, 실전용 데이터 어노테이션 태스크를 송신하기 전에,
데이터 어노테이션(Annotation)에 관한 제1 입력 항목 및 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목을 포함하는 하나 이상의 평가용 데이터 어노테이션 태스크를 하나 이상의 후보 어노테이터(Annotator)의 단말기에 송신하는 단계;
상기 하나 이상의 후보 어노테이이터에 의한 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 상기 하나 이상의 후보 어노테이터의 단말기로부터 수신하는 단계;
상기 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계; 및
상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 단계를 포함하고,
상기 하나 이상의 연관 조건은,
서로 다른 우선 순위를 갖고, 상기 후보 어노테이터의 어노테이션 능력의 평가 시 상기 우선 순위에 따른 서로 다른 가중치를 갖고,
상기 하나 이상의 평가용 데이터 어노테이션 태스크가 복수의 태스크 단계로 구분되고, 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 미만이면 통과 실패로서 상기 제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되지 않으며, 상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 상기 소정의 기준 점수 이상이면 통과로서 상기 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되며,
상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크는 K(K는 2 이상의 자연수) 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함하고, 상기 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 상기 K 개의 연관 조건 중 가장 우선 순위가 높은 연관 조건이 제외된 K-1 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함하는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
As a method performed by a computer, before transmitting a data annotation task for real use,
One or more evaluation data annotation tasks, including a first input item related to data annotation and a second input item related to one or more related conditions corresponding to the data annotation, are provided to terminals of one or more candidate annotators. Transmitting;
Receiving a result of performing the data annotation task for evaluation by the one or more candidate annotators from a terminal of the one or more candidate annotators;
Evaluating an annotation capability of the candidate annotator using a result of performing the evaluation data annotation task; And
Using the evaluation result, selecting one or more actual annotators from the one or more candidate annotators,
The one or more associated conditions,
Has different priorities, has different weights according to the priorities when evaluating the annotation ability of the candidate annotator,
If the one or more data annotation tasks for evaluation are divided into a plurality of task steps, and the score for the result of the performance of the data annotation task for evaluation in the first task step is less than a predetermined reference score, as a failure to pass, it is the next of the first task step. If the data annotation task for evaluation of the second task step, which is the step, is not transmitted, and the score for the result of the performance of the data annotation task for evaluation of the first task step is greater than or equal to the predetermined reference score, the second task step passes as a pass. The data annotation task for evaluation is sent,
The data annotation task for evaluation of the first task step includes the second input items related to the K (K is a natural number of 2 or more), and the data annotation task for evaluation of the second task step is the K pieces Including the second input items related to the K-1 of the association conditions, the association conditions having the highest priority among association conditions are excluded,
Method of selecting an annotator using related conditions.
제1 항에 있어서,
사전 준비된 모든 상기 평가용 데이터 어노테이션 태스크가 상기 후보 어노테이터의 단말기에 송신되고,
상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계는,
상기 후보 어노테이터에 대해서, 상기 사전 준비된 모든 상기 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수를 총합하여 산출하고, 상기 점수가 소정의 기준 점수 미만이면 상기 후보 어노테이터의 어노테이션 능력을 신뢰 불가능으로 평가하고, 상기 점수가 상기 소정의 기준 점수 이상이면 상기 후보 어노테이터의 어노테이션 능력을 신뢰 가능으로 평가하는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
According to claim 1,
All the pre-prepared data annotation tasks for evaluation are transmitted to the terminal of the candidate annotator,
The step of evaluating the annotation ability of the candidate annotator is:
For the candidate annotator, the scores for the results of all the pre-prepared data annotation tasks for evaluation are calculated and summed, and if the score is less than a predetermined reference score, the annotation ability of the candidate annotator is evaluated as unreliable. And if the score is greater than or equal to the predetermined reference score, evaluate the annotation ability of the candidate annotator reliably.
Method of selecting an annotator using related conditions.
제1 항에 있어서,
상기 후보 어노테이터의 어노테이션 능력을 평가하는 단계는,
상기 후보 어노테이터에 대해서, 최종 태스크 단계를 통과하면, 상기 후보 어노테이터의 어노테이션 능력을 신뢰 가능으로 평가하고, 상기 최종 태스크 단계 또는 상기 최종 태스크 단계의 이전 단계에서 통과 실패하면, 상기 후보 어노테이터의 어노테이션 능력을 신뢰 불가능으로 평가하는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
According to claim 1,
The step of evaluating the annotation ability of the candidate annotator is:
For the candidate annotator, if the final task step passes, the annotation ability of the candidate annotator is reliably evaluated, and if the final task step or the previous step of the final task step fails, the candidate annotator Assessing an annotation ability as unreliable,
Method of selecting an annotator using related conditions.
삭제delete 제1 항에 있어서,
상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 단계는,
상기 평가 결과에 따라 상기 어노테이션 능력이 신뢰 가능으로 평가된 상기 후보 어노테이터만을 상기 실전 어노테이터로 선별하고, 상기 어노테이션 능력이 신뢰 불가능으로 평가된 상기 후보 어노테이터는 상기 실전 어노테이터로 선별하지 않는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
According to claim 1,
Using the evaluation result, selecting one or more actual annotators from the one or more candidate annotators may include:
According to the evaluation result, only the candidate annotator whose reliability is evaluated as reliable is selected as the actual annotator, and the candidate annotator whose annotation ability is evaluated as unreliable is not selected as the actual annotator,
Method of selecting an annotator using related conditions.
제1 항에 있어서,
하나 이상의 실전 어노테이터의 단말기에 하나 이상의 실전용 데이터 어노테이션 태스크를 송신하는 단계; 및
상기 하나 이상의 실전 어노테이터에 의한 상기 실전용 데이터 어노테이션 태스크의 수행 결과를 상기 실전 어노테이터의 단말기로부터 수신하는 단계를 더 포함하고,
상기 실전용 데이터 어노테이션 태스크는,
데이터 어노테이션에 관한 제1 입력 항목을 포함하고, 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목은 포함하지 않는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
According to claim 1,
Transmitting one or more dedicated data annotation tasks to a terminal of the one or more actual annotators; And
Further comprising the step of receiving from the terminal of the actual annotator, the result of performing the data annotation task for dedicated use by the one or more actual annotators,
The practical data annotation task,
A first input item related to data annotation, and a second input item related to one or more associated conditions corresponding to the data annotation is not included,
Method of selecting an annotator using related conditions.
제6 항에 있어서,
상기 하나 이상의 평가용 데이터 어노테이션 태스크는 데이터 어노테이션이 요청된 로우(Raw) 상태의 소스 데이터 세트의 일부에 기초하여 생성되고, 상기 하나 이상의 실전용 데이터 어노테이션 태스크는 상기 소스 데이터 세트의 다른 일부에 기초하여 생성되는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
The method of claim 6,
The one or more data annotation tasks for evaluation are generated based on a part of a raw data set in a raw state in which data annotation is requested, and the one or more dedicated data annotation tasks are based on another part of the source data set. Generated,
Method of selecting an annotator using related conditions.
제1 항에 있어서,
상기 실전용 데이터 어노테이션 태스크의 수행 결과에 대한 목표 신뢰도가 정의되고,
상기 하나 이상의 연관 조건의 개수는 상기 목표 신뢰도에 상응하여 결정되는,
연관 조건을 이용한 어노테이터를 선별하는 방법.
According to claim 1,
Target reliability is defined for the performance result of the practical data annotation task,
The number of the one or more association conditions is determined corresponding to the target reliability,
Method of selecting an annotator using related conditions.
데이터 어노테이션에 관한 제1 입력 항목 및 상기 데이터 어노테이션에 상응하는 하나 이상의 연관 조건에 관한 제2 입력 항목을 포함하는 하나 이상의 평가용 데이터 어노테이션(Annotation) 태스크를 하나 이상의 후보 어노테이터(Annotator)의 단말기에 송신하는 송신부;
상기 하나 이상의 후보 어노테이이터에 의한 상기 평가용 데이터 어노테이션 태스크의 수행 결과를 상기 하나 이상의 후보 어노테이터의 단말기로부터 수신하는 수신부;
상기 평가용 데이터 어노테이션 태스크의 수행 결과를 이용하여, 상기 후보 어노테이터의 어노테이션 능력을 평가하는 평가부; 및
상기 평가 결과를 이용하여, 상기 하나 이상의 후보 어노테이터 중에서 하나 이상의 실전 어노테이터를 선별하는 선별부를 포함하고,
상기 하나 이상의 연관 조건은,
서로 다른 우선 순위를 갖고, 상기 후보 어노테이터의 어노테이션 능력의 평가 시 상기 우선 순위에 따른 서로 다른 가중치를 갖고,
상기 하나 이상의 평가용 데이터 어노테이션 태스크가 복수의 태스크 단계로 구분되고, 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 소정의 기준 점수 미만이면 통과 실패로서 상기 제1 태스크 단계의 다음 단계인 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되지 않으며, 상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크의 수행 결과에 대한 점수가 상기 소정의 기준 점수 이상이면 통과로서 상기 제2 태스크 단계의 평가용 데이터 어노테이션 태스크가 송신되며,
상기 제1 태스크 단계의 평가용 데이터 어노테이션 태스크는 K(K는 2 이상의 자연수) 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함하고, 상기 제2 태스크 단계의 평가용 데이터 어노테이션 태스크는 상기 K 개의 연관 조건 중 가장 우선 순위가 높은 연관 조건이 제외된 K-1 개의 상기 연관 조건에 관한 상기 제2 입력 항목을 포함하는,
연관 조건을 이용한 어노테이터를 선별하는 장치.
One or more evaluation data annotation tasks including a first input item related to data annotation and a second input item related to one or more related conditions corresponding to the data annotation are provided to a terminal of one or more candidate annotators. A transmitter for transmitting;
A receiving unit receiving a result of performing the evaluation data annotation task by the one or more candidate annotators from the terminals of the one or more candidate annotators;
An evaluation unit evaluating an annotation capability of the candidate annotator using a result of performing the evaluation data annotation task; And
Using the evaluation result, and includes a selection unit for selecting one or more actual annotators from the one or more candidate annotators,
The one or more associated conditions,
Has different priorities, has different weights according to the priorities when evaluating the annotation ability of the candidate annotator,
If the one or more data annotation tasks for evaluation are divided into a plurality of task steps, and the score for the result of the performance of the data annotation task for evaluation in the first task step is less than a predetermined reference score, as a failure to pass, next to the first task step If the data annotation task for evaluation of the second task step, which is the step, is not transmitted, and the score for the result of performing the data annotation task for evaluation of the first task step is greater than or equal to the predetermined reference score, the second task step passes as a pass. The data annotation task for evaluation is sent,
The data annotation task for evaluation in the first task step includes the second input items related to the K (K is a natural number of 2 or more), and the data annotation task for evaluation in the second task step is the K pieces Including the second input items related to the K-1 of the association conditions, the association conditions having the highest priority among the association conditions are excluded,
Apparatus for screening annotators using associated conditions.
컴퓨터와 결합하여, 제1 항 내지 제3 항, 제5 항 내지 제8 항 중 어느 하나의 항의 연관 조건을 이용한 어노테이터를 선별하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer-readable recording medium in combination with a computer to execute a method of selecting an annotator using the related conditions of any one of claims 1 to 3, 5 to 8.
KR1020190009278A 2019-01-24 2019-01-24 Method for selecting annotators using associated requirements and apparatus thereof KR102138573B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190009278A KR102138573B1 (en) 2019-01-24 2019-01-24 Method for selecting annotators using associated requirements and apparatus thereof
PCT/KR2020/000986 WO2020153698A1 (en) 2019-01-24 2020-01-21 Method and device for selecting annotator by using association condition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190009278A KR102138573B1 (en) 2019-01-24 2019-01-24 Method for selecting annotators using associated requirements and apparatus thereof

Publications (1)

Publication Number Publication Date
KR102138573B1 true KR102138573B1 (en) 2020-07-28

Family

ID=71735385

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190009278A KR102138573B1 (en) 2019-01-24 2019-01-24 Method for selecting annotators using associated requirements and apparatus thereof

Country Status (2)

Country Link
KR (1) KR102138573B1 (en)
WO (1) WO2020153698A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241910A (en) * 2006-03-13 2007-09-20 National Institute Of Information & Communication Technology Device and method for evaluating mechanical translation
KR20140066921A (en) * 2012-11-23 2014-06-03 삼성전자주식회사 Apparatus and method for evaluating machine translation
KR20140095956A (en) 2013-01-25 2014-08-04 한국전자통신연구원 Method and system for generating image-knowledge contents based on crowdsourcing
JP2015200985A (en) * 2014-04-04 2015-11-12 Kddi株式会社 Skill evaluation device for evaluating operator skill in cloud sourcing, program, and method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100697658B1 (en) * 2005-05-09 2007-03-20 주식회사 이디스넷 System for testing personal capability via communication network
KR101811211B1 (en) * 2016-12-30 2017-12-21 (주)씽크포비엘 Method and apparatus for usability test based on big data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241910A (en) * 2006-03-13 2007-09-20 National Institute Of Information & Communication Technology Device and method for evaluating mechanical translation
KR20140066921A (en) * 2012-11-23 2014-06-03 삼성전자주식회사 Apparatus and method for evaluating machine translation
KR20140095956A (en) 2013-01-25 2014-08-04 한국전자통신연구원 Method and system for generating image-knowledge contents based on crowdsourcing
JP2015200985A (en) * 2014-04-04 2015-11-12 Kddi株式会社 Skill evaluation device for evaluating operator skill in cloud sourcing, program, and method

Also Published As

Publication number Publication date
WO2020153698A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
US11615341B2 (en) Customizable machine learning models
US20150261859A1 (en) Answer Confidence Output Mechanism for Question and Answer Systems
CN111651676B (en) Method, device, equipment and medium for performing occupation recommendation based on capability model
WO2014169288A1 (en) Evaluation control
KR102232866B1 (en) Method for distributing functional element unit work of crowdsourcing based project for artificial intelligence training data generation
CN111090809A (en) Topic recommendation method and device, computer equipment and storage medium
KR100553943B1 (en) A method for determining a specialist in a field on-line and a system for enabling the method
WO2021104387A1 (en) Method for automatically identifying valid data acquisition module and system
US10803764B2 (en) Methods and systems for teaching playbook content and testing knowledge of the same
Costa et al. Recommending participants for collaborative merge sessions
Cakmak et al. Strategic planning practices of contractor firms in Turkey
US20220084151A1 (en) System and method for determining rank
KR102138573B1 (en) Method for selecting annotators using associated requirements and apparatus thereof
CN113158022A (en) Service recommendation method, device, server and storage medium
Savage et al. The road to the top: A qualitative comparative analysis of mobility in the elite labor market of college basketball coaching
US20180046931A1 (en) Method and Apparatus for Quantitatively Ranking Possible Outcome Scenarios for Issues Involving Multiple Stakeholders
Sykamiotis et al. Extraction and presentation of access and usage data from an e-learning platform (moodle): Design and development of a software application
US9355373B2 (en) Outlier detection tool
JP4176691B2 (en) Problem creation program and problem creation device
Saha et al. Which Programming Language and Platform Developers Prefer for the Development? A Study Using Stack Overflow
CN111553555A (en) Training method, training device, computer equipment and storage medium
KR102297047B1 (en) Method and system for diagnosing Workplace Learning Agility of Knowledge Workers
Moreno-Ger et al. Machine Learning and Student Activity to Predict Academic Grades in Online Settings in Latam
Vargas et al. Influential factors in the desertion of electronic engineering students from UPTC admitted in 2015
Gadelha An approach for traceability recovery between bug reports and test cases.

Legal Events

Date Code Title Description
GRNT Written decision to grant