KR102245896B1 - Annotation data verification method based on artificial intelligence model and system therefore - Google Patents

Annotation data verification method based on artificial intelligence model and system therefore Download PDF

Info

Publication number
KR102245896B1
KR102245896B1 KR1020200169752A KR20200169752A KR102245896B1 KR 102245896 B1 KR102245896 B1 KR 102245896B1 KR 1020200169752 A KR1020200169752 A KR 1020200169752A KR 20200169752 A KR20200169752 A KR 20200169752A KR 102245896 B1 KR102245896 B1 KR 102245896B1
Authority
KR
South Korea
Prior art keywords
annotation data
annotation
artificial intelligence
verification
error
Prior art date
Application number
KR1020200169752A
Other languages
Korean (ko)
Inventor
이동우
이상엽
한성욱
황보성우
Original Assignee
지티원 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지티원 주식회사 filed Critical 지티원 주식회사
Priority to KR1020200169752A priority Critical patent/KR102245896B1/en
Application granted granted Critical
Publication of KR102245896B1 publication Critical patent/KR102245896B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

Disclosed are an annotation data verification method based on an artificial intelligence model and a system thereof. The annotation data verification method according to an embodiment of the present invention comprises: a step of selecting a preset number of annotation data for verification from among annotation data of a population; a step of detecting an annotation error image from the annotation data for verification by using each of a plurality of pre-trained artificial intelligence models; a step of determining any one artificial intelligence model from the artificial intelligence models using the number of the annotation error images detected by each of the artificial intelligence models and the number of ground-truth annotation error images of the annotation data for verification; and a step of detecting an annotation error image from the annotation data of the population by using the determined artificial intelligence model. Accordingly, the quality of annotation data can be improved.

Description

인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템 {Annotation data verification method based on artificial intelligence model and system therefore}Annotation data verification method based on artificial intelligence model and system therefore}

본 발명은 인공 지능 모형 기반의 어노테이션 데이터 검증 기술에 관한 것으로, 보다 구체적으로는 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 어노테이션 데이터의 품질을 개선시킬 수 있는 어노테이션 데이터 검증 방법 및 그 시스템에 관한 것이다. The present invention relates to an annotation data verification technology based on an artificial intelligence model, and more specifically, to an annotation data verification method and system capable of improving the quality of annotation data by verifying the annotation data based on an artificial intelligence model. .

근래에 들어 딥 러닝은 얼굴 인식, 전신 인식, 자세 인식, 음성 인식, 객체 인식, 데이터 마이닝 등 다양한 인식에 적용되고 있다. 특히, 영상으로부터 특정 객체를 인식하는 객체 인식과 딥 러닝 학습 네트워크를 접목시키는 연구는 다양한 방식으로 활발히 이루어지고 있다.In recent years, deep learning has been applied to various recognitions such as face recognition, full body recognition, posture recognition, voice recognition, object recognition, and data mining. In particular, researches on combining deep learning learning networks with object recognition that recognize specific objects from images are being actively conducted in various ways.

인공 지능을 학습 하기 위해서는 이미지(또는 데이터)를 수집하며, 수집된 이미지에 대한 어노테이션(annotation) 작업을 수행하고, 어노테이션된 이미지를 이용하여 학습을 진행하는데, 종래 어노테이션을 생성하는 과정은 컴퓨터를 이용하여 학습에 사용되는 이미지를 로딩하고, 로딩된 이미지에서 마우스 등으로 블록을 지정하여 지정된 블록에 대한 어노테이션을 생성한다.To learn artificial intelligence, images (or data) are collected, annotations are performed on the collected images, and learning is conducted using annotated images. Then, the image used for learning is loaded, and an annotation for the designated block is generated by designating a block with a mouse or the like in the loaded image.

하지만, 종래 기술은 어노테이션을 생성하기 위한 해당 사용자가 모든 이미지들 각각에 대한 어노테이션 작업을 수행하기 때문에 시간과 비용이 많이 들고, 사용자에 의해 어노테이션된 데이터에 대한 품질은 결국 다시 사람이 재확인하여 품질 오류를 찾아내고 수정 및 개선할 수 밖에는 없기 때문에 많은 리소스가 검증 작업에 소요된다.However, in the prior art, since the corresponding user for generating the annotation performs an annotation on each of all images, it is time-consuming and expensive, and the quality of the data annotated by the user is eventually reconfirmed by a person, resulting in a quality error. Since there is no choice but to find, correct, and improve, a lot of resources are spent on verification.

본 발명의 실시예들은, 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 어노테이션 데이터의 품질을 개선시킬 수 있는 어노테이션 데이터 검증 방법 및 그 시스템을 제공한다. Embodiments of the present invention provide an annotation data verification method and system capable of improving the quality of annotation data by verifying annotation data based on an artificial intelligence model.

본 발명의 일 실시예에 따른 어노테이션 데이터 검증 방법은 모집단의 어노테이션 데이터 중 미리 설정된 개수의 검증용 어노테이션 데이터를 선택하는 단계; 미리 학습된 복수의 인공지능 모형들 각각을 이용하여 상기 검증용 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계; 상기 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 상기 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 상기 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정하는 단계; 및 상기 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계를 포함한다.An annotation data verification method according to an embodiment of the present invention includes: selecting a preset number of annotation data for verification among annotation data of a population; Detecting an annotation error image from the verification annotation data using each of a plurality of pre-learned artificial intelligence models; Using the number of annotation error images detected by each of the plurality of artificial intelligence models and the number of ground-truth annotation error images of the verification annotation data, one of the plurality of artificial intelligence models Determining an intelligence model; And detecting an annotation error image from the annotation data of the population by using the determined artificial intelligence model.

상기 선택하는 단계는 상기 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 상기 모집단의 어노테이션 데이터에서 상기 검증용 어노테이션 데이터를 선택할 수 있다.In the selecting step, the annotation data for verification may be selected from the population's annotation data so that a feature distribution including a level of difficulty in identification for each object and a distribution of the number of objects for each image is maintained with respect to the annotation data of the population.

나아가, 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 방법은 상기 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 데이터의 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 상기 모집단의 어노테이션 데이터에 대한 품질을 추정하는 단계를 더 포함할 수 있다.Further, the annotation data verification method according to an embodiment of the present invention is based on a quality measurement result including a false positive rate, a non-detection rate, an error rate and an accuracy score for each object of the ground-truth annotation data for the verification annotation data. It may further include the step of estimating the quality of the annotation data of the population based on.

상기 결정하는 단계는 상기 복수의 인공지능 모형들 중 객체별로 적용되는 인공지능 모형을 각각 결정하고, 상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계는 상기 객체별로 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 상기 어노테이션 에러 이미지를 검출할 수 있다.In the determining step, each of the plurality of artificial intelligence models, which is applied to each object, is determined, and the step of detecting an annotation error image from the annotation data of the population is performed by using the artificial intelligence model determined for each object. The annotation error image may be detected from the population's annotation data.

상기 검출하는 단계는 상기 객체별로 결정된 인공지능 모형을 이용하여 예측된 객체별 박스와 상기 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU(Intersection over Union) 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 상기 예측된 오류 포함 수준을 통해 상기 어노테이션 에러 이미지를 검출할 수 있다.In the detecting step, an object box that is less than a preset reference Intersection over Union (IoU) is compared with a box for each object predicted using an artificial intelligence model determined for each object and a box for each object in the annotation data of the population as an error. By determining, an error inclusion level for each image may be predicted, and the annotation error image may be detected through the predicted error inclusion level.

본 발명의 일 실시예에 따른 어노테이션 데이터 검증 시스템은 모집단의 어노테이션 데이터 중 미리 설정된 개수의 검증용 어노테이션 데이터를 선택하는 선택부; 미리 학습된 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 상기 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 상기 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정하는 결정부; 및 상기 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 검출부를 포함한다.An annotation data verification system according to an embodiment of the present invention includes: a selection unit for selecting a preset number of annotation data for verification among annotation data of a population; Any one of the plurality of artificial intelligence models using the number of annotation error images detected by each of a plurality of pre-learned artificial intelligence models and the number of ground-truth annotation error images of the verification annotation data A decision unit that determines the artificial intelligence model of the model; And a detection unit for detecting an annotation error image from the annotation data of the population by using the determined artificial intelligence model.

상기 선택부는 상기 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 상기 모집단의 어노테이션 데이터에서 상기 검증용 어노테이션 데이터를 선택할 수 있다.The selection unit may select the annotation data for verification from the population's annotation data so that a feature distribution including a level of difficulty in identification for each object and a distribution of the number of objects for each image is maintained with respect to the annotation data of the population.

나아가, 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 시스템은 상기 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 데이터의 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 상기 모집단의 어노테이션 데이터에 대한 품질을 추정하는 추정부를 더 포함할 수 있다.Further, the annotation data verification system according to an embodiment of the present invention is based on a quality measurement result including a false positive rate, an undetected rate, an error rate and an accuracy score for each object of the ground-truth annotation data for the verification annotation data. It may further include an estimation unit for estimating the quality of the annotation data of the population on the basis of.

상기 결정부는 상기 복수의 인공지능 모형들 중 객체별로 적용되는 인공지능 모형을 각각 결정하고, 상기 검출부는 상기 객체별로 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 상기 어노테이션 에러 이미지를 검출할 수 있다.The determination unit may each determine an artificial intelligence model applied for each object among the plurality of artificial intelligence models, and the detection unit may detect the annotation error image from the annotation data of the population using the artificial intelligence model determined for each object. have.

상기 검출부는 상기 객체별로 결정된 인공지능 모형을 이용하여 예측된 객체별 박스와 상기 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU(Intersection over Union) 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 상기 예측된 오류 포함 수준을 통해 상기 어노테이션 에러 이미지를 검출할 수 있다.The detection unit compares the box for each object predicted using the artificial intelligence model determined for each object and the box for each object in the annotation data of the population, and determines an object box less than a preset reference Intersection over Union (IoU) as an error. , It is possible to predict an error inclusion level for each image, and detect the annotation error image through the predicted error inclusion level.

본 발명의 실시예들에 따르면, 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 어노테이션 데이터의 품질을 개선시킬 수 있다.According to embodiments of the present invention, quality of annotation data may be improved by verifying annotation data based on an artificial intelligence model.

본 발명의 실시예들에 따르면, 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 기존에 작업하는 임의의 대상 선택을 통한 품질 개선에 비해서 개선 목표에 대한 정량화(투입 리소스 및 비용 계산)가 가능해지며, 투입 비용 대비 효율적인 어노테이션 데이터 품질 개선 작업을 수행 할 수 있다. According to embodiments of the present invention, by verifying the annotation data based on an artificial intelligence model, it is possible to quantify the improvement target (input resource and cost calculation) compared to the quality improvement through the selection of an existing object to be worked on, It is possible to perform an effective annotation data quality improvement task compared to the input cost.

본 발명의 실시예들에 따르면, 많은 오류를 포함한 대상 즉 이미지를 먼저 품질 개선을 하게 되므로 전체적인 데이터 품질 개선 작업의 효율성 높일 수 있다.According to embodiments of the present invention, quality improvement of an object including a large number of errors, that is, an image, is performed first, so that the efficiency of the overall data quality improvement operation can be improved.

도 1은 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 방법을 설명하기 위한 일 예시도를 나타낸 것이다.
도 2는 검증용 어노테이션 데이터를 이용한 품질 추정 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 검증용 어노테이션 데이터의 실측 품질 측정 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 4와 도 5는 인공지능 모형을 결정하는 과정을 설명하기 위한 예시도들을 나타낸 것이다.
도 6은 모집단의 어노테이션 데이터에서 최종 품질 검증용 데이터를 선정하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 시스템에 대한 구성을 나타낸 것이다.
1 shows an exemplary diagram for explaining an annotation data verification method according to an embodiment of the present invention.
2 shows an exemplary diagram for explaining a quality estimation process using annotation data for verification.
3 shows an exemplary diagram for explaining a process of measuring the quality of the actual measurement of the annotation data for verification.
4 and 5 show exemplary diagrams for explaining a process of determining an artificial intelligence model.
6 shows an exemplary diagram for explaining a process of selecting final quality verification data from an annotation data of a population.
7 shows the configuration of an annotation data verification system according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in a variety of different forms, only the present embodiments are intended to complete the disclosure of the present invention, and common knowledge in the technical field to which the present invention pertains. It is provided to completely inform the scope of the invention to those who have, and the invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.The terms used in the present specification are for describing exemplary embodiments, and are not intended to limit the present invention. In this specification, the singular form also includes the plural form unless specifically stated in the phrase. As used herein, "comprises" and/or "comprising" refers to the presence of one or more other components, steps, actions and/or elements in which the recited component, step, operation and/or element is Or does not preclude additions.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used with meanings that can be commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not interpreted ideally or excessively unless explicitly defined specifically.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. The same reference numerals are used for the same elements in the drawings, and duplicate descriptions for the same elements are omitted.

본 발명의 실시예들은, 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 어노테이션 데이터의 품질을 개선시키는 것을 그 요지로 한다.Embodiments of the present invention make it a gist to improve the quality of annotation data by verifying annotation data based on an artificial intelligence model.

도 1은 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 방법을 설명하기 위한 일 예시도를 나타낸 것이다.1 shows an exemplary diagram for explaining an annotation data verification method according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 방법은 전체 어노테이션 데이터 즉, 모집단의 어노테이션 데이터에서 인공지능 모형들 각각의 성능을 평가하고 선정하기 위한 검증용 어노테이션 데이터를 선택(또는 선정)하고, 선택된 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 품질 측정과 실측 어노테이션 품질 측정을 통한 모집단의 품질을 추정하는 제1 단계, 미리 학습된 복수의 인공지능 모형들 각각을 이용하여 제1 단계에서 선택된 검증용 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하고, 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정하는 제2 단계 및 제2 단계에서 결정된 인공지능 모형을 이용하여 모집단의 어노테이션 데이터에서 최종 어노테이션 에러 이미지를 검출하는 제3 단계를 포함한다.1, the annotation data verification method according to an embodiment of the present invention selects verification annotation data for evaluating and selecting the performance of each of the artificial intelligence models from the entire annotation data, that is, the annotation data of the population (or Selection), and the first step of estimating the quality of the population through ground-truth annotation quality measurement and measurement of the selected annotation data for verification, using each of a plurality of pre-learned artificial intelligence models. An annotation error image is detected from the verification annotation data selected in the first step, and the number of annotation error images detected by each of the plurality of artificial intelligence models and the number of ground-truth annotation error images of the verification annotation data A third step of detecting the final annotation error image from the population's annotation data using the second step of determining any one of the plurality of AI models and the AI model determined in the second step. Includes.

제1 단계는 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 모집단의 어노테이션 데이터에서 검증용 어노테이션 데이터를 선택할 수 있으며, 검증용 어노테이션 데이터에 대한 실측 측정을 통해 획득된 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 모집단의 어노테이션 데이터에 대한 품질을 추정할 수 있다.The first step is to select the verification annotation data from the population's annotation data so that the feature distribution including the level of difficulty in identifying each object and the distribution of the number of objects per image is maintained. The quality of the population's annotation data can be estimated based on the quality measurement results including the false positive rate, non-detection rate, error rate, and accuracy score for each object acquired through actual measurement.

제2 단계는 검증용 어노테이션 데이터를 이용한 인공지능 모형들의 성능 평가를 통해 검증용 어노테이션 데이터 즉, 모집단의 어노테이션 데이터에 포함된 객체별 각각에 대응하는 인공지능 모형을 결정할 수 있으며, 이렇게 결정된 객체별 각각의 인공지능 모형을 제3 단계에 적용할 수 있다.The second step is to determine the verification annotation data, that is, an artificial intelligence model corresponding to each object included in the population's annotation data, through the performance evaluation of artificial intelligence models using the verification annotation data. The artificial intelligence model of can be applied to the third stage.

제3 단계는 객체별 각각에 대하여 결정된 인공지능 모형을 이용하여 모집단의 어노테이션 데이터를 자동 어노테이션하고, 자동 어노테이션에 의해 예측된 객체별 박스와 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU(Intersection over Union) 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 예측된 오류 포함 수준을 통해 어노테이션 에러 이미지를 검출하여 최종 품질 검증용 데이터를 결정 또는 선정한다.The third step is to automatically annotate the population's annotation data using an artificial intelligence model determined for each object, and compare the box for each object predicted by the automatic annotation and the box for each object in the population's annotation data to be a preset standard. By determining the object box below Intersection over Union (IoU) as an error, the level of error inclusion for each image is predicted, and the annotation error image is detected through the predicted error inclusion level to determine or select the final quality verification data.

이러한 본 발명의 방법에 대해 도 2 내지 도 6를 참조하여 상세히 설명하면 다음과 같다.The method of the present invention will be described in detail with reference to FIGS. 2 to 6 as follows.

도 2는 검증용 어노테이션 데이터를 이용한 품질 추정 과정을 설명하기 위한 일 예시도를 나타낸 것이다.2 shows an exemplary diagram for explaining a quality estimation process using annotation data for verification.

도 2에 도시된 바와 같이, 제1 단계는 모집단의 어노테이션 데이터 즉, 전체 어노테이션 데이터에서 랜덤 샘플링을 통해 검증용 데이터를 선정하는데, 선정되는 검증용 데이터는 전체 어노테이션 데이터의 특징 분포를 가지고 있어야 한다. 예컨대, 검증용 어노테이션 데이터는 전체 어노테이션 데이터의 객체별 식별 어려움 수준 예를 들어, Easy, Moderate, Hard 분포를 유지하고, 이미지별 객체 건수 분포 예를 들어, bicycle, fence, person, bike, bridge의 건수 분포를 유지하여야 한다. 이 때, 샘플링 개수는 전체 어노테이션 데이터에 대한 일정 수준의 개수를 포함하여야 하면, 객체별 식별 어려움은 이 기술 분야에 종사하는 당업자라면 알 수 있기에 그 상세한 설명은 생략한다.As shown in FIG. 2, the first step is to select data for verification through random sampling from the annotation data of the population, that is, all the annotation data, and the selected verification data must have a feature distribution of the entire annotation data. For example, the verification annotation data maintains the level of difficulty in identifying each object of the entire annotation data, e.g., Easy, Moderate, and Hard distribution, and the number of objects per image distribution, e.g., the number of bicycles, fences, persons, bikes, bridges The distribution must be maintained. In this case, if the number of sampling should include a certain level of the total annotation data, the difficulty of identifying each object will be known to those skilled in the art, and thus a detailed description thereof will be omitted.

제 1 단계에서 샘플링되는 검증용 어노테이션 데이터는 전체 어노테이션 데이터의 오류율을 추정하기 위한 데이터이기 때문에 검증용 어노테이션 데이터의 크기는 아래 <수학식 1>을 이용하여 계산될 수 있다.Since the verification annotation data sampled in the first step is data for estimating the error rate of the entire annotation data, the size of the verification annotation data can be calculated using Equation 1 below.

[수학식 1][Equation 1]

Figure 112020132417116-pat00001
Figure 112020132417116-pat00001

여기서, N은 모집단 크기를 의미하고, e는 허용 오차(모집단과 표본간의 허용 오차율)를 의미하며, z는 신뢰 수준의 z 값(100번의 표본을 뽑았을 시 정해진 구간에 들어가는 횟수, 예를 들어, 95%라 하면 100번 중 95번은 해당 구간에 포함 되고 5번은 정해진 구간을 벗어 날 수 있음)을 의미하고, P는 예상되는 모집단의 비율을 의미할 수 있다. 이러한 검증용 어노테이션 데이터의 크기는 시간과 인력을 포함하는 현실적 조건을 고려하여 결정될 수 있다. 일 예로, 검증용 어노테이션 데이터는 3000개의 이미지를 샘플링할 수 있으며, 각 객체에 대해서는 30개 이상의 이미지를 포함할 수 있다.Here, N denotes the size of the population, e denotes the tolerance (permissible error rate between the population and the sample), and z denotes the z value of the confidence level (the number of times a specified interval is entered when 100 samples are taken, e.g. , 95% means 95 out of 100 are included in the corresponding section and 5 can be out of the specified section), and P can mean the proportion of the expected population. The size of the annotation data for verification may be determined in consideration of realistic conditions including time and manpower. As an example, the verification annotation data may sample 3000 images, and each object may include 30 or more images.

검증용 어노테이션 데이터가 선정되면, 도 3에 도시된 바와 같이 검증용 어노테이션 데이터의 실측 품질 측정한다. 어노테이션에 대한 품질 점검을 위해 개발된 어플리케이션 예를 들어, 'DQMiner for AI Data'를 통하여 사람이 직접 작업을 수행함으로써, 검증용 어노테이션 데이터에 대한 품질 점검 결과를 저장하고, 이를 통해 검증용 어노테이션 데이터의 객체별 오탐율, 미탐율과 정확도 점수를 포함하는 품질 측정 결과를 제공한다. 이 때, DQMiner for AI Data는 각 객체별로 결과를 '오류없음', '카테고리오류', '객체없음', '영역오류'로 평가할 수 있으며, '영역오류'인 경우는 1~3점까지 그 수준을 평가할 수 있다. 검증용 어노테이션 데이터의 실측 품질이 측정되면, 측정된 품질 측정 결과로부터 모집단의 품질 수준을 추정한다.When the verification annotation data is selected, the measured quality of the verification annotation data is measured as shown in FIG. 3. An application developed for checking the quality of annotations, for example,'DQMiner for AI Data', allows a person to directly perform work, thereby storing the quality check result of the annotation data for verification, and through this, It provides quality measurement results including false positive rate, non-detection rate and accuracy score for each object. At this time, DQMiner for AI Data can evaluate the result for each object as'no error','category error','no object', and'area error', and in the case of'area error', it is scored from 1 to 3 points. You can assess your level. When the measured quality of the validation annotation data is measured, the quality level of the population is estimated from the measured quality measurement results.

이 때, 모집단의 품질은 아래 <수학식 2>를 이용하여 95% 신뢰 구간이 추정될 수 있다.At this time, the quality of the population can be estimated with a 95% confidence interval using the following <Equation 2>.

[수학식 2][Equation 2]

Figure 112020132417116-pat00002
Figure 112020132417116-pat00002

여기서, 오탐율, 미탐율과 오류율은 오류 비율이므로 비율 추정을을 통해 추정될 수 있고, 정확도 점수(영역오류의 경우)는 오류 평균 수치가 나타나므로 수치 추정에 의해 추정될 수 있다. 물론, 추정 구간은 검증용 어노테이션 데이터의 수에 따라 변동될 수 있다.Here, since the false positive rate, the non-detection rate, and the error rate are error rates, they can be estimated through rate estimation, and the accuracy score (in the case of a region error) can be estimated by numerical estimation because the average error value appears. Of course, the estimation interval may vary according to the number of annotation data for verification.

도 4와 도 5는 인공지능 모형을 결정하는 과정을 설명하기 위한 예시도을 나타낸 것이다.4 and 5 show exemplary diagrams for explaining a process of determining an artificial intelligence model.

도 4와 도 5에 도시된 바와 같이, 인공지능 모형을 결정하는 과정은 GT 데이터 중 모델 성능 비교를 위한 대상 선정하는 과정, 3가지 Object Detection 모형을 학습하는 과정 및 모형 기반 결과와 GT 비교를 수행하는 과정을 포함한다.4 and 5, the process of determining an artificial intelligence model is a process of selecting a target for model performance comparison among GT data, a process of learning three object detection models, and a model-based result and GT comparison. Including the process of doing.

GT 데이터 중 모델 성능 비교를 위한 대상 선정하는 과정은 이미 파악된 GT 데이터(이미지) 중 임의의 데이터를 선택하여 딥 러닝으로 학습된 여러 유형의 알고리즘의 성능으로 비교한다. 이 때, 적용할 딥러닝 알고리즘이 여러 개이므로 반복 검증 가능한 수준(비용, 시간)으로 대상을 추출할 수 있다.In the process of selecting a target for model performance comparison among GT data, random data is selected from the previously identified GT data (images) and compared with the performance of various types of algorithms learned by deep learning. At this time, since there are several deep learning algorithms to be applied, the object can be extracted at a level (cost, time) that can be iteratively verified.

여기서, 랜덤 선택을 통해 비교 기준을 선정할 수 있으며, 비교 기준은 검증용 어노테이션 데이터에서 랜덤하게 일정 개수의 이미지를 선택함으로써, 선택된 이미지들에 대한 품질 현황을 파악함으로써, 해당 이미지들에 대한 품질 현황을 파악할 수 있다.Here, a comparison criterion can be selected through random selection, and the comparison criterion is the quality status of the images by grasping the quality status of the selected images by randomly selecting a certain number of images from the verification annotation data. Can be grasped.

3가지 Object Detection 모형을 학습하는 과정은 미리 설정된 알고리즘 예를 들어, Faster R-CNN, YOLO, EfficientDet 등을 학습 데이터를 이용하여 학습한다. 여기서, 학습 데이터 즉, 트레이닝 데이터는 점검하고자 하는 데이터셋의 특성 및 목적이 같으면서도 잘 알려진 데이터 셋을 선택할 수 있다. 그리고, 각각의 인공지능 모형은 전이 학습(transfer learning)을 이용하여 학습될 수도 있다. 전이 학습은 이 기술분야에 종사하는 당업자라면 알 수 있기에 상세한 설명은 생략한다.The process of learning the three Object Detection models is to learn preset algorithms such as Faster R-CNN, YOLO, EfficientDet, etc. using the training data. Here, the training data, that is, the training data, may select a well-known data set while having the same characteristics and purpose of the data set to be checked. And, each artificial intelligence model may be learned using transfer learning. Since transfer learning is known to those skilled in the art, a detailed description will be omitted.

즉, 3가지 Object Detection 모형의 학습은 품질 점검 완료 데이터를 이용하여 객체 탐지 알고리즘을 활용한 인공지능 모형 예를 들어, 제1 인공지능 모형, 제2 인공지능 모형과 제3 인공지능 모형을 학습하고, 각 인공지능 모형별로 랜덤 선택에서 선택된 이미지 데이터에서 객체를 탐지한다. 그리고, 실제 GT 어노테이션 내용과 딥러닝 모형이 적용된 어노테이션 내용을 비교하고, 모형 결과와의 비교를 통해 발견된 객체 오류가 많이 포함된 이미지들 중심으로 일정 개수의 이미지를 선택하여 해당 이미지들의 실제 품질 현황을 파악한다.In other words, the learning of the three Object Detection models is an artificial intelligence model using an object detection algorithm using the quality-checked data, for example, the first artificial intelligence model, the second artificial intelligence model, and the third artificial intelligence model. , Objects are detected from image data selected from random selection for each artificial intelligence model. In addition, the actual GT annotation content and the annotation content to which the deep learning model is applied are compared, and a certain number of images are selected based on the images containing a large number of object errors found through comparison with the model results, and the actual quality status of the corresponding images. To grasp.

모형 기반 결과와 GT 비교를 수행하는 과정은 다양한 방법으로 예측 성능을 비교하고, 품질 점검 결과 데이터를 포함하는 알고리즘별 객체 정확도 확인과 결과가 다른 경우 육안 검증을 시행할 수 있다.In the process of performing model-based results and GT comparison, prediction performance can be compared in various ways, and object accuracy checks for each algorithm including the quality check result data and visual verification can be performed if the results are different.

이 때, 해당 과정은 3가지 Object Detection 모형을 학습하는 과정에서 만든 품질 오류 현황표를 비교하고, 랜덤 추출의 현황표와의 비교를 통해 인공지능 모형에 대한 타당성을 검증하며, 인공지능 모형간의 현황표 비교를 통해 가장 좋은 성능의 모형을 결정할 수 있다. 예를 들어, 전반적인 성능이 우수한 모형을 선정할 수도 있고, 객체별로 성능이 우수한 모형을 선정할 수도 있다. 예컨대, 도 4에 도시된 바와 같이, 제1 인공지능 모형의 에러이미지 검출 확률, 제2 인공지능 모형의 에러이미지 검출 확률과 제3 인공지능 모형의 에러이미지 검출 확률을 통해 검출 확률이 가장 높은 제2 인공지능 모형을 선정할 수 있다.At this time, the corresponding process compares the quality error status table created in the process of learning the three object detection models, and verifies the validity of the artificial intelligence model through comparison with the status table of random extraction, and the status between artificial intelligence models. Table comparison allows you to determine the best performing model. For example, a model with excellent overall performance may be selected, or a model with excellent performance for each object may be selected. For example, as shown in FIG. 4, the detection probability is the highest through the error image detection probability of the first artificial intelligence model, the error image detection probability of the second artificial intelligence model, and the error image detection probability of the third artificial intelligence model. 2 You can select an artificial intelligence model.

도 6은 모집단의 어노테이션 데이터에서 최종 품질 검증용 데이터를 선정하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.6 shows an exemplary diagram for explaining a process of selecting final quality verification data from an annotation data of a population.

도 6에 도시된 바와 같이, 모집단의 어노테이션 데이터에서 최종 품질 검증용 데이터를 선정하는 과정은 상술한 과정을 통해 선정된 인공지능 모형 예를 들어, 객체별 각각에 대하여 선정된 인공지능 모형을 모집단의 어노테이션 데이터(전체 어노테이션 데이터)에 적용하여 객체별 인공지능 모형을 통해 예측된 객체별 모형의 박스(box)와 사람에 의해 작업된(GT) 어노테이션 박스를 비교함으로써, 기준 IoU 이하의 객체 박스를 오류로 판단한다. 이를 통해 개별 이미지별 오류 포함 수준을 예측할 수 있다. 이러한 과정을 통해 어노테이션 오류가 높을 것으로 예상되는 이미지를 중심으로 최종 품질 검증용 데이터를 선정한다.6, the process of selecting the final quality verification data from the annotation data of the population is an artificial intelligence model selected through the above-described process, for example, an artificial intelligence model selected for each object of the population. By comparing the box of the object-specific model predicted through the artificial intelligence model for each object by applying it to the annotation data (total annotation data) and the annotation box worked by human (GT), an object box less than the standard IoU is errored. Judged by Through this, the level of error inclusion for each image can be predicted. Through this process, the final quality verification data is selected centering on the images that are expected to have high annotation errors.

이렇게 오류가 높을 것으로 예상되는 최종 품질 검증용 데이터가 선정됨으로써, 품질 개선 작업에 대한 비용, 일정을 계량화 할 수 있으며, 품질 개선 작업의 높은 효율성을 보장할 수 있다.By selecting the final quality verification data that is expected to have high errors, it is possible to quantify the cost and schedule for quality improvement work, and to ensure high efficiency of quality improvement work.

이와 같이, 본 발명의 일 실시예에 따른 방법은 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 어노테이션 데이터의 품질을 개선시킬 수 있다.As described above, the method according to an embodiment of the present invention can improve the quality of the annotation data by verifying the annotation data based on the artificial intelligence model.

구체적으로, 본 발명의 일 실시예에 따른 방법은 인공 지능 모형 기반으로 어노테이션 데이터를 검증함으로써, 각 어노테이션의 오류 존재 기대 값을 예측하고, 이를 통하여 해당 인공지능 모형으로부터 강하게 어노테이션 오류가 존재할 것으로 예측되는 데이터(객체) 순으로 품질 개선 대상으로 선정하면, 기존에 작업하는 임의의 대상 선택을 통한 품질 개선에 비해서 개선 목표에 대한 정량화(투입 리소스 및 비용 계산)가 가능해지며, 투입 비용 대비 효율적인 어노테이션 데이터 품질 개선 작업을 수행 할 수 있다. Specifically, the method according to an embodiment of the present invention predicts the expected value of the existence of errors of each annotation by verifying the annotation data based on an artificial intelligence model, and through this, it is predicted that an annotation error will exist strongly from the corresponding artificial intelligence model. If the data (object) is selected as the quality improvement target, it is possible to quantify the improvement target (input resource and cost calculation) compared to the quality improvement through the selection of a random target to be worked on, and the annotation data quality is more efficient than the input cost. Improvement can be done.

또한, 본 발명의 일 실시예에 따른 방법은 많은 오류를 포함한 대상 즉 이미지를 먼저 품질 개선을 하게 되므로 전체적인 데이터 품질 개선 작업의 효율성 높일 수 있다.In addition, since the method according to an embodiment of the present invention first improves the quality of an object including many errors, that is, an image, it is possible to increase the efficiency of the overall data quality improvement operation.

도 7은 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 시스템에 대한 구성을 나타낸 것으로, 도 1 내지 도 6의 방법을 수행하는 시스템에 대한 개념적인 구성을 나타낸 것이다.7 illustrates a configuration of an annotation data verification system according to an embodiment of the present invention, and illustrates a conceptual configuration of a system that performs the method of FIGS. 1 to 6.

도 7을 참조하면, 본 발명의 일 실시예에 따른 어노테이션 데이터 검증 시스템(700)은 선택부(710), 추정부(720), 결정부(730)와 검출부(740)를 포함한다.Referring to FIG. 7, an annotation data verification system 700 according to an embodiment of the present invention includes a selection unit 710, an estimation unit 720, a determination unit 730, and a detection unit 740.

선택부(710)는 모집단의 어노테이션 데이터 중 미리 설정된 개수의 검증용 어노테이션 데이터를 선택한다.The selection unit 710 selects a preset number of annotation data for verification among the annotation data of the population.

여기서, 선택부(710)는 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 모집단의 어노테이션 데이터에서 검증용 어노테이션 데이터를 선택할 수 있다.Here, the selection unit 710 may select the annotation data for verification from the population's annotation data so that a feature distribution including a level of identification difficulty per object and a distribution of the number of objects per image with respect to the population annotation data is maintained.

추정부(720)는 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 데이터의 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 상기 모집단의 어노테이션 데이터에 대한 품질을 추정한다.The estimating unit 720 is based on the quality of the annotation data of the population based on the quality measurement result including the false positive rate, non-detection rate, error rate and accuracy score for each object of the ground-truth annotation data for the verification annotation data. Estimate

결정부(730)는 미리 학습된 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 상기 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정한다. The determination unit 730 uses the number of annotation error images detected by each of a plurality of pre-learned artificial intelligence models and the number of ground-truth annotation error images for verification. The artificial intelligence model of any one of the models is determined.

여기서, 결정부(730)는 복수의 인공지능 모형들 중 객체별로 적용되는 인공지능 모형을 각각 결정할 수 있다. Here, the determination unit 730 may each determine an artificial intelligence model applied for each object among the plurality of artificial intelligence models.

검출부(740)는 결정된 인공지능 모형을 이용하여 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출한다.The detection unit 740 detects an annotation error image from the annotation data of the population using the determined artificial intelligence model.

여기서, 검출부(740)는 결정부(730)에 의해 객체별로 인공지능 모형이 결정되는 경우 객체별로 결정된 인공지능 모형을 이용하여 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출할 수 있다.Here, when an artificial intelligence model is determined for each object by the determination unit 730, the detection unit 740 may detect an annotation error image from the annotation data of the population by using the artificial intelligence model determined for each object.

검출부(740)는 객체별로 결정된 인공지능 모형을 이용하여 예측된 객체별 박스와 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 예측된 오류 포함 수준을 통해 어노테이션 에러 이미지를 검출할 수 있다.The detection unit 740 compares the box for each object predicted using an artificial intelligence model determined for each object and the box for each object in the annotation data of the population, and determines an object box less than or equal to a preset reference IoU as an error, including errors for each image. The level may be predicted, and an annotation error image may be detected through the predicted error inclusion level.

비록, 도 7에 도시된 본 발명의 시스템에서 그 설명이 생략되었더라도, 도 7을 구성하는 각 구성 수단은 도 1 내지 도 6에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.Although the description of the system of the present invention shown in FIG. 7 is omitted, each component constituting FIG. 7 may include all the contents described in FIGS. 1 to 6, which is a person skilled in the art. It is self-evident to

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. Further, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to operate as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or, to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodyed. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.  The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and drawings as described above, various modifications and variations can be made from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (10)

선택부에서 모집단의 어노테이션 데이터 중 미리 설정된 개수의 검증용 어노테이션 데이터를 선택하는 단계;
검출부에서 미리 학습된 복수의 인공지능 모형들 각각을 이용하여 상기 검증용 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계;
결정부에서 상기 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 상기 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 상기 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정하는 단계; 및
상기 검출부에서 상기 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계
를 포함하며,
상기 결정하는 단계는
상기 복수의 인공지능 모형들 중 객체별로 적용되는 인공지능 모형을 각각 결정하고,
상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 단계는
상기 객체별로 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 상기 어노테이션 에러 이미지를 검출하며,
상기 검출하는 단계는
상기 객체별로 결정된 인공지능 모형을 이용하여 예측된 객체별 박스와 상기 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU(Intersection over Union) 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 상기 예측된 오류 포함 수준을 통해 상기 어노테이션 에러 이미지를 검출하는 어노테이션 데이터 검증 방법.
Selecting a predetermined number of annotation data for verification from among the annotation data of the population by the selection unit;
Detecting an annotation error image from the verification annotation data using each of a plurality of artificial intelligence models previously learned by a detection unit;
The determination unit uses the number of annotation error images detected by each of the plurality of artificial intelligence models and the number of ground-truth annotation error images of the verification annotation data to determine which one of the plurality of artificial intelligence models. Determining one artificial intelligence model; And
Detecting an annotation error image from the population's annotation data using the determined artificial intelligence model in the detection unit
Including,
The determining step
Each of the plurality of artificial intelligence models is determined to be applied to each object,
The step of detecting an annotation error image from the annotation data of the population
Detecting the annotation error image from the annotation data of the population using an artificial intelligence model determined for each object,
The detecting step
By comparing the box for each object predicted using the artificial intelligence model determined for each object and the box for each object in the annotation data of the population, and determining an object box less than a preset reference IoU (Intersection over Union) as an error, An annotation data verification method for predicting an error inclusion level and detecting the annotation error image through the predicted error inclusion level.
제1항에 있어서,
상기 선택하는 단계는
상기 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 상기 모집단의 어노테이션 데이터에서 상기 검증용 어노테이션 데이터를 선택하는 것을 특징으로 하는 어노테이션 데이터 검증 방법.
The method of claim 1,
The selecting step
An annotation data verification method, characterized in that the annotation data for verification is selected from the annotation data of the population so that a feature distribution including a level of identification difficulty for each object and a distribution of the number of objects for each image is maintained with respect to the annotation data of the population.
제1항에 있어서,
상기 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 데이터의 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 상기 모집단의 어노테이션 데이터에 대한 품질을 추정하는 단계
를 더 포함하는 것을 특징으로 하는 어노테이션 데이터 검증 방법.
The method of claim 1,
Estimating the quality of the annotation data of the population based on a quality measurement result including a false positive rate, a false positive rate, an error rate, and an accuracy score for each object of the ground-truth annotation data for the verification annotation data.
Annotation data verification method further comprising a.
삭제delete 삭제delete 모집단의 어노테이션 데이터 중 미리 설정된 개수의 검증용 어노테이션 데이터를 선택하는 선택부;
미리 학습된 복수의 인공지능 모형들 각각에 의해 검출된 어노테이션 에러 이미지의 개수와 상기 검증용 어노테이션 데이터의 실측(ground-truth) 어노테이션 에러 이미지의 개수를 이용하여 상기 복수의 인공지능 모형들 중 어느 하나의 인공지능 모형을 결정하는 결정부; 및
상기 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 어노테이션 에러 이미지를 검출하는 검출부
를 포함하며,
상기 결정부는
상기 복수의 인공지능 모형들 중 객체별로 적용되는 인공지능 모형을 각각 결정하고,
상기 검출부는
상기 객체별로 결정된 인공지능 모형을 이용하여 상기 모집단의 어노테이션 데이터에서 상기 어노테이션 에러 이미지를 검출하며,
상기 검출부는
상기 객체별로 결정된 인공지능 모형을 이용하여 예측된 객체별 박스와 상기 모집단의 어노테이션 데이터에서의 객체별 박스를 비교하여 미리 설정된 기준 IoU(Intersection over Union) 이하의 객체 박스를 오류로 판단함으로써, 이미지별 오류 포함 수준을 예측하고, 상기 예측된 오류 포함 수준을 통해 상기 어노테이션 에러 이미지를 검출하는 어노테이션 데이터 검증 시스템.
A selection unit for selecting a preset number of annotation data for verification among the annotation data of the population;
Any one of the plurality of artificial intelligence models using the number of annotation error images detected by each of a plurality of pre-learned artificial intelligence models and the number of ground-truth annotation error images of the verification annotation data A decision unit that determines the artificial intelligence model of the model; And
A detection unit that detects an annotation error image from the annotation data of the population using the determined artificial intelligence model
Including,
The decision part
Each of the plurality of artificial intelligence models is determined to be applied to each object,
The detection unit
Detecting the annotation error image from the annotation data of the population using an artificial intelligence model determined for each object,
The detection unit
By comparing the box for each object predicted using the artificial intelligence model determined for each object and the box for each object in the annotation data of the population, and determining an object box less than a preset reference IoU (Intersection over Union) as an error, An annotation data verification system for predicting an error inclusion level and detecting the annotation error image through the predicted error inclusion level.
제6항에 있어서,
상기 선택부는
상기 모집단의 어노테이션 데이터에 대한 객체별 식별 어려움 수준과 이미지별 객체 건수 분포를 포함하는 특징 분포가 유지되도록, 상기 모집단의 어노테이션 데이터에서 상기 검증용 어노테이션 데이터를 선택하는 것을 특징으로 하는 어노테이션 데이터 검증 시스템.
The method of claim 6,
The selector
An annotation data verification system, characterized in that the annotation data for verification is selected from the annotation data of the population so that a feature distribution including a level of difficulty in identification for each object and a distribution of the number of objects for each image is maintained with respect to the annotation data of the population.
제6항에 있어서,
상기 검증용 어노테이션 데이터에 대한 실측(ground-truth) 어노테이션 데이터의 객체별 오탐율, 미탐율, 오류율과 정확도 점수를 포함하는 품질 측정 결과에 기초하여 상기 모집단의 어노테이션 데이터에 대한 품질을 추정하는 추정부
를 더 포함하는 것을 특징으로 하는 어노테이션 데이터 검증 시스템.
The method of claim 6,
An estimator for estimating the quality of the annotation data of the population based on a quality measurement result including a false positive rate, a non-detection rate, an error rate and an accuracy score for each object of the ground-truth annotation data for the verification annotation data
Annotation data verification system, characterized in that it further comprises.
삭제delete 삭제delete
KR1020200169752A 2020-12-07 2020-12-07 Annotation data verification method based on artificial intelligence model and system therefore KR102245896B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200169752A KR102245896B1 (en) 2020-12-07 2020-12-07 Annotation data verification method based on artificial intelligence model and system therefore

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200169752A KR102245896B1 (en) 2020-12-07 2020-12-07 Annotation data verification method based on artificial intelligence model and system therefore

Publications (1)

Publication Number Publication Date
KR102245896B1 true KR102245896B1 (en) 2021-04-29

Family

ID=75728471

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200169752A KR102245896B1 (en) 2020-12-07 2020-12-07 Annotation data verification method based on artificial intelligence model and system therefore

Country Status (1)

Country Link
KR (1) KR102245896B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7334920B1 (en) * 2023-03-02 2023-08-29 FastLabel株式会社 Information processing system, information processing method and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (en) * 2015-06-04 2016-12-14 더 보잉 컴파니 Advanced analytical infrastructure for machine learning
JP2020035095A (en) * 2018-08-28 2020-03-05 オリンパス株式会社 Annotation device and annotation method
US20200334501A1 (en) * 2019-04-18 2020-10-22 Adobe Inc Robust training of large-scale object detectors with a noisy dataset
KR20200123584A (en) * 2019-04-22 2020-10-30 한국전자통신연구원 Apparatus and method for predicting error of annotation
US20200380312A1 (en) * 2019-05-28 2020-12-03 Wipro Limited Method and system for dynamically annotating and validating annotated data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (en) * 2015-06-04 2016-12-14 더 보잉 컴파니 Advanced analytical infrastructure for machine learning
JP2020035095A (en) * 2018-08-28 2020-03-05 オリンパス株式会社 Annotation device and annotation method
US20200334501A1 (en) * 2019-04-18 2020-10-22 Adobe Inc Robust training of large-scale object detectors with a noisy dataset
KR20200123584A (en) * 2019-04-22 2020-10-30 한국전자통신연구원 Apparatus and method for predicting error of annotation
US20200380312A1 (en) * 2019-05-28 2020-12-03 Wipro Limited Method and system for dynamically annotating and validating annotated data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7334920B1 (en) * 2023-03-02 2023-08-29 FastLabel株式会社 Information processing system, information processing method and program

Similar Documents

Publication Publication Date Title
US10410111B2 (en) Automated evaluation of neural networks using trained classifier
CN110046706B (en) Model generation method and device and server
CN108090508B (en) classification training method, device and storage medium
CN107590168B (en) System and method for relationship inference
WO2021111670A1 (en) Annotation device and method
US20180278635A1 (en) Apparatus, method, and computer program for detecting malware in software defined network
CN111507370A (en) Method and device for obtaining sample image of inspection label in automatic labeling image
KR20190070702A (en) System and method for automatically verifying security events based on text mining
CN112183166A (en) Method and device for determining training sample and electronic equipment
KR102074909B1 (en) Apparatus and method for classifying software vulnerability
KR20170097535A (en) Item recommendation method and apparatus thereof utilizing uninteresting item and apparatus
KR20190107984A (en) An image traning apparatus extracting hard negative samples being used to training a neural network based on sampling and a threshold adjusting adaptively and a method performed by the image training apparatus
KR102245896B1 (en) Annotation data verification method based on artificial intelligence model and system therefore
US11645539B2 (en) Machine learning-based techniques for representing computing processes as vectors
CN111985616A (en) Image feature extraction method, image retrieval method, device and equipment
JP6416588B2 (en) Source code verification system
CN114139636B (en) Abnormal operation processing method and device
US9070045B2 (en) Crosstalk cascades for use in object detection
CN110334244B (en) Data processing method and device and electronic equipment
JP7349404B2 (en) Judgment device, judgment method and judgment program
JP7306460B2 (en) Adversarial instance detection system, method and program
KR20230102273A (en) System for learning image processing, method for automatic sampling and labeling using the same
US7856412B2 (en) Reliability evaluation program and reliability evaluation device
CN113239075A (en) Construction data self-checking method and system
KR102472596B1 (en) Layer adaptive threshold decision based deep learning model ensemble devices and method of the same

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant