KR20200123584A - 어노테이션 오류 예측 장치 및 방법 - Google Patents

어노테이션 오류 예측 장치 및 방법 Download PDF

Info

Publication number
KR20200123584A
KR20200123584A KR1020190046624A KR20190046624A KR20200123584A KR 20200123584 A KR20200123584 A KR 20200123584A KR 1020190046624 A KR1020190046624 A KR 1020190046624A KR 20190046624 A KR20190046624 A KR 20190046624A KR 20200123584 A KR20200123584 A KR 20200123584A
Authority
KR
South Korea
Prior art keywords
annotation
error
input data
predicting
correction
Prior art date
Application number
KR1020190046624A
Other languages
English (en)
Inventor
윤현진
한미경
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190046624A priority Critical patent/KR20200123584A/ko
Priority to US16/854,002 priority patent/US20200334553A1/en
Publication of KR20200123584A publication Critical patent/KR20200123584A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치로서, 훈련용 입력 데이터에 대한 제1 어노테이션 및 평가용입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 어노테이션 생성부, 상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 어노테이션 학습부, 그리고 상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 어노테이션 오류 예측부를 포함하는 어노테이션 오류 예측 장치가 제공된다.

Description

어노테이션 오류 예측 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING ERROR OF ANNOTATION}
본 기재는 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치 및 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI)의 성능이 높아지고, 적용 분야가 다양해짐에 따라 새로운 AI 알고리즘 개발에 대한 요구가 증가되고 있다. AI 알고리즘을 개발하기 위해 반드시 필요한 요소인 훈련 데이터는 이미지, 비디오, 오디오, 텍스트 데이터에 객체, 이벤트, 주석, 카테고리 등의 어노테이션이 추가된 데이터이다.
초기에는 사람이 데이터에 필요한 어노테이션을 수동으로 추가하여 훈련 데이터를 구축하였다. 필요한 훈련 데이터의 종류가 다양해지고 복잡해짐에 따라 수동으로 어노테이션을 생성하는 것은 물리적으로 한계가 있다.
자동화 알고리즘을 통해 어노테이션을 생성하는 기술은 결과에 오류가 포함될 수 있으므로, 사용자가 오류 발생 데이터를 찾아 직접 교정해야 하는 문제점이 있다.
한 실시예는 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치를 제공한다.
한 실시예는 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 방법을 제공한다.
한 실시예에 따르면, 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치가 제공된다. 상기 어노테이션 오류 예측 장치는 훈련용 입력 데이터에 대한 제1 어노테이션 및 평가용입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 어노테이션 생성부, 상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 어노테이션 학습부, 그리고 상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 어노테이션 오류 예측부를 포함한다.
상기 어노테이션 교정부는, 상기 사용자로부터 상기 제1 어노테이션에 대한 교정 이력을 수신하거나 또는 상기 사용자에게 상기 제2 어노테이션의 오류 가능성을 제공하는 사용자 인터페이스, 그리고 상기 교정 이력을 저장하는 저장부를 포함할 수 있다.
상기 어노테이션 학습부는, 상기 교정 이력을 바탕으로, 상기 훈련용 입력 데이터 중 교정이 발생한 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생한 부류로 예측하고, 교정이 발생하지 않은 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생하지 않은 부류로 예측하는 이진 분류 모델을 상기 어노테이션 평가 모델로 학습할 수 있다.
상기 어노테이션 학습부는, 상기 제1 어노테이션의 오류를 수정, 삭제, 추가, 오류 없음의 부류로 세분화하여 분류하는 다중 부류 분류 모델을 상기 어노테이션 평가 모델로 학습할 수 있다.
상기 어노테이션 오류 예측부는, 상기 제2 어노테이션에 오류가 있을 가능성을 수치로 예측할 수 있다.
상기 어노테이션 오류 예측부는, 상기 제2 어노테이션에 발생할 수 있는 오류 유형이 수정, 삭제, 추가 중 하나일 가능성을 수치로 예측할 수 있다.
한 실시예에 따르면, 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 방법이 제공된다. 상기 어노테이션 오류 예측 방법은 훈련용 입력 데이터에 대한 제1 어노테이션을 알고리즘을 이용하여 생성하는 단계, 상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 단계, 평가용 입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 단계, 그리고 상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 단계를 포함한다.
상기 제2 어노테이션의 오류 가능성을 예측하는 단계 이후, 상기 제2 어노테이션의 오류 가능성을 상기 사용자에게 제공하고, 상기 사용자로부터 상기 제2 어노테이션에 대한 교정 이력을 수신하는 단계를 더 포함할 수 있다.
상기 어노테이션 평가 모델을 학습하는 단계는, 상기 교정 이력을 바탕으로, 상기 훈련용 입력 데이터 중 교정이 발생한 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생한 부류로 예측하고, 교정이 발생하지 않은 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생하지 않은 부류로 예측하는 이진 분류 모델을 상기 어노테이션 평가 모델로 학습할 수 있다.
상기 어노테이션 평가 모델을 학습하는 단계는, 상기 제1 어노테이션의 오류를 수정, 삭제, 추가, 오류 없음의 부류로 세분화하여 분류하는 다중 부류 분류 모델을 상기 어노테이션 평가 모델로 학습할 수 있다.
상기 제2 어노테이션의 오류 가능성을 예측하는 단계는, 상기 제2 어노테이션에 오류가 있을 가능성을 수치로 예측할 수 있다.
상기 제2 어노테이션의 오류 가능성을 예측하는 단계는, 상기 제2 어노테이션에 발생할 수 있는 오류 유형이 수정, 삭제, 추가 중 하나일 가능성을 수치로 예측할 수 있다.
한 실시예에 따르면, 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치가 제공된다. 상기 어노테이션 오류 예측 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여, 훈련용 입력 데이터에 대한 제1 어노테이션을 알고리즘을 이용하여 생성하는 단계, 상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 단계, 평가용 입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 단계, 그리고 상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 단계를 수행한다.
사용자가 모든 어노테이션을 검토할 필요가 없으므로, 사용자가 수동으로 어노테이션을 교정하는데 소요되는 시간을 줄일 수 있다.
또한, 어노테이션 자동 생성에 사용된 어노테이션 알고리즘의 성능을 평가할 수 있으므로, 입력 데이터에 적합한 어노테이션 알고리즘을 선정할 수 있다.
도 1은 한 실시예에 따른 어노테이션 오류 예측 장치의 블록도이다.
도 2는 한 실시예에 따른 어노테이션 오류 예측 방법의 흐름도이다.
도 3a는 한 실시예에 따른 어노테이션 오류 예측 장치에 입력되는 훈련용 입력 데이터를 나타내는 도면이다.
도 3b는 한 실시예에 따른 어노테이션 오류 예측 장치의 어노테이션 생성부가 훈련용 입력 데이터에 대해 어노테이션을 생성한 결과를 나타내는 도면이다.
도 3c는 한 실시예에 따른 어노테이션 오류 예측 장치의 어노테이션 교정부를 통해 사용자가 수동으로 교정한 결과를 나타내는 도면이다.
도 4는 한 실시예에 따른 어노테이션 교정부가 저장하는 사용자의 어노테이션 교정 이력을 나타내는 표이다.
도 5는 한 실시예에 따른 어노테이션 오류 예측 장치의 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 한 실시예에 따른 어노테이션 오류 예측 장치의 블록도이다. 도 2는 한 실시예에 따른 어노테이션 오류 예측 방법의 흐름도이다.
도 1 및 도 2를 참조하면, 한 실시예에 따른 어노테이션 오류 예측 장치는, 어노테이션 생성부(100), 어노테이션 교정부(200), 어노테이션 오류 학습부(300), 어노테이션 오류 예측부(400)를 포함한다. 한 실시예에 따른 어노테이션 오류 예측 장치는 어노테이션 오류 학습 단계(S100)와 어노테이션 평가 단계(S200)를 수행한다.
구체적으로, 어노테이션 생성부(100)는 훈련용 입력 데이터(10)에 대한 어노테이션을 알고리즘을 이용하여 생성한다(S110).
어노테이션 알고리즘은 어노테이션 알고리즘 저장부(20)에 미리 저장된 알고리즘으로서, 한 실시예로서, 입력 데이터를 정해진 카테고리 부류로 분류하는 분류 알고리즘, 입력 이미지 데이터에서 객체의 부류와 위치를 판단하는 객체 인식 알고리즘, 이미지 데이터에서 픽셀 단위로 객체를 식별하는 시멘틱 분할 알고리즘, 입력 영상에서 객체의 이동 위치를 추적하는 객체 추적 알고리즘, 입력 이미지 데이터에 대한 텍스트 주석을 생성하는 이미지 주석 생성 알고리즘일 수 있다.
어노테이션 교정부(200)는 사용자로부터, 훈련용 입력 데이터(10)에 대해 생성된 어노테이션에 대한 교정 이력을 수신한다(S120).
어노테이션 교정부(200)는 어노테이션 생성부(100)가 훈련용 입력 데이터(10)에 대해 자동 생성한 어노테이션에 오류가 있으면 어노테이션의 일부를 수정하거나 또는 전체를 삭제할 수 있다. 어노테이션 교정부(200)는 사용자로부터 훈련용 입력 데이터(10)에 대해 생성된 어노테이션에 대한 교정 이력을 수신하거나 또는 사용자에게 평가용 입력 데이터(50)에 대해 생성된 어노테이션의 오류 가능성을 제공하는 사용자 인터페이스(210) 및 생성된 어노테이션에 대해 사용자가 수정, 삭제, 추가한 교정 이력을 저장하는 저장부(220)를 포함할 수 있다. 사용자는 사용자 인터페이스(210)를 통해 자동으로 생성되지 않은 어노테이션을 추가할 수 있다. 어노테이션 교정부(200)는 한 실시예로서, 별도의 어노테이션 교정 이력 저장부(30)에 사용자의 교정 이력을 저장할 수 있다.
어노테이션 오류 학습부(300)는 훈련용 입력 데이터(10)에 대해 생성된 어노테이션 및 사용자로부터 수신된 교정 이력을 바탕으로 어노테이션의 오류 가능성을 예측하는 어노테이션 평가 모델을 학습한다(S130).
어노테이션 오류 학습부(300)는 이진 분류 모델 또는 다중 부류 분류 모델을 어노테이션 평가 모델로 학습할 수 있다. 구체적으로, 어노테이션 오류 학습부(300)는 한 실시예로서, 교정 이력을 바탕으로, 훈련용 입력 데이터(10) 중 교정이 발생한 훈련용 입력 데이터를 어노테이션의 오류가 발생한 부류로 예측하고, 교정이 발생하지 않은 훈련용 입력 데이터를 어노테이션의 오류가 발생하지 않은 부류로 예측하는 이진 분류 모델을 어노테이션 평가 모델로 학습할 수 있다. 어노테이션 오류 학습부(300)는 한 실시예로서, 어노테이션의 오류를 수정, 삭제, 추가, 오류 없음의 부류로 세분화하는 다중 부류 분류 모델을 어노테이션 평가 모델로 학습할 수 있다.
어노테이션 생성부(100)는 평가용 입력 데이터(50)에 대한 어노테이션을 알고리즘을 이용하여 생성한다(S210).
어노테이션 오류 예측부(400)는 학습된 어노테이션 평가 모델을 이용하여 평가용 입력 데이터(50)에 대한 어노테이션의 오류 가능성을 예측한다(S220)
어노테이션 오류 예측부(400)는 한 실시예로서, 학습한 어노테이션 평가 모델이 이진 분류 모델인 경우, 평가용 입력 데이터(50)에 대한 어노테이션에 오류가 있을 가능성을 수치로 예측할 수 있다. 어노테이션 오류 학습부(300)는 한 실시예로서, 학습한 어노테이션 평가 모델이 다중 부류 분류 모델인 경우, 평가용 입력 데이터(50)에 대한 어노테이션에서 발생할 수 있는 오류 유형이 수정, 삭제, 추가 중 하나일 가능성을 수치로 예측할 수 있다.
어노테이션 교정부(200)는 평가용 입력 데이터(50)에 대한 어노테이션의 오류 가능성을 사용자에게 제공하고, 사용자로부터 평가용 입력 데이터(50)에 대한 어노테이션에 대한 교정 이력을 수신한다(S230). 구체적으로, 어노테이션 교정부(200)는 어노테이션 생성부(100)에 의해 평가용 입력 데이터(50)에 대한 어노테이션이 생성될 때, 어노테이션 오류 예측부(400)의 결과를 사용자 인터페이스(210)를 통해 사용자에게 제공할 수 있다. 사용자는 사용자 인터페이스(210)를 통해, 오류 가능성이 높은 순으로 생성된 어노테이션에 대해 검토 및 교정할 수 있다.
도 3a는 한 실시예에 따른 어노테이션 오류 예측 장치에 입력되는 훈련용 입력 데이터를 나타내는 도면이다. 도 3b는 한 실시예에 따른 어노테이션 오류 예측 장치의 어노테이션 생성부가 훈련용 입력 데이터에 대해 어노테이션을 생성한 결과를 나타내는 도면이다. 도 3c는 한 실시예에 따른 어노테이션 오류 예측 장치의 어노테이션 교정부를 통해 사용자가 수동으로 교정한 결과를 나타내는 도면이다.
도 3a 내지 도 3c를 참조하면, 한 실시예로서, 어노테이션 생성부(100)는 훈련용 입력 데이터(10)에서 보행자 영역을 검출하는 보행자 검출 알고리즘을 어노테이션 알고리즘으로 사용할 수 있다. 한 실시예로서, 사용자는 사용자 인터페이스(210)을 통해 입력 x1과 xm에서 발생한 어노테이션 오류를 검토할 수 있고, 직접 교정할 수 있다.
도 4는 한 실시예에 따른 어노테이션 교정부가 저장하는 사용자의 어노테이션 교정 이력을 나타내는 표이다.
도 3a 내지 도 3c 및 도 4를 참조하면, 입력 데이터 x1에 대해 생성된 어노테이션 중 원뿔 라바콘 영역(31)의 어노테이션은 삭제되었고, 보행자 어노테이션 중 하나(32)의 크기가 수정되었으며, 나뭇가지 영역의 보행자 어노테이션(33)이 추가되었기 때문에, 어노테이션의 오류 여부는 '1'로 저장된다. 입력 데이터 x2와 x3에 대해 생성된 어노테이션은 교정되지 않았으므로, 오류 여부는 '0'으로 저장된다. 사용자에 의해 입력 xm에 대해 어노테이션(34)이 추가되었으므로, 오류 여부는 '1'로 저장된다.
도 5는 한 실시예에 따른 어노테이션 오류 예측 장치의 블록도이다.
도 5를 참조하면, 한 실시예에 따른 어노테이션 오류 예측 장치는, 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 컴퓨터 시스템(500)은, 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(560), 사용자 인터페이스 출력 장치(570), 및 저장 장치(580) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(500)은 또한 네트워크에 결합된 네트워크 인터페이스(590)를 포함할 수 있다. 프로세서(510)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(530) 또는 저장 장치(580)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(530) 및 저장 장치(580)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 기재의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.
한 실시예에 따른 어노테이션 오류 예측 장치는 프로세서(510) 및 메모리(530)를 포함하고, 프로세서(510)는 메모리(530)에 저장된 프로그램을 실행하여, 훈련용 입력 데이터에 대한 제1 어노테이션을 알고리즘을 이용하여 생성하는 단계, 제1 어노테이션 및 사용자로부터 수신된 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 단계, 평가용 입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 단계, 그리고 어노테이션 평가 모델을 이용하여 제2 어노테이션의 오류 가능성을 예측하는 단계를 수행한다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (13)

  1. 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치로서,
    훈련용 입력 데이터에 대한 제1 어노테이션 및 평가용입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 어노테이션 생성부,
    상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 어노테이션 학습부, 그리고
    상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 어노테이션 오류 예측부
    를 포함하는 어노테이션 오류 예측 장치.
  2. 제1항에서,
    상기 어노테이션 교정부는,
    상기 사용자로부터 상기 제1 어노테이션에 대한 교정 이력을 수신하거나 또는 상기 사용자에게 상기 제2 어노테이션의 오류 가능성을 제공하는 사용자 인터페이스, 그리고
    상기 교정 이력을 저장하는 저장부를 포함하는, 어노테이션 오류 예측 장치.
  3. 제1항에서,
    상기 어노테이션 학습부는,
    상기 교정 이력을 바탕으로, 상기 훈련용 입력 데이터 중 교정이 발생한 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생한 부류로 예측하고, 교정이 발생하지 않은 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생하지 않은 부류로 예측하는 이진 분류 모델을 상기 어노테이션 평가 모델로 학습하는, 어노테이션 오류 예측 장치.
  4. 제1항에서,
    상기 어노테이션 학습부는,
    상기 제1 어노테이션의 오류를 수정, 삭제, 추가, 오류 없음의 부류로 세분화하여 분류하는 다중 부류 분류 모델을 상기 어노테이션 평가 모델로 학습하는, 어노테이션 오류 예측 장치.
  5. 제3항에서,
    상기 어노테이션 오류 예측부는,
    상기 제2 어노테이션에 오류가 있을 가능성을 수치로 예측하는, 어노테이션 오류 예측 장치.
  6. 제4항에서,
    상기 어노테이션 오류 예측부는,
    상기 제2 어노테이션에 발생할 수 있는 오류 유형이 수정, 삭제, 추가 중 하나일 가능성을 수치로 예측하는, 어노테이션 오류 예측 장치.
  7. 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 방법으로서,
    훈련용 입력 데이터에 대한 제1 어노테이션을 알고리즘을 이용하여 생성하는 단계,
    상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 단계,
    평가용 입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 단계, 그리고
    상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 단계
    를 포함하는 어노테이션 오류 예측 방법.
  8. 제7항에서,
    상기 제2 어노테이션의 오류 가능성을 예측하는 단계 이후,
    상기 제2 어노테이션의 오류 가능성을 상기 사용자에게 제공하고, 상기 사용자로부터 상기 제2 어노테이션에 대한 교정 이력을 수신하는 단계를 더 포함하는, 어노테이션 오류 예측 방법.
  9. 제7항에서,
    상기 어노테이션 평가 모델을 학습하는 단계는,
    상기 교정 이력을 바탕으로, 상기 훈련용 입력 데이터 중 교정이 발생한 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생한 부류로 예측하고, 교정이 발생하지 않은 훈련용 입력 데이터를 상기 제1 어노테이션의 오류가 발생하지 않은 부류로 예측하는 이진 분류 모델을 상기 어노테이션 평가 모델로 학습하는, 어노테이션 오류 예측 방법.
  10. 제7항에서,
    상기 어노테이션 평가 모델을 학습하는 단계는,
    상기 제1 어노테이션의 오류를 수정, 삭제, 추가, 오류 없음의 부류로 세분화하여 분류하는 다중 부류 분류 모델을 상기 어노테이션 평가 모델로 학습하는, 어노테이션 오류 예측 방법.
  11. 제9항에서,
    상기 제2 어노테이션의 오류 가능성을 예측하는 단계는,
    상기 제2 어노테이션에 오류가 있을 가능성을 수치로 예측하는, 어노테이션 오류 예측 방법.
  12. 제10항에서,
    상기 제2 어노테이션의 오류 가능성을 예측하는 단계는,
    상기 제2 어노테이션에 발생할 수 있는 오류 유형이 수정, 삭제, 추가 중 하나일 가능성을 수치로 예측하는, 어노테이션 오류 예측 방법.
  13. 입력 데이터에 대한 어노테이션의 오류 가능성을 예측하는 장치로서,
    프로세서 및 메모리를 포함하고,
    상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,
    훈련용 입력 데이터에 대한 제1 어노테이션을 알고리즘을 이용하여 생성하는 단계,
    상기 제1 어노테이션 및 사용자로부터 수신된 상기 제1 어노테이션에 대한 교정 이력을 바탕으로 어노테이션 평가 모델을 학습하는 단계,
    평가용 입력 데이터에 대한 제2 어노테이션을 알고리즘을 이용하여 생성하는 단계, 그리고
    상기 어노테이션 평가 모델을 이용하여 상기 제2 어노테이션의 오류 가능성을 예측하는 단계
    를 수행하는 어노테이션 오류 예측 장치.
KR1020190046624A 2019-04-22 2019-04-22 어노테이션 오류 예측 장치 및 방법 KR20200123584A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190046624A KR20200123584A (ko) 2019-04-22 2019-04-22 어노테이션 오류 예측 장치 및 방법
US16/854,002 US20200334553A1 (en) 2019-04-22 2020-04-21 Apparatus and method for predicting error of annotation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190046624A KR20200123584A (ko) 2019-04-22 2019-04-22 어노테이션 오류 예측 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20200123584A true KR20200123584A (ko) 2020-10-30

Family

ID=72832631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190046624A KR20200123584A (ko) 2019-04-22 2019-04-22 어노테이션 오류 예측 장치 및 방법

Country Status (2)

Country Link
US (1) US20200334553A1 (ko)
KR (1) KR20200123584A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102245896B1 (ko) * 2020-12-07 2021-04-29 지티원 주식회사 인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템
KR20220068316A (ko) * 2020-11-18 2022-05-26 (주)휴톰 어노테이션 평가 방법 및 장치
WO2022114486A1 (ko) * 2020-11-24 2022-06-02 주식회사 비투엔 어노테이션 자동 진단 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377713B (zh) * 2019-07-16 2023-09-15 广州探域科技有限公司 一种基于概率转移改善问答系统上下文的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023319A1 (en) * 2008-07-28 2010-01-28 International Business Machines Corporation Model-driven feedback for annotation
US9653071B2 (en) * 2014-02-08 2017-05-16 Honda Motor Co., Ltd. Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages
CN109313717A (zh) * 2016-05-02 2019-02-05 丹麦Scopito公司 一种在神经网络中用于对象检测的模型构建
US11144616B2 (en) * 2017-02-22 2021-10-12 Cisco Technology, Inc. Training distributed machine learning with selective data transfers
CA3063738A1 (en) * 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
JP6970553B2 (ja) * 2017-08-17 2021-11-24 キヤノン株式会社 画像処理装置、画像処理方法
US20210133553A1 (en) * 2017-09-13 2021-05-06 Koninklijke Philips N.V. Training a model
US10983217B2 (en) * 2018-11-30 2021-04-20 Huawei Technologes Co. Ltd. Method and system for semantic label generation using sparse 3D data
US11322256B2 (en) * 2018-11-30 2022-05-03 International Business Machines Corporation Automated labeling of images to train machine learning

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220068316A (ko) * 2020-11-18 2022-05-26 (주)휴톰 어노테이션 평가 방법 및 장치
WO2022114486A1 (ko) * 2020-11-24 2022-06-02 주식회사 비투엔 어노테이션 자동 진단 시스템
KR102245896B1 (ko) * 2020-12-07 2021-04-29 지티원 주식회사 인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템

Also Published As

Publication number Publication date
US20200334553A1 (en) 2020-10-22

Similar Documents

Publication Publication Date Title
KR20200123584A (ko) 어노테이션 오류 예측 장치 및 방법
US11869485B2 (en) Method for generating style statement, method and apparatus for training model, and computer device
US11461537B2 (en) Systems and methods of data augmentation for pre-trained embeddings
CN111126592A (zh) 输出预测结果、生成神经网络的方法及装置和存储介质
CN109376535B (zh) 一种基于智能化符号执行的漏洞分析方法及系统
US11508163B2 (en) Method and apparatus for training lane line identifying model, device, and storage medium
US10528863B2 (en) Feedback mechanisms in sequence learning systems with temporal processing capability
RU2019137600A (ru) Управление принятием решений с использованием машинного обучения в случае оповещений, исходящих от систем текущего контроля
US11036990B2 (en) Target identification method and apparatus, and intelligent terminal
CN112446441B (zh) 模型训练数据筛选方法、装置、设备及存储介质
WO2014176056A2 (en) Data classification
CN111061867A (zh) 基于质量感知的文本生成方法、设备、存储介质及装置
CN115810135A (zh) 样本分析的方法、电子设备、存储介质和程序产品
CN113095563A (zh) 一种人工智能模型预测结果的复审方法及装置
CN111080697A (zh) 检测目标对象方向的方法、装置、计算机设备和存储介质
CN107948721B (zh) 推送信息的方法和装置
CN117591547A (zh) 数据库的查询方法、装置、终端设备以及存储介质
CN112579755A (zh) 基于人工智能和云计算的信息应答方法及信息互动平台
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
CN112949832B (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
US11636022B2 (en) Server and control method thereof
WO2023091144A1 (en) Forecasting future events from current events detected by an event detection engine using a causal inference engine
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN112836076A (zh) 一种图像标签生成方法、装置及设备
US20230162088A1 (en) Systems and methods for subscriber-based adaptation of production-implemented machine learning models of a service provider using a training application

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal