KR102273398B1 - 데이터 가공 장치 및 그 방법 - Google Patents

데이터 가공 장치 및 그 방법 Download PDF

Info

Publication number
KR102273398B1
KR102273398B1 KR1020190130712A KR20190130712A KR102273398B1 KR 102273398 B1 KR102273398 B1 KR 102273398B1 KR 1020190130712 A KR1020190130712 A KR 1020190130712A KR 20190130712 A KR20190130712 A KR 20190130712A KR 102273398 B1 KR102273398 B1 KR 102273398B1
Authority
KR
South Korea
Prior art keywords
input
unit
raw data
data
information
Prior art date
Application number
KR1020190130712A
Other languages
English (en)
Other versions
KR20210047088A (ko
Inventor
문창기
최성필
Original Assignee
주식회사 코그넷나인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코그넷나인 filed Critical 주식회사 코그넷나인
Priority to KR1020190130712A priority Critical patent/KR102273398B1/ko
Publication of KR20210047088A publication Critical patent/KR20210047088A/ko
Application granted granted Critical
Publication of KR102273398B1 publication Critical patent/KR102273398B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 원시 데이터를 가공하기 위한 데이터 가공 장치에 관한 것으로, 구체적으로는 비정형 원시 데이터를 딥러닝 등에 사용할 수 있도록 어노테이션(annotation) 가공하기 위한 데이터 가공 장치 및 그 방법을 제공하기 위한 것이다.
본 발명의 데이터 가공 장치는 원시 데이터를 표시하는 표시 유니트; 상기 표시 유니트에 표시된 상기 원시 데이터를 어노테이션 데이터로 가공하기 위한 어노테이션 정보가 입력되는 입력 유니트; 상기 입력 유니트에 입력된 상기 어노테이션 정보를 상기 원시 데이터에 매칭하여 상기 어노테이션 데이터로 가공하는 데이터 가공 유니트; 및 상기 입력 유니트에 상기 어노테이션 정보가 입력될 시 상기 어노테이션 정보의 입력 상태 정보를 기록 및 분석하는 분석 유니트를 포함할 수 있다.

Description

데이터 가공 장치 및 그 방법{APPARATUS FOR PROCESSING DATA AND METHOD THEREOF}
본 발명은 원시 데이터를 가공하기 위한 데이터 가공 장치 및 그 방법에 관한 것으로, 구체적으로는 비정형 원시 데이터를 딥러닝 등에 사용할 수 있도록 어노테이션(annotation) 가공하기 위한 데이터 가공 장치 및 그 방법에 관한 것이다.
딥러닝으로 인해 인공지능 분야가 빠르게 혁신되고 있지만, 딥러닝은 엄청난 양의 학습데이터를 요구한다. 2012년 구글이 구현한 인공지능은 유튜브 영상 속 고양이를 스스로 구분해 내었으나, 이는 약 1,000만 개의 동영상을 학습한 결과였다.
즉, 우수한 인공지능을 위해서 많은 양의 데이터를 학습할 필요가 있다. 하지만, 많은 양의 원시 데이터를 확보하더라도, 확보된 데이터를 기계 학습이 가능한 형태로 준비할 필요가 있다. 즉, 기계학습을 위해 데이터의 전처리가 필요하다. 이러한 전처리를 어노테이션(annotation)이라 한다.
예를 들어, 이미지 형식의 원시 데이터에서 이미지 내 각종 사물을 알아보고 경계선을 구분하는 것은 인간에게는 매우 쉽지만 동일한 이미지를 기계가 인간처럼 알아보기 위해서는 이미지 속의 건물, 나무, 자동차 등에 해당하는 부분들을 인간이 일일이 경계선으로 구분 짓고 해당 사물의 명칭을 이미지와 함께 기록해줄 필요가 있다.
이러한, 어노테이션이라 불리는 데이터 전처리 과정을 거쳐야 해당 데이터를 기계가 이해할 수 있고, 기계 학습을 위한 데이터로 사용할 수 있다.
상술된 어노테이션을 위한 작업은 많은 인력과 많은 시간이 요구되고, 이러한 어노테이션 작업을 효율적으로 수행할 수 있는 기술이 요구된다.
본 발명은 원시 데이터를 가공하기 위한 데이터 가공 장치에 관한 것으로, 구체적으로는 비정형 원시 데이터를 딥러닝 등에 사용할 수 있도록 어노테이션(annotation) 가공하기 위한 데이터 가공 장치 및 그 방법을 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 데이터 가공 장치는 원시 데이터를 표시하는 표시 유니트; 상기 표시 유니트에 표시된 상기 원시 데이터를 어노테이션 데이터로 가공하기 위한 어노테이션 정보가 입력되는 입력 유니트; 상기 입력 유니트에 입력된 상기 어노테이션 정보를 상기 원시 데이터에 매칭하여 상기 어노테이션 데이터로 가공하는 데이터 가공 유니트; 및 상기 입력 유니트에 상기 어노테이션 정보가 입력될 시 상기 어노테이션 정보의 입력 상태 정보를 기록 및 분석하는 분석 유니트를 포함하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 분석 유니트는, 상기 어노테이션 정보가 입력되는 입력 횟수를 측정하는 카운팅부와, 상기 어노테이션 정보가 입력되는 입력 시간을 측정하는 입력 시간 측정부와, 상기 어노테이션 정보의 입력 정확도를 측정하는 정확도 측정부와, 상기 입력 상태 정보인 상기 입력 정확도, 상기 입력 횟수 및 상기 입력 시간 중 하나 이상의 정보를 기록하는 기록부와, 상기 입력 상태 정보를 분석하는 분석부를 포함하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 원시 데이터는 복수로 마련되고, 상기 카운팅부는 원시 데이터 하나 당 상기 입력 유니트에 어노테이션 정보가 입력된 횟수를 카운팅하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 원시 데이터는 복수로 마련되고, 상기 카운팅부는 단위 시간당 어노테이션 정보 입력이 완료된 원시 데이터의 개수를 카운팅하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 입력 시간 측정부는 상기 표시 유니트에 원시 데이터가 출력된 후, 출력된 원시 데이터에 대한 어노테이션 정보의 입력이 완료되기까지 걸리는 시간을 측정하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 표시 유니트는 어노테이션 정보와 매칭이 완료된 어노테이션 데이터의 원시 데이터를 시험용 원시 데이터로서 표시하고, 상기 입력 유니트는 상기 시험용 원시 데이터에 대해서 새로운 어노테이션 정보가 입력되며, 상기 정확도 측정부는 시험용 원시 데이터의 상기 매칭이 완료된 어노테이션 정보와 상기 새로운 어노테이션 정보를 비교하여 입력 정확도를 산출하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 분석부는 상기 입력 상태 정보를 근거로 상기 입력 유니트의 작업 능률 점수를 산출하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 원시 데이터는 복수로 마련되고, 상기 복수의 원시 데이터는 복수의 타입으로 마련되며, 상기 작업 능률 점수는 상기 원시 데이터의 타입 별로 산출되는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 표시 유니트는 상기 작업 능률 점수를 근거로 작업 공지 메시지를 표시하는 것일 수 있다.
본 발명의 데이터 가공 장치에서 상기 입력 유니트는 복수로 마련되고, 상기 작업 능률 점수는 상기 입력 유니트 각각 마다 개별적으로 산출되는 것일 수 있다.
본 발명의 데이터 가공 방법은 표시 유니트에 원시 데이터를 표시하는 원시 데이터 표시 단계; 표시된 상기 원시 데이터에 해당하는 어노테이션 정보를 입력하는 어노테이션 정보 입력 단계; 상기 어노테이션 정보가 입력되는 상태에 대한 입력 상태 정보를 기록하는 입력 상태 정보 기록 단계; 및 상기 입력 상태 정보를 근거로 작업 능률 점수를 산출하는 단계를 포함할 수 있다.
본 발명의 데이터 가공 방법은 상기 입력 상태 정보 기록 단계에서, 상기 입력 상태 정보는, 원시 데이터 하나 당 어노테이션 정보가 입력된 횟수 정보, 단위 시간당 어노테이션 정보 입력이 완료된 원시 데이터의 개수 정보, 상기 표시 유니트에 원시 데이터가 출력된 후 출력된 원시 데이터에 대한 어노테이션 정보의 입력이 완료되기까지 걸리는 시간 정보, 입력된 어노테이션 정보의 단위 개수 당 입력 시간 정보, 어노테이션 정보 입력이 완료된 원시 데이터의 단위 개수 당 입력 시간 정보, 및 어노테이션 정보의 정확도 정보 중 하나 이상을 포함하는 것일 수 있다.
본 발명의 데이터 가공 방법은 상기 원시 데이터 표시 단계에서 정답 어노테이션 정보가 확보된 시험용 원시 데이터를 표시되고, 상기 어노테이션 정보 입력 단계에서 상기 시험용 원시 데이터에 대한 새로운 어노테이션 정보가 입력되며, 상기 어노테이션 정보 입력 단계와 상기 입력 상태 정보 기록 단계 사이에, 상기 정답 어노테이션 정보와 상기 새로운 어노테이션 정보를 비교하여 상기 정확도 정보를 산출하는 상기 정확도 정보 산출 단계를 더 포함하는 것 일 수 있다.
본 발명은 입력 유니트에 입력되는 어노테이션 정보에 대한 입력 상태 정보를 관리하는 분석 유니트를 마련함으로써, 어노테이션 작업자들의 효율을 크게 높이고, 최종적으로 생산되는 어노테이션 데이터의 오류를 줄일 수 있다.
도 1은 본 발명의 데이터 가공 장치를 나타내는 블록도이다.
도 2는 분석 유니트를 나타내는 블록도이다.
도 3은 본 발명의 데이터 가공 장치의 다른 실시예를 나타내는 블록도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 실시예를 상세히 설명한다. 이 과정에서 도면에 도시된 구성요소의 크기나 형상 등은 설명의 명료성과 편의상 과장되게 도시될 수 있다. 또한, 본 발명의 구성 및 작용을 고려하여 특별히 정의된 용어들은 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다.
도 1은 본 발명의 데이터 가공 장치를 나타내는 블록도이다. 도 2는 분석 유니트(100)를 나타내는 블록도이다. 도 3은 본 발명의 데이터 가공 장치의 다른 실시예를 나타내는 블록도이다.
이하, 도 1 내지 도 3을 참조하여 본 발명의 데이터 가공 장치를 상세히 설명한다.
도 1에 도시된 바와 같이, 본 발명의 데이터 분석 장치는 원시 데이터를 표시하는 표시 유니트(200), 표시 유니트(200)에 표시된 원시 데이터를 어노테이션 데이터로 가공하기 위한 어노테이션 정보가 입력되는 입력 유니트(300), 입력 유니트(300)에 입력된 어노테이션 정보를 원시 데이터에 매칭하여 어노테이션 데이터로 가공하는 데이터 가공 유니트(400), 및 입력 유니트(300)에 어노테이션 정보가 입력될 시 어노테이션 정보의 입력 상태 정보를 기록 및 분석하는 분석 유니트(100)를 포함할 수 있다.
본 발명은 입력 유니트(300)에 입력되는 어노테이션 정보에 대한 입력 상태 정보를 관리하는 분석 유니트(100)를 마련함으로써, 어노테이션 작업자들의 효율을 크게 높이고, 최종적으로 생산되는 어노테이션 데이터의 오류를 줄일 수 있다.
원시 데이터는 딥러닝을 위해 수집된 데이터로 어노테이션 작업이 필요한 데이터를 의미할 수 있다. 원시 데이터는 오디오 데이터, 음성인식(speech recognition) 데이터, 이미지 데이터, 비디오 데이터, 컴퓨터 시각(computer vision) 데이터, 텍스트 데이터 및 자연 언어(natural language) 데이터 등을 포함할 수 있다.
어노테이션 정보는 원시 데이터를 어노테이션 데이터로 가공하기 위한 것으로서, 어노테이션 작업자가 입력 유니트(300)를 통해 직접 입력한 정보일 수 있다.
원시 데이터가 오디오 데이터 및 음성인식(speech recognition) 데이터인 경우, 어노테이션 정보는 음성 전사 정보, 음원 분류 정보, 음성 발화 수집 정보 등일 수 있다. 예를 들어, 어노테이션 정보는 음성 데이터를 기준에 맞게 받아 적는 전사 작업부터 음성 녹음, 수집, 분류, 구간 발췌 등의 작업으로 취득되는 정보일 수 있다.
원시 데이터가 이미지 데이터, 비디오 데이터 및 컴퓨터 시각(computer vision) 데이터인 경우, 어노테이션 정보는 이미지 수집 정보, 이미지 분류 정보, 이미지 객체 검출 및 태깅 정보 및 시메틱 세그멘테이션 정보일 수 있다. 예를 들어, 어노테이션 정보는 이미지에서 특정 객체를 찾아 영역을 지정하고, 분류에 맞게 레이블링 하기 위한 정보일 수 있다.
원시 데이터가 텍스트 데이터 및 자연 언어(natural language) 데이터인 경우, 어노테이션 정보는 텍스트 수집 정보, 텍스트 분류 정보, 형태소/의미역 태깅 정보, OCR/전사(Transcription) 정보 등일 수 있다. 예를 들어, 어노테이션 정보는 감정 분석, 핵심 키워드 및 문장 도출, 질문-답 세트 만들기, 비정형 데이터에서 단어 속성 등을 지정하는 분류/속성 레이블링 작업으로 취득되는 정보일 수 있다. 또 다른 예로, 어노테이션 정보는 자연어 처리(NLP)를 위한 텍스트 전처리 작업으로 취득되는 정보일 수 있다.
표시 유니트(200)는 데이터를 시작적으로 표시하는 디스플레이 장치일 수 있다. 예를 들어, 표시 유니트(200)는 CRT, LCD, OLED, 전자책 등의 장치일 수 있다.
입력 유니트(300)는 어노테이션 작업자가 어노테이션 정보를 입력하기 위한 입력 장치일 수 있다. 입력 유니트(300)에서 입력된 정보는 분석 유니트(100) 또는 데이터 가공 유니트(400)로 전송될 수 있다. 표시 유니트(200)에 원시 데이터가 출력되면 어노테이션 작업자는 출력된 원시 데이터에 대한 어노테이션 정보를 입력 유니트(300)를 통해 입력할 수 있다.
데이터 가공 유니트(400)는 원시 데이터와 해당 원시 데이터의 어노테이션 정보를 결합하여 원시 데이터를 어노테이션 데이터로 가공할 수 있다. 데이터 가공 유니트(400)에서 가공된 어노테이션 데이터는 기계 학습을 위해 바로 사용될 수 있다.
도 2에 도시된 바와 같이, 분석 유니트(100)는 어노테이션 정보가 입력되는 입력 횟수를 측정하는 카운팅부(110)와, 어노테이션 정보가 입력되는 입력 시간을 측정하는 입력 시간 측정부(120)와, 어노테이션 정보의 입력 정확도를 측정하는 정확도 측정부(130)와, 입력 상태 정보인 입력 정확도, 입력 횟수 및 입력 시간 중 하나 이상의 정보를 기록하는 기록부(140)와, 입력 상태 정보를 분석하는 분석부(150)를 포함할 수 있다.
카운팅부(110)는 복수로 마련되는 원시 데이터에 대해서 원시 데이터 하나 당 입력 유니트(300)에 어노테이션 정보가 입력된 횟수를 카운팅할 수 있다. 예를 들어, 이미지 타입의 원시 데이터에 대한 어노테이션 정보인 2D 주변 사각형(bounding box) 정보가 입력부를 통해 입력될 때, 이미지 한장에 2D 주변 사각 정보가 입력된 횟수를 카운팅부(110)는 카운팅할 수 있다.
카운팅부(110)는 어노테이션 정보를 분류하여 카운팅할 수 있다. 예를 들어, 이미지 타입의 원시 데이터 한 장에 대해서도 어노테이션 정보는 2D 주변 사각형 정보, 라벨링(labeling) 정보 등 여러 가지 정보가 입력될 수 있고, 이때, 카운팅부(110)는 개별 라벨링 정보 당 2D 주변 사각형 정보가 입력된 개수를 카운팅할 수 있다.
카운팅부(110)는 단위 시간당 어노테이션 정보 입력이 완료된 원시 데이터의 개수를 카운팅할 수 있다. 표시 유니트(200)에 원시 데이터가 출력되면 어노테이션 작업자는 표시된 원시 데이터에 해당되는 어노테이션 정보를 모두 입력한 후 원시 데이터 하나에 대한 어노테이션 정보 입력을 완료할 수 있다. 이와 같이, 어노테이션 정보 입력이 완료된 원시 데이터의 개수를 카운팅부(110)는 카운팅할 수 있다.
입력 시간 측정부(120)는 표시 유니트(200)에 원시 데이터가 출력된 후, 출력된 원시 데이터에 대한 어노테이션 정보의 입력이 완료되기까지 걸리는 시간을 측정할 수 있다.
입력 시간 측정부(120)는 입력된 어노테이션 정보의 단위 개수 당 입력 시간을 측정할 수 있다. 예를 들어, 입력 시간 측정부(120)는 정의된 어노테이션 정보의 단위 개수가 100이라면, 어노테이션 정보가 100개가 입력되는 시간을 측정할 수 있다.
입력 시간 측정부(120)는 어노테이션 정보 입력이 완료된 원시 데이터의 단위 개수 당 입력 시간을 측정할 수 있다. 예를 들어, 입력 시간 측정부(120)는 정의된 원시 데이터의 단위 개수가 100이라면, 원시 데이터 100개가 완료되는 시간을 측정할 수 있다.
정확도 측정부(130)는 입력 정확도를 측정할 수 있다. 정확도 측정부(130)는 표시 유니트(200)에 어노테이션 정보 매칭이 완료된 어노테이션 데이터의 원시 데이터를 시험용 원시 데이터로서 표시할 수 있다. 시험용 원시 데이터가 표시 유니트(200)에 출력되면 어노테이션 작업자는 입력 유니트(300)에 시험용 원시 데이터에 대한 새로운 어노테이션 정보를 입력할 수 있다. 정확도 측정부(130)는 시험용 원시 데이터에 이미 매칭되어 있었던 어노테이션 정보를 새로 입력된 어노테이션 정보를 비교하여 입력 정확도를 산출할 수 있다.
기록부(140)는 데이터 저장 매체로 입력 상태 정보를 저장할 수 있다.
분석부(150)는 입력 상태 정보를 근거로 입력 유니트(300)의 작업 능률 점수를 산출할 수 있다.
작업 능률 점수는 여러 종류의 입력 상태 정보에 각기 다른 가중치를 두어 복수의 모드로 산출될 수 있다. 예를 들어, 작업자의 집중도를 확인하고 싶을 경우 입력 정확도에 가중치를 높게 두어 작업 능률 점수를 산출할 수 있고, 작업자의 성실도를 확인하고 싶을 경우 입력 횟수 및 입력 시간에 가중치를 높게 두어 작업 능률 점수를 산출할 수 있다.
원시 데이터는 상술된 바와 같이, 이미지, 텍스트, 오디오 등 복수의 타입으로 마련될 수 있다. 작업 능률 점수는 원시 데이터의 타입 별로 산출될 수 있다. 예를 들어, 오디오 타입 원시 데이터에 대한 작업 능률 점수, 텍스트 타입 원시 데이터에 대한 작업 능률 점수 등 원시 데이터가 분류된 정의에 따라 작업 능률 점수는 산출될 수 있다.
표시 유니트(200)는 작업 능률 점수를 근거로 작업 공지 메시지를 표시할 수 있다. 예를 들어, 오디오 타입 원시 데이터에 대한 작업 능률 점수가 낮을 경우, 다른 타입의 원시 데이터 작업을 권하는 공지 메시지가 표시 유니트(200)에 표시될 수 있다. 또 다른 예로, 전체적인 작업 능률 점수가 낮을 경우, 경고 또는 휴식에 대한 공지 메시지가 표시 유니트(200)에 표시될 수 있다.
분석 유니트(100)는 작업 능률 점수 및 입력 상태 정보를 근거로 작업자의 작업 비용을 산출할 수 있다.
도 3에 도시된 바와 같이, 입력 유니트(300)는 복수로 마련되고, 작업 능률 점수는 입력 유니트(300) 각각 마다 개별적으로 산출될 수 있다. 각 입력 유니트(300)에는 개별적으로 식별 코드가 할당되며, 기록부(140)는 식별 코드별로 입력 상태 정보를 저장할 수 있다. 또한, 분석부(150)는 식별 코드별로 작업 능률 점수를 산출할 수 있다.
본 발명의 데이터 가공 방법은 표시 유니트에 원시 데이터를 표시하는 원시 데이터 표시 단계; 표시된 상기 원시 데이터에 해당하는 어노테이션 정보를 입력하는 어노테이션 정보 입력 단계; 상기 어노테이션 정보가 입력되는 상태에 대한 입력 상태 정보를 기록하는 입력 상태 정보 기록 단계; 및 상기 입력 상태 정보를 근거로 작업 능률 점수를 산출하는 단계를 포함할 수 있다.
본 발명의 데이터 가공 방법은 상기 입력 상태 정보 기록 단계에서, 상기 입력 상태 정보는, 원시 데이터 하나 당 어노테이션 정보가 입력된 횟수 정보, 단위 시간당 어노테이션 정보 입력이 완료된 원시 데이터의 개수 정보, 상기 표시 유니트에 원시 데이터가 출력된 후 출력된 원시 데이터에 대한 어노테이션 정보의 입력이 완료되기까지 걸리는 시간 정보, 입력된 어노테이션 정보의 단위 개수 당 입력 시간 정보, 어노테이션 정보 입력이 완료된 원시 데이터의 단위 개수 당 입력 시간 정보, 및 어노테이션 정보의 정확도 정보 중 하나 이상을 포함하는 것일 수 있다.
본 발명의 데이터 가공 방법은 상기 원시 데이터 표시 단계에서 정답 어노테이션 정보가 확보된 시험용 원시 데이터를 표시되고, 상기 어노테이션 정보 입력 단계에서 상기 시험용 원시 데이터에 대한 새로운 어노테이션 정보가 입력되며, 상기 어노테이션 정보 입력 단계와 상기 입력 상태 정보 기록 단계 사이에, 상기 정답 어노테이션 정보와 상기 새로운 어노테이션 정보를 비교하여 상기 정확도 정보를 산출하는 상기 정확도 정보 산출 단계를 더 포함하는 것 일 수 있다.
이상에서 본 발명에 따른 실시예들이 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 특허청구범위에 의해서 정해져야 할 것이다.
100...분석 유니트
110...카운팅부
120...입력 시간 측정부
130...정확도 측정부
140...기록부
150...분석부
200...표시 유니트
300...입력 유니트
400...데이터 가공 유니트

Claims (13)

  1. 원시 데이터를 표시하는 표시 유니트;
    상기 표시 유니트에 표시된 상기 원시 데이터를 어노테이션 데이터로 가공하기 위한 어노테이션 정보가 입력되는 입력 유니트;
    상기 입력 유니트에 입력된 상기 어노테이션 정보를 상기 원시 데이터에 매칭하여 상기 어노테이션 데이터로 가공하는 데이터 가공 유니트; 및
    상기 입력 유니트에 상기 어노테이션 정보가 입력될 시 상기 어노테이션 정보의 입력 상태 정보를 기록 및 분석하는 분석 유니트를 포함하고,
    상기 분석 유니트는, 상기 어노테이션 정보가 입력되는 입력 횟수를 측정하는 카운팅부와, 상기 어노테이션 정보가 입력되는 입력 시간을 측정하는 입력 시간 측정부와, 상기 어노테이션 정보의 입력 정확도를 측정하는 정확도 측정부와, 상기 입력 상태 정보인 상기 입력 정확도, 상기 입력 횟수 및 상기 입력 시간의 정보를 기록하는 기록부와, 상기 입력 상태 정보를 분석하는 분석부를 포함하며,
    상기 표시 유니트는 어노테이션 정보와 매칭이 완료된 어노테이션 데이터의 원시 데이터를 시험용 원시 데이터로서 표시하고,
    상기 입력 유니트는 상기 시험용 원시 데이터에 대해서 새로운 어노테이션 정보가 입력되며,
    상기 정확도 측정부는 시험용 원시 데이터의 상기 매칭이 완료된 어노테이션 정보와 상기 새로운 어노테이션 정보를 비교하여 입력 정확도를 산출하고,
    상기 분석부는 상기 입력 상태 정보를 근거로 상기 입력 유니트의 작업 능률 점수를 산출하며,
    상기 원시 데이터는 복수로 마련되고, 상기 복수의 원시 데이터는 이미지, 텍스트 및 오디오의 복수의 타입으로 마련되며,
    상기 작업 능률 점수는 상기 원시 데이터의 타입 별로 산출되고,
    상기 표시 유니트는 상기 원시 데이터의 타입 별 상기 작업 능률 점수를 근거로 다른 타입의 원시 데이터 작업으로의 변환을 권하는 작업 공지 메시지를 표시하는 것인 데이터 가공 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 원시 데이터는 복수로 마련되고,
    상기 카운팅부는 원시 데이터 하나 당 상기 입력 유니트에 어노테이션 정보가 입력된 횟수를 카운팅하는 것인 데이터 가공 장치.
  4. 제1항에 있어서,
    상기 원시 데이터는 복수로 마련되고,
    상기 카운팅부는 단위 시간당 어노테이션 정보 입력이 완료된 원시 데이터의 개수를 카운팅하는 것인 데이터 가공 장치.
  5. 제1항에 있어서,
    상기 입력 시간 측정부는 상기 표시 유니트에 원시 데이터가 출력된 후, 출력된 원시 데이터에 대한 어노테이션 정보의 입력이 완료되기까지 걸리는 시간을 측정하는 것인 데이터 가공 장치.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 입력 유니트는 복수로 마련되고,
    상기 작업 능률 점수는 상기 입력 유니트 각각 마다 개별적으로 산출되는 것인 데이터 가공 장치.
  11. 삭제
  12. 삭제
  13. 삭제
KR1020190130712A 2019-10-21 2019-10-21 데이터 가공 장치 및 그 방법 KR102273398B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190130712A KR102273398B1 (ko) 2019-10-21 2019-10-21 데이터 가공 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190130712A KR102273398B1 (ko) 2019-10-21 2019-10-21 데이터 가공 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210047088A KR20210047088A (ko) 2021-04-29
KR102273398B1 true KR102273398B1 (ko) 2021-07-06

Family

ID=75728258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190130712A KR102273398B1 (ko) 2019-10-21 2019-10-21 데이터 가공 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102273398B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150654A1 (ja) 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150654A1 (ja) 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jie Yang et al., YEDDA: A Lightweight Collaborative Text Span Annotation Tool, 2018.05.25. <URL: https://arxiv.org/abs/1711.03759> 1부.*
고건우 외 1인, 기계 학습 기반 정보 추출을 위한 자가 증강형 텍스트 어노테이션 시스템 연구, 한국정보과학회 학술발표논문집, 2018.6. 616-618페이지.1부.*
이연호 외 3인, 링크드 데이터를 이용한 협업적 비디오 어노테이션 및 브라우징 시스템, 지능정보연구 제17권 제3호. 2011년 9월. 203-219페이지. 1부.*

Also Published As

Publication number Publication date
KR20210047088A (ko) 2021-04-29

Similar Documents

Publication Publication Date Title
Gu et al. " what parts of your apps are loved by users?"(T)
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
US11950020B2 (en) Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting
US20120259617A1 (en) System and method for slang sentiment classification for opinion mining
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
US11914963B2 (en) Systems and methods for determining and using semantic relatedness to classify segments of text
US20230177799A1 (en) Relationship modeling and adjustment based on video data
CN112699645B (zh) 语料标注方法、装置及设备
CN111183421A (zh) 服务提供系统、业务分析支援系统、方法以及程序
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN112836067A (zh) 基于知识图谱的智能搜索方法
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
CN109241276B (zh) 文本中词语分类方法、言语创造性评价方法和系统
CN111242170A (zh) 食品检验检测项目预知方法及装置
Panenghat et al. Towards the necessity for debiasing natural language inference datasets
CN111427996B (zh) 一种人机交互文本中抽取日期时间的方法和装置
KR102273398B1 (ko) 데이터 가공 장치 및 그 방법
US20220051670A1 (en) Learning support device, learning support method, and recording medium
Heidari et al. Financial footnote analysis: developing a text mining approach
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111160756A (zh) 基于二次人工智能算法的景区评估方法及模型
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
Al-Obeidat et al. Twitter sentiment analysis to understand students' perceptions about online learning during the Covid'19
CN113449083B (zh) 作业安全管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant