KR102403617B1 - 학습 데이터 생성 장치 및 방법 - Google Patents
학습 데이터 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR102403617B1 KR102403617B1 KR1020210140287A KR20210140287A KR102403617B1 KR 102403617 B1 KR102403617 B1 KR 102403617B1 KR 1020210140287 A KR1020210140287 A KR 1020210140287A KR 20210140287 A KR20210140287 A KR 20210140287A KR 102403617 B1 KR102403617 B1 KR 102403617B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- annotation
- learning
- temporary
- training data
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 70
- 238000012795 verification Methods 0.000 claims abstract description 22
- 238000013523 data management Methods 0.000 claims description 25
- 238000012937 correction Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
학습 데이터 생성 장치 및 방법을 개시한다. 본 발명은 어노테이션된 일정 개수의 임시 학습 데이터를 모델 학습부의 분류 모델에서 학습되도록 하고, 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어를 통해 어노테이션 요건을 수정하며, 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측한 결과 중에서 확률값이 일정 기준 이하인 어노테이션 되지 않은 데이터를 추가 학습 데이터의 후보로 선정하고 어노테이션을 통해 분류 모델의 학습 데이터로 생성하여 분류 모델의 학습 데이터를 신속하고 효율적으로 구축할 수 있다.
Description
본 발명은 학습 데이터 생성 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 어노테이션된 일정 개수의 임시 학습 데이터를 모델 학습부의 분류 모델에서 학습되도록 하고, 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어를 통해 어노테이션 요건을 수정하며, 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측한 결과 중에서 확률값이 일정 기준 이하인 어노테이션 되지 않은 데이터를 추가 학습 데이터의 후보로 선정하고 어노테이션을 통해 분류 모델의 학습 데이터로 생성하여 분류 모델의 학습 데이터를 신속하고 효율적으로 구축할 수 있는 학습 데이터 생성 장치 및 방법에 관한 것이다.
딥러닝으로 인해 인공지능 분야가 빠르게 혁신되고 있지만, 딥러닝은 엄청난 양의 학습데이터를 요구한다.
2012년 구글이 구현한 인공지능은 유튜브 영상 속 고양이를 스스로 구분해 내었으나, 이는 약 1,000만 개의 동영상을 학습한 결과였다.
우수한 인공지능을 위해서 많은 양의 데이터를 학습할 필요가 있다. 하지만, 많은 양의 원시 데이터를 확보하더라도, 확보된 데이터를 기계 학습이 가능한 형태로 준비할 필요가 있다.
즉, 기계 학습을 위해 데이터의 전처리가 요구되는데, 이러한 전처리를 어노테이션(annotation)이라 한다.
예를 들어, 이미지 형식의 데이터에서 이미지 내 각종 사물을 알아보고 경계선을 구분하는 것은 인간에게는 매우 쉽지만 동일한 이미지를 기계가 인간처럼 알아보기 위해서는 이미지 속의 건물, 나무, 자동차 등에 해당하는 부분들을 인간이 일일이 경계선으로 구분 짓고 해당 사물의 명칭을 이미지와 함께 기록해줄 필요가있다.
이러한, 어노테이션이라 불리는 데이터 전처리 과정을 거쳐야 해당 데이터를 기계가 이해할 수 있고, 기계 학습을 위한 데이터로 사용할 수 있다.
도1은 종래 기술에 따른 어노테이션 처리를 설명하기 위한 예시도이다.
도1에 나타낸 바와 같이, 작업자는 로딩된 텍스트 데이터(10)를 읽으며 어노테이션 요건에 맞는 내용을 태깅(20)하여 어노테이션 작업을 수행한다.
그러나, 작업자가 개별 텍스트를 읽으며 어노테이션 작업을 수행함에 따라 시간이 요구되어 작업 효율이 낮어지는 문제점이 있다.
또한, 어노테이션 작업을 진행하는 동안 학습 목표, 학습 방법 등이 변경되거나, 어노테이션 요건을 명확하게 숙지하지 않거나 작업자의 주관적인 판단 또는 숙련도의 차이 등에 따라 불규칙한 어노테이션 작업이 이루어질 수 있는 문제점이 있다.
이러한 문제점을 해결하기 위하여, 본 발명은 어노테이션된 일정 개수의 임시 학습 데이터를 모델 학습부의 분류 모델에서 학습되도록 하고, 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어를 통해 어노테이션 요건을 수정하며, 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측한 결과 중에서 확률값이 일정 기준 이하인 어노테이션 되지 않은 데이터를 추가 학습 데이터의 후보로 선정하고 어노테이션을 통해 분류 모델의 학습 데이터로 생성하여 분류 모델의 학습 데이터를 신속하고 효율적으로 구축할 수 있는 학습 데이터 생성 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 학습 데이터 생성 장치로서, 하나 이상의 어노테이션 작업부에서 어노테이션(Annotation)된 일정 개수의 임시 학습 데이터가 모델 학습부의 분류 모델에서 학습되도록 관리하고, 상기 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측 결과를 상기 어노테이션 작업부로 전달하되, 상기 어노테이션 되지 않은 데이터와 분류 모델이 예측한 결과를 함께 전달하여 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터를 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 학습 데이터 생성 장치는 비정형 학습 데이터를 기반으로 하나 이상의 어노테이션 작업부에서 어노테이션된 학습 데이터를 생성하는 학습 데이터 생성부; 상기 어노테이션된 학습 데이터 중에서 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부의 분류 모델이 학습을 수행하도록 관리하고, 상기 임시 학습 데이터로 학습한 분류 모델이 어노테이션 되지 않은 데이터를 예측한 결과와 상기 어노테이션 되지 않은 데이터를 상기 어노테이션 작업부로 전달하며, 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터를 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 학습 데이터 관리부; 및 상기 분류 모델의 학습 데이터를 저장하는 학습 데이터 저장부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 학습 데이터 관리부는 임시 학습 데이터의 어노테이션시 데이터의 정합성을 위해 복수의 어노테이션 작업부에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 학습 데이터 관리부는 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부로 전송하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 학습 데이터 관리부는 분류 모델의 예측 결과 중에서 예측이 틀린 임시 검증 데이터가 발생되면, 상기 예측이 틀린 임시 검증 데이터의 어텐션 스코어(Attention Score)를 확인 후 어노테이션 요건이 변경되도록 관리하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 학습 데이터 생성 방법으로서, a) 데이터 생성부가 임의의 데이터에 대해 하나 이상의 어노테이션 작업부에서 어노테이션(Annotation)을 수행하여 임시 학습 데이터를 생성하고, 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부의 분류 모델이 학습되도록 관리하는 단계; b) 상기 데이터 생성부가 a) 단계에서 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 결과를 수신하고, 수신된 어노테이션 되지 않은 데이터와 분류 모델의 예측 결과를 상기 어노테이션 작업부로 전달하는 단계; 및 c) 상기 데이터 생성부가 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터를 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 a) 단계는 상기 데이터 생성부가 임시 학습 데이터의 어노테이션시 복수의 어노테이션 작업부에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 한다.
또한 상기 실시 예에 따른 b) 단계는 상기 데이터 생성부가 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부로 전송하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 c) 단계는 상기 데이터 생성부가 분류 모델의 예측 결과 중에서 예측이 틀린 데이터를 확인하면, 상기 예측이 틀린 데이터의 어텐션 스코어(Attention Score)를 확인 후 어노테이션 요건이 변경되도록 관리하는 것을 특징으로 한다.
본 발명은 어노테이션된 일정 개수의 임시 학습 데이터를 모델 학습부의 분류 모델에서 학습되도록 하고, 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어를 통해 어노테이션 요건을 수정하며, 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측한 결과 중에서 확률값이 일정 기준 이하인 어노테이션 되지 않은 데이터를 추가 학습 데이터의 후보로 선정하고 어노테이션을 통해 분류 모델의 학습 데이터로 생성하여 분류 모델의 학습 데이터를 신속하고 효율적으로 구축할 수 있는 장점이 있다.
도1은 종래 기술에 따른 어노테이션 처리를 설명하기 위한 예시도.
도2는 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치를 설명하기 위해 나타낸 블록도.
도3은 도2의 실시 예에 따른 학습 데이터 생성 장치의 데이터 생성부 구성을 나타낸 블록도.
도4는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법을 설명하기 위해 나타낸 흐름도.
도5는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법의 학습 데이터를 나타낸 예시도.
도2는 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치를 설명하기 위해 나타낸 블록도.
도3은 도2의 실시 예에 따른 학습 데이터 생성 장치의 데이터 생성부 구성을 나타낸 블록도.
도4는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법을 설명하기 위해 나타낸 흐름도.
도5는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법의 학습 데이터를 나타낸 예시도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도2는 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치를 설명하기 위해 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 학습 데이터 생성 장치의 데이터 생성부 구성을 나타낸 블록도이다.
도2 및 도3을 참조하면, 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치는 하나 이상의 어노테이션 작업부(200)에서 어노테이션(Annotation)된 일정 개수의 임시 학습 데이터가 모델 학습부(300)의 분류 모델에서 학습되도록 관리하는 데이터 생성부(100)로 구성될 수 있다.
또한, 데이터 생성부(100)는 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측하고, 예측한 확률값을 추출함으로써, 분류 모델이 추가적으로 학습이 필요한 데이터들을 어노테이션 작업부(200)로 전달할 수 있다.
또한, 데이터 생성부(100)는 분류 모델의 예측 결과 중에서 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터들을 기반으로 새로운 어노테이션 후보 데이터로 선택하여 분류 모델의 학습 데이터를 생성할 수 있다.
이를 위해, 데이터 생성부(100)는 학습 데이터 생성부(110)와, 학습 데이터 관리부(120)와, 학습 데이터 저장부(130)를 포함하여 구성될 수 있다.
학습 데이터 생성부(110)는 비정형 학습 데이터를 기반으로 하나 이상의 어노테이션 작업부(200)에서 어노테이션 처리된 학습 데이터를 수신하고, 수신된 학습 데이터 중에서 분류 모델의 학습 데이터를 생성하여 저장되도록 관리한다.
여기서, 비정형 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나인 비정형 텍스트 기반의 데이터일 수 있다.
학습 데이터 관리부(120)는 어노테이션 작업부(200)에서 어노테이션 처리된 학습 데이터 중 일정 개수의 임시 학습 데이터를 생성할 수 있다.
즉, 학습 데이터 관리부(120)는 신속한 학습 데이터의 구축을 위해 분류 모델의 학습 초기에 예를 들어, 1000건 정도의 임시 학습 데이터를 생성할 수 있다.
또한, 학습 데이터 관리부(120)는 임시 학습 데이터의 생성을 위한 데이터의 어노테이션 처리시에 데이터의 정합성을 위해 복수의 어노테이션 작업부(200)에 동일한 학습 데이터가 전송되도록 관리할 수 있다.
즉, 학습 데이터 관리부(120)가 복수의 어노테이션 작업부(200)에 동일한 학습 데이터를 전송함으로써, 어노테이션 작업부(200)를 이용하여 어노테이션 처리를 수행하는 작업자들 간에 명확한 어노테이션 가이드 라인을 제공함으로써, 어노테이션 사상이 통일될 수 있도록 한다.
또한, 학습 데이터 관리부(120)는 초기 어노테이션 처리 결과를 비교하여 작업자들 간의 사상이 통일 또는 공유될 수 있도록 관리할 수 있다.
또한, 학습 데이터 관리부(120)는 복수의 어노테이션 작업부(200)에서 어노테이션 처리 후 작업 결과를 분석하여 작업자 별로 어노테이션 작업 대상 학습 데이터의 종류 및 학습 데이터의 처리 건수를 차등 배분할 수도 있다.
또한, 학습 데이터 관리부(120)는 어노테이션 작업부(200)에서 어노테이션 처리된 임시 학습 데이터를 모델 학습부(300)에 전달하여 모델 학습부(300)의 분류 모델이 임시 학습 데이터를 기반으로 모델 학습을 수행하도록 관리할 수 있다.
또한, 학습 데이터 관리부(120)는 모델 학습부(300)의 분류 모델이 임시 학습 데이터를 이용한 모델 학습을 완료하면, 어노테이션 되지 않은 데이터에 대한 예측을 수행하도록 제어하고, 분류 모델이 어노테이션 되지 않은 데이터에 대한 예측 결과, 예를 들어, '칭찬이 맞음', '불만이 맞음'과 같은 'Y' 또는 'N' 등의 판단 결과와 그 판단에 대한 확률값을 예측 결과로 수신할 수 있다.
또한, 학습 데이터 관리부(120)는 모델 학습부(300)에서 예측한 결과와 어노테이션 되지 않은 데이터를 어노테이션 작업부(200)로 전달할 수 있다.
또한, 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터를 활용해, 분류 모델이 판단한 검증 데이터 중에서 잘못 예측한 데이터의 토큰(또는 텍스트)에 하이라이트 등의 태깅 표시를 부가하여 어노테이션 작업부(200)로 전달함으로써, 수정이 필요한 어노테이션 요건을 작업자가 신속하게 확인할 수 있도록 한다.
이때, 태깅 표시가 부가되는 토큰은 학습된 분류 모델이 해당 예측을 하는데 많이 기여한 부분으로써, 어텐션 스코어 값이 일정 값, 예를 들어 상위 50%인 토큰을 추출하여 하이라이트 등의 태깅 표시를 부가할 수 있다.
또한, 학습 데이터 관리부(120)는 분류 모델의 예측 결과 중 예측 결과가 일정 기준 이하인 학습 데이터를 기반으로 분류 모델의 학습 데이터가 효율적으로 생성되도록 관리할 수 있다.
즉, 학습 데이터 관리부(120)는 확률값이 '0.5111', '0.49999'와 같이 판단하기에 모호한 확률값을 갖는 학습 데이터들을 위주로 분류 모델의 학습 데이터를 구축할 수 있다.
또한, 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터를 활용해 예측이 틀린 임시 검증 데이터의 어텐션 스코어(Attention Score)를 확인할 수 있다.
또한, 학습 데이터 관리부(120)는 어텐션 스코어의 확인 결과, 수정이 필요하면 어노테이션 요건을 변경할 수 있다.
즉, 학습 데이터 관리부(120)는 분류 모델이 실제로 틀린 검증 데이터에 대하여 'Y'로 예측한 경우, 'Y'로 예측한 이유와 관련 있는 토큰(또는 텍스트)의 어텐션 스코어를 추출하여 해당 토큰에 대한 어텐션 스코어가 변경되도록 조정함으로써, 어노테이션 요건이 수정되도록 할 수 있다.
예를 들어, 실제 '불만' 내용을 포함한 검증 데이터에 대하여, 텍스트 중에 '하여튼 고맙습니다' 또는 '(회사) 감사합니다'와 같은 '칭찬'으로 분류할 수 있는 요건에 대하여 수정된 어노테이션 요건이 반영되도록 관리할 수 있다.
학습 데이터 저장부(130)는 학습 데이터 생성부(110)에서 생성된 분류 모델의 학습 데이터를 저장한다.
어노테이션 작업부(200)는 어노테이션 되지 않은 데이터 및 예측 결과를 수신하여 디스플레이되도록 하고, 어노테이션 요건에 따라 작업자가 입력하는 태깅 등의 어노테이션 작업과, 분류 모델이 예측한 예측 결과를 입력받아 데이터 생성부(100)로 제공하는 구성으로서, 데스크 탑 PC, 노트북 PC, 태블릿 PC, 모바일 단말 또는 서버 시스템 등으로 구성될 수 있다.
또한, 어노테이션 작업부(200)는 작업자가 태깅 등의 어노테이션 처리를 수행할 수 있도돌 어노테이션 툴이 설치될 수 있다.
모델 학습부(300)는 분류 모델이 설치되어 학습 데이터를 이용한 모델링을 수행하고, 학습 데이터를 분류 및 판단한 예측 결과를 출력하는 구성으로서, 데스크 탑 PC, 노트북 PC, 태블릿 PC, 모바일 단말 또는 서버 시스템 등으로 구성될 수 있다.
다음은 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법을 설명한다.
도4는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법을 설명하기 위해 나타낸 흐름도이다.
도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법은 데이터 생성부(100)가 외부 단말 또는 내재된 데이터 저장부로부터 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나인 비정형 텍스트 기반의 데이터를 수신(S100)한다.
또한, 데이터 생성부(100)는 수신된 데이터를 네트워크를 통해 연결된 하나 이상의 어노테이션 작업부(200)로 전송하여 어노테이션(Annotation)이 수행되도록 하고, 어노테이션 작업부(200)에서 어노테이션 처리된 학습 데이터를 기반으로 임시 학습 데이터를 생성(S200)한다.
또한, S200 단계는 데이터 생성부(100)가 임시 학습 데이터의 어노테이션시 복수의 어노테이션 작업부(200)에 동일한 어노테이션 대상 데이터를 전송할 수 있다.
또한, 데이터 생성부(100)는 S200 단계의 임시 학습 데이터를 일정 개수 생성하고, 생성된 임시 학습 데이터를 기반으로 모델 학습부(300)의 분류 모델이 학습되도록 한다(S300).
분류 모델이 S300 단계의 학습을 완료하면, 데이터 생성부(100)는 학습된 분류 모델이 어노테이션 되지 않은 데이터를 이용한 예측이 수행되도록 하고, 분류 모델이 예측한 결과를 수신하여 어노테이션 작업부(200)로 전달(S400)한다.
이때, S400 단계에서 데이터 생성부(100)는 어노테이션 되지 않은 데이터를 '칭찬이 맞음' 또는 '불만이 맞음'으로 판단한 데이터의 토큰(또는 텍스트)에 하이라이트 등의 태깅 표시를 부가하여 어노테이션 작업부(200)로 전달할 수 있다.
또한, 데이터 생성부(100)는 임시 학습 데이터에서 추출한 임시 검증 데이터를 활용해, 분류 모델이 판단한 검증 데이터 중에서 잘못 예측한 데이터의 토큰(또는 텍스트)에 하이라이트 등의 태깅 표시를 부가하여 어노테이션 작업부(200)로 전달함(S500)으로써, 작업자가 수정이 필요한 어노테이션 요건을 신속하게 확인할 수 있도록 한다.
즉, 도5와 같이, 데이터 생성부(100)는 임시 학습 데이터를 통해 학습된 분류 모델에 임시 검증 데이터를 이용한 예측을 통해, 실제 어노테이션으로 정해진 정답과, 분류 모델이 예측과, 예측값, 그리고 분류 모델이 판단한 이유에 대하여 하이라이트로 표시된 태깅 영역(410)을 수신하여 필요시 어노테이션 요건을 수정하고, 어노테이션 요건의 수정을 어노테이션 작업부(200)로 전송하여 작업자가 확인할 수 있도록 한다.
계속해서, 데이터 생성부(100)는 예를 들어 '맞음'으로 예측되 결과 중에서 예측 확률값이 일정 기준 이하인 데이터를 분류하고, 분류된 데이터를 기반으로 새로운 어노테이션 후보 데이터를 선택해서 어노테이션 작업부(200)로 전달하여 분류 모델의 학습 데이터가 생성(S600)될 수 있도록 한다.
또한, S600 단계에서 데이터 생성부(100)는 분류 모델의 예측 결과 중에서 예측이 틀린 데이터, 즉 실제 'Y'인 데이터를 'N'으로 예측한 데이터가 확인되면, 예측이 틀린 데이터의 어텐션 스코어(Attention Score)를 확인 후 어노테이션 요건을 변경할 수 있다.
즉, 데이터 생성부(100)는 분류 모델이 실제로 틀린 데이터에 대하여 'Y'로 예측한 경우, 'Y'로 예측한 이유와 관련 있는 토큰(또는 텍스트)의 어텐션 스코어를 추출하여 해당 토큰에 대한 어텐션 스코어가 변경되도록 조정함으로써, 어노테이션 요건이 수정될 수 있도록 한다.
따라서, 어노테이션된 일정 개수의 임시 학습 데이터를 모델 학습부의 분류 모델에서 학습되도록 하고, 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어를 통해 어노테이션 요건을 수정하며, 학습된 분류 모델이 어노테이션 되지 않은 데이터를 예측한 후, 예측한 결과 중에서 확률값이 일정 기준 이하인 어노테이션 되지 않은 데이터를 추가 학습 데이터의 후보로 선정하고 어노테이션을 통해 분류 모델의 학습 데이터로 생성하여 분류 모델의 학습 데이터를 신속하고 효율적으로 구축할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 데이터 생성부
110 : 학습 데이터 생성부
120 : 학습 데이터 관리부
130 : 학습 데이터 저장부
200 : 어노테이션 작업부
300 : 모델 학습부
400 : 학습 데이터
410 : 태깅영역
420 : 예측 결과 표시부
110 : 학습 데이터 생성부
120 : 학습 데이터 관리부
130 : 학습 데이터 저장부
200 : 어노테이션 작업부
300 : 모델 학습부
400 : 학습 데이터
410 : 태깅영역
420 : 예측 결과 표시부
Claims (11)
- 비정형 학습 데이터를 기반으로 하나 이상의 어노테이션 작업부(200)에서 어노테이션(Annotation)된 학습 데이터를 생성하는 학습 데이터 생성부(110);
상기 어노테이션된 학습 데이터 중에서 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부(300)의 분류 모델이 학습을 수행하도록 관리하되, 상기 모델 학습부(300)의 분류 모델이 임시 학습 데이터를 이용한 모델 학습을 완료하면, 어노테이션 되지 않은 데이터의 예측을 수행하여 상기 어노테이션 되지 않은 데이터의 예측 결과와 예측 결과에 대한 판단 이유의 확률 값을 상기 어노테이션 작업부(200)로 전달하고, 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터는 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 학습 데이터 관리부(120); 및
상기 분류 모델의 학습 데이터를 저장하는 학습 데이터 저장부(130);를 포함하고,
상기 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 예측 결과가 틀린 경우, 상기 예측 결과가 틀린 임시 검증 데이터의 토큰에 대한 어텐션 스코어(Attention Score)를 확인 후 해당 토큰의 어노테이션 스코어가 변경되도록 어노테이션 요건을 관리하는 것을 특징으로 하는 학습 데이터 생성 장치. - 제 1 항에 있어서,
상기 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 하는 학습 데이터 생성 장치. - 삭제
- 제 1 항에 있어서,
상기 학습 데이터 관리부(120)는 임시 학습 데이터의 어노테이션시 데이터의 정합성을 위해 복수의 어노테이션 작업부(200)에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 하는 학습 데이터 생성 장치. - 제 1 항에 있어서,
상기 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부로 전송하는 것을 특징으로 하는 학습 데이터 생성 장치. - 삭제
- a) 데이터 생성부(100)가 임의의 데이터에 대해 하나 이상의 어노테이션 작업부(200)에서 어노테이션(Annotation)을 수행하여 임시 학습 데이터를 생성하고, 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부(300)의 분류 모델이 학습되도록 관리하는 단계;
b) 상기 데이터 생성부(100)가 a) 단계에서 학습이 완료된 분류 모델을 통해 어노테이션 되지 않은 데이터의 예측을 수행하여 상기 어노테이션 되지 않은 데이터의 예측 결과와 예측 결과에 대한 판단 이유의 확률 값을 상기 어노테이션 작업부(200)로 전달하는 단계; 및
c) 상기 데이터 생성부(100)가 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터를 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 단계;를 포함하고,
상기 c) 단계에서 상기 데이터 생성부(100)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 예측 결과가 틀린 경우, 상기 예측 결과가 틀린 임시 검증 데이터의 토큰에 대한 어텐션 스코어(Attention Score)를 확인 후 해당 토큰의 어노테이션 스코어가 변경되도록 어노테이션 요건을 관리하는 단계를 더 포함하는 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
상기 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
상기 a) 단계는 상기 데이터 생성부(100)가 임시 학습 데이터의 어노테이션시 복수의 어노테이션 작업부(200)에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
b) 단계는 상기 데이터 생성부(100)가 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부(200)로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 학습 데이터 생성 방법. - 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102403617B1 true KR102403617B1 (ko) | 2022-05-30 |
Family
ID=81796720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102403617B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200054138A (ko) * | 2020-01-28 | 2020-05-19 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
KR102246266B1 (ko) * | 2020-06-08 | 2021-04-29 | 주식회사 루닛 | 레이블 정보에 대한 피드백을 제공하는 방법 및 시스템 |
JP2021089491A (ja) * | 2019-12-02 | 2021-06-10 | 株式会社日立ソリューションズ・クリエイト | アノテーション装置および方法 |
KR102310589B1 (ko) | 2021-03-19 | 2021-10-13 | 주식회사 인피닉 | 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
-
2021
- 2021-10-20 KR KR1020210140287A patent/KR102403617B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021089491A (ja) * | 2019-12-02 | 2021-06-10 | 株式会社日立ソリューションズ・クリエイト | アノテーション装置および方法 |
KR20200054138A (ko) * | 2020-01-28 | 2020-05-19 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
KR102246266B1 (ko) * | 2020-06-08 | 2021-04-29 | 주식회사 루닛 | 레이블 정보에 대한 피드백을 제공하는 방법 및 시스템 |
KR102310589B1 (ko) | 2021-03-19 | 2021-10-13 | 주식회사 인피닉 | 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377632B (zh) | 诉讼结果预测方法、装置、计算机设备和存储介质 | |
WO2021128679A1 (zh) | 基于数据决策的测试数据生成方法、装置、计算机设备 | |
US11604980B2 (en) | Targeted crowd sourcing for metadata management across data sets | |
CN106250385A (zh) | 用于文档的自动化信息抽象处理的系统和方法 | |
US9514417B2 (en) | Cloud-based plagiarism detection system performing predicting based on classified feature vectors | |
CN110516791B (zh) | 一种基于多重注意力的视觉问答方法及系统 | |
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN108228705A (zh) | 直播视频反馈中的自动对象和活动跟踪设备、方法及介质 | |
CN110858176B (zh) | 代码质量评估方法、装置、系统及存储介质 | |
US10747956B2 (en) | Artificial intelligence process automation for enterprise business communication | |
CN113868419B (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
US20200202068A1 (en) | Computing apparatus and information input method of the computing apparatus | |
CN110637321A (zh) | 动态申索提交系统 | |
US11935315B2 (en) | Document lineage management system | |
Boza et al. | Implementing AI principles: Frameworks, processes, and tools | |
US20200174776A1 (en) | Methods and systems for automated screen display generation and configuration | |
KR102675005B1 (ko) | 학습 나침반 서비스를 제공하는 방법 | |
US20200285856A1 (en) | Video robot systems | |
KR102486806B1 (ko) | 인공지능에 기반하여 시놉시스 텍스트를 분석하고 시청률을 예측하는 서버 | |
US20230177281A1 (en) | Low-resource multilingual machine learning framework | |
KR102681147B1 (ko) | 검색 증강 생성을 통한 인공지능 챗봇 사용자 의도에 적합한 답변 생성을 구현하기 위한 방법 및 장치 | |
US11314488B2 (en) | Methods and systems for automated screen display generation and configuration | |
KR102403617B1 (ko) | 학습 데이터 생성 장치 및 방법 | |
KR102607071B1 (ko) | 기업용 보고서의 생성 및 데이터베이스 관리의 자동화 플랫폼 서비스 제공 방법, 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |