KR102479679B1 - 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법 - Google Patents

데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법 Download PDF

Info

Publication number
KR102479679B1
KR102479679B1 KR1020220062200A KR20220062200A KR102479679B1 KR 102479679 B1 KR102479679 B1 KR 102479679B1 KR 1020220062200 A KR1020220062200 A KR 1020220062200A KR 20220062200 A KR20220062200 A KR 20220062200A KR 102479679 B1 KR102479679 B1 KR 102479679B1
Authority
KR
South Korea
Prior art keywords
data
augmentation
auto
labeling
unit
Prior art date
Application number
KR1020220062200A
Other languages
English (en)
Inventor
정민성
민지웅
윤창오
보아동
임준규
이원빈
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Application granted granted Critical
Publication of KR102479679B1 publication Critical patent/KR102479679B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법을 개시한다. 본 발명은 데이터 증강을 통해 기존 데이터와 유사한 데이터를 생성하여 모델의 학습에 사용하고, 향상된 모델을 통해 학습에 적절한 데이터를 우선 레이블링시켜 모델의 신속한 성능 향상을 제공할 수 있다.

Description

데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법{APPARATUS AND METHOD FOR BUILDING DATA USING DATA AUGMENTATION AND AUTO LABELING}
본 발명은 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 데이터 증강을 통해 기존 데이터와 유사한 데이터를 생성하여 모델의 학습에 사용하고, 향상된 모델을 통해 학습에 적절한 데이터를 우선 레이블링시켜 모델의 신속한 성능 향상을 제공하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법에 관한 것이다.
일반적으로, 머신 러닝(Passive Machine Learning)은 레이블링되지 않은 데이터에 대해 작업자가 레이블(label)을 부여하면, 이를 기계가 학습하는 방식으로 이루어진다.
머신 러닝 방식은 다양한 소스로부터 확보된 대규모 데이터를 활용하여 학습시켰을 때 잘 동작하나, 모든 학습 데이터에 대해 레이블을 지정하는 등의 어노테이션(annotation) 작업을 수행해야 한다.
이때, 도메인(domain)에 따라 레이블된 데이터의 확보가 어려운 경우가 많아서 데이터가 충분하지 않은 경우가 많다.
이렇게 중소 규모의 데이터를 활용하여 학습을 수행하는 경우 데이터의 도메인 편중(domain bias)이 발생될 수도 있다.
즉, 머신 러닝 모델의 학습 데이터가 주로 속하는 도메인의 데이터에 대해서는 태스크(task)를 잘 수행하지만 특성이 다른 도메인의 데이터에 대해서는 수행 성능이 떨어지는 도메인 쉬프트(domain shift) 문제가 발생할 수 있다.
최근에는 어떤 데이터가 필요한지를 기계가 판단하여 작업자(또는 검수자)에게 레이블링을 요청하면, 작업자가 더 적은 레이블링 작업을 통해 좋은 모델을 학습할 수 있도록 액티브 러닝(Active Learning)이 제안되고 있다.
액티브 러닝은 모델 학습에 더 큰 도움을 주는 데이터를 우선적으로 레이블링해서 모델 학습에 사용함으로써, 모델의 빠른 성능 향상이 가능하고, 모델이 기준 성능에 도달하기 위한 레이블링 필요량의 절감에 따른 레이블링 비용을 감소시킬 수 있는 장점이 있다.
도1은 일반적인 액티브 러닝 과정을 나타낸 예시도로서, 도1을 참조하면 비레이블 데이터 셋(10)이 제공되면, 작업자가 PC 등의 단말로 구성된 레이블링부(20)를 통해 일부의 비레이블 데이터에 대해 임의의 텍스트 또는 주요 영역을 지정하여 적은 양의 초기 레이블 데이터 셋을 구축한다.
또한, 구축된 초기 레이블 데이터 셋을 이용하여 액티브 러닝부(30)의 모델 학습부(31)에서 모델 학습을 수행하고, 학습이 완료된 모델을 이용하여 추가로 수집한 비레이블 데이터 셋(32)에 대해 레이블링부(20)에서 작업자가 추가 레이블 데이터 셋을 구축함으로써, 모델이 일정 성능에 도달하거나 레이블 데이터가 필요량을 충족할 때까지 수행한다.
그러나, 모델의 학습을 위해서는 충분한 양의 레이블 데이터 셋이 필요하지만, 이를 확보하는데 많은 시간이 요구되는 문제점이 있다.
또한, 비정형 데이터인 텍스트 데이터는 정형 데이터에 비해 모델의 성능이 일정 수준까지 도달하는데 많은 데이터가 요구되는 문제점이 있다.
또한, 레이블 데이터가 적은 액티브 러닝의 초반에는 모델의 성능이 좋지 않아 액티브 러닝의 효과가 낮은 문제점이 있다.
또한, 초기에 구축된 레이블 데이터 셋은 일반적으로 특정 도메인에만 치중되어 있는 경우가 많이 발생하므로, 모델을 학습할 경우에 특정 도메인에 대한 과적합 현상이 발생하는 문제점이 있다.
한국 공개특허공보, 공개번호 제10-2020-0082490호(발명의 명칭: 기계 학습 데이터 선택 방법 및 장치)
이러한 문제점을 해결하기 위하여, 본 발명은 데이터 증강을 통해 기존 데이터와 유사한 데이터를 생성하여 모델의 학습에 사용하고, 향상된 모델을 통해 학습에 적절한 데이터를 우선 레이블링시켜 모델의 신속한 성능 향상을 제공하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치로서, 액티브 러닝(Active Learning)을 위한 샘플링 모델 - 이때, 샘플링 모델은 레이블링할 데이터를 우선적으로 찾아주는 모델임 - 의 성능을 개선하기 위해, 임의의 레이블(Lable)된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 액티브 러닝부;를 포함한다.
또한, 상기 실시 예에 따른 액티브 러닝부는 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하여 학습된 샘플링 모델에 의해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링(Auto Labeling)을 통해 추가 레이블 데이터 셋을 생성하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 오토 레이블링은 액티브 러닝부가 학습된 샘플링 모델의 성능을 평가하여 일정 기준에 도달하고, 상기 학습된 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 레이블링을 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 액티브 러닝부는 레이블된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 데이터 증강부; 상기 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하는 모델 학습부; 및 상기 학습된 샘플링 모델을 통해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링을 통해 추가 레이블 데이터 셋을 생성하는 데이터 셋 구축부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 증강부는 레이블링부에서 레이블된 데이터 및 오토 레이블된 데이터 중 하나 이상을 이용하여 레이블된 데이터 셋을 구축하는 레이블 데이터 셋 구축부; 상기 레이블된 데이터의 양을 증가시키기 위해 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행하는 증강부; 및 상기 증강부(112)에서 증강된 데이터를 기반으로 샘플링 모델 학습용 데이터 셋을 생성하는 모델 학습 데이터 셋 구축부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 중 하나 이상을 이용하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 셋 구축부는 학습된 샘플링 모델의 성능을 평가하되, 상기 학습된 샘플링 모델의 성능이 일정 기준에 도달하면, 비레이블 데이터에 대한 샘플링 모델의 신뢰도 예측값을 기반으로 작업자용 레이블링 데이터와 오토 레이블링 데이터로 분류하는 데이터 선택부; 및 상기 데이터 선택부에서 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대한 오토 레이블링을 수행하여 추가 레이블 데이터를 생성하는 오토 레이블부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 셋 구축부는 오토 레이블부에서 오토 레이블링을 통해 판단된 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말로 전송하고, 상기 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영하는 검수부;를 더 포함하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법으로서, a) 액티브 러닝부가 임의의 레이블된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 단계; b) 상기 액티브 러닝부가 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하는 단계; 및 c) 상기 액티브 러닝부가 학습된 샘플링 모델을 통해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링을 통해 추가 레이블 데이터 셋을 생성하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 a) 단계는 액티브 러닝부가 임의의 레이블된 데이터 및 상기 c) 단계에서 오토 레이블된 데이터 중 하나 이상을 이용하여 레이블된 데이터 셋을 기반으로 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 중 하나 이상을 이용하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 c) 단계는 액티브 러닝부가 학습된 샘플링 모델의 성능을 평가하되, 상기 샘플링 모델의 성능 평가 결과가 일정 기준에 도달하면, 상기 학습된 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 오토 레이블링을 수행하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 액티브 러닝부는 오토 레이블링을 통해 판단된 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말로 전송하고, 상기 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명은 데이터 증강을 통해 기존 데이터와 유사한 데이터를 생성하여 액티브 러닝을 위한 샘플링 모델의 학습에 사용하고, 학습된 샘플링 모델을 통해 학습에 적절한 데이터를 우선 선택하여 레이블링시킴으로써, 샘플링 모델의 신속한 성능 향상을 제공할 수 있는 장점이 있다.
또한, 본 발명은 액티브 러닝의 효율성 증대를 통해 레이블 비용의 절감 효과를 증가시킬 수 있는 장점이 있다.
도1은 일반적인 액티브 러닝 과정을 나타낸 예시도.
도2는 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 구성을 나타낸 블록도.
도3은 도2의 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 데이터 증강부 구성을 나타낸 블록도.
도4는 도2의 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 데이터 셋 구축부 구성을 나타낸 블록도.
도5는 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법을 설명하기 위해 나타낸 흐름도.
도6은 도5의 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법의 오토 레이블링을 설명하기 위해 나타낸 예시도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도2는 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 구성을 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 데이터 증강부 구성을 나타낸 블록도이며, 도4는 도2의 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치의 데이터 셋 구축부 구성을 나타낸 블록도이다.
도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치는 액티브 러닝(Active Learning)을 위한 샘플링 모델의 성능을 개선하기 위해, 임의의 레이블(Lable)된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 액티브 러닝부(100)를 포함하여 구성될 수 있다.
또한, 액티브 러닝부(100)는 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 샘플링 모델의 학습을 수행하여 학습된 샘플링 모델에 의해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링(Auto Labeling)을 통해 추가 레이블 데이터 셋을 생성할 수 있다.
이를 위해, 본 발명의 실시 예에 따른 액티브 러닝부(100)는 데이터 증강부(110)와, 모델 학습부(120)와, 데이터 셋 구축부(130)를 포함하여 될 수 있다.
데이터 증강부(110)는 레이블된 데이터 셋을 기반으로 데이터 증강을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 구성으로서, 레이블 데이터 셋 구축부(111)와, 증강부(112)와, 모델 학습 데이터 셋 구축부(113)를 포함하여 구성될 수 있다.
레이블 데이터 셋 구축부(111)는 레이블된 데이터 셋을 구축하는 구성으로서, 레이블링부(20)가 비레이블 데이터 셋(10)을 이용하여 레이블한 데이터와, 데이터 셋 구축부(130)에서 오토 레이블된 데이터를 이용하여 레이블된 데이터 셋을 구축할 수 있다.
증강부(112)는 레이블 데이터 셋 구축부(111)에서 레이블된 데이터의 양을 증가시키기 위해 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행할 수 있다.
여기서, 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 등을 이용할 수 있다.
랜덤 노이즈 인젝션(Random Noise Injection)은 문장의 주요 단어를 유의어로 대체하는 유의어 대체(Synonym Replacement), 문장의 주요 단어에 대한 유의어를 문장의 임의의 위치에 삽입하는 단어 삽입(Random Insertion), 문장에서 2개의 단어를 선택하여 위치를 변경하는 단어 순서 변경(Random Swap), 문장의 단어를 임의의 확률로 삭제하는 단어 삭제(Random Deletion) 등을 수행할 수 있다.
또한, 백번역(Back Translation)은 임의의 문장을 다른 언어, 예를 들어 한글 문장을 영문, 일문, 중문 등으로 변역한 후 번역된 영문, 일문, 중문을 한글로 재번역해서 사용할 수 있다.
또한, 어휘 대체는 문장에서 특정 단어를 대체하거나, TF-IDF 점수(score)가 낮은 단어는 정보가 거의 없는 단어들로 해당 단어를 전체 문서에서 TF-IDF가 낮은 단어로 대체하거나, Word2Vec, Glove, FastText 등의 사전 훈련된 워드 임베딩(Pre-trained Word Embedding)을 이용하여 기존의 단어를 가장 가까운 이웃의 단어로 대체하거나, 또는 BERT(Bidirectional Encoder Representations from Transformers) 등을 이용한 마스크 단어 예측(mask word prediction)을 진행한 결과를 사용할 수 있다.
믹스 텍스트(Mix-Text)는 Text Representation vector를 연산해 새로운 텍스트 표현을 생성하는 방법으로 단어 단위의 mixup과 문장 단위의 mixup을 적용하여 사용할 수 있다.
모델 학습 데이터 셋 구축부(113)는 증강부(112)에서 증강된 데이터를 기반으로 샘플링 모델 학습용 데이터 셋을 생성할 수 있다.
모델 학습부(120)는 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하는 구성으로서, 샘플링 모델은 레이블링할 데이터를 우선적으로 찾아주는 모델일 수 있다.
데이터 셋 구축부(130)는 모델 학습부(120)에서 학습된 샘플링 모델을 통해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링을 수행하여 추가 레이블 데이터 셋을 생성하는 구성으로서, 데이터 선택부(131)와 오토 레이블부(132)와, 검수부(133)를 포함하여 구성될 수 있다.
상기 데이터 선택부(131)는 학습된 샘플링 모델의 성능을 평가할 수 있다.
즉, 데이터 선택부(131)는 학습된 샘플링 모델이 예측한 신뢰도 예측값에 따른 분류 결과의 맞고 틀림과, 맞고 틀림에 따른 평가 결과를 미리 설정된 기준과 비교하여 학습된 샘플링 모델의 성능이 일정 기준에 도달하였는지 판단할 수 있다.
예를 들어, 학습된 샘플링 모델이 예측한 비레이블 데이터의 신뢰도 예측값에 따라 분류한 결과가 맞는지 또는 틀리는지 여부를 평가하고, 분류 결과에 기반한 학습된 샘플링 모델의 정답율이 예를 들어, 90% 이상인 성능에 도달했는지 판단할 수 있다.
또한, 데이터 선택부(131)는 학습된 샘플링 모델의 성능이 일정 기준에 도달됨에 따라 비레이블 데이터에 대한 샘플링 모델의 신뢰도 예측값을 기반으로 작업자용 레이블링 데이터와 오토 레이블링 데이터로 분류할 수 있다.
이때, 데이터 선택부(131)는 샘플링 모델의 신뢰도 예측값이 일정 값 이하인 비레이블 데이터는 작업자용 레이블링 데이터로 분류하고, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터는 오토 레이블링 데이터로 분류할 수 있다.
오토 레이블부(132)는 데이터 선택부(131)에서 샘플링 모델의 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 오토 레이블링을 수행할 수 있다.
오토 레이블링은 학습된 샘플링 모델의 성능을 평가하여 샘플링 모델의 성능이 일정 기준에 도달하고, 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 레이블링을 수행할 수 있다.
즉, 오토 레이블링은 샘플링 모델이 확실하게 예측하는 데이터들을 자동으로 레이블링하는 것으로 불확실성이 낮은 데이터를 자동을 레이블링함으로써, 레이블링에 필요한 시간과 비용이 절감될 수 있도록 한다.
또한, 오토 레이블부(132)는 오토 레이블링을 통해 생성된 레이블링 데이터를 추가 레이블 데이터로 구축할 수 있도록 한다.
또한, 오토 레이블부(132)는 검수자가 텍스트에 대한 전반적인 이해가 필요하고 시간이 오래 걸리는 비레이블 텍스트 데이터에 대하여 오토 레이블링을 통한 시간 절약 효과를 제공할 수 있도록, XAI(explainable AI)를 이용하여 샘플링 모델의 판단 이유를 검수자가 이해할 수 있는 방식으로 제시할 수도 있다.
즉, 오토 레이블부(132)는 비레이블 데이터(또는 원본 데이터)에서 레이블링할 오브젝트를 찾고, 바운딩 박스 등의 태깅 영역 표시와, 어텐션 스코어(Attention Score)와, 분류 예측을 포함한 오토 레이블링을 통해 원본 텍스트 데이터에서 어떤 부분에 의해서 해당 레이블로 결정했는지를 신속하게 확인할 수 있도록 한다.
검수부(133)는 오토 레이블부(132)에서 오토 레이블링을 통해 판단된 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말(미도시)로 전송하고, 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영될 수 있도록 한다.
즉, 검수부(133)는 오토 레이블링 후 검수 과정에서 작업자가 XAI에 따른 데이터의 어텐션 스코어를 포함한 판단 이유를 받아서 빠르게 검수를 할 수 있도록 하여 레이블링 비용의 절감과 데이터의 품질 향상이 가능하고, 전문적인 도메인, class가 많은 분류 문제, 요약 task 등 레이블링 시간이 오래 걸리는 경우 XAI를 이용한 오토 레이블링의 효과가 더욱 증가될 수 있도록 한다.
다음은 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법을 설명한다.
도5는 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법을 설명하기 위해 나타낸 흐름도이다.
도2 내지 도5를 참조하면, 본 발명의 일 실시 예에 따른 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법은 작업자가 PC 등의 단말로 구성된 레이블링부(20)를 통해 비레이블 데이터 셋(10)의 일부 비레이블 데이터에 대해 텍스트 또는 주요 영역을 지정하여 적은 양의 초기 레이블 데이터 셋을 구축(S100, S200)하면, 액티브 러닝부(100)는 구축된 초기 레이블 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성(S300)할 수 있다.
또한, S300 단계에서 액티브 러닝부(100)는 샘플링 모델에서 분류되어 오토 레이블링을 통해 레이블링 된 데이터를 S200 단계에서 구축된 초기 레이블 데이터 셋에 추가하여 레이블된 데이터가 더욱 증가한 샘플링 모델 학습용 데이터 셋을 구축할 수도 있다.
또한, S300 단계에서 액티브 러닝부(100)는 레이블된 데이터의 양을 증가시키기 위해 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행할 수 있고, 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 등을 이용할 수 있다.
S300 단계에서 구축된 샘플링 모델 학습용 데이터 셋을 기반으로 액티브 러닝부(100)는 레이블링할 데이터를 우선적으로 찾아주는 샘플링 모델의 학습을 수행(S400)할 수 있다.
계속해서, 액티브 러닝부(100)는 학습된 샘플링 모델을 이용하여 샘플링 모델의 신뢰도 예측값이 일정 값 이하인 비레이블 데이터는 작업자용 레이블링 데이터로 분류하고, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터는 오토 레이블링 데이터로 분류하는 데이터 선택을 수행(S500)할 수 있다.
이때, S500 단계에서 액티브 러닝부(100)는 학습된 샘플링 모델이 예측한 신뢰도 예측값에 따른 분류 결과의 맞고 틀림과, 맞고 틀림에 따른 평가 결과를 미리 설정된 기준과 비교하여 학습된 샘플링 모델의 성능이 일정 기준에 도달하였는지 판단하는 학습된 샘플링 모델의 성능을 평가할 수 있다.
또한, 액티브 러닝부(100)는 학습된 샘플링 모델의 성능이 일정 기준에 도달됨에 따라 비레이블 데이터에 대한 샘플링 모델의 신뢰도 예측값을 기반으로 작업자용 레이블링 데이터와 오토 레이블링 데이터로 분류할 수 있다.
계속해서, 액티브 러닝부(100)는 샘플링 모델의 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 오토 레이블링을 수행할 수 있는지 판단(S600)할 수 있다.
S600 단계의 오토 레이블링 판단은 학습된 샘플링 모델의 성능을 평가하여 샘플링 모델의 성능이 일정 기준에 도달하고, 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 레이블링을 수행함으로써, 샘플링 모델이 확실하게 예측하는 데이터들을 자동으로 레이블링하고, 불확실성이 낮은 데이터를 자동을 레이블링함으로써 레이블링에 필요한 시간과 비용이 절감될 수 있도록 한다.
S600 단계의 판단 결과, 오토 레이블링이 가능하면, 액티브 러닝부(100)는 오토 레이블링을 수행(S700)할 수 있다.
S700 단계에서, 액티브 러닝부(100)는 검수자가 텍스트에 대한 전반적인 이해가 필요하고 시간이 오래 걸리는 비레이블 텍스트 데이터에 대하여 오토 레이블링을 통한 시간 절약 효과를 제공할 수 있도록, XAI(explainable AI)를 이용한 샘플링 모델의 판단 이유를 검수자가 이해할 수 있도록 구성할 수도 있다.
즉, XAI는 비레이블 데이터(또는 원본 데이터)에서 레이블링할 오브젝트를 찾고, 바운딩 박스 등의 태깅 영역 표시와, 어텐션 스코어(Attention Score)와, 분류 예측을 포함한 오토 레이블링을 통해 원본 텍스트 데이터에서 어떤 부분에 의해서 해당 레이블로 결정했는지를 신속하게 확인할 수 있도록 한다.
도6에 나타낸 바와 같이, XAI는 비레이블 데이터(200)에서 판단 이유에 대한 문장(오브젝트)을 찾아 태깅 영역(210)을 표시하고, 태깅 영역(210)에 대한 어텐션 스코어 등을 포함한 예측 결과(220)를 생성하여 제공할 수 있다.
즉, 오토 레이블링 후 검수 과정에서 작업자가 XAI에 따른 데이터의 어텐션 스코어를 포함한 판단 이유를 받아서 빠르게 검수를 할 수 있도록 함으로써, 레이블링 비용의 절감과 데이터의 품질 향상이 가능하고, 전문적인 도메인, class가 많은 분류 문제, 요약 task 등 레이블링 시간이 오래 걸리는 경우 XAI를 이용한 오토 레이블링의 효과가 더욱 증가될 수 있도록 한다.
또한, S700 단계에서 액티브 러닝부(100)는 XAI에 따른 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말(미도시)로 전송하고, 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영하는 검수 단계를 통해 데이터의 품질을 더욱 향상시킬 수도 있다.
한편, S600 단계에서, 샘플링 모델의 신뢰도 예측값이 일정 값 이하인 비레이블 데이터는 PC 등의 단말로 구성된 레이블링부(20)로 제공되어 작업자가 레이블링(S710)을 수행할 수 있도록 한다.
또한, S710 단계에서 작업자가 레이블링 한 데이터는 레이블링 후 액티브 러닝부(100)의 샘플링 모델 학습용 데이터에 추가될 수 있다.
계속해서, 액티브 러닝부(100)는 S700 단계에서 생성된 오토 레이블링 된 데이터를 샘플링 모델 학습용 데이터에 추가하여 데이터 증강을 통한 샘플링 모델 학습용 데이터 셋이 구축(S800)될 수 있도록 한다.
한편, 본 실시 예에서는 설명의 편의를 위해 원본 데이터가 텍스트 데이터로 설명하지만 이에 한정되는 것은 아니고, 이미지 데이터(Image data), 음향 데이터(Audio data), 동영상 데이터(Video data), 시계열 데이터(Time series data), 3D 데이터, 라이다 데이터(Lidar data), 멀티도메인 데이터(MultiDomain data)인 경우에도 해당될 수 있다.
따라서, 데이터 증강을 통해 기존 데이터와 유사한 데이터를 생성하여 액티브 러닝을 위한 샘플링 모델의 학습에 사용하고, 학습된 샘플링 모델을 통해 학습에 적절한 데이터를 우선 선택하여 레이블링시킴으로써, 샘플링 모델의 신속한 성능 향상을 제공할 수 있다.
또한, 액티브 러닝의 효율성 증대를 통해 레이블 비용의 절감 효과를 증가시킬 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
10 : 비레이블 데이터 셋
20 : 레이블링부
100 : 액티브 러닝부
110 : 데이터 증강부
111 : 레이블 데이터 셋 구축부
112 : 증강부
113 : 모델 학습 데이터 셋 구축부
120 : 모델 학습부
130 : 데이터 셋 구축부
131 : 데이터 선택부
132 : 오토 레이블부
133 : 검수부
200 : 비레이블 데이터
210 : 태깅 영역
220 : 예측 결과

Claims (13)

  1. 액티브 러닝(Active Learning)을 위한 샘플링 모델 - 이때, 샘플링 모델은 레이블링할 데이터를 우선적으로 찾아주는 모델임 - 의 성능을 개선하기 위해, 임의의 레이블(Lable)된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 액티브 러닝부(100);를 포함하고,
    상기 액티브 러닝부(100)는 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하여 학습된 샘플링 모델에 의해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링(Auto Labeling)을 통해 추가 레이블 데이터 셋을 생성하되,
    상기 오토 레이블링은 액티브 러닝부(100)가 학습된 샘플링 모델의 성능을 평가하여 일정 기준에 도달하고, 상기 학습된 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서, 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 오토 레이블링을 수행하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 액티브 러닝부(100)는 레이블된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 데이터 증강부(110);
    상기 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하는 모델 학습부(120); 및
    상기 학습된 샘플링 모델을 통해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링을 통해 추가 레이블 데이터 셋을 생성하는 데이터 셋 구축부(130);를 포함하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  5. 제 4 항에 있어서,
    상기 데이터 증강부(110)는 레이블링부(20)에서 레이블된 데이터 및 오토 레이블된 데이터 중 하나 이상을 이용하여 레이블된 데이터 셋을 구축하는 레이블 데이터 셋 구축부(111);
    상기 레이블된 데이터의 양을 증가시키기 위해 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행하는 증강부(112); 및
    상기 증강부(112)에서 증강된 데이터를 기반으로 샘플링 모델 학습용 데이터 셋을 생성하는 모델 학습 데이터 셋 구축부(113);를 포함하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  6. 제 5 항에 있어서,
    상기 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 중 하나 이상을 이용하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  7. 제 4 항에 있어서,
    상기 데이터 셋 구축부(130)는 학습된 샘플링 모델의 성능을 평가하되, 상기 학습된 샘플링 모델의 성능이 일정 기준에 도달하면, 비레이블 데이터에 대한 샘플링 모델의 신뢰도 예측값을 기반으로 작업자용 레이블링 데이터와 오토 레이블링 데이터로 분류하는 데이터 선택부(131); 및
    상기 데이터 선택부(131)에서 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대한 오토 레이블링을 수행하여 추가 레이블 데이터를 생성하는 오토 레이블부(132);를 포함하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  8. 제 7 항에 있어서,
    상기 데이터 셋 구축부(130)는 오토 레이블부(132)에서 오토 레이블링을 통해 판단된 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말로 전송하고, 상기 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영하는 검수부(133);를 더 포함하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치.
  9. a) 액티브 러닝부(100)가 임의의 레이블된 데이터 셋을 기반으로 데이터 증강(Data Augmentation)을 수행하여 데이터 증강된 샘플링 모델 학습용 데이터 셋을 생성하는 단계;
    b) 상기 액티브 러닝부(100)가 데이터 증강된 샘플링 모델 학습용 데이터 셋을 기반으로 상기 샘플링 모델의 학습을 수행하는 단계; 및
    c) 상기 액티브 러닝부(100)가 학습된 샘플링 모델을 통해 선택되는 임의의 비레이블 데이터에 대한 오토 레이블링을 통해 추가 레이블 데이터 셋을 생성하는 단계;를 포함하고,
    상기 c) 단계는 액티브 러닝부(100)가 학습된 샘플링 모델의 성능을 평가하되, 상기 샘플링 모델의 성능 평가 결과가 일정 기준에 도달하면, 상기 학습된 샘플링 모델이 예측하는 비레이블 데이터의 신뢰도 예측값 중에서 신뢰도 예측값이 일정 값 이상인 비레이블 데이터에 대하여 오토 레이블링을 수행하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법.
  10. 제 9 항에 있어서,
    상기 a) 단계는 액티브 러닝부(100)가 임의의 레이블된 데이터 및 상기 c) 단계에서 오토 레이블된 데이터 중 하나 이상을 이용하여 레이블된 데이터 셋을 기반으로 원본 데이터에 임의의 변환을 적용하여 데이터 증강을 수행하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법.
  11. 제 10 항에 있어서,
    상기 데이터 증강을 위한 변환은 랜덤 노이즈 인젝션(Random Noise Injection), 백번역(Back Translation), 어휘 대체 및 믹스 텍스트(Mix-Text) 중 하나 이상을 이용하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법.
  12. 삭제
  13. 제 9 항에 있어서,
    상기 액티브 러닝부(100)는 오토 레이블링을 통해 판단된 데이터의 어텐션 스코어를 포함한 판단 이유를 작업자 단말로 전송하고, 상기 작업자 단말로부터 수신되는 검수 정보를 오토 레이블링된 데이터에 반영하는 단계를 더 포함하는 것을 특징으로 하는 데이터 증강과 오토 레이블링을 이용한 데이터 구축 방법.
KR1020220062200A 2021-12-31 2022-05-20 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법 KR102479679B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210193953 2021-12-31
KR20210193953 2021-12-31

Publications (1)

Publication Number Publication Date
KR102479679B1 true KR102479679B1 (ko) 2022-12-21

Family

ID=84536684

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220062200A KR102479679B1 (ko) 2021-12-31 2022-05-20 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102479679B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
KR20200082490A (ko) 2018-12-28 2020-07-08 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR20210124111A (ko) * 2021-03-25 2021-10-14 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 모델을 훈련하기 위한 방법, 장치, 기기, 매체 및 프로그램 제품
KR20210152402A (ko) * 2020-06-05 2021-12-15 에이치티씨 코퍼레이션 데이터 증강을 포함하는 머신런닝 시스템 및 머신런닝 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
KR20200082490A (ko) 2018-12-28 2020-07-08 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR20210152402A (ko) * 2020-06-05 2021-12-15 에이치티씨 코퍼레이션 데이터 증강을 포함하는 머신런닝 시스템 및 머신런닝 방법
KR20210124111A (ko) * 2021-03-25 2021-10-14 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 모델을 훈련하기 위한 방법, 장치, 기기, 매체 및 프로그램 제품

Similar Documents

Publication Publication Date Title
US11238232B2 (en) Written-modality prosody subsystem in a natural language understanding (NLU) framework
US10599767B1 (en) System for providing intelligent part of speech processing of complex natural language
US11151183B2 (en) Processing a request
WO2018000272A1 (zh) 一种语料生成装置和方法
KR20180048624A (ko) 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램
US11709893B2 (en) Search method, electronic device and storage medium
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN111026320B (zh) 多模态智能文本处理方法、装置、电子设备及存储介质
CN110209832A (zh) 上下位关系的判别方法、系统和计算机设备
US11935315B2 (en) Document lineage management system
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
WO2023278052A1 (en) Automated troubleshooter
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
KR102584452B1 (ko) 기계 독해 학습 데이터 자동 생성 장치 및 그 방법
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
KR102479679B1 (ko) 데이터 증강과 오토 레이블링을 이용한 데이터 구축 장치 및 방법
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
CN114254622A (zh) 一种意图识别方法和装置
Niu et al. Innovative System for Analyzing English Translation Software Based on IoT Big Data
US11664010B2 (en) Natural language domain corpus data set creation based on enhanced root utterances
KR102540564B1 (ko) 자연어 처리를 위한 데이터 증강을 위한 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant