WO2023287064A1

WO2023287064A1 - 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

Info

Publication number: WO2023287064A1
Application number: PCT/KR2022/009156
Authority: WO
Inventors: 채정훈
Original assignee: (주)에이아이매틱스
Priority date: 2021-07-12
Filing date: 2022-06-27
Publication date: 2023-01-19
Also published as: KR102337070B1; US20230385333A1

Abstract

본 발명은 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템에 관한 것으로, 상기 방법은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함한다.

Description

이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템

본 발명은 기계학습을 위한 학습 데이터 생성 기술에 관한 것으로, 보다 상세하게는 정답 데이터의 생성 과정에 있어 소요되는 시간과 인적자원을 최소화하는 학습 데이터베이스 구축 시스템 및 그 방법에 관한 것이다.

기계학습의 학습 방법은 크게 지도학습, 비지도학습, 강화학습의 세가지 방법으로 분류된다. 지도학습은 정답 데이터(입력 데이터와 그에 대응하는 라벨 한 쌍)가 이미 존재하여 학습 모델에게 정답을 알려주어 학습 모델의 예측값과 정답값의 오차가 최소가 되도록 학습하는 방식이다. 비지도학습은 정답 데이터가 존재하지 않고(입력 데이터만 존재) 데이터 간의 유사성과 숨겨진 특성을 분석하여 분류하는 학습하는 방식이다. 강화학습은 정답 데이터가 존재하지 않고 환경에서의 모델의 결정에 상과 벌을 부여하는 과정을 통해 학습하는 방식이다.

지도학습은 명확한 정답 데이터가 이미 존재하기 때문에 비지도학습이나 강화학습에 비해 학습이 쉽고 안정적이며 성능 평가도 용이하다는 장점을 가진다. 그러나, 학습 데이터를 준비하는 과정이 지도학습에서의 대부분을 차지할 정도로 많은 시간과 인적자원이 소요된다. 또한, 학습 데이터의 양과 질은 학습된 기계학습 모델의 인식 성능에 큰 영향을 끼치므로 지도학습에서의 핵심은 학습 데이터의 생성에 있다고 볼 수 있다.

한편, 학습 데이터의 생성에는 이하의 해결해야 할 과제가 존재한다.

첫째로, 다량의 정답 데이터를 수작업으로 생성하려면 많은 자원이 소요된다는 점이다. 학습된 모델의 인식 성능에는 학습에 사용하는 정답 데이터의 양이 큰 영향을 끼치기에 인식 성능을 높이기 위해서는 데이터 양을 지속적으로 늘려야 한다. 데이터 양이 적을 때는 데이터를 조금만 늘려도 인식 성능이 크게 개선되지만 데이터 양이 많아지면 동일 수준의 인식 성능 향상을 위해 더 많은 데이터가 필요해지고 이를 위해 지속적으로 더 많은 자원이 소요된다.

둘째로, 데이터의 규모가 커질수록 데이터 간의 균형을 맞추기 어렵다는 점이다. 정답 데이터에는 실세계에서의 관측빈도에 따라 클래스간 수량의 불균형을 야기시킨다. 이는 학습 모델의 클래스간 인식 성능에 큰 영향을 미치게 된다. 일례로 데이터셋의 다수가 백인의 얼굴로 구성된 얼굴 데이터셋을 사용하여 학습된 모델은 백인의 얼굴은 잘 구분하지만 흑인/동양인의 얼굴을 잘 구분하지 못하는 편향을 가지게 되어 의도치 않은 인종차별을 하게 되는 문제가 발생할 수 있다.

셋째로, 정답 데이터의 검수가 어렵다는 점이다. 한번 만들어진 정답 데이터에는 잘 못 라벨링 된 정답 데이터가 소수 존재하지만 이는 쉽게 발견하기 어렵다. 잘 못 라벨링 된 정답 데이터는 소수이지만 검수를 진행하기 위해서는 전체 데이터를 확인해야하기 때문에 검수에는 추가적으로 많은 자원이 소요될 수 있다. 이렇게 잘 못 라벨링 된 정답 데이터는 학습 데이터의 품질을 떨어트려 학습된 모델의 성능에 악영향을 줄 수 있다.

[선행기술문헌]

[특허문헌]

한국등록특허 제10-1879735호 (2018.07.12)

본 발명의 일 실시예는 정답 데이터의 생성 과정에 있어 소요되는 시간과 인적자원을 최소화하는 학습 데이터베이스 구축 시스템 및 그 방법에 관한 것이다.

본 발명의 일 실시예는 기계학습 모델을 이용하여 라벨링 된 학습 데이터 내의 이상 데이터를 자동으로 분류하고, 기계학습 모델을 이용하여 날 데이터에 자동으로 라벨링을 적용하며, 이를 반복하여 지속적으로 학습 데이터를 증가시키는 데이터 구축 시스템을 제공하고자 한다.

실시예들 중에서, 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함한다.

상기 인식 모델을 구축하는 단계는 상기 제1 인식 모델과 상기 제2 인식 모델을 하나의 인식 모델로서 구축하는 단계를 포함할 수 있다.

상기 제2 학습 데이터 모집단을 생성하는 단계는 상기 제1 학습 데이터 모집단의 데이터 분포를 기초로 상기 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신하는 단계를 포함할 수 있다.

상기 제2 학습 데이터 모집단을 생성하는 단계는 상기 제2 인식 모델을 상기 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 상기 이상 데이터의 라벨을 갱신하는 단계를 포함할 수 있다.

상기 이상 데이터를 분류하는 단계는 상기 인식 모델의 손실(loss)을 기초로 상기 이상 데이터를 결정하는 단계를 포함할 수 있다.

상기 제1 학습 데이터 모집단을 갱신하는 단계는 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 제거하거나 또는 상기 이상 데이터의 라벨을 갱신하는 단계를 포함할 수 있다.

상기 학습 데이터베이스 구축 방법은 상기 인식 모델의 구축, 상기 제2 학습 데이터 모집단의 생성 및 상기 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시키는 단계;를 더 포함할 수 있다.

실시예들 중에서, 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 시스템은 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 인식 모델 구축부; 상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 오토라벨링 수행부; 상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 데이터 분류부; 및 상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 데이터 갱신부;를 포함한다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템은 기계학습 모델을 이용하여 라벨링 된 학습 데이터 내의 이상 데이터를 자동으로 분류하고, 기계학습 모델을 이용하여 날 데이터에 자동으로 라벨링을 적용하며, 이를 반복하여 지속적으로 학습 데이터를 증가시킬 수 있다.

본 발명의 일 실시예에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템은 하나의 기계학습 모델로 이상 데이터 자동 분류와 자동 라벨링을 모두 적용할 수 있고, 기존 학습 데이터 분포에 기반하여 오토라벨 데이터 중 유의미한 라벨 데이터를 추출할 수 있다.

도 1은 본 발명에 따른 학습 데이터베이스 구축 시스템을 설명하는 도면이다.

도 2는 도 1의 학습 데이터베이스 구축 장치의 시스템 구성을 설명하는 도면이다.

도 3은 도 1의 학습 데이터베이스 구축 장치의 기능적 구성을 설명하는 도면이다.

도 4는 본 발명에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법을 설명하는 순서도이다.

도 5는 본 발명에 따른 학습 데이터베이스 구축 방법의 일 실시예를 설명하는 개념도이다.

도 6 내지 9는 도 5의 구체적 동작들에 관한 실시예들을 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1을 참조하면, 학습 데이터베이스 구축 시스템(100)은 사용자 단말(110), 학습 데이터베이스 구축 장치(130) 및 데이터베이스(150)를 포함하여 구현될 수 있다.

사용자 단말(110)은 사용자에 의해 운용되는 단말 장치에 해당할 수 있다. 본 발명의 실시예에서 사용자는 하나 이상의 사용자로 이해될 수 있으며, 복수의 사용자들은 하나 이상의 사용자 그룹으로 구분될 수 있다. 하나 이상의 사용자들 각각은 하나 이상의 사용자 단말(110)에 대응될 수 있다. 즉, 제1 사용자는 제1 사용자 단말, 제2 사용자는 제2 사용자 단말, ..., 제n(상기 n은 자연수) 사용자는 제n 사용자 단말에 대응될 수 있다.

또한, 사용자 단말(110)은 학습 데이터베이스 구축 시스템(100)을 구성하는 하나의 장치로서 학습 데이터의 생성, 수정 및 삭제를 포함하는 사용자 행위를 수행할 수 있는 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 연결되어 동작 가능한 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 포함하여 다양한 디바이스로도 구현될 수 있다.

또한, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 연동하기 위한 전용 프로그램 또는 어플리케이션을 설치하여 실행할 수 있다. 예를 들어, 사용자 단말(110)은 학습 데이터 생성을 위해 학습 데이터베이스 구축 장치(130)가 제공하는 이미지를 출력할 수 있으며, 사용자에 의해 입력된 라벨(label) 정보를 학습 데이터베이스 구축 장치(130)에 전달할 수 있다. 해당 과정은 전용 프로그램 또는 어플리케이션을 통해 제공되는 인터페이스를 통해 이루어질 수 있다.

한편, 사용자 단말(110)은 학습 데이터베이스 구축 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 학습 데이터베이스 구축 장치(130)와 동시에 연결될 수도 있다.

학습 데이터베이스 구축 장치(130)는 본 발명에 따른 학습 데이터베이스 구축 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 또한, 학습 데이터베이스 구축 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi, LTE 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 송·수신할 수 있다.

또한, 학습 데이터베이스 구축 장치(130)는 학습 데이터의 수집하거나 또는 학습 데이터를 제공하기 위하여 독립된 외부 시스템(도 1에 미도시함)과 연결되어 동작하도록 구현될 수 있다. 일 실시예에서, 학습 데이터베이스 구축 장치(130)는 클라우드 서버로 구현될 수 있으며, 클라우드 서비스를 통해 학습 데이터베이스의 구축과 활용에 관한 사용자들의 다양한 니즈(needs)를 충족시킬 수 있다.

데이터베이스(150)는 학습 데이터베이스 구축 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 다양한 출처로부터 수집한 학습 데이터 모집단을 저장하거나 또는 기계학습 모델 구축을 위한 학습 알고리즘과 학습 모델에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 학습 데이터베이스 구축 장치(130)가 본 발명에 따른 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.

또한, 도 1에서, 데이터베이스(150)는 학습 데이터베이스 구축 장치(130)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 논리적인 저장장치로서 학습 데이터베이스 구축 장치(130)에 포함되어 구현될 수 있음은 물론이다.

도 2를 참조하면, 학습 데이터베이스 구축 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.

프로세서(210)는 본 발명의 실시예에 따른 학습 데이터베이스 구축 프로시저를 실행할 수 있고, 이러한 과정에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄 할 수 있다. 프로세서(210)는 학습 데이터베이스 구축 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 학습 데이터베이스 구축 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(230)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 학습 데이터베이스 구축 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 또한, 메모리(230)는 전기적으로 연결된 프로세서(210)에 의해 실행됨으로써 본 발명에 따른 학습 데이터베이스 구축 방법을 실행하는 명령들의 집합을 저장할 수 있다.

사용자 입출력부(250)은 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치 스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)은 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 학습 데이터베이스 구축 장치(130)는 독립적인 서버로서 수행될 수 있다.

네트워크 입출력부(270)은 네트워크를 통해 사용자 단말(110)과 연결되기 위한 통신 환경을 제공하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다. 또한, 네트워크 입출력부(270)는 학습 데이터의 무선 전송을 위해 WiFi, 블루투스 등의 근거리 통신 기능이나 4G 이상의 무선 통신 기능을 제공하도록 구현될 수 있다.

도 3을 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350), 데이터 갱신부(370), 데이터 증강부(390) 및 제어부(도 3에 미도시함)를 포함할 수 있다.

인식 모델 구축부(310)는 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축할 수 있다. 여기에서, 인식 모델은 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)을 포함하는 기계학습 알고리즘을 통해 구축되는 학습 모델에 해당할 수 있다. 또한, 제1 학습 데이터 모집단은 사전에 수집된 학습 데이터들의 집합으로 각 학습 데이터는 라벨링된, 즉 라벨 정보가 부여된 데이터로 구성될 수 있다. 제1 인식 모델과 제2 인식 모델은 인식 모델 구축부(310)에 의해 각각 독립적으로 구축될 수 있으며, 인식 모델 구축부(310)는 제1 및 제2 인식 모델들 각각의 학습 과정에 서로 다른 학습 데이터를 적용할 수 있다.

예를 들어, 인식 모델 구축부(310)는 제1 학습 데이터 모집단의 일부를 학습하여 제1 인식 모델을 구축할 수 있고, 제1 학습 데이터 모집단의 나머지를 학습하여 제2 인식 모델을 구축할 수 있다. 또한, 인식 모델 구축부(310)는 제1 학습 데이터 모집단에서 랜덤하게 선택되는 데이터들을 순차적으로 학습하여 제1 및 제2 인식 모델을 각각 구축할 수도 있다.

한편, 인식 모델 구축부(310)는 제1 학습 데이터 모집단을 소정의 비율로 학습 데이터와 테스트 데이터로 구분할 수 있으며, 학습 데이터로 인식 모델을 구축하는 과정에서 테스트 데이터로 측정된 정확도(Accuracy)가 소정의 기준을 충족할 때까지 학습 과정을 반복적으로 수행할 수 있다. 이후, 학습 완료된 인식 모델들은 학습 데이터베이스 구축 장치(130)와 연동하는 데이터베이스(150)에 저장되어 관리될 수 있다.

일 실시예에서, 인식 모델 구축부(310)는 제1 인식 모델과 제2 인식 모델을 하나의 인식 모델로서 구축할 수 있다. 인식 모델 구축부(310)는 기본적으로 인식 모델의 사용 조건 및 목적에 따라 제1 및 제2 인식 모델들 각각을 구분하여 구축할 수 있으나, 필요에 따라 사용 목적에 관계없이 하나의 인식 모델만을 구축할 수 있다. 즉, 인식 모델 구축부(310)에 의해 하나의 인식 모델만이 생성된 경우에는 모델 추론이 필요할 때마다 동일한 인식 모델이 통합적으로 적용될 수 있다.

오토라벨링 수행부(330)는 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성할 수 있다. 여기에서, 로우 데이터 모집단은 기존의 학습 데이터인 제1 학습 데이터 모집단과는 독립적으로 수집된 데이터 집합으로 라벨링 되지 않아 라벨 정보가 부여되지 않은 학습 데이터들의 집합에 해당할 수 있다. 따라서, 오토라벨링 수행부(330)에 의해 수행되는 동작은 라벨링 되지 않은 데이터에 라벨 정보를 자동으로 부여하는 오토라벨링 동작에 해당할 수 있다.

즉, 기계학습 모델로 구현된 제1 인식 모델은 라벨링 되지 않은 자료를 입력으로 수신하여 소정의 네트워크 단계를 진행하는 전파(propagation) 동작의 결과로서 라벨 정보를 출력으로 생성할 수 있다. 결과적으로, 오토라벨링 수행부(330)에 의해 생성되는 제2 학습 데이터 모집단은 신규 날 데이터에 자동 라벨링을 적용하여 생성되는 오토라벨 학습 데이터들의 집합에 해당할 수 있다. 또한, 오토라벨링 동작을 통해 생성되는 제2 학습 데이터 모집단에는 오인식 또는 미인식 된 오류 데이터들이 소정의 비율로 존재할 수 있다.

일 실시예에서, 오토라벨링 수행부(330)는 제1 학습 데이터 모집단의 데이터 분포를 기초로 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신할 수 있다. 여기에서, 불균형 데이터는 특정 데이터 모집단에서 데이터들이 소정의 비율 내에서 균형적으로 분포하지 않는 경우의 데이터에 해당할 수 있다. 즉, 불균형 데이터는 데이터 모집단 내에서 다른 데이터들에 비해 매우 높은 비율로 분포하는 데이터 또는 매우 낮은 비율로 분포하는 데이터에 해당할 수 있다.

예를 들어, A, B, C유형 데이터들로 구성된 데이터 모집단에서 각 유형 데이터들이 40%:45%:15%의 비율로 분포하는 경우 C유형 데이터가 A 및 B유형 데이터들보다 매우 낮은 비율로 분포하므로 불균형 데이터에 해당할 수 있다. 이와 반대로, 각 유형 데이터들이 65%:20%:15%의 비율로 분포하는 경우 A유형 데이터가 B 및 C유형 데이터들보다 매우 높은 비율로 분포하므로 불균형 데이터에 해당할 수 있다.

보다 구체적으로, 제1 학습 데이터 모집단 내에서 A 유형 데이터가 분포 비율이 낮은 불균형 데이터에 해당하는 경우 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에 대해 샘플링을 통해 데이터를 선별하는 과정에서 A 유형 데이터를 보다 높은 비율로 선택할 수 있다. 이와 반대로, 제1 학습 데이터 모집단 내에서 C 유형의 데이터가 분포 비율이 높은 불균형 데이터에 해당하는 경우 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에서 C 유형 데이터를 보다 낮은 비율로 선택할 수 있다. 즉, 제2 학습 데이터 모집단은 샘플링을 통해 선별된 데이터들로 기존 데이터들을 대체하여 갱신될 수 있으며, 갱신된 이후 제2 학습 데이터 모집단 내에서는 A 유형의 데이터들이 다른 유형의 데이터들보다 상대적으로 높은 비율로 분포하게 되고, C 유형의 데이터들은 다른 유형의 데이터들보다 상대적으로 낮은 비율로 분포할 수 있다.

또한, 제2 학습 데이터 모집단은 이후 동작 단계들을 통해 제1 학습 데이터 모집단과 통합될 수 있으며, 오토라벨링 수행부(330)에 의해 데이터 분포가 조절된 결과 통합된 학습 데이터 모집단 내에서 데이터 분포가 균형을 이루는 효과를 얻을 수 있다.

일 실시예에서, 오토라벨링 수행부(330)는 제2 인식 모델을 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 이상 데이터의 라벨을 갱신할 수 있다. 오토라벨링 수행부(330)는 제2 학습 데이터 모집단에 포함된 오인식 또는 미인식된 오류 데이터들을 이상 데이터로 분류할 수 있으며, 이상 데이터에 대한 재라벨링 동작을 수행하여 제2 학습 데이터 모집단 내에서 이상 데이터를 제거할 수 있다. 한편, 오토라벨링 수행부(330)에 의해 수행되는 이상 테이터의 분류 및 라벨 갱신 동작은 이하에서 설명하는 데이터 분류부(350)와 데이터 갱신부(370)의 동작에 각각 대응하여 구현될 수 있다.

데이터 분류부(350)는 제2 인식 모델을 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류할 수 있다. 이때, 제2 인식 모델은 라벨이 부여된 자료를 입력으로 수신하여 라벨을 추론하는 동작을 수행하는 과정에서 정상 데이터와 이상 데이터를 분류하는데 사용될 수 있다. 데이터 분류부(350)는 제1 학습 데이터 모집단에서 학습 데이터의 품질을 저하시키는 이상 데이터를 선별하는 동작을 수행할 수 있다.

보다 구체적으로, 데이터 분류부(350)는 기계학습 모델인 제2 인식 모델을 기존 학습 데이터에 적용하여 개별 데이터의 손실 함수(loss function) 값을 추출할 수 있다. 여기에서, 손실 함수(loss function)는 실제값과 예측값 사이의 차이를 수치화 하는 함수에 해당할 수 있다. 실제값과 예측값 간의 오차가 클수록 손실 함수 값이 커지는 반면, 오차가 작을수록 손실 함수 값이 작아질 수 있다. 기계학습 모델의 경우 이러한 손실 함수 값을 최소화하는 방향으로 학습이 진행될 수 있다. 손실 함수에는 평균 제곱 오차(MSE), 크로스 엔트로피(Cross-Entropy) 등이 포함될 수 있다.

따라서, 데이터 분류부(350)는 손실 함수 값이 소정의 기준값 이상인 데이터를 추출하여 이상 데이터 후보로 결정할 수 있으며, 손실 함수 값이 기준값 미만인 경우 정상 데이터 후보로 결정할 수 있다. 데이터 분류부(350)에 의해 이상 데이터 후보로 분류되면 이후 데이터 정제 단계를 통해 정상 데이터로 보정된 후 제1 학습 데이터 모집단에 추가될 수 있다.

일 실시예에서, 데이터 분류부(350)는 인식 모델의 손실(loss)을 기초로 이상 데이터를 결정할 수 있다. 데이터 분류부(350)는 인식 모델을 활용하는 다양한 방법을 통해 학습 데이터 모집단에서 이상 데이터를 선별할 수 있다. 예를 들어, 데이터 분류부(350)는 인식 모델의 학습 과정에서 손실(loss)의 변동성을 기초로 이상 데이터를 결정할 수 있고, 학습 완료 후 손실의 절대값에 따라 이상 데이터를 결정할 수도 있다. 데이터 분류부(350)는 손실 함수 값에 관한 소정의 정상 조건을 설정하고 손실 함수 값이 해당 정상 조건을 충족하는지 여부에 따라 이상 또는 정상 데이터로 분류할 수 있다. 데이터 분류부(350)에 의해 분류된 데이터들은 이상 학습 데이터 후보군과 정상 학습 데이터 후보군을 각각 형성할 수 있다.

데이터 갱신부(370)는 제1 학습 데이터 모집단에서 이상 데이터를 정제하고 제2 학습 데이터 모집단을 추가하여 제1 학습 데이터 모집단을 갱신할 수 있다. 데이터 갱신부(370)는 데이터 분류부(350)에 의해 분류된 이상 학습 데이터 후보군에 대해 정상 데이터로 변환하기 위한 정제 동작을 수행할 수 있다. 정제 동작은 다양한 방법으로 수행될 수 있으며, 단순 삭제, 수치 연산, 데이터 수정 등의 동작들이 단일 적용되거나 또는 복합적으로 적용될 수 있다. 이후, 데이터 갱신부(370)는 기존의 제1 학습 데이터 모집단에 신규의 제2 학습 데이터 모집단을 추가하여 기존의 학습 데이터 모집단을 갱신할 수 있다. 갱신 전후로 제1 학습 데이터 모집단의 크기는 증가하고 학습 데이터의 품질은 향상될 수 있다.

일 실시예에서, 데이터 갱신부(370)는 제1 학습 데이터 모집단에서 이상 데이터를 제거하거나 또는 이상 데이터의 라벨을 갱신할 수 있다. 데이터 갱신부(370)는 이상 데이터의 라벨을 조정하는 재라벨링 동작을 통해 오인식되거나 또는 낮은 정확도로 부여된 이전 라벨을 신규의 라벨로 교체할 수 있다. 데이터 갱신부(370)에 의해 수행되는 재라벨링 동작은 오토라벨링 동작에 대응되어 구현될 수 있다.

한편, 데이터 갱신부(370)에 의해 수행되는 재라벨링 동작은 사용자 단말(110)을 통해 사용자에 의한 수동 라벨 부여를 통해 이루어질 수도 있다. 즉, 데이터 갱신부(370)는 이상 데이터를 사용자 단말(110)에게 전송하고, 사용자는 사용자 단말(110)을 통해 이상 데이터를 확인한 후 신규 라벨을 직접 입력할 수 있다. 사용자 단말(110)은 사용자에 의해 수동 입력된 신규 라벨을 학습 데이터베이스 구축 장치(130)에게 전송할 수 있으며, 데이터 갱신부(370)에 전달되어 재라벨링 동작으로 처리될 수 있다.

이와 같은 사용자에 의한 수동 재라벨링 동작은 데이터 갱신부(370)에 의한 자동 재라벨링 동작에 비해 사람이 직접 참여하여 데이터 검수와 수정을 처리하는 점에서 처리 비용이 높아질 수 있다. 다만, 기계학습 모델의 성능이 좋을수록 기존의 학습 데이터에 존재하는 이상 데이터의 비율이 낮아지는 점에서, 기계학습 모델의 성능에 비례하여 수동 작업에 따른 재라벨링 비용은 감소될 수 있다.

데이터 증강부(390)는 인식 모델의 구축, 제2 학습 데이터 모집단의 생성 및 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시킬 수 있다. 반복 동작에 따라 제2 학습 데이터 모집단이 추가되어 새롭게 갱신된 제1 학습 데이터 모집단의 경우 다음 반복에서는 기존 학습 데이터로서 처리될 수 있다. 또한, 기존의 학습 데이터에서 이상 데이터를 정제하고 신규 학습 데이터를 생성하여 추가하는 일련의 동작들은 데이터 증강부(390)의 제어에 따라 반복적으로 수행될 수 있다. 즉, 데이터 증강부(390)는 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350) 및 데이터 갱신부(370)와 각각 연동하여 학습 데이터의 증강을 위한 반복 동작을 제어할 수 있다.

일 실시예에서, 데이터 증강부(390)는 학습 데이터의 유형, 기계학습 알고리즘의 특성, 데이터 증강의 크기, 시간 및 비용 등을 고려하여 데이터 증강을 위한 반복 횟수를 동적으로 제어할 수 있다.

일 실시예에서, 데이터 증강부(390)는 학습 데이터베이스 구축 장치(130)가 클라우드 서버로 구현된 경우 데이터 증강 연산을 병렬적으로 수행할 수 있다. 보다 구체적으로, 데이터 증강부(390)는 데이터 증강에 필요한 인스턴스 구성을 결정할 수 있으며, 클라우드 가용 자원을 고려하여 적어도 하나의 인스턴스로 구성할 수 있다. 만약 복수의 인스턴스를 통해 데이터 증강 동작이 수행되는 경우 데이터 증강부(390)는 제1 및 제2 학습 데이터 모집단들 각각을 기초로 복수개의 부분 학습 데이터 모집단들을 생성하고 각 인스턴스를 통해 데이터 증강 동작을 병렬적으로 수행할 수 있다.

한편, 학습 데이터베이스 구축 장치(130)는 독립된 클라우드 서버와 연동하여 동작할 수 있으며, 데이터 증강을 위한 동작 중 일부를 클라우드 서버에 요청하고 그 응답을 수신하여 데이터 증강 동작을 처리할 수도 있다.

제어부(도 3에 미도시함)는 학습 데이터베이스 구축 장치(130)의 전체적인 동작을 제어하고, 인식 모델 구축부(310), 오토라벨링 수행부(330), 데이터 분류부(350), 데이터 갱신부(370) 및 데이터 증강부(390) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 4를 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델 구축부(310)를 통해 라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축할 수 있다(단계 S410). 학습 데이터베이스 구축 장치(130)는 오토라벨링 수행부(330)를 통해 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성할 수 있다(단계 S430).

이후, 학습 데이터베이스 구축 장치(130)는 데이터 분류부(350)를 통해 제2 인식 모델을 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류할 수 있다(단계 S450). 학습 데이터베이스 구축 장치(130)는 데이터 갱신부(370)를 통해 제1 학습 데이터 모집단에서 이상 데이터를 정제하고 제2 학습 데이터 모집단을 추가하여 제1 학습 데이터 모집단을 갱신할 수 있다(단계 S470).

본 발명의 일 실시예에 따른 학습 데이터베이스 구축 장치(130)는 데이터 증강부(390)를 통해 인식 모델의 구축, 제2 학습 데이터 모집단의 생성 및 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 단계적으로 증가시킬 수 있으며, 클라우드 서버와 연동하는 경우 클라우드 자원을 활용하여 데이터 증강을 위한 동작을 보다 효과적으로 처리할 수 있다.

도 5를 참조하면, 학습 데이터베이스 구축 장치(130)는 일련의 반복적인 동작 단계들을 통해 보장된 품질의 학습 데이터를 효과적으로 확보할 수 있다. 즉, 학습 데이터베이스 구축 장치(130)는 딥러닝(Deep Learning) 또는 심층신경망(Deep Neural Network)로 불리는, 많은 파라미터를 활용한 데이터 처리 기술을 이용하여 기계학습에 사용되는 학습 데이터를 자동으로 생성할 수 있고, 수작업 또는 자동으로 생성된 학습 데이터의 이상 정도를 자동으로 판별할 수 있다.

도 5에서, 학습 데이터베이스 구축 장치(130)는 기존 학습 데이터를 이용하여 인식 모델을 학습할 수 있다(단계 1). 이때, 인식 모델은 단일 또는 복수로 생성될 수 있으며, 각각 오토라벨링 동작과 이상 데이터 분류 동작에 사용될 수 있다. 학습 데이터베이스 구축 장치(130)는 인식 모델을 기초로 신규 날 데이터에 대한 오토라벨링 동작을 수행할 수 있고(단계 2), 데이터 분포의 불균형성을 보완하기 위해 불균형 데이터 샘플링 동작을 수행할 수 있으며(단계 3), 데이터 품질을 높이기 위해 재라벨링 동작을 수행하여 오토라벨 학습 데이터를 생성할 수 있다(단계 4). 여기에서, 오토라벨링 동작, 불균형 데이터 샘플링 동작 및 재라벨링 동작은 필요에 따라 선택적(optional)으로 적용될 수 있다.

또한, 학습 데이터베이스 구축 장치(130)는 인식 모델을 기초로 라벨링 된 기존 학습 데이터에서 이상 데이터를 분류할 수 있으며(단계 5), 분류된 이상 데이터를 정제하기 위해 재라벨링 동작을 수행할 수 있다(단계 6). 정제된 이상 데이터와 정상 데이터는 오토라벨 학습 데이터와 통합되어 기존 학습 데이터를 갱신하는데 사용될 수 있다(단계 7). 상기의 동작들(단계 1 내지 7)은 학습 데이터베이스 구축 장치(130)에 의해 반복적으로 수행될 수 있으며, 각 반복마다 기계학습을 위한 학습 데이터의 크기가 증가하게 된다.

도 6을 참조하면, 학습 데이터베이스 구축 장치(130)는 인식 모델이 적용된 오토라벨링 동작을 통해 정답 데이터가 존재하지 않는 날 데이터(610)로부터 유사 정답 데이터를 가진 오토라벨 데이터(630)를 생성할 수 있다. 예를 들어 날 데이터(610)가 소정의 객체를 포함하는 이미지에 해당하는 경우 오토라벨링을 통해 해당 이미지 상에서 인식된 객체들에 대한 오토라벨을 생성할 수 있다.

한편, 이러한 오토라벨 데이터에는 인식 모델의 인식 성능에 따라 오인식 및 미인식 데이터가 모두 포함될 수 있으며, 이상적인 데이터와는 다소 차이가 존재할 수 있다. 다만, 자동 라벨링은 수동 라벨링과 비교하면 소요되는 시간과 인적자원이 압도적으로 적다는 장점을 가질 수 있다.

도 7을 참조하면, 학습 데이터베이스 구축 장치(130)는 불균형 데이터 샘플링 동작을 통해 유사 정답 데이터를 가진 오토라벨 데이터(710)에서 유의미한 라벨 데이터(730)를 추출할 수 있다. 예를 들어, 도 7에서, 기존 학습 데이터(이미지인 경우)의 분포가 트럭 데이터에 비해 세단 데이터가 매우 많은 불균형 상태에 해당하는 경우 학습 데이터베이스 구축 장치(130)는 선택된 라벨의 이미지만을 크롭(crop)하는 방법(730a의 경우), 선택되지 않은 라벨의 이미지에 소정의 이미지(또는 색)를 오버레이 하는 방법(730b의 경우)을 통해 유의미한 라벨 데이터(730)만을 선별적으로 추출할 수 있다. 한편, 이러한 샘플링 방법은 상기의 예시들을 포함하여 다양한 방식이 적용될 수 있음은 물론이다.

도 8을 참조하면, 학습 데이터베이스 구축 장치(130)는 재라벨링 동작을 통해 오인식 라벨 데이터(810)를 수정하여 수정된 라벨 데이터(830)로 갱신할 수 있다. 한편, 재라벨링 동작은 필요에 따라 수동적으로 처리될 수 있다. 즉, 학습 데이터베이스 구축 장치(130)는 사용자 단말(110)과 연동하여 사용자 단말(110)로 재라벨링이 필요한 오인식 라벨 데이터(810)를 전송할 수 있고, 사용자는 사용자 단말(110) 상에서 해당 데이터를 확인한 후 오인식된 라벨을 대체하는 정상 라벨을 직접 입력할 수 있다. 이후, 수정된 라벨 데이터(830)는 사용자 단말(110)에서 학습 데이터베이스 구축 장치(130)로 전송될 수 있다.

이와 같이, 본 발명에 따른 방법의 일부 과정이 수작업에 의해 처리되는 경우라 하더라도 이미 오토라벨링과 불균형 데이터 샘플링을 통해 이상 데이터를 효과적으로 줄인 상태이므로 최소한의 노동력으로 다량의 학습 데이터를 효과적으로 확보할 수 있게 된다.

도 9를 참조하면, 학습 데이터베이스 구축 장치(130)는 기존 학습 데이터를 통해 학습된 인식 모델을 이용하여 정상 데이터(910)와 이상 데이터(930)를 효과적으로 분류할 수 있다. 이를 통해, 학습 데이터베이스 구축 장치(130)는 재라벨링 동작에도 불구하고 존재하는 잘못된 라벨을 추가적으로 검출할 수 있다. 이때, 사용되는 방법에는 학습 중 손실(loss)의 변동성에 기반하여 분류하는 방법, 학습 완료 후 손실(loss)의 절대값에 기반하여 분류하는 방법 등을 포함하여 다양한 방법들이 포함될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

[부호의 설명]

100: 학습 데이터베이스 구축 시스템

110: 사용자 단말 130: 학습 데이터베이스 구축 장치

150: 데이터베이스

210: 프로세서 230: 메모리

250: 사용자 입출력부 270: 네트워크 입출력부

310: 인식 모델 구축부 330: 오토라벨링 수행부

350: 데이터 분류부 370: 데이터 갱신부

390: 데이터증강부

Claims

라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 단계;

상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 단계;

상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 단계; 및

상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 단계;를 포함하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제1항에 있어서, 상기 인식 모델을 구축하는 단계는

상기 제1 인식 모델과 상기 제2 인식 모델을 하나의 인식 모델로서 구축하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제1항에 있어서, 상기 제2 학습 데이터 모집단을 생성하는 단계는

상기 제1 학습 데이터 모집단의 데이터 분포를 기초로 상기 제2 학습 데이터 모집단에서 불균형 데이터를 샘플링(sampling) 하여 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제3항에 있어서, 상기 제2 학습 데이터 모집단을 생성하는 단계는

상기 제2 인식 모델을 상기 제2 학습 데이터 모집단에 적용하여 이상 데이터를 분류하고 상기 이상 데이터의 라벨을 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제1항에 있어서, 상기 이상 데이터를 분류하는 단계는

상기 인식 모델의 손실(loss)을 기초로 상기 이상 데이터를 결정하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제1항에 있어서, 상기 제1 학습 데이터 모집단을 갱신하는 단계는

상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 제거하거나 또는 상기 이상 데이터의 라벨을 갱신하는 단계를 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
제1항에 있어서,

상기 인식 모델의 구축, 상기 제2 학습 데이터 모집단의 생성 및 상기 제1 학습 데이터 모집단의 갱신을 반복적으로 수행하여 학습 데이터를 증가시키는 단계;를 더 포함하는 것을 특징으로 하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법.
라벨링(labeling)된 제1 학습 데이터 모집단을 학습하여 데이터 분류를 위한 제1 및 제2 인식 모델들을 각각 독립적으로 구축하는 인식 모델 구축부;

상기 제1 인식 모델을 라벨링(labeling) 되지 않은 로우 데이터 모집단에 적용하여 라벨링된 제2 학습 데이터 모집단을 생성하는 오토라벨링 수행부;

상기 제2 인식 모델을 상기 제1 학습 데이터 모집단에 적용하여 이상 데이터를 분류하는 데이터 분류부; 및

상기 제1 학습 데이터 모집단에서 상기 이상 데이터를 정제하고 상기 제2 학습 데이터 모집단을 추가하여 상기 제1 학습 데이터 모집단을 갱신하는 데이터 갱신부;를 포함하는 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 시스템.