KR102387885B1

KR102387885B1 - 인공지능 학습을 위한 클린 라벨 데이터 정제 방법

Info

Publication number: KR102387885B1
Application number: KR1020210155972A
Authority: KR
Inventors: 김용대; 김동하
Original assignee: 오브젠 주식회사
Priority date: 2021-06-08
Filing date: 2021-11-12
Publication date: 2022-04-18
Also published as: KR102387887B1; KR102362872B1; KR102387886B1

Abstract

본 발명은 인공지능 학습을 위한 클린 라벨 데이터 정제 방법에 관한 것으로서, 그 인공지능 학습을 위한 클린 라벨 데이터 정제 방법은, 제1 기계학습 모형을 학습하는 단계; 클린 라벨 정제 대상인 입력데이터들에 대해 상기 제1 기계학습 모형과 동일한 제2 기계학습 모형의 특정 은닉층에서의 특징을 추출하는 단계; 추출된 입력데이터들의 특징과 상기 클린 라벨 정제 대상인 입력데이터의 특징과 유사도를 측정하는 단계; 측정된 유사도 중에서 유사도가 큰 복수개의 입력데이터를 선정하는 단계의 특징과 유사한 특징을 갖는 복수개의 입력데이터들을 선정하는 단계; 선정된 데이터들 각각에 대해 상기 제1 기계학습 모형을 이용하여 상기 입력데이터의 라벨을 가질 수 있는 확률을 점수로 산출하는 단계; 및 산출된 점수들을 이용하여 입력데이터가 클린 라벨 데이터인지 판단하는 단계를 포함한다.
본 발명에 의하면, 일관성 효과 이용함으로써, 라벨의 분포가 불균형인 자료에서도 clean labeled sample들을 효과적으로 정제할 수 있으며, 딥러닝 모형의 과소적합, 과대적합에 상관없이 데이터 정제에 매우 우수한 성능을 보이고, 대량의 입력 데이터들에 대한 정확한 라벨링을 제공함으로써 좋은 성능을 갖는 딥러닝 분류기 학습이 가능하다.

Description

인공지능 학습을 위한 클린 라벨 데이터 정제 방법 {Method for refining clean labeled data for artificial intelligence training}

본 발명은 데이터 정제에 관한 것으로서, 특히 딥 뉴럴 네트워크(DNN) 등 인공지능의 성공적인 학습에 필요한 클린 라벨 데이터(clean labeled data)를 얻기 위한, 인공지능 학습을 위한 클린 라벨 데이터 정제 방법에 관한 것이다.

딥 뉴럴 네트워크(DNN) 등 인공지능 학습은 많은 연구 분야에서 큰 성공을 거두었지만 성공적인 학습을 위해서는 ImageNet 데이터와 MS-COCO 데이터와 같은 대규모의 클린 라벨(clean labeled) 데이터가 필요하다. 하지만 라벨링 절차는 대개 전문가에 의해 수동으로 진행되므로, 대량의 깨끗한 라벨(clean label)이 붙은 데이터를 얻는 데 비용과 시간이 많이 소요된다는 문제점이 있다.

반면, 인터넷 검색 엔진 또는 해시 태그를 통해, 약간의 라벨 노이즈(noise)가 존재할 수도 있는 대량의 데이터를 만드는 것은 가능하다 (이러한 데이터를 noisy labeled data라 한다). 따라서 깨끗한 라벨이 아닌 손상된 라벨이 있는 데이터 세트를 활용하여 DNN을 활용한 분류 문제를 해결하는 방법론들이 주목을 받게 되었다 (noisy label problem).

Noisy labeled data를 다루는 많은 종류의 연구들이 있었고 대다수의 방법이 암기 효과 (memorization effect) 라는 DNN의 특별한 성질을 이용했다. 암기 효과란, DNN이 훈련 자료를 이용하여 학습될 때 종국에 가서는 (라벨이 잘못 달린 훈련 데이터조차도) 모든 훈련 자료를 완벽하게 과적합하지만 학습 과정에서 라벨에 노이즈가 있는 데이터와 없는 데이터를 학습하는 속도에 차이가 나는 현상을 뜻한다. 즉, 라벨이 깨끗한 자료를 먼저 정분류하도록 학습되고, 노이즈가 있는 데이터는 상대적으로 늦게 정분류하도록 학습된다. 따라서 학습 초기에 모형을 이용하여 각 데이터별 손실 함수값을 비교하여 깨끗한 샘플과 노이즈가 많은 샘플을 분리할 수 있다.

결국 암기 효과를 이용하여 잘못 라벨링된 데이터를 찾기 위해서는 라벨링이 잘 된 데이터와 그렇지 못한 데이터 사이의 손실 함수 값의 차이가 최대가 되는 학습 단계 (epoch)를 찾는 것이 중요한데, 이러한 최적의 학습 단계는 데이터, 모델 아키텍처, 최적화 방법론 등 다양한 요인에 의해 변동성이 크기 때문에 파악하기가 힘들다는 한계점이 있다 (도 1 참조). 도 1은 각 학습 단계별 암기 효과의 성능을 표시하는 것으로서, 암기 효과의 성능을 비교하기 위해 두 가지의 경우를 분석하고 있다. 비교 대상이 되는 두 가지 경우는 서로 다른 데이터, 모형, 최적화 알고리즘을 사용하였다. 도 1에서, 적색 점선은 각각의 경우에 대해 암기효과가 최대화되는 학습 단계를 나타내고 있다. 도 1에 나타나 있는 바와 같이, 두 경우 암기 효과가 최대화되는 최적의 학습 단계는 서로 다름을 알 수 있다.

등록특허공보 제10-2169558호, 2020.10.15)

본 발명이 해결하고자 하는 과제는 상술한 문제점들을 해결하기 위해 창출된 것으로서, 종래의 암기 효과를 활용한 데이터 정제 방법의 한계점을 해결하고 clean labeled data를 정확하게 정제해 냄으로써 좋은 성능을 갖는 딥 러닝 분류기 학습에 사용될 수 있는, 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 제공하는 것이다.

상기 기술적 과제를 이루기 위한 본 발명의 일측면에 의한 인공지능 학습을 위한 클린 라벨 데이터 정제 방법은, 제1 기계학습(machine learning) 모형을 학습하는 단계; 클린 라벨 정제 대상인 입력데이터의 특징과 유사한 특징을 갖는 복수개의 입력데이터들을 선정하는 단계; 상기 선정된 데이터들 각각에 대해 상기 제1 기계학습 모형을 이용하여 상기 입력데이터의 라벨을 가질 수 있는 확률을 점수로 산출하는 단계; 및 상기 산출된 점수들을 이용하여 상기 입력데이터가 클린 라벨 데이터인지 판단하는 단계를 포함할 수 있다.

상기 복수개의 입력데이터들을 선정하는 단계는 입력데이터들에 대해 상기 제1 기계학습 모형과 동일한 제2 기계학습 모형의 특정 은닉층(hidden layer)에서의 특징을 추출하는 단계; 상기 추출된 입력데이터들의 특징과 상기 클린 라벨 정제 대상인 입력데이터의 특징과 유사도를 측정하는 단계; 및 상기 측정된 유사도 중에서 유사도가 큰 복수개의 입력데이터를 선정하는 단계를 포함할 수 있다.

본 발명에 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법에 의하면, 학습 도중에서의 인공지능, 예를 들어 DNN으로부터 얻어지는 훈련 데이터 ‘근방’의 출력값에 대한 특징을 발견하는 것으로부터 시작하여 DNN의 훈련 단계와 상관없이 라벨이 잘 달린 샘플 ‘근방’의 출력값과 라벨이 잘못 달린 샘플 ‘근방’의 출력값이 항상 일정한 크기만큼 차이가 나는 일관성 효과 (consistency effect) 이용함으로써, 라벨의 분포가 불균형인 자료에서도 clean labeled sample들을 효과적으로 정제할 수 있다. 예를 들어, 실생활에서 접할 수 있는 특허침해에 따른 고소 여부, 부품 생산 기계의 고장 알람 발동 여부, 금융거래에서 이상 거래량의 확인 여부 등 라벨의 분포가 불균형인 데이터에서 높은 성능을 나타낸다.

그리고 본 발명에 의하면, 기계학습 모형, 예를 들어 딥러닝 모형의 과소적합, 과대적합에 상관없이 데이터 정제에 매우 우수한 성능을 보인다. 즉, 딥러닝 모형을 학습하는 도중에 임의의 train epoch에서의 모형을 선택해서 정제 지수를 만든 후 정제를 하더라도 우수한 성능을 보인다.

또한 본 발명에 의하면, 딥러닝 모형은 매우 많은 파라미터를 가지고 있는 만큼, 대량의 데이터를 필요로 하는데, 대량의 입력 데이터들에 대한 정확한 라벨링을 제공함으로써 좋은 성능을 갖는 딥러닝 분류기 학습이 가능하다.

또한 본 발명에 의하면, 클라우드 소싱 데이터의 라벨링과 같은 대량의 데이터 라벨링에 요구되는 전문가의 수작업으로 인해 발생되는 비용과 시간 문제를 해결할 수 있다.

도 1은 각 학습 단계별 암기 효과의 성능을 나타낸 것이다.
도 2는 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치의 구성을 블록도로 나타낸 것이다.
도 3은 본 발명의 다른 실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치의 구성을 블록도로 나타낸 것이다.
도 4는 메모리(330)에 저장되는 복수의 정제 프로그램(332)를 나타낸 것이다.
도 5는 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 흐름도로 나타낸 것이다.
도 6은 도 5의 S520단계에 대한 보다 세부적인 과정을 흐름도로 나타낸 것이다.
도 7은 본 발명의 다른 실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 흐름도로 나타낸 것이다.
도 8은 종래 기술에서 이용하는 암기효과와 본 발명에서 이용하는 일관성 효과를 설명하는 그래프이다.

이하, 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 일 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 및 장치는 학습 도중에서의 DNN으로부터 얻어지는 훈련 데이터 ‘근방(neighbor)’의 출력값에 대한 특징을 발견하는 것으로부터 시작하며, DNN의 훈련 단계와 상관없이 라벨이 잘 달린 샘플 ‘근방(neighbor)’의 출력값과 라벨이 잘못 달린 샘플 ‘근방’의 출력값이 항상 일정한 크기만큼 차이가 난다는 사실을 발견하였고, 이를 일관성 효과 (consistency effect)라 부른다. (도 9 참조). 본 발명에서는 새롭게 발견한 일관성 효과를 이용하여 클린 라벨 데이터 정제 방법(INN 방법)을 제공한다. 주어진 샘플의 인접 영역의 출력 값의 평균을 취하여 평균이 작으면 노이즈가 있는 것으로 결정한다.

도 2는 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치의 구성을 블록도로 나타낸 것이다. 도 2를 참조하면, 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치는 제1기계학습 모형부(210), 제2기계학습모형부(220), 유사도측정부(230), 스코어산출부(240) 및 클린라벨판별부 (250)를 포함하여 이루어진다.

제1기계학습 모형부(210)는 제1기계학습 모형, 예를 들어 제1 DNN 모형을 구비하며, 복수의 라벨 중 어느 하나를 갖는 입력데이터에 대해, 상기 입력데이터가 상기 복수의 라벨 각각을 가질 수 있는 확률을 출력하며, 입력데이터가 갖는 라벨의 정확성을 높이도록 학습된다. 상기 제1 DNN 모형은 입력데이터가 가질 수 있는 라벨의 가지 수를 K라 할 때, 합이 1인 K 차원의 벡터를 출력하며, 제1 DNN 모형 f는 x를 입력값으로 받으면 해당 입력값이 어떤 라벨을 가질지 확률을 출력하는 딥러닝 모형으로서, 수학식 1 로 나타낼 수 있고, 상기 제1 DNN 모형 f는 수학식 2의 목적함수를 최소화하는 방향으로 학습한다.

[수학식 1]

[수학식 2]

(여기서, I는 괄호 안의 조건이 참이라면 1을, 거짓이라면 0을 출력하는 함수이다)

제2기계학습 모형부(220)는 제2기계학습 모형, 예를 들어 제2 DNN 모형을 구비하며, 상기 제1 DNN 모형과 동일한 모형으로 학습되는 모형의 은닉층이며, 상기 입력데이터의 특징을 추출한다. 상기 제2 기계학습모형(DNN모형)은 입력값 x의 특징을 추출하는 기계학습함수로서, 제1기계학습모형 f 와 동일한 기계학습모형 g 를 생성하여 제1 기계학습모형 f 와 동일한 방식으로 학습한 후, 기계학습모형 g 의 마지막 은닉층(hidden layer) 일 수 있다.

유사도 측정부(230)는 상기 입력데이터 및 상기 입력데이터 부근(neighbor)에 있는 복수의 주변 데이터 각각에 대해 상기 제2기계학습모형을 이용하여 특징을 추출하여 상기 입력데이터와의 유사도를 측정한다. 유사도 측정부(230)는 상기 제2 기계학습 모형 h 를 사용하여 유사도를 산출하며, 주어진 두 입력값 u, v 사이의 유사도는 수학식 3과 같이 정의되며, D값이 작을수록 상기 두 입력값 u, v는 유사하다고 판단될 수 있다.

[수학식 3]

스코어산출부(240)는 유사도 측정부(230)에 의해 측정된 유사도가 높은 복수의 상기 주변데이터를 선정하고, 상기 선정된 주변데이터 각각에 대해 상기 제1기계학습모형을 이용하여 상기 입력데이터가 갖는 라벨의 점수를 산출한다. 스코어산출부(250)는 라벨의 정확성 판단 대상인 입력데이터와 라벨의 쌍을 샘플이라 할 때, 각 샘플(입력값과 라벨 쌍) 마다 점수를 산출하고, 점수가 높을수록 클린라벨 샘플이라 판단하고, 상기 점수가 낮을수록 잘못된 라벨(noisy labeled) 샘플이라 판단하고, 유사도 측정부(230)에 의해 측정된 유사도가 높은 L개의 주변데이터를

라 할 때, 샘플

의 점수는 수학식 4에 의해 계산될 수 있다.

[수학식 4]

클린라벨 판별부(250)는 상기 산출된 라벨의 점수를 이용하여 클린 라벨 데이터를 판단한다.

도 3은 본 발명의 다른 실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치의 구성을 블록도로 나타낸 것이다. 도 3을 참조하면, 본 발명의 다른 실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 장치는 입력부(310), 출력부(320), 메모리(330) 및 프로세서(340)를 포함하여 이루어진다.

입력부(310)는 기계학습모형(DNN모형)의 학습에 필요한 입력데이터들과 정제 대상인 입력데이터를 받아들인다.

출력부(320)는 상기 정제 대상인 입력데이터가 클린 라벨 데이터인지 판별한 결과를 출력한다.

메모리(330)는 복수의 정제 프로그램(332)을 저장하고 있다. 도 4는 메모리(330)에 저장되는 복수의 정제 프로그램(332)를 나타낸 것이다. 상기 복수의 정제 프로그램(332)는 제1기계학습모형(410), 제2기계학습모형(420), 유사도 측정모듈(430), 스코어산출모듈(440)을 포함한다.

프로세서(340)는 복수의 정제 프로그램(332)을 실행하여 클린 라벨 정제 대상인 입력데이터가 클린라벨 데이터인지 판별한다. 프로세서(340)는 복수 개의 프로세서로 이루어질 수 있다.

제1기계학습모형(410)은 DNN모형을 포함할 수 있으며, 복수의 라벨 중 어느 하나를 갖는 입력데이터에 대해, 상기 입력데이터가 상기 복수의 라벨 각각을 가질 수 있는 확률을 출력하며, 입력데이터가 갖는 라벨의 정확성을 높이도록 학습된다. 제1기계학습모형(410)은 입력데이터가 가질 수 있는 라벨의 가지 수를 K (K는 자연수)라 할 때, 합이 1인 K 차원의 벡터를 출력하며, 제1 기계학습 모형 f는 x를 입력값으로 받으면 해당 입력값이 어떤 라벨을 가질지 확률을 출력하는 딥러닝 모형으로서, 수학식 1 로 나타낼 수 있고, 상기 기계학습모형 f는 수학식 2의 목적함수를 최소화하는 방향으로 학습한다.

제2기계학습모형(420)는 제1기계학습모형(410)과 동일한 모형으로 학습되는 모형의 은닉층이며, 상기 입력데이터의 특징을 추출할 수 있는 모형이다.

유사도 측정모듈(430)은 상기 입력데이터 및 상기 입력데이터 부근에 있는 복수의 주변 데이터 각각에 대해 제2기계학습모형(410)을 이용하여 특징을 추출하여 상기 입력데이터와의 유사도를 측정한다. 유사도 산출모듈(430)은 제2 기계학습 모형 h을 사용하여 유사도를 산출하며, 주어진 두 입력값 u, v 사이의 유사도는 수학식 3과 같이 정의될 수 있고, D 값이 작을수록 상기 두 입력값 u, v는 유사하다고 판단된다.

스코어산출 모듈(440)은 유사도 측정 모듈(430)에 의해 측정된 유사도가 높은 복수의 상기 주변데이터를 선정하고, 상기 선정된 주변데이터 각각에 대해 상기 제1기계학습모형을 이용하여 상기 입력데이터가 갖는 라벨의 점수를 산출하여 상기 산출된 라벨의 점수를 이용하여 클린 라벨 데이터를 판단한다. 스코어산출 모듈(440)은 라벨의 정확성 판단 대상인 입력데이터와 라벨의 쌍을 샘플이라 할 때, 각 샘플(입력값과 라벨 쌍)마다 점수를 산출하고, 점수가 높을수록 클린라벨 샘플이라 판단하고, 상기 점수가 낮을수록 잘못된 라벨(noisy labeled) 샘플이라 판단하고, 상기 유사도 측정부에 의해 측정된 유사도가 높은 L개의 주변데이터를

라 할 때, 샘플

의 점수는 수학식 4와 같이 계산될 수 있다.

도 5는 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 흐름도로 나타낸 것이다. 도 5를 참조하여 본 발명의 일실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 설명하기로 한다. 먼저, 제1 기계학습(machine learning) 모형을 학습한다.(S510단계)

클린 라벨 정제 대상인 입력데이터의 특징과 유사한 특징을 갖는 복수개의 입력데이터들을 선정한다.(S520단계) 도 6은 도 5의 S520단계, 즉 상기 복수개의 입력데이터들을 선정하는 단계에 대한 보다 세부적인 과정을 흐름도로 나타낸 것이다. 도 6을 참조하면, 상기 복수개의 입력데이터 선정은 세부적으로 다음과 같이 이루어질 수 있다. 먼저, 입력데이터들에 대해 상기 제1 기계학습 모형과 동일한 제2 기계학습 모형의 특정 은닉층(hidden layer)에서의 특징을 추출한다.(S522 단계) 상기 추출된 입력데이터들의 특징과 상기 클린 라벨 정제 대상인 입력데이터의 특징과 유사도를 측정한다.(S524단계) 상기 측정된 유사도 중에서 유사도가 큰 복수개의 입력데이터를 선정한다.(S526단계)

그리고 나서, 상기 선정된 데이터들 각각에 대해 상기 제1 기계학습 모형을 이용하여 상기 입력데이터의 라벨을 가질 수 있는 확률을 점수로 산출한다.(S530단계) 상기 산출된 점수들을 이용하여 상기 입력데이터가 클린 라벨 데이터인지 판단한다.(S540단계)

도 7은 본 발명의 다른 실시예 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법을 흐름도로 나타낸 것이다. 도 7을 참조하면, 복수의 라벨 중 어느 하나를 가지며 클린 라벨 정제 대상인 입력데이터에 대해, 상기 입력데이터가 상기 복수의 라벨 각각을 가질 수 있는 확률을 출력하며, 입력데이터가 갖는 라벨의 정확성을 높이도록 학습되는 제1 기계학습(machine learning) 모형을 생성한다.(S710단계)

상기 제1 기계학습모형은 입력데이터가 가질 수 있는 라벨의 가지 수를 K라 할 때, 합이 1인 K 차원의 벡터를 출력하며, 제1 기계학습모형 f는 x를 입력값으로 받으면 해당 입력값이 어떤 라벨을 가질지 확률을 출력하는 딥러닝 모형으로서, 수학식 1 로 나타낼 수 있고, 상기 제1기계학습모형 f는 수학식 2의 목적함수를 최소화하는 방향으로 학습될 수 있다.

상기 제1 기계학습모형과 동일한 모형으로 학습되는 모형의 은닉층이며, 상기 입력데이터의 특징을 추출하는 모형인 제2 기계학습모형을 생성한다.(S720단계) 상기 제2 기계학습모형은 입력값 x의 특징을 추출하는 딥러닝 함수로서, 제1기계학습모형 f 와 동일한 기계학습모형 g를 생성하여 제1기계학습모형 f와 동일한 방식으로 학습한 후, 기계학습모형 g의 마지막 은닉층일 수 있다.

상기 라벨을 갖는 입력데이터들에 대해 상기 제2 기계학습모형을 이용하여 특징을 추출하여 상기 클린 라벨 정제 대상인 입력데이터와의 유사도를 측정한다.(S730단계) 상기 유사도는 상기 제2 기계학습모형 h을 사용하여 산출되며, 주어진 두 입력값 u, v 사이의 유사도는 수학식 3과 같이 정의될 수 있고, D값이 작을수록 상기 두 입력값 u, v는 유사하다고 판단될 수 있다.

그리고 나서 상기 측정된 유사도 중에서 유사도가 높은 복수의 입력데이터들을 주변(neighbor) 데이터들로 선정한다.(S740단계)

상기 선정된 주변 데이터들 각각에 대해 제1 기계학습모형을 이용하여 상기 입력데이터의 라벨을 가질 수 있는 확률을 점수로 산출한다.(S750단계) 상기 제1기계학습모형 함수의 점수 산출은 라벨의 정확성 판단 대상인 입력데이터와 라벨의 쌍을 샘플이라 할 때, 각 샘플(입력값과 라벨 쌍)마다 점수를 산출하고, 상기 측정된 유사도가 높은 L개의 주변데이터를

라 할 때, 샘플 (x_i,y_i)의 점수는 수학식 4와 같이 계산될 수 있다.

상기 산출된 라벨의 점수를 이용하여 상기 입력데이터가 클린 라벨 데이터인지 판단한다.(S760단계) 상기 입력데이터가 클린 라벨 데이터인지 여부는 상기 산출된 라벨의 점수가 높을수록 클린 라벨 샘플이라 판단하고, 상기 점수가 낮을수록 잘못된 라벨(noisy labeled) 샘플이라 판단할 수 있다.

한편, 본 발명에 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 및 장치는 종래 기술에서 이용하는 암기 효과(memorization effect)를 이용하지 않고, 라벨이 제대로 달린 샘플의 DNN 출력값과 라벨이 잘못 달린 샘플의 DNN 출력값이 학습이 종료될 때까지 일정한 차이가 나타나는 일관성 효과(consistency effect)를 이용하고 있다. 도 8은 종래 기술에서 이용하는 암기효과와 본 발명에서 이용하는 일관성 효과를 설명하는 그래프이다. 도 8을 참조하면, 초록색 그래프는 암기 효과를 나타내고, 오렌지색 그래프는 일관성 효과를 나타낸 것으로서, E_cor는 라벨이 잘 달린 샘플의 DNN 출력값, E_inc는 라벨이 잘못 달린 샘플의 DNN 출력값을 나타내고 있다. 도 8에 도시된 바와 같이, 학습 초반에는 E_cor, E_inc 두 값의 차이가 크게 벌어지지만, 학습이 진행될수록, 즉 과적합될수록, 두 값의 차이는 없어지게 되어 손실함수 값으로는 더 이상 분간할 수가 없게 된다.

반면, E^m_cor 은 라벨이 잘 달린 샘플 ‘근방’의 DNN 출력값, E^m_inc 은 라벨이 잘못 달린 샘플 ‘근방’의 DNN 출력값을 나타낸다. 도 8에 도시된 바와 같이, E^m_cor 와 E^m_inc 두 값은 학습이 종료될때까지 일정한 차이가 나타난다.

본 발명에 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 및 장치는 이러한 일관성 현상을 이용하여 주어진 훈련 데이터에서 라벨이 잘 달린 데이터와 그렇지 못한 데이터를 분리해낸다.

본 발명에 따른 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 (이하, INN(integration with the nearest neighborhoods) 방법이라 한다)을 보다 구체적으로 설명하기로 한다. 총 n개의 입력값, 예를 들면 사진(이미지)과 라벨, 예를 들면 사진의 객체 정보 쌍이 있는 자료를

라 하자. 여기서 x_i는 i 번째 입력값, y_i는 x_i의 라벨이고, y_i는 1부터 K까지 중 한 가지 값을 가질 수 있다 (K는 라벨의 가지 수). 또한, y_i가 x_i의 실제 라벨과 일치하면 (x_i,y_i)는 clean labeled sample 이라 하고, 일치하지 않으면 noisy labeled sample 이라 부른다. 본 발명에 의한 INN 방법은 자료

에서 clean labeled sample을 최대한 정확하게 정제해내는 것이 목표이다.

INN 방법을 이용하기 위해서는 두 개의 딥러닝 모형이 필요하다. 이를 각각 제1딥러닝모형 f, 제2딥러닝모형 h라 하자.

먼저, 제1딥러링모형 f는 x를 입력값으로 받으면 해당 입력값이 어떤 라벨을 가질지 확률을 출력해주는 딥러닝 모형이다. 즉, f는 합이 1인 K 차원의 벡터를 출력해준다. 이를 식으로 나타내면 아래와 같이 수학식 1로 나타낼 수 있다:

[수학식 1]

모형

는 수학식 2와 같이 목적함수를 최소화하는 방향으로 학습한다:

[수학식 2]

여기서, Ⅰ는 괄호 안의 조건이 참이라면 1을, 거짓이라면 0을 출력해주는 함수이다.

제2딥러닝모형 h는 입력값 x의 특징을 추출해주는 딥러닝 함수이다. 딥러닝 모형 f과 똑같은 모형 g를 만들고 같은 방식으로 학습한다. 그 후에 모형 g의 마지막 은닉층(hidden layer)을 모형 h로 사용한다.

본 발명에 의한 INN 방법을 사용하기 위해서는 두 개의 딥러닝 모형 외에도 입력값들 사이의 유사성을 측정하는 유사도가 필요하다. INN은 딥러닝 모형

를 사용해서 유사도를 측정한다. 주어진 두 입력값 u,v 사이의 유사성은 아래의 수학식 3같이 정의한다.

[수학식 3]

여기서 L₂는 유클리디안 거리를 뜻한다. 즉, 두 입력값 u,v 사이의 유사도는 딥러닝 모형 h를 통해 추출된 값들 사이의 유클리디안 거리이다. 이 값이 작을수록 두 입력값은 서로 유사하다고 판단한다.

INN 알고리즘은 고유한 방법으로 각 샘플(입력값과 라벨 쌍)마다 점수를 매긴다. 그리고, 이 점수를 INN score라 부른다. 이 점수가 높을수록 clean labeled sample일 것이라 판단하고, 반대로 이 점수가 낮을수록 noisy labeled sample일 것이라 판단한다. INN score를 계산하는 방법은 다음과 같다.

먼저, ① 입력값

와 다른 입력값들

사이의 유사도를 모두 측정한다 (유사도는 위에서 정의한 D를 사용). ② 이 중에서 유사도가 가장 작은 L개의 입력값들을 찾고, 이를

이라 한다. ③ 샘플 (x_i, y_i)의 INN score s_i를 수학식 4를 이용하여 계산한다.

[수학식 4]

위의 ①, ②, ③ 과정을 모든

에 대해서 반복한다. 즉, 샘플 (x_i,y_i)의 INN score는 x_i과 이웃 입력값 사이에서

를 적분한 적분값들의 평균이다. 사용하는 이웃 입력값의 개수인 L은 큰 값을 사용할수록 INN score의 성능이 좋아지는 것을 실험적으로 확인하였다. 하지만, L이 커질수록 계산량이 많아지므로, 실제로는 약 L=10 정도의 값을 사용하였다.

본 발명에 따른 INN 방법의 또다른 특징은 다음과 같다. INN 방법과 직접적인 비교를 하는 기존의 방법은 기억 효과(memorization effect)를 이용하는 방법이다. 라벨의 분포가 불균형적인 데이터 (예: 라벨이 1인 샘플 100개, 라벨이 2인 샘플 1000개인 자료) 에서 종래의 기억 효과 방법은 매우 좋지 않은 성능을 보인다. 반면에, 본 발명에 따른 INN 방법은 라벨의 분포가 불균형인 자료에서도 clean labeled sample들을 잘 정제하는 것을 실험적으로 확인할 수 있었다. 특허 침해에 따른 고소 여부, 부품 생산 기계의 고장 알람 발동 여부, 금융에서 이상 거래량의 확인 여부 등 라벨의 분포가 불균형인 데이터는 실생활에서 매우 자주 접할 수 있는 만큼, 본 발명에 의한 INN 방법은 실생활에서 적용이 가능한 범용성이 있는 방법론이라 할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

210 : 제1기계학습모형부 220 : 제2기계학습모형부
230 : 유사도측정부 240 : 스코어산출부
250 : 클린라벨판별부 310 : 입력부
320 : 출력부 330 : 메모리
332 : 복수의 정제 프로그램 340 : 프로세서
410 : 제1기계학습모형 420 : 제2기계학습모형
430 : 유사도 측정모듈 440 : 스코어 산출 모듈

Claims

제1기계학습 모형부가 클린라벨 정제 대상인 입력데이터들에 대해 제1 기계학습(machine learning) 모형을 학습하는 단계;
스코어 산출부가 상기 제1기계학습 모형과 동일하며 입력데이터의 특징을 추출하는 제2기계학습모형을 이용하여 상기 클린 라벨 정제 대상인 입력데이터의 특징과 유사한 특징을 갖는 복수 개의 입력 데이터들을 선정하여 상기 선정된 데이터들 각각에 대해 상기 제1 기계학습 모형을 이용하여 상기 입력데이터의 라벨을 가질 수 있는 확률을 점수로 산출하는 단계; 및
클린라벨 판별부가 상기 스코어 산출부에 의해 상기 산출된 점수들을 이용하여 상기 입력데이터가 클린 라벨 데이터인지 판단하는 단계를 포함하고,
상기 제1기계학습모형은 복수의 라벨 중 어느 하나를 가지며, 상기 입력데이터가 상기 복수의 라벨 각각을 가질 수 있는 확률을 출력하며, 입력데이터 갖는 라벨의 정확성을 높이도록 학습되는, 인공지능 학습을 위한 클린 라벨 데이터 정제 방법.