WO2021112335A1

WO2021112335A1 - 생성적 적대 신경망 기반의 분류 시스템 및 방법

Info

Publication number: WO2021112335A1
Application number: PCT/KR2020/003622
Authority: WO
Inventors: 르팜투옌; 노철균; 민예린
Original assignee: 주식회사 애자일소다
Priority date: 2019-12-06
Filing date: 2020-03-17
Publication date: 2021-06-10
Also published as: US20220207300A1; JP7059458B2; JP2022515941A; US12019711B2

Abstract

생성적 적대 신경망 기반의 분류 시스템 및 방법을 개시한다. 본 발명은 결측 데이터를 생성적 적대 신경망(GAN)을 이용하여 실제 데이터와 유사한 결측 대체값으로 생성할 수 있어 데이터의 전체적인 질을 향상시킬 수 있고, 레이블이 있는 레이블 데이터 세트와, 레이블이 없는 비레이블 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있다. [대표도] 도 2

Description

생성적 적대 신경망 기반의 분류 시스템 및 방법

본 발명은 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 발명으로서, 더욱 상세하게는 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 레이블 데이터 세트와 레이블이 없는 비레이블 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 것이다.

머신 러닝은 복잡한 시스템이 명시적으로 프로그래밍되지 않고서 경험으로부터 자동으로 학습하고 개선할 수 있게 하는 인공 지능의 응용이다.

머신 러닝 모델들의 정확도 및 유효성은 그들 모델들을 훈련시키는 데 사용되는 데이터에 부분적으로 의존할 수 있다.

예를 들어, 머신 러닝 분류자(Classifier)들은 레이블이 있는(또는 레이블링된 데이터(Labeled data) 세트를 사용하여 훈련될 수 있는데, 여기서 분류자가 인식하도록 학습할 데이터의 샘플들이 샘플에 대한 분류(Classification)를 식별하는 하나 이상의 레이블들과 함께 분류자에 제공된다.

여기서, 레이블링된 데이터는 데이터에 대한 답이 주어져 있는 것(또는 평가가 되어 있는 것)을 말한다.

그러나, 의사 결정 시스템에서는 다음과 같은 문제들로 어려움을 겪을 때가 있다.

도 1은 일반적인 결측 데이터가 포함된 데이터 세트를 나타낸 예시도로서, 도 1에 나타낸 바와 같이, 데이터 세트(10)는 n개의 스테이트(State)를 포함하여 구성되고, 스테이트의 원소(11)는 스테이트 'i'가 가지는 'j'번째 원소로 'S_i ^j'로 표현되며, 여기서 'j'는 1부터 d까지의 상수이고, 'S_i ^j'는 스칼라 또는 결측 데이터 'Z_i ^j'(12)를 가질 수 있다.

결측 데이터(Missing data)는 데이터 세트(Data set)의 전체적인 질을 낮추게 되어, 의사 결정 시스템에서 예측된 결과가 왜곡되는 문제점이 있다.

또한, 딥 러닝에서는 레이블이 있는 데이터의 양이 성능에 있어 상당한 영향력을 가지고 있지만, 대부분의 실제 데이터 세트는 일반적으로 레이블이 없는 비레이블 데이터를 포함하고 있어 데이터를 레이블링하는 비용이 매우 고가인 문제점이 있다.

또한, 통상의 비즈니스 의사 결정을 위한 비즈니스 데이터 세트에는 많은 결측 값, 비이상적인 레이블 불균형 문제가 있어 분류 시스템을 구축하는데 많은 어려움이 있다.

또한, 통상의 비즈니스 의사결정을 위한 비즈니스 데이터 세트에는 불균형의 차이가 매우 심하고, 소수의 클래스가 데이터에서 매우 작은 부분만을 차지하지만, 결과적으로 그러한 클래스의 샘플은 의사 결정 시스템을 업데이트 하는 과정에서 거의 쿼리(Quarry)되지 않는 문제점이 있다.

또한, 통상의 비즈니스 의사 결정을 위한 비즈니스 데이터 세트, 예를 들어 대출 사기 비즈니스의 데이터 세트인 경우 사기 건이 매우 미미하여 통상의 분류 시스템으로는 분류 및 예측하기가 어려운 문제점이 있다.

이러한 문제점을 해결하기 위하여, 본 발명은 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 레이블 데이터 세트와 레이블이 없는 비레이블 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 생성적 적대 신경망 기반의 분류 시스템 및 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템은 레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자; 상기 생성자가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자; 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터; 및 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부;를 포함하고,

상기 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,

상기 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 리워드의 가중치는 하기식

- 여기서,

는 스테이트

으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ω_y와 ω_a는

(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다.

또한, 본 발명의 실시 예에 따른 레이블 빈도수는 하기식

- 여기서, n_k는 k번째 레이블의 샘플 수이고,

는 (0, 1)의 범위 안에 있음 - 으로 근사되며, 상기 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다

또한, 본 발명의 실시 예에 따른 액터는 상기 예측된 액션과 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습한다.

또한, 본 발명의 실시 예에 따른 정책의 학습은 하기식

- 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,

는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템을 이용한 분류 방법은 생성자와, 판별자와, 액터와 가중치 함수부로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용하고, a) 생성자가 레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계; b) 액터가 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c) 가중치 함수부가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치 값을 생성하는 단계; 및 d) 상기 액터가 상기 예측된 액션과, 가중치 함수부에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계를 포함하고,

상기 c) 단계에서, 상기 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 a) 단계는 i) 상기 생성자가 레이블이 있는 데이터 세트로부터 결측값이 있는 스테이트(State)와, 상기 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 결측 지표(m)를 선택하는 단계; 및 ii) 상기 생성자가 상기 스테이트에 '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈로 대체된 결측 대체값(

)을 이용하여 결측 대체값(

)을 생성하고, 상기 생성된 결측 대체값(

)을 이용하여 생성자와 판별자를 학습하는 전처리 단계;를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 c) 단계의 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작한다.

또한, 본 발명의 실시 예에 따른 상기 레이블 빈도수는 하기식

- 여기서, n_k는 k번째 레이블의 샘플 수이고,

는 (0, 1)의 범위 안에 있음 - 으로 근사된다.

또한, 본 발명의 실시 예에 따른 상기 리워드의 가중치는 하기식

- 여기서,

는 스테이트

또한, 본 발명의 실시 예에 따른 c) 단계의 가중치 함수부는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 한다.

또한, 본 발명의 실시 예에 따른 d) 단계는 정책의 학습을 하기식

는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하여 학습하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템은 레이블이 있는 데이터 세트(S_L) 또는 레이블이 없는 데이터 세트(S_U)로부터 결측값을 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자; 상기 생성자가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자; 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터; 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부; 및 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터의 정책이 학습되도록 리워드를 제공하는 리워드부;를 포함하고,

상기 액터는 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부의 리워드에 기반하여 세미 정책 손실 함수가 최적화 되도록 상기 정책을 학습한다.

또한, 본 발명의 실시 예에 따른 상기 리워드부(600a)의 리워드는 하기식

- 여기서,

는 리워드부가 출력하는 레이블 데이터 세트(

, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템을 이용한 생성적 적대 신경망 기반의 분류 방법은 a) 생성자가 레이블이 있는 데이터 세트(S_L)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계; b) 액터가 상기 생성자에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c) 가중치 함수부가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및 d) 상기 액터가 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,

상기 a) 단계에서 레이블이 없는 데이터 세트(S_U)가 있으면, a-1) 상기 생성자가가 레이블이 없는 데이터 세트(S_U)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(

_U)을 생성하는 단계; b-1) 상기 액터가 생성된 결측 대체값(

_U)을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c-1) 리워드부가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터의 정책이 학습되도록 리워드를 제공하는 단계; 및 d-1) 상기 액터가 상기 예측된 액션과, 상기 리워드부의 리워드에 기반하여 세미 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함한다.

- 여기서,

는 리워드부가 출력하는 레이블 데이터 세트(

본 발명은 강화학습에서 'Actor-critic' 아키텍처와 생성적 적대 신경망(GAN) 아키텍처를 결합함으로써, 강화학습의 최적의 모델을 개발하기 위한 보상함수의 설정에 요구되는 시간과 시행 착오 과정을 획적으로 단축하기 위해 데이터의 특성에 맞게 자동으로 보상함수 체계를 제공할 수 있는 장점이 있다.

또한, 본 발명은 결측 데이터를 생성적 적대 신경망(GAN)을 이용하여 실제 데이터와 유사한 결측 대체값으로 생성할 수 있어 데이터의 전체적인 질을 향상시킬 수 있는 장점이 있다.

또한, 본 발명은 결측 데이터의 부정적 효과를 감소시킬 수 있는 장점이 있다.

본 발명은 생성적 적대 신경망(GAN)으로 생성한 결측 데이터를 이용하여 레이블이 있는 레이블 데이터 세트와, 레이블이 없는 비레이블 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있는 장점이 있다.

또한, 본 발명은 레이블 데이터 세트 및 비레이블 데이터 세트를 동시에 입력 데이터로 사용함과 동시에, 적은 수의 데이터 세트에서도 학습할 수 있는 장점이 있다.

또한, 본 발명은 레이블의 불균형 비율에 연관된 맞춤형(Customized) 보상함수를 제공하여 분류 시스템 및 방법의 구축 시간을 감소시킬 수 있는 장점이 있다.

또한, 본 발명은 은행, 카드 또는 보험 등의 금융기관이나, 시스템, 제조, 항공사 등의 비즈니스 의사결정 최적화 문제를 위한 강화학습 방법론을 적용함에 있어서, 데이터 세트에 대한 결측 대체를 위한 디자인이나, 보상함수를 적용하기 위한 디자인 없이 강화학습 방법론을 적용할 수 있는 장점이 있다.

또한, 본 발명에 의하면, 통상으 비즈니스 의사 결정을 위한 비즈니스 데이터 세트에 발생될 수 있는 많은 결측 값, 비이상적인 레이블 블균형 문제를 해결할 수 있음에 따라 통상의 분석가가 분류 시스템을 구축하는데 비용 시간을 줄이면서 강화학습 방법론을 적용할 수 있는 장점이 있다.

또한, 본 발명에 의하면, 통상의 비즈니스 의사결정을 위한 비즈니스 데이터 세트, 예를 들어 대출 사기 비즈니스의 데이터 세터인 경우, 사기 건이 매우 미미하더라도, 가중치 함수를 이용한 가중치 조절을 통해 사기 건에 대한 보상 값을 상대적으로 커지게 하여 사기 건에 더욱 집중하는 시스템을 구성할 수 있는 장점이 있다.

도 1은 일반적인 결측 데이터가 포함된 데이터 세트를 나타낸 예시도.

도 2는 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도.

도 3은 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도.

도 4는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도.

도 5는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도.

도 6은 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도.

도 7은 본 발명의 다른 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도.

도 8은 본 발명의 다른 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도.

도 9는 도 8에 따른 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 분류 학습과정을 나타낸 흐름도.

도 10은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 여러 결측률에 따른 평가 결과를 나타낸 그래프.

도 11은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 학습 과정동안 생성된 값의 분포를 나타낸 그래프.

도 12는 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도.

도 13은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 컴퓨터 시스템에서 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.

또한, 컴퓨팅 장치는, 통신장치 및 프로세서를 포함하며, 통신장치를 통하여 외부 컴퓨팅 장치와 직/간접적으로 통신할 수 있다.

구체적으로, 컴퓨팅 장치는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.

이와 같은 컴퓨팅 장치의 통신장치는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신 될 수도 있을 것이다.

또한, 넓은 의미에서 통신장치는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.

또한, 컴퓨팅 장치의 프로세서는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다.

(제1 실시 예)

도 2는 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도이며, 도 4는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도이고, 도 5는 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도이며, 도 6은 도 3에 따른 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도이다.

도 2 내지 도 6을 참조하면, 생성적 적대 신경망 기반의 분류 시스템은 생성자(100,Generator)와, 판별자(200, Discriminator)와, 액터(400, Actor)와, 가중치 함수부(500, Weighted Function)를 포함하여 구성된다.

생성자(100)와 판별자(200)는 경쟁 구조에 있는 네트워크인 생성적 적대 신경망(Generative Adversarial Network; GAN)을 사용하여 생성자(100)는 원본 데이터의 분포를 보고 판별자(200)를 속이는 결측 대체값의 생성을 위한 학습을 수행하며, 판별자(200)는 어떤 데이터가 생성자(100)에 의해 생성된 데이터인지 분별하는 학습을 수행한다.

또한, 생성자(100)는 원본 데이터의 분포를 참조하여 판별자(200)를 속이는 결측 대체값의 생성을 위한 학습을 수행한다.

또한, 생성자(100)는 레이블이 있는 데이터(S_L)를 이용한 생성적 적대 신경망 기반의 분류 시스템으로서, 레이블이 있는 데이터 세트(10)로부터 결측 대체값을 생성한다.

또한, 생성자(100)는 전처리 과정으로, 레이블이 있는 데이터 세트가 아닌 레이블이 없는 데이터 세트로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.

또한, 생성자(100)는 결측 대체값의 생성을 위한 입력으로 데이터 세트(10)로부터 n개의 스테이트(State)와, n개의 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(20, m_L)를 선택한다.

여기서, S_L은 각 스테이트가 레이블이 있는 데이터 세트인 것을 의미하고, m_L은 레이블이 있는 결측 지표를 의미한다.

또한, 레이블이 있는 데이터 세트(10)는 S₁, S₂, S₃, ‥, S_n ∈ R^d 로 이루어진 n개의 스테이트를 포함하고, 여기서 d는 스테이트 특징(feature)이다.

또한, 스테이트 i가 가지는 j번째 원소는 s_i ^j라고 표현하고, 여기서, j는 d까지의 상수이며, s_i ^j는 스칼라 또는 결측값을 가질 수 있다.

또한, 데이터 세트(10)는 레이블이 있는 레이블 데이터 및 레이블링되지 않은 비레이블 데이터 중 적어도 하나의 데이터로 구성될 수 있다.

또한, 결측 지표(20)는 스테이트의 원소가 결측 됐는지를 나타내기 위한 지표로서, m₁, m₂, m₃, ‥, m_n ∈ R^d 를 사용하고, 이때, m_i ^j는 s_i ^j가 결측 데이터를 가지면 결측 지표값(22)은 '0', 그렇지 않으면 결측 지표값(21)은 '1'로 표시될 수 있다.

또한, 생성자(100)는 n개의 스테이트 중에서 임의의 원소(11)에 대하여 무작위(랜덤)로 선별된 결측 원소(12)에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'로 대체된 결측 대체값(

)을 입력 받아 계산한다.

이때, 결측 대체값(

)은 하기식을 통해 입력으로 받는다.

여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이고, z는 '0'과 '1' 사이의 균등 분포로부터 랜덤하게 선별된 노이즈의 벡터이며, 요소별 곱으로 나타낼 수 있다.

또한, 생성자(100)는 결측 대체값(

)을 이용하여 생성된 원소들의 벡터로 이루어진 스테이트(

)를 출력한다.

또한, 생성자(100)는 스테이트(

)로 대체된 결측 대체값(

)을 생성하여 출력한다.

이때, 생성자(100)의 출력을 통해 하기식을 따르는 결측 대체값(

)에 해당하는 데이터가 판별자(200)의 학습을 위해 사용될 수 있도록 한다.

여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이다.

판별자(200)는 생성자(100)가 생성한 결측 대체값(

)과 원본 데이터를 구분하는 구성으로서, 판별자(200)가 출력한 것의 각 원소들이 결측(fake)인지 아닌지(real)를 구분하고, 결과적으로 m은

을 위한 레이블로 사용될 수 있다.

또한, 판별자(200)는 함수를 통해 스테이트

의 i번째 원소가 결측 데이터가 아닐 확률에 해당하는 판별자(200)의 i번째 출력을 S →[0, 1]^d로나타낼 수 있다.

또한, 판별자(200)는 출력을 판별자 출력 지표(30)를 통해 D₁, D₂, D₃, ‥,D_d로 나타낼 수 있다.

한편, 생성자(100)와 판별자(200)는 손실 함수를 통해 학습될 수 있는데, 생성자(100)의 학습을 위한 생성자 손실 함수는 하기식과 같을 수 있다.

여기서, 생성자 손실 함수는 두 개의 항(term)으로 구성될 수 있는데, 첫 번째 항은 결측 데이터에 대한 확률 Dⁱ를 최대화 하는 것이다.

또한, 두 번째 항은 원본 데이터 분포를 이용하여 생성자(100)에서 생성된 결측 데이터를 원본 데이터에 가깝도록 변환하는 재구성 손실(reconstruction loss, 40)이고, 여기서, λ는 스케일 팩터(scale factor)이다.

또한, 판별자(200)의 학습을 위한 판별자 손실 함수는 하기식과 같을 수 있다.

판별자 손실 함수는 i번째 원소가 결측 데이터이면, 확률 Dⁱ를 최대화하는 방향으로 학습하고, 아니면 반대로 확률 Dⁱ를 최소화하는 방향으로 학습되도록 구성할 수 있다.

액터(400)는 생성자(100)에 의해 생성된 결측 대체값들로 이루어진 벡터를 정책(Policy)을 이용하여 레이블이 있는 데이터 세트로부터 액션(Action)을 수행할 확률을 예측한다.

또한, 액터(400)는 강화학습에서 잘 알려진 의사결정 프레임워크인 'Actor-critic' 아키텍처의 구성요소일 수 있다.

또한, 액터(400)는 스테이트를 입력으로 받아 주어진 액션(Action)을 할 확률을 출력하고, 'Actor-critic'를 이용하여 정책(Policy)π를 학습하기 위해, 정책 손실 함수(Policy loss function, 41)는 하기식과 같이 정의될 수 있다.

여기서,

는 주어진 스테이트에서 예측된 액션이 좋은지 또는 나쁜지를 결정하는 크리틱(Critic)으로부터 평가되는 함수이다.

또한,

는 'total discounted reward', 'action-value function' 또는 'TD-error'와 같은 형태를 가질 수도 있다.

상기된 정책 손실 함수는 액션이 결정되지 않은 일반적인 형태로서, 액터(400)는 정확하고, 부정확한 액션 모두로부터 학습되어야 한다.

그러나,

의 추정치가 나쁜 경우, 그 정책 손실 함수는 잘못된 방향으로 최적화를 하게 되고, 그 결과, 천천히 수렴하거나 또는 발산하게 될 수 있다.

따라서, 본 발명의 실시 예에 따른 액터(400)는 정책 손실 함수(41)를 부정확한 액션으로부터 학습되는 경우를 생략하고, 주어진 정확한 레이블 만을 이용할 수 있도록 하기식으로 정의될 수 있다.

여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,

는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.

즉, 예측된 액션을 정확한 레이블로 대체하고, 함수

를 가중치 함수(Weighted Function) W로 대체한다.

따라서, 지도 정책 손실(Supervised policy loss) L_L은 가중치 함수

로부터 얻은 분류 손실 가중치(Classification loss weighted)이다.

또한, 모든 스테이트, 액션, 레이블에 대해 가중치 함수가 '1'인 경우, L_L은 분류 손실 가중치와 완전하게 같아지게 된다.

또한, 액터(400)는 지도 분류를 위한 정책 손실 함수(41)가 가중치 함수부(500)로부터 생성된 리워드의 가중치 값을 이용하여 지도 정책을 학습할 수 있다.

가중치 함수부(500)는 스테이트

으로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트로부터 레이블의 빈도수에 기반하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 생성한다.

여기서, 가중치 함수부(500)가 K개의 레이블이 있는 (k = 0, 1, …, K-1) 레이블이 있는 데이터 세트 S_L을 가지고 있다고 가정하면, K번째 레이블의 빈도수는 하기식으로 근사될 수 있다.

여기서, n_k는 k번째 레이블의 샘플 수이고,

는 (0, 1)의 범위 안에 있다.

또한, 가중 계수 ω_k는 각 레이블에 대하여 하기식으로 추정될 수 있다.

여기서, b는 로그에 기초한다(b = e, 10, …).

따라서, 레이블의 빈도수가 상대적으로 작은 소수의 레이블(minority lable)에 대하여 높은 리워드의 가중치를 주고, 레이블의 빈도수가 상대적으로 큰(높은) 다수의 레이블(majority lable)에는 더 낮은 리워드의 가중치를 줌으로써, 레이블 간의 균형이 맞춰지도록 생성할 수 있다.

또한, 가중치 함수부(500)는 가중치 함수, 즉 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식으로 정의할 수 있다.

여기서,

는 스테이트

(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수이다.

다음은 본 발명의 제1 실시 예에 따른 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 및 학습 방법을 설명한다.

학습 절차는 결측값을 생성하는 단계(S100)와 학습 정책을 생성하는 단계(S200)인 두 단계로 나눠질 수 있다.

그리고, 각 단계 S100과 S200은 레이블이 있는 데이터 세트의 다양한 에폭(epoch)을 통해 반복하면서 업데이트 할 수 있는데, 데이터 세트를 한 번 도는 것을 1 에폭(epoch)이라 한다.

또한, 생성자(100)와, 판별자(200)와, 액터(400)와 가중치 함수부(500)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용할 수 있다.

우선, 결측 대체값을 생성하는 S100 단계는 생성자(100)와 판별자(200)를 학습하는데, 각각의 반복에서 생성자(100)에 입력될 데이터 세트로부터 무작위(랜덤)로 n개의 스테이트(State)를 선택하는 단계(S110)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(m)를 선택하는 단계(S120)를 수행한다.

이때, S110 단계와 S120 단계는 외부 단말로부터 제공될 수도 있고, 미리 설정된 데이터 세트로부터 제공될 수도 있다.

또한, S110 단계와 S120 단계에서, 데이터 세트는 레이블링된 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 이루어진 데이터 세트일 수 있다.

n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S130)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(

)과, 스테이트(

)와, 결측 대체값(

)을 계산(S140)한다.

여기서,

는 노이즈 'Z'로 대체된 결측 대체값이고,

는 생성자(100)에 의해 생성된 스테이트를 나타내며,

은 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.

S140 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(

)으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.

또한, 생성자(100)는

= G(

)를 통해

∈ R^d를 계산하여 스테이트(

)를 생성한다.

또한, 생성자(100)는 생성된 스테이트(

)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(

)을 계산하는데, 하기식을 통해 계산될 수 있다.

또한, 생성자(100)가 생성한 결측 대체값(

)은 판별자(200)로 제공되고, 판별자 손실 함수를 이용하여 판별자(200)가 학습(S150)되도록 한다.

또한, 생성자(100)가 생성한 결측 대체값(

)은 생성자 손실 함수를 이용하여 생성자(100)가 학습(S160)되도록 한다.

한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.

학습 정책을 생성하는 단계(S200)는 각각의 반복에서, 레이블이 있는 데이터 세트(S_L)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(m_L)를 선택(S210)한다.

계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S220)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(

_L)과, 스테이트(

_L)와, 결측 대체값(

_L)을 계산(S230)한다.

여기서,

_L은 노이즈 'Z'로 대체된 결측 대체값이고,

_L은 생성자(100)에 의해 생성된 스테이트를 나타내며,

_L은 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.

S230 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(

_L)로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.

또한, 생성자(100)는

_L = G(

_L)를 통해

_L ∈ R^d를 계산하여 스테이트(

_L)를 생성한다.

또한, 생성자(100)는 생성된 스테이트(

_L)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(

_L)을 계산하는데, 하기식을 통해 계산될 수 있다.

계속해서, 액터(400)는 생성된 결측 대체값(

_L)이 정책

을 통해 액션을 수행할 확률값을 예측(S240)한다.

이때, 가중치 함수부(500)는 가중치 함수를 이용하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식을 통해 생성(S250)한다.

또한, S250 단계에서, 가중치 함수부(500)는 스테이트로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트로부터 레이블의 빈도수에 기반하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치로 반영할 수 있다.

이때, 레이블 빈도수는 하기식을 통해 근사할 수 있다.

계속해서, S250 단계에서 생성된 가중치는 하기식을 이용한 지도 정책 손실 함수(41)를 통해 학습(S260)한다.

는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.

(제2 실시 예)

도 7은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도이고, 도 8은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도이며, 도 9는 도 8에 따른 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 분류 학습과정을 나타낸 흐름도이다.

도 7 내지 도 9를 참조하면, 생성적 적대 신경망 기반의 분류 시스템은 생성자(100a, Generator)와, 판별자(200a, Discriminator)와, 액터(400a, Actor)와, 가중치 함수부(500a, Weighted Function)와, 리워드부(600a, Reward)를 포함하여 구성된다.

생성자(100a)와 판별자(200a)는 경쟁 구조에 있는 네트워크인 생성적 적대 신경망(Generative Adversarial Network; GAN)을 사용하여 생성자(100)는 원본 데이터의 분포를 보고 판별자(200a)를 속이는 결측 데이터의 생성을 위한 학습을 수행하며, 판별자(200a)는 어떤 데이터가 생성자(100a)에 의해 생성된 데이터인지 분별하는 학습을 수행한다.

또한, 생성자(100a)는 원본 데이터의 분포를 참조하여 판별자(200a)를 속이는 결측 데이터의 생성을 위한 학습을 수행한다.

또한, 생성자(100a)는 레이블이 있는 레이블 데이터 세트(S_L)를 이용하거나, 또는 레이블이 없는 비레이블 데이터 세트(S_U)를 이용할 수 있다.

여기서, L은 스테이트에 레이블이 있는 데이터 세트이고, U는 스테이트에 레이블이 없는 데이터 세트를 의미하고, 외부 단말로부터 임의의 데이터 세트를 입력받을 수도 있다.

또한, 생성자(100a)는 전처리 과정으로, 레이블이 있는 데이터 세트(S_L) 또는 레이블이 없는 데이터 세트(S_U)로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.

또한, 생성자(100a)는 전처리 과정으로, 레이블이 있는 레이블 데이터 세트가 아닌 레이블이 없는 비레이블 데이터 세트로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.

또한, 생성자(100a)는 결측 대체값의 생성을 위한 입력으로 데이터 세트(10a)로부터 n개의 스테이트(State)와, n개의 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(20a)를 선택한다.

결측 지표(20a)도 레이블이 있는 레이블 데이터 세트(S_L) 및 레이블이 없는 비레이블 데이터 세트(S_U)와 마찬가지로 레이블이 있는 레이블 데이터 세트(S_L)는 M_L로 레이블이 없는 비레이블 데이터 세트(S_U)는 M_U로 분류될 수 있다.

또한, 데이터 세트(10a)는 S₁, S₂, S₃, ‥, S_n ∈ R^d 로 이루어진 n개의 스테이트를 포함하고, 여기서 d는 스테이트 특징(feature)이다.

또한, 스테이트 i가 가지는 j번째 원소는 S_i ^j라고 표현하고, 여기서, j는 d까지의 상수이며, S_i ^j는 스칼라 또는 결측값을 가진다.

또한, 데이터 세트(10a)는 레이블이 있는 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 구성될 수 있다.

또한, 결측 지표(20a)는 스테이트의 원소가 결측 됐는지를 나타내기 위한 지표로서, m₁, m₂, m₃, ‥, m_n ∈ R^d 를 사용하고, 이때, m_i ^j는 S_i ^j가 결측 데이터를 가지면 결측 지표값(22)은 '0', 그렇지 않으면 결측 지표값(21)은 '1'로 표시된다.

또한, 생성자(100a)는 n개의 스테이트 중에서 임의의 원소(11)에 대하여 무작위(랜덤)로 선별된 결측 원소(12)에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'로 대체된 결측 대체값(

)을 입력 받아 계산한다.

이때, 결측 대체값(

)은 하기식을 통해 입력으로 받는다.

또한, 생성자(100a)는 결측 대체값(

)을 이용하여 생성된 원소들의 벡터로 이루어진 스테이트(

)를 출력한다.

또한, 생성자(100a)는 스테이트(

)로 대체된 결측 대체값(

)을 생성하여 출력한다.

이때, 생성자(100a)의 출력을 통해 하기식을 따르는 결측 대체값(

)에 해당하는 데이터가 판별자(200a)의 학습을 위해 사용될 수 있도록 한다.

여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이다.

판별자(200a)는 생성자(100a)가 생성한 결측 대체값(

)과 원본 데이터를 구분하는 구성으로서, 판별자(200a)가 출력한 것의 각 원소들이 결측(fake)인지 아닌지(real)를 구분하고, 결과적으로 m은

을 위한 레이블로 사용될 수 있다.

또한, 판별자(200a)는 함수를 통해 스테이트

의 i번째 원소가 결측 데이터가 아닐 확률에 해당하는 판별자(200a)의 i번째 출력을 S →[0, 1]^d로나타낼 수 있다.

또한, 판별자(200a)는 출력을 판별자 출력 지표(30)를 통해 D₁, D₂, D₃, ‥,D_d로 나타낼 수 있다.

한편, 생성자(100a)와 판별자(200a)는 손실 함수를 통해 학습될 수 있는데, 생성자(100a)의 학습을 위한 생성자 손실 함수는 하기식과 같을 수 있다.

또한, 두 번째 항은 원본 데이터 분포를 이용하여 생성자(100a)에서 생성된 결측 데이터를 원본 데이터에 가깝도록 변환하는 재구성 손실(reconstruction loss, 40a)이고, 여기서, λ는 스케일 팩터(scale factor)이다.

또한, 판별자(200a)의 학습을 위한 판별자 손실 함수는 하기식과 같을 수 있다.

액터(400a)는 생성자(100a)에 의해 생성된 결측 대체값들로 이루어진 벡터를 정책(Policy)을 이용하여 레이블이 있는 데이터 세트로부터 액션(Action)을 수행할 확률을 예측한다.

또한, 액터(400a)는 강화학습에서 잘 알려진 의사결정 프레임워크인 'Actor-critic' 아키텍처의 구성요소일 수 있다.

또한, 액터(400a)는 주어진 스테이트의 레이블을 생성할 수 있다.

또한, 액터(400a)는 스테이트를 입력으로 받아 주어진 액션(Action)을 할 확률을 출력하고, 'Actor-critic'를 이용하여 정책(Policy)π를 학습하기 위해, 정책 손실 함수(Policy loss function)는 하기식과 같이 정의될 수 있다.

여기서,

또한,

상기된 정책 손실 함수는 액션이 결정되지 않은 일반적인 형태로서, 액터(400a)는 정확하고, 부정확한 액션 모두로부터 학습되어야 한다.

그러나,

따라서, 본 발명의 실시 예에 따른 액터(400a)는 정책 손실 함수(41a)를 부정확한 액션으로부터 학습되는 경우를 생략하고, 주어진 정확한 레이블 만을 이용할 수 있도록 하기식으로 정의될 수 있다.

는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.

즉, 예측된 액션을 정확한 레이블로 대체하고, 함수

를 가중치 함수(Weighted Function) W로 대체한다.

따라서, 지도 정책 손실(Supervised policy loss) L_L은 가중치 함수

로부터 얻은 분류 손실 가중치(Classification loss weighted)이다.

또한, 액터(400a)는 지도 분류를 위한 정책 손실 함수(L_L, 41a)가 가중치 함수부(500a)로부터 생성된 가중치를 이용하여 지도 정책을 학습할 수 있다.

또한, 액터(400a)는 세미 지도 분류(Semi-supervised classification)를 위한 세미 정책 손실 함수(L_U, 42a)가 액터(400a)의 정책과 리워드부(600a)의 출력을 반영하여 정책을 학습할 수 있다.

즉, 세미 지도 분류는 레이블이 없는 데이터 세트를 활용하여 액터(400a)의 액션(a)과 리워드부(600a)의 출력 간의 협력을 통해 생성자 역할을 하는 액터(400a)의 정책은 주어진 스테이트의 레이블을 생성하고, 판별자 역할을 하는 리워드부(600a)는 각 스테이트-액션(

, a) 쌍이 레이블 데이터 세트인지 아닌지를 결정하도록 한다.

또한, 세미 정책 손실 함수(L_U, 42a)는 레이블이 없는 데이터 세트(S_U)를 활용하기 위해 리워드부(600a)의 출력과 액터(400a)의 정책이 함께 동작될 수 있다.

세미 정책 손실 함수(L_U)는 하기식으로 정의될 수 있다.

여기서, 세미 정책 손실 함수(L_U)는 정책 손실(policy loss)로부터 얻어질 수 있고,

는 다음과 같이 정의되는 리워드부(600a)의 리워드인

로 대체될 수 있다.

또한,

은 하기식과 같이 정의될 수 있다.

여기서,

는 (

, a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.

가중치 함수부(500a)는 스테이트

으로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트(S_L)로부터 레이블의 빈도수에 기반하여 스테이트, 액션, 레이블에 대한 리워드의 가중치를 생성한다.

여기서, 가중치 함수부(500a)가 K개의 레이블이 있는 (k = 0, 1, …, K-1) 레이블이 있는 데이터 세트 S_L을 가지고 있다고 가정하면, K번째 레이블의 빈도수는 하기식으로 근사될 수 있다.

여기서, n_k는 k번째 레이블의 샘플 수이고,

는 (0, 1)의 범위 안에 있다.

여기서, b는 로그에 기초한다(b = e, 10, …).

따라서, 레이블의 빈도수가 상대적으로 작은 소수의 레이블(minority lable)에 대하여 높은 리워드의 가중치를 주고, 레이블의 빈도수가 상대적으로 큰(높은) 다수의 레이블(majority lable)에는 더 낮은 리워드의 가중치를 줌으로써, 레이블 간의 균형이 맞춰지도록 동작할 수 있다.

또한, 가중치 함수부(500a)는 각 클래스에 대한 가중치 함수, 즉 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식으로 정의할 수 있다.

여기서,

는 스테이트

(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수이다.

리워드부(600a)는 레이블이 있는 데이터 세트(S_L)에 있는 스테이트-액션(

, a) 쌍이 있는지 결정하고, 레이블이 없는 데이터 세트에 대한 액터(400a)의 정책을 학습시키도록 리워드를 제공하는 구성이다.

또한, 리워드부(600a)는 레이블 데이터 세트에 있는 스테이트-액션(

, a) 쌍에 대한 확률값에 대하여 리워드를 제공하는 리워드 모델로 이루어질 수 있다.

또한, 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(

, a) 쌍의 레이블인지에 대한 확률값을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.

각 스테이트-액션(

, a) 쌍에 대한 레이블은 하기식과 같이 정의될 수 있다.

여기서, m은 스테이트의 결측 지표이고, y는 스테이트의 레이블이며, a는 주어진 스테이트에 대해 액터의 정책이 예측한 액션이다.

또한, 리워드부(600a)는 스테이트-액션(

, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 하여 리워드부(600)의 리워드(

)로 제공하고, 스테이트-액션(

, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 하여 리워드부(600a)의 리워드(

)로 제공하며, 상기 리워드부(600a)는 리워드 모델 손실 함수(L_rew, 61a)를 이용하여 학습될 수 있다.

또한, 리워드 모델 손실 함수(L_rew, 61a)는 두가지 부분을 구성할 수 있는데, 스테이트-액션(

_L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습하고, 스테이트-액션(

_L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 학습한다.

이때, 하기식과 같이 정의될 수 있다.

다음은 본 발명의 제2 실시 예에 따른 생성적 적대 신경망 기반의 지도 분류 및 학습 방법을 설명한다.

학습 절차는 결측 대체값을 생성하는 단계(S100')와, 레이블이 있는 데이터 세트를 이용한 학습 과정(S200')과, 레이블이 없는 데이터 세트를 이용한 학습 과정(S300) 단계를 포함한 학습 정책을 생성하는 단계로 구성될 수 있다.

그리고, 각 단계 S100', S200' 및 S300은 데이터 세트를 다양한 에폭(epoch)을 통해 반복하면서 업데이트 할 수 있는데, 데이터 세트를 한 번 도는 것을 1 에폭(epoch)이라 한다.

또한, 생성자(100a)와, 판별자(200a)와, 액터(400a)와, 가중치 함수부(500a)와, 리워드부(600a)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용할 수 있다.

우선, 결측 대체값을 생성하는 S100' 단계 및 S200' 단계는 레이블이 있는 레이블 데이터 세트를 이용하여 학습 정책을 수행하는 단계로서, 생성자(100a)와 판별자(200a)는 제1 실시 예에 따른 S100 단계 및 S200 단계와 동일하게 동작하여 동일한 구성요소에 대한 반복적인 설명은 생략한다.

레이블이 없는 비레이블 데이터 세트(S_U)로부터 학습 정책을 생성하는 단계(S300)는, 레이블이 없는 데이터 세트(S_U)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(m_U)를 선택(S310)한다.

계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S320)하여 생성자(100a)로 입력되면, 생성자(100a)는 결측 대체값(

)과, 스테이트(

)와, 결측 데이터 즉, 결측 대체값(

)를 계산(S330)한다.

여기서,

는 노이즈 'Z'로 대체된 결측 대체값이고,

는 생성자(100a)에 의해 생성된 스테이트를 나타내며,

는 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.

S330 단계에서, 생성자(100a)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(

또한, 생성자(100a)는

= G(

)를 통해

∈ R^d를 계산하여 스테이트(

)를 생성한다.

또한, 생성자(100a)는 생성된 스테이트(

)로 대체된 결측 대체값(

)을 계산하는데, 결측 대체값(

)은 하기식을 통해 계산될 수 있다.

계속해서, 리워드부(600a)는 레이블이 있는 데이터 세트에 대한 스테이트-액션(

, a) 쌍에 대한 확률값으로 리워드부(600a)의 리워드를 제공하고, 상기 리워드부(600a)는 리워드 모델 손실 함수(L_rew)를 이용하여 학습하는 단계를 수행(S340)한다.

또한, 상기 리워드부(600a)는 리워드 모델로 이루어질 수 있고, 상기 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(

, a) 쌍에 대한 확률을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.

또한, 각 스테이트-액션(

, a) 쌍에 대한 레이블은 하기식으로 정의될 수 있다.

리워드 모델 손실 함수(L_rew)는 스테이트-액션(

_L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습한다.

또한, 리워드 모델 손실 함수(L_rew)는 스테이트-액션(

_L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면, 확률값이 최소화 되도록 학습한다.

이때, 리워드 모델 손실 함수(L_rew)는 하기식을 이용하여 학습한다.

이후, 액터(400a)에서 생성된 결측 대체값(

_L)과 정책(Policy)을 이용하여 액션을 수행할 확률

을 예측하는 과정을 수행(S350)한다.

S340단계에서 제공되는 리워드 모델의 리워드와 S350 단계에서 예측한 액션의 예측 결과는 액터(400a)가 하기식을 이용한 세미 정책 손실 함수(L_U)를 이용하여 세미 정책 손실 함수(42a)에서 최적화 되도록 정책을 학습(S360)할 수 있다.

여기서,

는 리워드부(600a)에서 리워드 모델 함수에 대한 리워드이다.

또한,

은 하기식과 같이 정의될 수 있다.

여기서,

는 리워드부가 출력하는 레이블 데이터 세트(

, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.

도 10은 UCI(University of California)에서 공개한 22% 사기 거래를 포함하는 실제 신용카드 거래 데이터를 이용한 실험의 데이터로서, 데이터를 0.7 테스트 세트와 0.3 테스트 세트 비율로 진행한 결과이다.

여기서 전체 데이터 세트는 10%, 20%, 30%, 40%, 50%의 결측률로 결측 정도를 나타내게 가정되었고, 데이터는 제로-평균 정규화를 적용하여 전처리되었다.

도 10에서 확인할 수 있듯이, 다수의 결측률을 이용한 생성자와 판별자의 성능은 평균 제곱근 오차 지표에 의해 10회 이상 평균화되어 단순하게 결측 대체값을 평균으로 채우는 것 보다 생성자를 학습하여 결측 대체값을 생성하는 것이 원래의 값과 더 비슷하게 나타나는 것을 알 수 있다.

또한, 결측률이 증가함에 따라 GAN의 효과도 함께 증가되는 것을 알 수 있다.

또한, 도 11은 학습 과정 동안 생성된 값의 분포를 나타낸 그래프이다.

도 11에서 확인할 수 있듯이, 학습 과정동안 생성된 값의 분포가 도 11(a)의 0 에폭(epoch)과, 도 11(b)의 1 에폭 후의 분포와 대비하여, 도 11(c)의 10 에폭 후에 생성된 값의 분포를 원래 값의 분포와 비교하면 더욱 비슷하게 나타나는 것을 알 수 있다.

또한, 도 12는 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도로서, F1-score를 이용하여 다른 state-of-art 모형과 본 발명에 따른 프레임워크를 비교한 것이다.

여기서, GAN, 가중치 함수, 리워드 모델을 순차적으로 구현함으로써, 각각 2.2%, 4.4%와 1.04%의 성능이 향상된 것을 알 수 있다.

이 가중치 함수는 성능에 가장 큰 영향을 주고, 이는 가중치 함수를 이용하여 학습할 때 정책(Policy)이 소수 클래스에 더 많은 가중치를 주어 학습하기 때문이다.

결과적으로 더 좋은 리콜 점수를 가지며, 이는 더 좋은 F1 점수를 얻을 수 있도록 한다.

또한, 리워드 모델은 ε을 조절하면, 프레임워크의 성능을 향상시키는데 도움을 줄 수 있다.

또한, ε은 레이블이 없는 데이터로부터 어느 정도의 정보를 정책 업데이트에 이용할 것인지를 제한하며, 높은 값을 가질수록 레이블이 없는 데이터 사용을 더욱 엄격하게 관리한다.

도 12는 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프이다.

도 13은 ULB에서 가져온 0.172%의 사기 비율을 가진 매우 불균형한 신용카드 데이터 세트를 이용한 평가 결과이고, 평가 결과는 F1-score 지표에 의해 측청되었다.

도 13(a)에서 알 수 있듯이, 같은 수의 레이블 데이터를 이용하면, 본 발명에 따른 프레임워크가 기존의 mlp 기반의 분류기보다 더 좋은 성능을 내는 것을 알 수 있다.

또한, mlp 기반의 분류기는 결측률이 증가했을때, F1-score가 보다 빠르게 감소하는 것을 볼 수 있는데, 이는 본 발명의 프레임워크가 결측값을 다루기에 더 좋은 프레임워크라는 것으로 볼 수 있다.

또한, 두 프레임워크가 레이블 데이터를 충분히 포함하고 있을 때, 둘의 성능 차이는 좁혀질 수 있다.

예를 들어, 50%의 레이블 데이터만 포함한 경우, 본 발명에 따른 프레임 워크의 성능은 완전한 레이블 데이터 세트를 이용할 때와 비슷한 성능을 보여주는 것을 알 수 있다.

또한, 도 13(b)의 플롯은 레이블 데이터의 양에 따른 리워드 모델의 출력을 나타낸 것으로서, 레이블 데이터가 많을수록 더 빨리 하나의 값으로 수렴하는 것을 알 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있으며, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

[부호의 설명]

10, 10a : 데이터 세트

11 : 원소

12 : 결측 원소

20, 20a : 결측 지표

21, 22 : 결측 지표값

30 : 판별자 출력 지표

40, 40a : 손실 함수

41, 41a : 정책 손실 함수

42, 42a : 세미 정책 손실 함수

61a : 리워드 모델 손실 함수

100, 100a : 생성자

200, 200a : 판별자

400, 400a : 액터

500, 500a : 가중치 함수부

600a : 리워드부

Claims

레이블이 있는 데이터 세트로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자(100);

상기 생성자(100)가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자(200);

상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터(400); 및

상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부(500);를 포함하고,

상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,

상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
제 1 항에 있어서,

상기 리워드의 가중치는 하기식

- 여기서,
는 스테이트
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ω_y와 ω_a는
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
제 1 항에 있어서,

상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하되,

상기 레이블 빈도수는 하기식

- 여기서, n_k는 k번째 레이블의 샘플 수이고,
는 (0, 1)의 범위 안에 있음 - 으로 근사되며,

상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 것을 특징으로 생성적 적대 신경망 기반의 분류 시스템.
제 1 항에 있어서,

상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하며,

상기 액터(400)는 상기 예측된 액션과 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하되,

상기 정책의 학습은 하기식

- 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하는 것을 특징으로 생성적 적대 신경망 기반의 분류 시스템.
생성자(100)와, 판별자(200)와, 액터(400)와 가중치 함수부(500)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용한 생성적 적대 신경망 기반의 분류 방법으로서,

a) 생성자(100)가 레이블이 있는 데이터 세트(10)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계;

b) 액터(400)가 상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계;

c) 가중치 함수부(500)가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치 값을 생성하는 단계; 및

d) 상기 액터(400)가 상기 예측된 액션과, 가중치 함수부(500)에서 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 단계를 포함하고,

상기 c) 단계에서, 상기 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
제 5 항에 있어서,

상기 a) 단계는 i) 상기 생성자(100)가 레이블이 있는 데이터 세트(10)로부터 결측값이 있는 스테이트(State)와, 상기 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 결측 지표(m)를 선택하는 단계; 및

ii) 상기 생성자(100)가 상기 스테이트에 '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈로 대체된 결측 대체값(
)을 이용하여 결측 대체값(
)을 생성하고, 상기 생성된 결측 대체값(
)을 이용하여 생성자(100)와 판별자(200)를 학습하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
제 5 항에 있어서,

상기 c) 단계의 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하되,

상기 레이블 빈도수는 하기식

- 여기서, n_k는 k번째 레이블의 샘플 수이고,
는 (0, 1)의 범위 안에 있음 - 으로 근사되며,

상기 리워드의 가중치는 하기식

- 여기서,
는 스테이트
으로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ω_y와 ω_a는
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
제 5 항에 있어서,

상기 c) 단계의 가중치 함수부(500)는 빈도수가 상대적으로 작은 레이블에는 리워드의 가중치가 증가되도록 하고, 빈도수가 상대적으로 큰 레이블에는 리워드의 가중치가 낮아지도록 하여 레이블 간의 균형이 맞춰지도록 동작하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
제 5 항에 있어서,

상기 d) 단계는 정책의 학습을 하기식

- 여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 임 - 을 이용하여 학습하는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.
레이블이 있는 데이터 세트(S_L) 또는 레이블이 없는 데이터 세트(S_U)로부터 결측값을 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자(100a);

상기 생성자(100a)가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자(200a);

상기 생성자(100a)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터(400a);

상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부(500a); 및

상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400a)의 정책이 학습되도록 리워드를 제공하는 리워드부(600a);를 포함하고,

상기 액터(400a)는 상기 예측된 액션과, 가중치 함수부(500a)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41a)가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부(600a)의 리워드에 기반하여 세미 지도 정책 손실 함수(42a)가 최적화 되도록 상기 정책을 학습하되,

상기 리워드부(600a)의 리워드는 하기식

- 여기서,
는 리워드부가 출력하는 레이블 데이터 세트(
, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 시스템.
생성자(100a)와, 판별자(200a)와, 액터(400a)와 가중치 함수부(500a)와, 리워드부(600a)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용한 생성적 적대 신경망 기반의 분류 방법으로서,

a) 생성자(100a)가 레이블이 있는 데이터 세트(S_L)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계;

b) 액터(400a)가 상기 생성자(100a)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계;

c) 가중치 함수부(500a)가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및

d) 상기 액터(400a)가 상기 예측된 액션과, 가중치 함수부(500a)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41a)가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,

상기 a) 단계에서 레이블이 없는 데이터 세트(S_U)가 있으면,

a-1) 상기 생성자가(100a)가 레이블이 없는 데이터 세트(S_U)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(
_U)을 생성하는 단계;

b-1) 상기 액터(400a)가 생성된 결측 대체값(
_U)을 가지고 정책을 통해 액션(Action)을 예측하는 단계;

c-1) 리워드부(600a)가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400a)의 정책이 학습되도록 리워드를 제공하는 단계; 및

d-1) 상기 액터(400a)가 상기 예측된 액션과, 상기 리워드부(600a)의 리워드에 기반하여 세미 지도 정책 손실 함수(42a)가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함하고,

상기 리워드부(600a)의 리워드는 하기식

- 여기서,
는 리워드부가 출력하는 레이블 데이터 세트(
, a)쌍이 레이블이 있는 레이블 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 생성적 적대 신경망 기반의 분류 방법.