KR102093080B1 - 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법 - Google Patents

레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법 Download PDF

Info

Publication number
KR102093080B1
KR102093080B1 KR1020190162111A KR20190162111A KR102093080B1 KR 102093080 B1 KR102093080 B1 KR 102093080B1 KR 1020190162111 A KR1020190162111 A KR 1020190162111A KR 20190162111 A KR20190162111 A KR 20190162111A KR 102093080 B1 KR102093080 B1 KR 102093080B1
Authority
KR
South Korea
Prior art keywords
label
missing
reward
data set
policy
Prior art date
Application number
KR1020190162111A
Other languages
English (en)
Inventor
투옌
노철균
민예린
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020190162111A priority Critical patent/KR102093080B1/ko
Priority to JP2020560365A priority patent/JP7059458B2/ja
Priority to PCT/KR2020/003622 priority patent/WO2021112335A1/ko
Priority to US17/606,517 priority patent/US20220207300A1/en
Application granted granted Critical
Publication of KR102093080B1 publication Critical patent/KR102093080B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법을 개시한다. 본 발명은 생성적 적대 신경망(GAN)으로 생성한 결측 데이터를 이용하여 레이블이 있는 데이터 세트, 레이블이 없는 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있다.

Description

레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFYING BASE ON GENERATIVE ADVERSARIAL NETWORK USING LABELED DATA AND UNLABLED DATA}
본 발명은 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 발명으로서, 더욱 상세하게는 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 데이터 세트와 레이블이 없는 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법에 관한 것이다.
머신 러닝은 복잡한 시스템이 명시적으로 프로그래밍되지 않고서 경험으로부터 자동으로 학습하고 개선할 수 있게 하는 인공 지능의 응용이다.
머신 러닝 모델들의 정확도 및 유효성은 그들 모델들을 훈련시키는 데 사용되는 데이터에 부분적으로 의존할 수 있다.
예를 들어, 머신 러닝 분류자(Classifier)들은 레이블이 있는(또는 레이블링된 데이터(Labeled data) 세트를 사용하여 훈련될 수 있는데, 여기서 분류자가 인식하도록 학습할 데이터의 샘플들이 샘플에 대한 분류(Classification)를 식별하는 하나 이상의 레이블들과 함께 분류자에 제공된다.
여기서, 레이블링된 데이터는 데이터에 대한 답이 주어져 있는 것(또는 평가가 되어 있는 것)을 말한다.
그러나, 의사 결정 시스템에서는 종종 다음과 같은 문제들로 어려움을 겪을 때가 발생한다.
하나는 결측 데이터와 같은 정보를 포함하는 불량 데이터 처리로서, 결측 데이터는 데이터 세트의 전체적인 질을 낮추며, 의사 결정 시스템으로부터 예측된 결과를 왜곡시키는 문제점이 있다.
또 다른 하나는 데이터 세트(set)의 불균형으로서, 이러한 불균형의 차이는 매우 심하고, 소수의 클래스는 데이터에서 매우 작은 부분만을 차지하지만, 결과적으로 그러한 클래스의 샘플은 의사 결정 시스템을 업데이트 하는 과정에서 거의 쿼리(Quarry)되지 않는 문제점이 있다.
또한, 딥 러닝에서는 레이블이 있는 데이터의 양이 성능에 있어 상당한 영향력을 가지고 있지만, 대부분의 실제 데이터 세트는 일반적으로 레이블이 없는 비레이블 데이터를 포함하고 있어 데이터를 레이블링하는 비용이 매우 고가인 문제점이 있다.
한국 공개특허공보 공개번호 제10-2019-0117969호(발명의 명칭: 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치)
이러한 문제점을 해결하기 위하여, 본 발명은 생성적 적대 신경망(Generative Adversarial Network; GAN)으로 생성한 결측 대체값을 이용하여 레이블이 있는 데이터 세트와 레이블이 없는 데이터 세트의 불균형한 데이터 세트에서도 학습할 수 있는 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템으로서, 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 결측값을 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 생성자; 상기 생성자가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자; 상기 생성자에 의해 생성된 결측 대체값값을 가지고 정책을 통해 액션(Action)을 예측하는 액터; 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부; 및 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터의 정책이 학습되도록 리워드를 제공하는 리워드부;를 포함하고, 상기 액터는 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부의 리워드에 기반하여 세미 지도 정책 손실 함수가 최적화 되도록 상기 정책을 학습하되,
상기 리워드부의 리워드는 하기식
Figure 112020020600396-pat00159

- 여기서,
Figure 112020020600396-pat00190
는 (
Figure 112020020600396-pat00191
, a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예에 따른 레이블 데이터 세트 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법은 a) 생성자가 레이블이 있는 데이터 세트(SL)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계; b) 액터가 상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c) 가중치 함수부가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및 d) 상기 액터가 상기 예측된 액션과, 가중치 함수부로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,
상기 a) 단계에서 레이블이 없는 데이터 세트(SU)가 있으면, a-1) 상기 생성자가가 레이블이 없는 데이터 세트(SU)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(
Figure 112020020600396-pat00162
)을 생성하는 단계; b-1) 상기 액터가 생성된 결측 대체값(
Figure 112020020600396-pat00163
)을 가지고 정책을 통해 액션(Action)을 예측하는 단계; c-1) 리워드부가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400)의 정책이 학습되도록 리워드를 제공하는 단계; 및 d-1) 상기 액터가 상기 예측된 액션과, 상기 리워드부의 리워드에 기반하여 세미 지도 정책 손실 함수가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함하고,
상기 리워드부의 리워드는 하기식
Figure 112020020600396-pat00164
삭제
삭제
삭제
삭제
- 여기서,
Figure 112020020600396-pat00192
는 (
Figure 112020020600396-pat00193
, a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 한다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
본 발명은 생성적 적대 신경망(GAN)으로 생성한 결측 데이터를 이용하여 레이블이 있는 데이터 세트, 레이블이 없는 데이터 세트와 같이 불균형한 데이터 세트에서도 학습할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도.
도 3은 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도.
도 4는 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도.
도 5는 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도.
도 6은 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 지도 분류 학습과정을 나타낸 흐름도.
도 7은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 여러 결측률에 따른 평가 결과를 나타낸 그래프.
도 8은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 학습 과정동안 생성된 값의 분포를 나타낸 그래프.
도 9는 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도.
도 10은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템을 활용하여 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 컴퓨터 시스템에서 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.
또한, 컴퓨팅 장치는, 통신장치 및 프로세서를 포함하며, 통신장치를 통하여 외부 컴퓨팅 장치와 직/간접적으로 통신할 수 있다.
구체적으로, 컴퓨팅 장치는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
이와 같은 컴퓨팅 장치의 통신장치는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신 될 수도 있을 것이다.
또한, 넓은 의미에서 통신장치는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.
또한, 컴퓨팅 장치의 프로세서는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다.
삭제
도 1은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템의 구성을 나타낸 블록도이고, 도 2는 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법을 나타낸 흐름도이며, 도 3은 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 결측 데이터 학습과정을 나타낸 흐름도이고, 도 4는 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 가중치를 이용한 지도 분류 학습과정을 나타낸 흐름도이며, 도 5는 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 가중치 추정과정을 나타낸 흐름도이고, 도 6은 도 2에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법의 비레이블 데이터의 지도 분류 학습과정을 나타낸 흐름도이다.
도 1 내지 도 6을 참조하면, 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템은 생성자(100)와, 판별자(200)와, 액터(400)와, 가중치 함수부(500)와, 리워드부(600)를 포함하여 구성된다.
생성자(100)와 판별자(200)는 경쟁 구조에 있는 네트워크인 생성적 적대 신경망(Generative Adversarial Network; GAN)을 사용하여 생성자(100)는 원본 데이터의 분포를 보고 판별자(200)를 속이는 결측 데이터의 생성을 위한 학습을 수행하며, 판별자(200)는 어떤 데이터가 생성자(100)에 의해 생성된 데이터인지 분별하는 학습을 수행한다.
또한, 생성자(100)는 원본 데이터의 분포를 참조하여 판별자(200)를 속이는 결측 데이터의 생성을 위한 학습을 수행한다.
또한, 생성자(100)는 레이블이 있는 데이터 세트(SL)를 이용하거나, 또는 레이블이 없는 데이터 세트(SU)를 이용할 수 있다.
여기서, L은 스테이트에 레이블이 있는 데이터 세트이고, U는 스테이트에 레이블이 없는 데이터 세트를 의미하고, 외부 단말로부터 임의의 데이터 세트를 입력받을 수도 있다.
또한, 생성자(100)는 전처리 과정으로, 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.
또한, 생성자(100)는 전처리 과정으로, 레이블이 있는 데이터 세트가 아닌 레이블이 없는 데이터 세트로부터 결측 대체값을 생성하기 위한 학습과정을 수행할 수도 있다.
또한, 생성자(100)는 결측 대체값의 생성을 위한 입력으로 데이터 세트(10)로부터 n개의 스테이트(State)와, n개의 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(20)를 선택한다.
결측 지표(20)도 레이블이 있는 데이터 세트(SL) 및 레이블이 없는 데이터 세트(SU)와 마찬가지로 레이블이 있는 데이터 세트(SL)는 ML로 레이블이 없는 데이터 세트(SU)는 MU로 분류될 수 있다.
또한, 데이터 세트(10)는 S1, S2, S3, ‥, Sn ∈ Rd 로 이루어진 n개의 스테이트를 포함하고, 여기서 d는 스테이트 특징(feature)이다.
또한, 스테이트 i가 가지는 j번째 원소는 Si j라고 표현하고, 여기서, j는 d까지의 상수이며, Si j는 스칼라 또는 결측값을 가진다.
또한, 데이터 세트(10)는 레이블이 있는 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 구성될 수 있다.
또한, 결측 지표(20)는 스테이트의 원소가 결측 됐는지를 나타내기 위한 지표로서, m1, m2, m3, ‥, mn ∈ Rd 를 사용하고, 이때, mi j는 Si j가 결측 데이터를 가지면 결측 지표값(22)은 '0', 그렇지 않으면 결측 지표값(21)은 '1'로 표시된다.
또한, 생성자(100)는 n개의 스테이트 중에서 임의의 원소(11)에 대하여 무작위(랜덤)로 선별된 결측 원소(12)에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure 112020020600396-pat00019
)을 입력 받아 계산한다.
이때, 결측 대체값(
Figure 112020020600396-pat00020
)은 하기식을 통해 입력으로 받는다.
Figure 112019126604261-pat00021
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이고, z는 '0'과 '1' 사이의 균등 분포로부터 랜덤하게 선별된 노이즈의 벡터이며, 요소별 곱으로 나타낼 수 있다.
또한, 생성자(100)는 결측 대체값(
Figure 112020020600396-pat00022
)을 이용하여 생성된 원소들의 벡터로 이루어진 스테이트(
Figure 112020020600396-pat00023
)를 출력한다.
또한, 생성자(100)는 스테이트(
Figure 112020020600396-pat00024
)로 대체된 결측 대체값(
Figure 112020020600396-pat00025
)을 생성하여 출력한다.
이때, 생성자(100)의 출력을 통해 하기식을 따르는 결측 대체값(
Figure 112020020600396-pat00026
)에 해당하는 데이터가 판별자(200)의 학습을 위해 사용될 수 있도록 한다.
Figure 112019126604261-pat00027
여기서, m은 스테이트 s에 해당하는 결측 지표의 벡터이다.
판별자(200)는 생성자(100)가 생성한 결측 대체값(
Figure 112020020600396-pat00028
)과 원본 데이터를 구분하는 구성으로서, 판별자(200)가 출력한 것의 각 원소들이 결측(fake)인지 아닌지(real)를 구분하고, 결과적으로 m은
Figure 112020020600396-pat00029
을 위한 레이블로 사용될 수 있다.
또한, 판별자(200)는 함수를 통해 스테이트
Figure 112019126604261-pat00030
의 i번째 원소가 결측 데이터가 아닐 확률에 해당하는 판별자(200)의 i번째 출력을 S →[0, 1]d로나타낼 수 있다.
또한, 판별자(200)는 출력을 판별자 출력 지표(30)를 통해 D1, D2, D3, ‥,Dd로 나타낼 수 있다.
한편, 생성자(100)와 판별자(200)는 손실 함수를 통해 학습될 수 있는데, 생성자(100)의 학습을 위한 생성자 손실 함수는 하기식과 같을 수 있다.
Figure 112019126604261-pat00031
여기서, 생성자 손실 함수는 두 개의 항(term)으로 구성될 수 있는데, 첫 번째 항은 결측 데이터에 대한 확률 Di를 최대화 하는 것이다.
또한, 두 번째 항은 원본 데이터 분포를 이용하여 생성자(100)에서 생성된 결측 데이터를 원본 데이터에 가깝도록 변환하는 재구성 손실(reconstruction loss, 41)이고, 여기서, λ는 스케일 팩터(scale factor)이다.
또한, 판별자(200)의 학습을 위한 판별자 손실 함수는 하기식과 같을 수 있다.
Figure 112019126604261-pat00032
판별자 손실 함수는 i번째 원소가 결측 데이터이면, 확률 Di를 최대화하는 방향으로 학습하고, 아니면 반대로 확률 Di를 최소화하는 방향으로 학습되도록 구성할 수 있다.
액터(400)는 생성자(100)에 의해 생성된 결측 대체값들로 이루어진 벡터를 정책(Policy)을 이용하여 레이블이 있는 데이터 세트로부터 액션(Action)을 수행할 확률을 예측한다.
또한, 액터(400)는 강화학습에서 잘 알려진 의사결정 프레임워크인 'Actor-critic' 아키텍처의 구성요소일 수 있다.
또한, 액터(400)는 주어진 스테이트의 레이블을 생성할 수 있다.
또한, 액터(400)는 스테이트를 입력으로 받아 주어진 액션(Action)을 할 확률을 출력하고, 'Actor-critic'를 이용하여 정책(Policy)π를 학습하기 위해, 정책 손실 함수(Policy loss function)는 하기식과 같이 정의될 수 있다.
Figure 112019126604261-pat00033
여기서,
Figure 112019126604261-pat00034
는 주어진 스테이트에서 예측된 액션이 좋은지 또는 나쁜지를 결정하는 크리틱(Critic)으로부터 평가되는 함수이다.
또한,
Figure 112019126604261-pat00035
는 'total discounted reward', 'action-value function' 또는 'TD-error'와 같은 형태를 가질 수도 있다.
상기된 정책 손실 함수는 액션이 결정되지 않은 일반적인 형태로서, 액터(400)는 정확하고, 부정확한 액션 모두로부터 학습되어야 한다.
그러나,
Figure 112019126604261-pat00036
의 추정치가 나쁜 경우, 그 정책 손실 함수는 잘못된 방향으로 최적화를 하게 되고, 그 결과, 천천히 수렴하거나 또는 발산하게 될 수 있다.
따라서, 본 발명의 실시 예에 따른 액터(400)는 정책 손실 함수를 부정확한 액션으로부터 학습되는 경우를 생략하고, 주어진 정확한 레이블 만을 이용할 수 있도록 하기식으로 정의될 수 있다.
Figure 112019126604261-pat00037
여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure 112020020600396-pat00038
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치 값이다.
즉, 예측된 액션을 정확한 레이블로 대체하고, 함수
Figure 112019126604261-pat00039
를 가중치 함수(Weighted Function) W로 대체한다.
따라서, 지도 정책 손실 함수(Supervised policy loss LL, 41)은 가중치 함수
Figure 112019126604261-pat00040
로부터 얻은 분류 손실 가중치(Classification loss weighted)이다.
또한, 모든 스테이트, 액션, 레이블에 대해 가중치 함수가 '1'인 경우, LL은 분류 손실 가중치와 완전하게 같아지게 된다.
또한, 액터(400)는 지도 분류를 위한 정책 손실 함수(LL, 41)가 가중치 함수부(500)로부터 생성된 가중치를 이용하여 지도 정책을 학습할 수 있다.
또한, 액터(400)는 세미 지도 분류(Semi-supervised classification)를 위한 정책 손실 함수(LU, 42)가 액터(400)의 정책과 리워드부(600)의 출력을 반영하여 정책을 학습할 수 있다.
즉, 세미 지도 분류는 레이블이 없는 데이터 세트를 활용하여 액터(400)의 액션(a)과 리워드부(600)의 출력 간의 협력을 통해 생성자 역할을 하는 액터(400)의 정책은 주어진 스테이트의 레이블을 생성하고, 판별자 역할을 하는 리워드부(600)는 각 스테이트-액션(
Figure 112019126604261-pat00041
, a) 쌍이 레이블 데이터 세트인지 아닌지를 결정하도록 한다.
또한, 세미 지도 정책 손실 함수(LU, 42)는 레이블이 없는 데이터 세트(SU)를 활용하기 위해 리워드부(600)의 출력과 액터(400)의 정책이 함께 동작될 수 있다.
세미 지도 정책 손실 함수(LU)는 하기식으로 정의될 수 있다.
Figure 112019126604261-pat00042
여기서, 세미 지도 정책 손실 함수(LU)는 정책 손실(policy loss)로부터 얻어질 수 있고,
Figure 112020020600396-pat00043
는 다음과 같이 정의되는 리워드부(600)의 리워드인
Figure 112020020600396-pat00044
로 대체될 수 있다.
또한,
Figure 112019126604261-pat00045
은 하기식과 같이 정의될 수 있다.
Figure 112019126604261-pat00046
여기서,
Figure 112020020600396-pat00167
는 (
Figure 112020020600396-pat00183
, a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.
가중치 함수부(500)는 스테이트
Figure 112020020600396-pat00194
로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트(SL)로부터 레이블의 빈도수에 기반하여 스테이트, 액션, 레이블에 대한 리워드의 가중치를 생성한다.
여기서, 가중치 함수부(500)가 K개의 레이블이 있는 (k = 0, 1, …, K-1) 레이블이 있는 데이터 세트 SL을 가지고 있다고 가정하면, k번째 레이블의 빈도수는 하기식으로 근사될 수 있다.
Figure 112019126604261-pat00047
여기서, nk는 k번째 레이블의 샘플 수이고,
Figure 112020020600396-pat00048
는 (0, 1)의 범위 안에 있다.
또한, 가중 계수 ωk는 각 레이블에 대하여 하기식으로 생성될 수 있다.
Figure 112019126604261-pat00049
여기서, b는 로그에 기초한다(b = e, 10, …).
따라서, 레이블의 빈도수가 상대적으로 작은 소수의 레이블(minority lable)에 대하여 높은 리워드의 가중치를 주고, 레이블의 빈도수가 상대적으로 큰(높은) 다수의 레이블(majority lable)에는 더 낮은 리워드의 가중치를 줌으로써, 레이블 간의 균형이 맞춰지도록 동작할 수 있다.
또한, 가중치 함수부(500)는 각 클래스에 대한 가중치 함수, 즉 스테이트, 액션 및 레이블에 대한 리워드의 가중치를 하기식으로 정의할 수 있다.
Figure 112019126604261-pat00050
여기서,
Figure 112020020600396-pat00169
는 스테이트
Figure 112020020600396-pat00170
로부터 가져올 수 있는 리워드이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며, y는 스테이트의 레이블이고, ωy와 ωa
Figure 112020020600396-pat00171
(b 는 로그에 기초한 e, 10 …)에 기반한 가중 계수이다.
리워드부(600)는 레이블이 있는 데이터 세트(SL)에 있는 스테이트-액션(
Figure 112020020600396-pat00053
, a) 쌍이 있는지 결정하고, 레이블이 없는 데이터 세트에 대한 액터(400)의 정책을 학습시키도록 리워드를 제공하는 구성이다.
또한, 리워드부(600)는 레이블 데이터 세트에 있는 스테이트-액션(
Figure 112020020600396-pat00055
, a) 쌍에 대한 확률값에 대하여 리워드를 제공하는 리워드 모델로 이루어질 수 있다.
또한, 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(
Figure 112020020600396-pat00056
, a) 쌍의 레이블인지에 대한 확률값을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.
각 스테이트-액션(
Figure 112019126604261-pat00057
, a) 쌍에 대한 레이블은 하기식과 같이 정의될 수 있다.
Figure 112019126604261-pat00058
여기서, m은 스테이트의 결측 지표이고, y는 스테이트의 레이블이며, a는 주어진 스테이트에 대해 액터의 정책이 예측한 액션이다.
또한, 리워드부(600)는 스테이트-액션(
Figure 112020020600396-pat00059
, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 하여 리워드부(600)의 리워드(
Figure 112020020600396-pat00184
)로 제공하고, 스테이트-액션(
Figure 112020020600396-pat00060
, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 하여 리워드부(600)의 리워드(
Figure 112020020600396-pat00185
)로 제공하며, 상기 리워드부(600)는 리워드 모델 손실 함수(Lrew, 61)를 이용하여 학습될 수 있다.
또한, 리워드 모델 손실 함수(Lrew, 61)는 두가지 부분을 구성할 수 있는데, 스테이트-액션(
Figure 112020020600396-pat00061
L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습하고, 스테이트-액션(
Figure 112020020600396-pat00062
L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면 확률값이 최소화 되도록 학습한다.
이때, 하기식과 같이 정의될 수 있다.
Figure 112019126604261-pat00063
다음은 본 발명의 일 실시 예에 따른 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 지도 분류 및 학습 방법을 설명한다.
학습 절차는 결측 대체값을 생성하는 단계(S100)와, 레이블이 있는 데이터 세트를 이용한 학습 과정(S200)과, 레이블이 없는 데이터 세트를 이용한 학습 과정(S300) 단계를 포함한 학습 정책을 생성하는 단계로 구성될 수 있다.
그리고, 각 단계 S100, S200 및 S300은 데이터 세트를 다양한 에폭(epoch)을 통해 반복하면서 업데이트 할 수 있는데, 데이터 세트를 한 번 도는 것을 1 에폭(epoch)이라 한다.
또한, 생성자(100)와, 판별자(200)와, 액터(400)와 가중치 함수부(500)로 구성된 생성적 적대 신경망(Generative Adversarial Network; GAN)을 이용할 수 있다.
우선, 결측 대체값을 생성하는 S100 단계는 생성자(100)와 판별자(200)를 학습하는데, 각각의 반복에서 생성자(100)에 입력될 데이터 세트로부터 무작위(랜덤)로 n개의 스테이트(State)를 선택하는 단계(S110)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(m)를 선택하는 단계(S120)를 수행한다.
이때, S110 단계와 S120 단계는 외부 단말로부터 제공될 수도 있고, 미리 설정된 데이터 세트로부터 제공될 수도 있다.
또한, S110 단계와 S120 단계에서, 데이터 세트는 레이블링된 데이터 및 레이블링되지 않은 데이터 중 적어도 하나의 데이터로 이루어진 데이터 세트일 수 있다.
n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S130)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(
Figure 112020020600396-pat00064
)과, 스테이트(
Figure 112020020600396-pat00065
)와, 결측 대체값(
Figure 112020020600396-pat00066
)을 계산(S140)한다.
여기서,
Figure 112020020600396-pat00067
는 노이즈 'Z'로 대체된 결측 대체값이고,
Figure 112020020600396-pat00068
는 생성자(100)에 의해 생성된 스테이트를 나타내며,
Figure 112020020600396-pat00069
는 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S140 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure 112020020600396-pat00070
)으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure 112019126604261-pat00071
또한, 생성자(100)는
Figure 112019126604261-pat00072
= G(
Figure 112019126604261-pat00073
)를 통해
Figure 112019126604261-pat00074
∈ Rd를 계산하여 스테이트(
Figure 112019126604261-pat00075
)를 생성한다.
또한, 생성자(100)는 생성된 스테이트(
Figure 112020020600396-pat00076
)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(
Figure 112020020600396-pat00077
)을 계산하는데, 하기식을 통해 계산될 수 있다.
Figure 112019126604261-pat00078
또한, 생성자(100)가 생성한 결측 대체값(
Figure 112020020600396-pat00079
)은 판별자(200)로 제공되고, 판별자 손실 함수를 이용하여 판별자(200)가 학습(S150)되도록 한다.
또한, 생성자(100)가 생성한 결측 대체값(
Figure 112020020600396-pat00080
)은 생성자 손실 함수를 이용하여 생성자(100)가 학습(S160)되도록 한다.
한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
레이블이 있는 데이터 세트(SL)를 이용하여 학습 정책을 생성하는 단계(200)는 각각의 반복에서, 레이블이 있는 데이터 세트(SL)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(mL)를 선택(S210)한다.
계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S220)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(
Figure 112020020600396-pat00081
L)과, 스테이트(
Figure 112020020600396-pat00082
L)와, 결측 데이터 즉 결체 대체값(
Figure 112020020600396-pat00083
L)을 계산(S230)한다.
여기서,
Figure 112020020600396-pat00084
L는 노이즈 'Z'로 대체된 결측 대체값이고,
Figure 112020020600396-pat00085
L는 생성자(100)에 의해 생성된 스테이트를 나타내며,
Figure 112020020600396-pat00086
L는 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S230 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure 112020020600396-pat00087
L)으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure 112019126604261-pat00088
또한, 생성자(100)는
Figure 112019126604261-pat00089
L = G(
Figure 112019126604261-pat00090
L)를 통해
Figure 112019126604261-pat00091
L ∈ Rd를 계산하여 스테이트(
Figure 112019126604261-pat00092
L)를 생성한다.
또한, 생성자(100)는 생성된 스테이트(
Figure 112020020600396-pat00093
L)로 대체된 결측 대체값으로 이루어진 벡터인 결측 대체값(
Figure 112020020600396-pat00094
L)을 계산하는데, 하기식을 통해 계산될 수 있다.
Figure 112019126604261-pat00095
계속해서, 액터(400)는 생성된 결측 대체값(
Figure 112020020600396-pat00096
L)이 정책
Figure 112020020600396-pat00097
을 통해 액션을 수행할 확률을 예측(S240)한다.
이때, 가중치 함수부(500)는 가중치 함수를 이용하여 스테이트, 액션 및 레이블에 대한 가중치를 하기식을 통해 생성(S250)한다.
Figure 112019126604261-pat00098
또한, S250 단계에서, 가중치 함수부(500)는 스테이트로부터 가져올 수 있는 리워드의 가중치로서, 레이블이 있는 데이터 세트로부터 레이블의 빈도수에 기반하여 스테이트, 액션 및 레이블에 대한 리워드의 가중치로 반영할 수 있다.
이때, 레이블 빈도수는 하기식을 통해 근사할 수 있다.
Figure 112019126604261-pat00099
계속해서, S250 단계에서 생성된 가중치는 하기식을 이용한 지도 정책 손실 함수를 통해 정책 손실 함수(41)에서 학습(S260)한다.
Figure 112019126604261-pat00100
여기서, y는 스테이트의 레이블이고, a는 주어진 스테이트에 대한 정책 π가 예측한 액션이며,
Figure 112020020600396-pat00101
는 스테이트, 액션 및 레이블에 대한 리워드의 가중치이다.
또한, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
한편, 레이블이 없는 데이터 세트가 있다면, 레이블이 없는 데이터 세트(SU)를 이용하여 학습 정책을 생성하는 단계(300)를 수행한다.
레이블이 없는 데이터 세트(SU)를 이용한 학습 단계는 각각의 반복에서, 레이블이 없는 데이터 세트(SU)로부터 무작위(랜덤)로 n개의 스테이트(State)와, 스테이트에 해당하는 스테이트의 원소가 결측 됐는지 나타내는 n개의 결측 지표(mU)를 선택(S310)한다.
계속해서, n개의 스테이트에 미리 설정된 값, 예를 들면, '0'과 '1' 사이의 균등 분포로부터 랜덤 노이즈 'Z'(여기서 Z ∈ [0, 1])로 대체한 벡터를 선별(S320)하여 생성자(100)로 입력되면, 생성자(100)는 결측 대체값(
Figure 112020020600396-pat00102
U )과, 스테이트(
Figure 112020020600396-pat00103
U )와, 결측 데이터 즉, 결측 대체값(
Figure 112020020600396-pat00104
U )를 계산(S330)한다.
여기서,
Figure 112020020600396-pat00105
U 는 노이즈 'Z'로 대체된 결측 대체값이고,
Figure 112020020600396-pat00106
U 는 생성자(100)에 의해 생성된 스테이트를 나타내며,
Figure 112020020600396-pat00107
U 는 생성자에 의해 생성된 값으로 대체된 결측 대체값이다.
S330 단계에서, 생성자(100)는 랜덤 노이즈 'Z'로 대체된 결측 대체값(
Figure 112020020600396-pat00108
U )으로 이루어진 벡터를 입력받아 계산하는데, 하기식을 통해 입력으로 받는다.
Figure 112019126604261-pat00109
또한, 생성자(100)는
Figure 112019126604261-pat00110
U = G(
Figure 112019126604261-pat00111
U )를 통해
Figure 112019126604261-pat00112
U ∈ Rd를 계산하여 스테이트(
Figure 112019126604261-pat00113
U )를 생성한다.
또한, 생성자(100)는 생성된 스테이트(
Figure 112020020600396-pat00114
U )로 대체된 결측 대체값(
Figure 112020020600396-pat00115
U )을 계산하는데, 결측 대체값(
Figure 112020020600396-pat00116
U )은 하기식을 통해 계산될 수 있다.
Figure 112019126604261-pat00117
계속해서, 리워드부(600)는 레이블이 있는 데이터 세트에 대한 스테이트-액션(
Figure 112020020600396-pat00118
, a) 쌍에 대한 확률값으로 리워드부(600)의 리워드를 제공하고, 상기 리워드부(600)는 리워드 모델 손실 함수(Lrew)를 이용하여 학습하는 단계를 수행(S340)한다.
또한, 상기 리워드부(600)는 리워드 모델로 이루어질 수 있고, 상기 리워드 모델은 레이블 데이터 세트에 있는 스테이트-액션(
Figure 112020020600396-pat00119
, a) 쌍에 대한 확률을 출력하는 함수로서, R: S×A→[0, 1]일 수 있다.
또한, 각 스테이트-액션(
Figure 112019126604261-pat00120
, a) 쌍에 대한 레이블은 하기식으로 정의될 수 있다.
Figure 112019126604261-pat00121
여기서, m은 스테이트의 결측 지표이고, y는 스테이트의 레이블이며, a는 주어진 스테이트에 대해 액터의 정책이 예측한 액션이다.
리워드 모델 손실 함수(Lrew)는 스테이트-액션(
Figure 112020020600396-pat00122
L, a) 쌍이 레이블이 있는 데이터 세트에 있는 레이블이면 확률값이 최대화 되도록 학습한다.
또한, 리워드 모델 손실 함수(Lrew)는 스테이트-액션(
Figure 112020020600396-pat00123
L, a) 쌍이 레이블이 있는 데이터 세트에 없는 레이블이면, 확률값이 최소화 되도록 학습한다.
이때, 리워드 모델 손실 함수(Lrew)는 하기식을 이용하여 학습한다.
Figure 112019126604261-pat00124
이후, 액터(400)에서 결측 대체값(
Figure 112020020600396-pat00125
)과 정책(Policy)을 이용하여 액션을 수행할 확률을 예측
Figure 112020020600396-pat00126
하는 과정을 수행(S350)한다.
S340단계에서 제공되는 리워드 모델의 리워드와 S350 단계에서 예측한 액션의 예측 결과는 액터(400)가 하기식을 이용한 세미 지도 정책 손실 함수(LU)를 이용하여 세미 지도 정책 손실 함수(42)에서 최적화 되도록 정책을 학습(S360)할 수 있다.
Figure 112019126604261-pat00127
여기서,
Figure 112020020600396-pat00128
은 리워드 모델의 리워드이다.
또한,
Figure 112019126604261-pat00129
은 하기식으로 정의될 수 있다.
Figure 112019126604261-pat00130
여기서,
Figure 112020020600396-pat00173
는 리워드부가 출력하는 레이블 데이터 세트 (
Figure 112020020600396-pat00174
, a)쌍이 레이블이 있는 데이터 세트의 레이블인지 또는 액터가 생성한 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값이다.
한편, 모든 구성요소들을 학습하기 위해 매개 변수마다 업데이트 속도를 최적으로 조절하는 'Adam optimizer'를 사용할 수도 있다.
도 4는 본 발명의 일 실시 예에 따른 생성적 적대 신경망을 이용한 결측 데이터 생성 시스템을 이용하여 여러 결측률에 따른 평가 결과를 나타낸 그래프이다
도 7은 UCI(University of California)에서 공개한 22% 사기 거래를 포함하는 실제 신용카드 거래 데이터를 이용한 실험의 데이터로서, 데이터를 0.7 테스트 세트와 0.3 테스트 세트 비율로 진행한 결과이다.
여기서 전체 데이터 세트는 10%, 20%, 30%, 40%, 50%의 결측률로 결측 정도를 나타내게 가정되었고, 데이터는 제로-평균 정규화를 적용하여 전처리되었다.
도 7에서 확인할 수 있듯이, 다수의 결측률을 이용한 생성자와 판별자의 성능은 평균 제곱근 오차 지표에 의해 10회 이상 평균화되어 단순하게 결측 대체값을 평균으로 채우는 것 보다 생성자를 학습하여 결측 대체값을 생성하는 것이 원래의 값과 더 비슷하게 나타나는 것을 알 수 있다.
또한, 결측률이 증가함에 따라 GAN의 효과도 함께 증가되는 것을 알 수 있다.
또한, 도 8은 학습 과정 동안 생성된 값의 분포를 나타낸 그래프이다.
도 8에서 확인할 수 있듯이, 학습 과정동안 생성된 값의 분포가 도 8(a)의 0 에폭(epoch)과, 도 8(b)의 1 에폭 후의 분포와 대비하여, 도 8(c)의 10 에폭 후에 생성된 값의 분포를 원래 값의 분포와 비교하면 더욱 비슷하게 나타나는 것을 알 수 있다.
또한, 도 9는 플러그인 요소가 있는 것과 없는 것의 성능을 나타낸 예시도로서, F1-score를 이용하여 다른 state-of-art 모형과 본 발명에 따른 프레임워크를 비교한 것이다.
여기서, GAN, 가중치 함수, 리워드 모델을 순차적으로 구현함으로써, 각각 2.2%, 4.4%와 1.04%의 성능이 향상된 것을 알 수 있다.
이 가중치 함수는 성능에 가장 큰 영향을 주고, 이는 가중치 함수를 이용하여 학습할 때 정책(Policy)이 소수 클래스에 더 많은 가중치를 주어 학습하기 때문이다.
결과적으로 더 좋은 리콜 점수를 가지며, 이는 더 좋은 F1 점수를 얻을 수 있도록 한다.
또한, 리워드 모델은 ε을 조절하면, 프레임워크의 성능을 향상시키는데 도움을 줄 수 있다.
또한, ε은 레이블이 없는 데이터로부터 어느 정도의 정보를 정책 업데이트에 이용할 것인지를 제한하며, 높은 값을 가질수록 레이블이 없는 데이터 사용을 더욱 엄격하게 관리한다.
도 10은 레이블 데이터 비율과 결측률에 따른 성능 비교를 나타낸 그래프이다.
도 10은 ULB에서 가져완 0.172%의 사기 비율을 가진 매우 불균형한 신용카드 데이터 세트를 이용한 평가 결과이고, 평가 결과는 F1-score 지표에 의해 측청되었다.
도 10(a)에서 알 수 있듯이, 같은 수의 레이블 데이터를 이용하면, 본 발명에 따른 프레임워크가 기존의 mlp 기반의 분류기보다 더 좋은 성능을 내는 것을 알 수 있다.
또한, mlp 기반의 분류기는 결측률이 증가했을때, F1-score가 보다 빠르게 감소하는 것을 볼 수 있는데, 이는 본 발명의 프레임워크가 결측값을 다루기에 더 좋은 프레임워크라는 것으로 볼 수 있다.
또한, 두 프레임워크가 레이블 데이터를 충분히 포함하고 있을 때, 둘의 성능 차이는 좁혀질 수 있다.
예를 들어, 50%의 레이블 데이터만 포함한 경우, 본 발명에 따른 프레임 워크의 성능은 완전한 레이블 데이터 세트를 이용할 때와 비슷한 성능을 보여주는 것을 알 수 있다.
또한, 도 10(b)의 플롯은 레이블 데이터의 양에 따른 리워드 모델의 출력을 나타낸 것으로서, 레이블 데이터가 많을수록 더 빨리 하나의 값으로 수렴하는 것을 알 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있으며, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
10 : 데이터 세트
11 : 원소
12 : 결측 원소
20 : 결측 지표
21, 22 : 결측 지표값
30 : 판별자 출력 지표
40 : 손실 함수
41 : 지도 정책 손실 함수
42 : 세미 지도 정책 손실 함수
61 : 리워드 모델 손실 함수
100 : 생성자
200 : 판별자
400 : 액터
500 : 가중치 함수부
600 : 리워드부

Claims (11)

  1. 레이블이 있는 데이터 세트(SL) 또는 레이블이 없는 데이터 세트(SU)로부터 스테이트 중 결측된 부분에 대하여 결측 대체 값을 생성하는 생성자(100);
    상기 생성자(100)가 생성한 결측 대체값과 원본 데이터를 구분하는 판별자(200);
    상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 액터(400);
    상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 가중치 함수부(500); 및
    상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400)의 정책이 학습되도록 리워드를 제공하는 리워드부(600);를 포함하고,
    상기 액터(400)는 상기 예측된 액션과, 가중치 함수부(500)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하며, 또한 상기 예측된 액션과, 리워드부(600)의 리워드에 기반하여 세미 지도 정책 손실 함수(42)가 최적화 되도록 상기 정책을 학습하되,
    상기 리워드부(600)의 리워드는 하기식
    Figure 112020500903801-pat00175

    - 여기서,
    Figure 112020500903801-pat00186
    는 (
    Figure 112020500903801-pat00187
    , a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 레이블 데이터 세트 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템에서 이루어지는 방법으로서,
    a) 생성자(100)가 레이블이 있는 데이터 세트(SL)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값을 생성하는 단계;
    b) 액터(400)가 상기 생성자(100)에 의해 생성된 결측 대체값을 가지고 정책을 통해 액션(Action)을 예측하는 단계;
    c) 가중치 함수부(500)가 상기 결측 대체값으로 대체된 스테이트, 상기 예측된 액션 및 상기 레이블이 있는 데이터 세트의 레이블에 기반하여 리워드의 가중치를 생성하는 단계; 및
    d) 상기 액터(400)가 상기 예측된 액션과, 가중치 함수부(500)로부터 생성된 리워드의 가중치를 반영하여 정책 손실 함수(41)가 최적화 되도록 상기 정책을 학습하는 단계;를 포함하되,
    상기 a) 단계에서 레이블이 없는 데이터 세트(SU)가 있으면,
    a-1) 상기 생성자(100)가 레이블이 없는 데이터 세트(SU)로부터 스테이트 중 결측된 부분에 대하여 결측 대체값(
    Figure 112020500903801-pat00178
    )을 생성하는 단계;
    b-1) 상기 액터(400)가 생성된 결측 대체값(
    Figure 112020500903801-pat00179
    )을 가지고 정책을 통해 액션(Action)을 예측하는 단계;
    c-1) 리워드부(600)가 상기 레이블이 있는 데이터 세트와, 레이블이 없는 데이터 세트를 대상으로 액터(400)의 정책이 학습되도록 리워드를 제공하는 단계; 및
    d-1) 상기 액터(400)가 상기 예측된 액션과, 상기 리워드부(600)의 리워드에 기반하여 세미 지도 정책 손실 함수(42)가 최적화 되도록 상기 정책을 학습하는 단계를 더 포함하고,
    상기 리워드부(600)의 리워드는 하기식
    Figure 112020500903801-pat00180

    - 여기서,
    Figure 112020500903801-pat00188
    는 (
    Figure 112020500903801-pat00189
    , a)쌍이 레이블 데이터 세트에 있는 레이블인지에 대한 확률값이고, ε∈ [0, 1]은 스테이트-액션 쌍이 레이블 데이터 세트 안에 포함될 가능성이 있는지 여부를 고려한 임계값 임 - 으로 정의되는 것을 특징으로 하는 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1020190162111A 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법 KR102093080B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190162111A KR102093080B1 (ko) 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
JP2020560365A JP7059458B2 (ja) 2019-12-06 2020-03-17 生成的敵対神経網ベースの分類システム及び方法
PCT/KR2020/003622 WO2021112335A1 (ko) 2019-12-06 2020-03-17 생성적 적대 신경망 기반의 분류 시스템 및 방법
US17/606,517 US20220207300A1 (en) 2019-12-06 2020-03-17 Classification system and method based on generative adversarial network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190162111A KR102093080B1 (ko) 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102093080B1 true KR102093080B1 (ko) 2020-04-27

Family

ID=70467923

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190162111A KR102093080B1 (ko) 2019-12-06 2019-12-06 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102093080B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN113128979A (zh) * 2021-05-17 2021-07-16 中铁高新工业股份有限公司 一种基于大数据的科研辅助决策系统
CN113269356A (zh) * 2021-05-18 2021-08-17 中国人民解放军火箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160084456A (ko) * 2013-11-22 2016-07-13 캘리포니아 인스티튜트 오브 테크놀로지 머신 러닝에서의 가중치 생성
KR20180028610A (ko) * 2016-09-09 2018-03-19 서울대학교산학협력단 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치
KR101843066B1 (ko) * 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
KR20190096295A (ko) * 2018-02-08 2019-08-19 애플 인크. 생성적 적대 신경망을 이용한 비공개화된 머신 러닝
KR20190110068A (ko) * 2018-03-19 2019-09-27 에스알아이 인터내셔널 딥 신경망들의 동적 적응
KR20190117969A (ko) 2018-04-09 2019-10-17 주식회사 뷰노 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160084456A (ko) * 2013-11-22 2016-07-13 캘리포니아 인스티튜트 오브 테크놀로지 머신 러닝에서의 가중치 생성
KR20180028610A (ko) * 2016-09-09 2018-03-19 서울대학교산학협력단 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치
JP2018097807A (ja) * 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置
KR101843066B1 (ko) * 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
KR20190096295A (ko) * 2018-02-08 2019-08-19 애플 인크. 생성적 적대 신경망을 이용한 비공개화된 머신 러닝
KR20190110068A (ko) * 2018-03-19 2019-09-27 에스알아이 인터내셔널 딥 신경망들의 동적 적응
KR20190117969A (ko) 2018-04-09 2019-10-17 주식회사 뷰노 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Connecting generative adversarial networks and actor-critic methods. D Pfau, O Vinyals. arXiv. 2016. *
Data augmentation generative adversarial networks. A Antoniou, A Storkey, H Edwards. arXiv. 2017. *
GAIN: Missing Data Imputation using Generative Adversarial Nets. Yoon et al. 2018. *
OptionGAN: Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning. Peter Henderson et al. arXiv. 2017. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN113128979A (zh) * 2021-05-17 2021-07-16 中铁高新工业股份有限公司 一种基于大数据的科研辅助决策系统
CN113269356A (zh) * 2021-05-18 2021-08-17 中国人民解放军火箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及系统
CN113269356B (zh) * 2021-05-18 2024-03-15 中国人民解放军火箭军工程大学 一种面向缺失数据的设备剩余寿命预测方法及系统

Similar Documents

Publication Publication Date Title
KR102093080B1 (ko) 레이블 데이터 및 비레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
CN107392312B (zh) 一种基于dcgan性能的动态调整方法
US20220207300A1 (en) Classification system and method based on generative adversarial network
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
CN109461001B (zh) 基于第二模型获取第一模型的训练样本的方法和装置
US20220027730A1 (en) Entity transaction attribute determination method and apparatus
CN111553488A (zh) 一种针对用户行为的风险识别模型训练方法及系统
US20220036178A1 (en) Dynamic gradient aggregation for training neural networks
CN112633310A (zh) 具有改进的训练鲁棒性地对传感器数据进行分类的方法和系统
US20220327365A1 (en) Information processing apparatus, information processing method, and storage medium
US20220114494A1 (en) Model-agnostic approach to interpreting sequence predictions
KR102093079B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
CN110059799A (zh) 包含中间层背景的神经网络的生成
CN111191722A (zh) 通过计算机训练预测模型的方法及装置
Fourie et al. Generalised adaptive harmony search: a comparative analysis of modern harmony search
WO2022060709A1 (en) Discriminative machine learning system for optimization of multiple objectives
KR102152081B1 (ko) 딥러닝 기반의 가치 평가 방법 및 그 장치
CN114548300B (zh) 解释业务处理模型的业务处理结果的方法和装置
US20240020531A1 (en) System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model
Vaghela et al. Boost a weak learner to a strong learner using ensemble system approach
KR102093089B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
KR102093090B1 (ko) 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법
WO2022162839A1 (ja) 学習装置、学習方法、及び、記録媒体
Acampora et al. TSSweb: A web tool for training set selection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant