KR20200094938A

KR20200094938A - 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법

Info

Publication number: KR20200094938A
Application number: KR1020190012374A
Authority: KR
Inventors: 강대기
Original assignee: 동서대학교 산학협력단
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-08-10
Anticipated expiration: 2039-01-31
Also published as: KR102284356B1

Abstract

본 발명은 생성적 대립 네트워크를 이용한 데이터불균형 해결방법에 관한 것이다. 본 발명은 GAN(생성적 대립 네트워크)를 이용한 데이터의 불균형 해결방법에 있어서, GAN(생성적 대립 네트워크)의 학습, 샘플링, 스태킹(stacking)의 순서로 반복하여 상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델을 구성하는 것을 특징으로 한다.
본 발명은 생성적 대립 네트워크(GAN)의 샘플링 능력을 이용하여 데이터의 불균형을 해결할 수 있는 효과가 있는 것이다.

Description

생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법{Data imbalance solution method using Generative adversarial network}

본 발명은 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법에 관한 것으로, 더욱 자세하게는 데이터의 반복적인 생성을 통하여 불균형을 해소할 수 있는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법에 관한 것이다.

오늘날 인공지능(AI)의 발달은 끝없이 진행되고 있으며, 최근 들어 GAN(Generative Adversarial Network), 우리 말로 생성적 대립 신경망(또는 네트워크)이라고 불리는 연구에 대해서도 끊임없는 기술이 개발되고 있다.

상기 생성적 대립 신경망(또는 네트워크)이라는 이름처럼 두 신경망 모델의 대립과 이로 인한 경쟁을 통해 학습하고 결과물을 만들어낸다. 두 모델은‘생성자(Generator)’와‘감별자(Discriminator)'로 부르는 상반된 목적을 갖고 있다.

생성자는 실제 데이터를 학습하고 이를 바탕으로 거짓 데이터를 생성하는데, 결국은 실제에 가까운 거짓 데이터를 생성하는 것이 목적이다.

그리고, 감별자는 생성자가 내놓은 데이터가 실제인지 거짓인지 판별하도록 학습한다. 생성자의 거짓 데이터에 놀아나지 않는 게 목적이다.

GAN의 발명자인 이안 굿펠로우는 생성자(Generator)를 위조지폐범에, 감별자(Discriminator)를 경찰에 비유했다. 예로서, 생성자는 감별자를 속이지 못한 데이터를, 감별자는 생성자에게 속은 데이터를 입력받아 학습한다. 이러한 과정이 반복되면서 위조지폐가 정교해지듯 점점 더 실제에 가까운 거짓 데이터를 만들 수 있게 되는 셈이다.

도 1a는 상기 GAN의 학습과정의 원리를 나타낸 도면이고, 도 1b는 GAN의 개념을 도식화한 도면이다. 도 1a와 도 1b에 도시된 대로, G(Generator)가 D(Discriminator)를 속일수 있는 더욱 사실적인 이미지를 만들려고 시도하는 동안, 상기 D는 G가 생성한 이미지를 진짜 이미지로부터 구별하기 위하여 지속적으로 매개변수를 조정한다. 게임이론적 관점에서 이들 네트워크들은 제로섬 게임에서 서로 경쟁하는 것이다.

지난 2014년 GAN 논문이 처음 발표된 뒤로 다양한 후속 연구가 발표되고 있다. 학계에서 GAN이 차세대 딥러닝 알고리즘으로 주목받는 이유는 기존 지도 학습 방식에서 벗어나 비지도 학습의 초석을 다졌기 때문이다. 대부분의 AI 연구는 지도 학습 방식으로 사람이 정답을 알려주는 방식의 학습이다. 해당 이미지가 고양이인지, 개인지 태그를 달아주는 등 AI가 학습할 수 있는 방식으로 데이터를 가공하는 과정이 필요하다. AI의 세계 뒤에선 데이터에 일일이 라벨을 붙여주는 인간의 수작업이 벌어지고 있는 것이다.

이처럼 지도 학습 방식의 한계는 대량의 데이터를 정제 과정 없이 처리할 수 없다는 점과 이 과정에서 인간의 개입이 필요하다는 점이다. 반면에, GAN은 인간이 정답을 알려주지 않아도 경쟁 과정 속에 스스로 학습한다. 대량 데이터를 AI 스스로 학습하기 때문에 파급 효과가 더 크며, 특히 생성모델을 통하여 직접 이미지나 음성을 만들어낸다는 점에서 다른 지도 학습형 알고리즘과 크게 차별화된다.

이러한 발전과 응용을 거듭하고 있는 상기 GAN(생성적 대립 네트워크)은 본 발명에서와 같이 샘플링(Sampling)을 수행하여 새로운 데이터 집합을 만들고 이의 앙상블을 구성하는 방식을 적용하여 데이터의 불균형 문제를 해결하는 데 사용한 기술의 개발은 아직까지 이루어지지 않은게 현실이다.

대한민국 특허공개 제2001-0087974호 대한민국 특허공개 제2007-0067484호 대한민국 특허공개 제2018-0130511호

따라서, 본 발명은 GAN의 학습(Learning)과 샘플링(Sampling), 그리고 스태킹(Stacking)을 반복함으로써 더욱 진일보된 샘플링 효과를 낼 수 있는 생성모델을 학습하고, 전체적으로는 GAN 기반 동형 앙상블(homogeneous ensemble)을 제공하고자 하는데 있다.

또한, 이러한 생성적 대립 네트워크(GAN)의 샘플링 능력을 데이터의 불균형 문제를 해결하는 데 이용하는 것을 목적으로 하는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법을 제공하고자 하는데 있다.

이러한 목적을 달성하기 위하여 본 발명은 GAN(생성적 대립 네트워크)를 이용한 데이터의 불균형 해결방법에 있어서, GAN(생성적 대립 네트워크)의 학습, 샘플링, 스태킹(stacking)의 순서로 반복하여 상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델을 구성하는 것을 특징으로 한다.

또한, 상기 학습의 과정은 데이터(X)-> 감별자(D) -> 생성자(G)의 순서를 반복하여 이루어지는 것을 특징으로 한다.

또한, 상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델은 배깅(bagging) 앙상블 알고리즘 또는 부스팅(boosting) 앙상블 알고리즘 중에서 선택되는 어느 하나를 이용하여 수행되는 것을 특징으로 한다.

그리고, 상기 배깅 앙상블 알고리즘은

인 것을 특징으로 한다.

따라서, 본 발명은 생성적 대립 네트워크(GAN)의 샘플링(Sampling) 능력을 이용하여 데이터의 불균형을 해결할 수 있어 회사 부도 예측 등과 같은 데이터를 구하기 힘든 사안의 문제점을 해소할 수 있는 효과가 있다.

도 1a는 GAN의 학습과정의 원리를 나타낸 도면.
도 1b는 GAN의 개념을 도식화한 도면.
도 2는 배깅(bagging) 알고리즘에 관하여 나타낸 사진.
도 3은 본 발명에서의 GAN의 반복 알고리즘을 나타내는 도면.
도 4는 신경 네트워크인 G와 D를 이용하여 새로운 데이터(T)를 생성해내는 것을 나타낸 다이아그램.

이하에서는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시가 되더라도 가능한 한 동일 부호를 가지도록 하고 있음에 유의하여야 한다.

또한, 하기에서 본 발명을 설명함에 있어 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

참고로, 명세서에서 나오는 용어인 '학습'은 일반적으로 사용되는 학문을 배우고 익힌다는 의미가 아니고, 절차에 따른 컴퓨팅(computing)을 통하여 머신러닝(mdachine learning)을 수행함을 일컫는 용어라는 점을 미리 밝혀두고자 한다.

먼저, 본 발명을 설명하기에 앞서 명세서에서 자주 등장하는 GAN(Generative Adversarial Network: 생성적 대립 네트워크 또는 생성적 대립 신경망)에 대하여 자세히 설명하기로 한다.

생성적 대립 네트워크(GAN : Generative adversarial network)는 현재 생성 모델 네트워크에서 뿐만 아니라 전체 머신러닝 분야에서 가장 주목받는 모델 중에 하나이다. 상기 GAN(생성적 대립 네트워크)은 주로 심층신경망(deep neutral network) 구조를 사용하는 인공지능(AI) 알고리즘의 일종으로, 딥 러닝(deep learning) 기술인 GAN 기술은 사람의 눈에 매우 사실적으로 보이며 현실적인 특성을 지닌 이미지를 생성하도록 도와준다.

사진과 거의 동일할 정도로 정교한 이미지는 현재 신발, 가방 또는 컴퓨터 게임 장면 등 다양한 산업디자인 분야에서 사용된다. 상기 GAN은 동영상의 모션 패턴을 모델링하거나 이미지에서 물체의 3D 모델을 재구성하고 천문학적 이미지를 만들어내기도 한다.

또한, GAN은 우선 난수(亂數: random number)를 취해 이미지를 반환한다. 이미지들은 실제 데이터 세트에서 파생된 정보로 구성되어 상기 이미지는 감별자(discriminator)로 보내지며, 상기 감별자는 실제 이미지와 가짜 이미지를 모두 가져와 확률을 계산한다.

상기 GAN의 근본이 되는 신경망을 응용한 기술인 심층 신경망 학습기술인 딥 러닝은 인공신경망의 계보를 잇는 기술로서, 대부분의 머신러닝(machine learning)에 사용되는 상기 심층 신경망은 다양한 예시를 가진다. 최근의 GAN 기술은 고비용과 많은 시간을 들이는 문제를 해결하기 위해 새로운 학습기술의 개발이 제안되고 있다.

따라서, 본 발명은 상기 GAN의 샘플링 능력을 응용하여 데이터의 불균형 문제를 해소하기 위한 것을 소개하고자 한다. 본 발명이 해결하고자 하는 문제를 이해하기 위해 먼저, 데이터의 불균형이 초래하는 문제점들을 설명하고자 한다.

데이터 불균형은 머신러닝 및 딥러닝 분야에서 분류기(classifier)의 학습이 제대로 되지 않는 문제를 초래한다. 예를 들어, 시스템에 대해 해커나 크래커가 침입하는 것을 자동으로 판단하는 침입 탐지 시스템의 경우를 보면 침입 상황의 데이터보다 정상적인 상황의 데이터가 훨씬 많다는 것은 상식적으로 알 수 있다. 비슷한 경우로, 적의 비행기를 판별하기 위한 레이더(radar) 탐지를 봐도 아군 비행기의 데이터는 얻기 쉬우나 적 비행기의 데이터는 얻기 어렵다. 이렇게 한 쪽 데이터를 얻기 어려운 경우, 데이터의 개수에 있어 불균형한 상황이 발생한다.

예를 들어, 침입 데이터는 10개 미만인데, 정상 데이터는 10,000 개 또는 백만 개가 넘을 수도 있다. 이러한 경우, 대부분의 머신러닝 및 딥러닝 알고리즘들은 제대로 작동하지 않는다. 단순하고 극단적인 예를 보자면 침입 데이터가 10개, 정상 데이터가 9,990개이면 모든 데이터에 대해서 정상이라고 주장하는 분류기도 9,990/(10 + 9,990)=99.9%의 정확도를 가지게 된다.

따라서, 한 쪽 카테고리의 데이터가 심하게 불균형한 경우, 기존의 머신러닝/딥러닝 알고리즘은 제대로 학습을 수행하지 않게 된다. 이러한 문제를 해결하기 위한 방법으로, (1) 비용기반 분류(cost-based classification)를 학습하는 방법, (2) 샘플링(sampling), (3) 그리고 데이터 불균형을 감안하는 학습 알고리즘을 설계하는 방안들이 제시되고 있다.

상기 비용 기반 분류방법은 침입 데이터와 같이 소수 카테고리(minority category)의 데이터들에 대해 더 높은 비용을 제시하는 방법이다. 예를 들어 정상적인 상황을 침입 상황으로 오분류하는 것보다, 침입 상황을 정상적인 상황으로 오분류하는 것이 훨씬 심각하다.

그리고, 상기 샘플링 기법은 상대적으로 다수인 카테고리의 데이터의 수를 줄이는 언더 샘플링(under-sampling)과 상대적으로 소수인 카테고리의 데이터의 수를 늘리는 오버 샘플링(over-sampling) 등이 있다.

마지막으로, 데이터 불균형을 그대로 인식하면서 학습을 수행하도록 학습 알고리즘을 개선하는 방안이 있다. 본 발명에서는 GAN을 이용하여 상대적으로 소수인 카테고리의 데이터의 수를 늘리는 오버 샘플링(over-sampling)을 수행하고 보다 견고한 학습을 위해 앙상블을 구성하는 방안을 제시하는 것이다.

이하에서는 도면을 참조하여 본 발명에 의한 생성적 대립 네트워크(GAN)를 이용한 데이터의 불균형 해결방법을 설명하고자 한다.

도 2는 배깅(bagging) 알고리즘에 관하여 나타낸 사진이고, 도 3은 본 발명에서의 GAN의 반복 알고리즘을 나타내는 도면이고, 도 4는 신경 네트워크인 G와 D를 이용하여 새로운 데이터(T1 ~ T4)를 생성해내는 것을 나타낸 다이아그램이다.

우선 본 명세서에 등장하는 용어인 배깅(bagging)에 대하여 도면을 참조하여 설명하기로 한다.

배깅(bagging)은 bootstrap aggregating의 준말로서, 훈련용 데이터 집합으로부터 같은 크기의 표본을 여러번 단순 확률 반복추출하여 각각에 대해 분류기(classifier)를 생성하고, 이렇게 생성된 분류기들의 결과를 종합하여 의사결정을 내리는 방법이다.

상기 배깅은 예측 모형의 변동성이 큰 경우 이를 감소시키기 위하여 사용된다. 즉, 원래 자료로부터 여러차례의 복원 샘플링을 통해 예측모형의 분산을 줄여줌으로서 예측모형의 정확도를 향상시키는 방법이다.

본 발명에서는 GAN의 샘플링 능력을 데이터 불균형 문제를 해결하는 데 사용하고자 하는 것으로 생성자를 하나만 만드는 것이 아니라, GAN의 학습(Learning)을 통해 하나의 G(생성자)와 D(감별자)를 만들어 내면, 여기서 G를 이용하여 샘플링(Sampling)을 수행하여 새로운 데이터 집합을 만든다.

그리고, 새로운 데이터 집합을 통해 새로운 G와 D를 만들고, 이러한 것들을 계속 스태킹(Stacking) 반복하는 것이다. 이를 통해, 더 나은 샘플링 효과를 낼 수 있는 생성모델을 학습하고, 전체적으로 GAN 기반 동형 앙상블(homogeneous ensemble)을 생성시키고자 한다. 참고로, 상기 생성자(G)는 복수의 컨볼루션(convolution) 계층을 포함하는 인코더(encoder) 및 복수의 디컨볼루션 계층을 포함하는 디코더(decoder)로 구성되며, 상기 감별자(D)는 복수의 디컨볼루션(deconvolution) 계층 및 시그모이드(sigmoid)를 포함하는 인코더로 구성된 것을 특징으로 한다.

본 발명에 의한 GAN(생성적 대립 네트워크)를 이용한 데이터의 불균형 해결방법은 도 3에 도시된 대로, GAN(생성적 대립 네트워크)의 학습(Learning), 샘플링(Sampling), 스태킹(Stacking)의 순서로 반복하여 상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델을 구성하는 것으로 이루어지는 데 이를 설명하기로 한다.

기본적으로 GAN 모델은 대립 모델로 생성자(generator: G)와 감별자(discriminator: D) 간의 경쟁을 통해 내쉬 균형(Nash Equilibrium)을 찾는 방안이다. 내쉬 균형을 이루면 생성자인 상기 G를 통해 해당 도메인의 데이터 X를 생성하는 샘플링을 수행할 수 있는 것이다. 이렇게 새로 학습된 G가 생성하는 샘플들과 기존의 샘플들을 기반으로 새로운 감별자 D를 학습할 수 있다. 이러한 학습 과정은 반복하면 다음과 같이 나타낼 수 있다.

X1->D1->G1->X2->D2->G2->X3->D3->G3 (1)

따라서, 상기 학습의 과정은 데이터(X) -> 감별자(D) -> 생성자(G)의 순서를 반복하여 여러번 이루어지는 것이다. 이러한 순서로 여러 개의 분류기(classifier)들을 구성할 수 있다.

이러한 여러 개의 분류기를 하나의 앙상블로 구성할 수 있는 데, 생성된 감별자들(discriminator) D1,D2,D3,D4...와 생성된 데이터 집합들 X1,X2,X3,X4...의 가중치(weight) 조정을 통해 부스팅(boosting) 및 배깅(bagging)의 앙상블 모델을 구성할 수 있는 것이다. 앙상블 모델(ensemble model)은 여러개의 모델 결과를 조합하여 더 좋은 예측성능을 얻기 위한 모델구조를 의미한다.

도 4는 상기 앙상블 모델의 예를 나타내는 도면인데, 이를 참조하면 트레이닝 데이터인 T1을 모방하여 신경망 G1이 T2를 만들어내고, 상기 T1과 T2는 신경망 D1을 생성하며, 또 다른 신경망 G2는 T2를 모방하여 T3를 만들며, 상기 T2와 T3는 신경망 D2를 생성하며, 다른 신경망 G3는 T3를 모방하여 T4를 만들며, 상기 T3와 T4는 D3를 생성하여 자꾸 반복되도록 하여 더욱 좋은 아웃풋이 현출되도록 하는 것이다.

또한, GAN기반 동형 앙상블(homogeneous ensemble) 학습 알고리즘은 배깅(bagging) 앙상블 알고리즘 또는 부스팅(boosting) 앙상블 알고리즘 중에서 선택되는 어느 하나를 이용한다. 상기 배깅 앙상블 알고리즘과 상기 부스팅 앙상블 알고리즘은 어떠한 일정 학습데이터를 샘플링하여 다양한 학습데이터를 생성하며, 하나의 학습 알고리즘을 적용하여 다양한 분류기(classifier)를 생성한다.

따라서, 다양한 분류기의 예측결과를 결합함으로서, 단일 분류기보다 신뢰성이 높은 예측이 가능한 것이다.

예로서 배깅의 경우, 이하와 같이 GAN 배깅 알고리즘을 구성할 수 있다.

(용어의 설명: argmin_G은 생성자(G)의 최소값, argmax_D은 감별자(D)의 최대값, t는 생성할 배깅 앙상블이 가지는 분류기의 갯수, GANt는 t번째 반복에서 생성되는 GAN신경망, V(G,D)는 G(생성자)와 D(구별자)를 입력변수로 하는 손해 함수, x는 신경망에 주어진 실제 이미지 또는 실제 데이터, z는 무작위로 만들어 내는 잡음(노이즈), E는 평균값)

상기 알고리즘에서 GAN_t는 t 번째 반복에서 생성되는 GAN 신경망을 가리키며, 하나의 상기 GAN_t는 판별자 (D)와 생성자 (G)를 가진다. 알고리즘의 세 번째 줄의 V(G,D)는 G와 D를 입력 변수로 하는 손해 함수(loss function)이다.

즉, 세 번째 줄의 의미는 손해 함수 V(G,D)의 값을 최대화하는 D와 최소화시키는 G를 찾으면, 찾아낸 그 두 신경망 G와 D가 하나의 GAN을 이룬다는 의미이다.

네 번째와 다섯번째줄의

는 손해 함수를 풀어 쓴 것이다. 첫 번째 항

값은 판별자 D에 대한 것으로, 주어진 실제 이미지 또는 실제 데이터 x를 판별자가 잘 판별해 낼 경우 D(x) 값이 커진다.

즉, 판별자 D는 데이터 x를 입력받아서 그것이 특정한 부류(category)에 속하는지를 판별한다. 판별한 결과는 0과 1 사이의 값이다. 주어진 데이터가 진짜 데이터이면 D는 1을 출력하고 가짜 데이터이면 D는 0을 출력한다.

D(x)의 값이 0과 1 사이로 정규화(normalized)되어 있기 때문에 단순히 수치적으로 다루기 편하도록 log 함수를 앞에 붙인 것이다. 여기서, 입력 이미지나 실제 데이터인 x는 무작위로 만들어지는 데이터가 아니고 예를 들면 사람의 얼굴 이미지, 침입탐지 데이터, 기업 부실 데이터 등의 특정한 패턴을 가지는 데이터이므로, 이 x가 특정한 분포로부터 온다고 가정할 수 있다.

이를

에서

로 나타내는 것이다.

의 의미는 x가

라는 분포를 따라서 만들어진다는 뜻이다. 마지막으로 맨 앞의 E는 여러 개의 데이터를 적용한 평균값(Expectation)을 나타낸다.

손해함수

에서 두번째 식인

도 비슷하게 해석할 수 있다. 여기서, E는 평균이고, log는 D 값이 0과 1 사이이므로 이를 수치적으로 잘 다루기 위한 점이라는 것은 동일하다.

그리고, z는 무작위로 만들어 내는 잡음이다. 이 잡음도 무작위라는 분포가 있으므로

로 나타낸다. 잡음 z가 무작위 분포인

를 따라 만들어진다는 의미이다.

이렇게 만들어진 잡음은 G(z)를 통해 특정 이미지 또는 데이터 (예를 들어 얼굴 이미지, 침입 탐지 데이터, 기업 부실데이터)로 만들어진다. 즉, 생성자 G는 잡음 z를 입력받고 특정 데이터(또는 이미지)를 출력하는 것이 G(z)인 것이다.

판별자 D는 생성자 G가 생성한 데이터가 진짜인지 가짜인지를 구별해 본다. 생성자 G가 생성한 데이터는 사실은 가짜이므로 D는 0을 출력해야 한다.

즉, D(G(z))는 0이거나 0에 가까운 값이어야 한다. 그러나, 생성자 G가 생성한 데이터가 진짜와 매우 흡사하다면, D는 제대로 판별을 못해서, D(G(z))는 1이나 1에 가까운 값이 된다. 두 번째 항을 보면

이므로 G가 만든 데이터가 조악해서 D가 가짜라고 판별을 하면

는 1-0이 돼서 손해 함수 값이 커지고, G가 데이터를 잘 만들면 D(G(z))가 1에 가까워지므로 1-1이 돼서 손해 함수 값이 매우 작아진다.

손해함수를 최소화하는 G를 찾는 것이므로(argmin G), 두 번째 항

에 따르면 G는 데이터를 잘 만들어야 한다.

또한, 손해 함수를 최대화하는 D를 찾는 것(argmax D)이므로 첫 번째 항

과 두 번째 항

에서 D는 판별을 잘해야 하는 것이다.

상기와 같은 배깅 알고리즘 방식은 균일한 확률분포에 따라 학습 데이터로부터 반복적으로 샘플링하여 각 기본 분류기의 학습데이터를 생성하고 상기 학습데이터를 이용하여 각 기본 분류기를 학습할 수 있으며, 나중에 미지의 데이터가 제공된다면 그 데이터를 학습된 기본 분류기에 입력하고 각 분류기의 판단결과를 얻을수 있는데, 최종 판단의 경우에 다수결로도 이루어질 수 있다.

상기와 같이 생성된 앙상블의 성능 평가를 위해 데이터 불균형 문제의 경우에 응용할 수 있다. 이와 관련된 사례로 부도예측 및 침입탐지 시스템의 문제에 적용하고자 한다.

상기 부도예측 문제는 부도과정에서 제반 법적비용의 발생, 매출 감소, 영업활동의 마비 등 직, 간접적인 피해가 엄청나게 크기 때문에 기업에 대한 부도예측은 다양한 이해관계자들의 중요한 실무적 관심사이다.

그러나, 이러한 부도 관련 데이터는 건전한 회사의 데이터들은 구하기 쉬운 반면에 부도 회사의 데이터는 구하기 매우 어렵다.

또한, 상기 침입탐지 시스템의 경우, 이미 알려진 공격 패턴들을 단순히 분류하는 오용 탐지(misuse detection)가 아닌, 시스템에 대한 원치 않는 조작을 탐지하기 위해 사용자의 각종 비정상적이거나 악의적인 행동을 찾아내는 비정상 탐지(anomaly detection)를 기반으로 작업을 수행한다.

상기와 같은 침입탐지 시스템의 관련 데이터는 더욱 심각한 데, 일반적으로 정상 데이터의 분량이 전체 데이터의 99~ 100%에 달하고, 나머지 0~ 1% 정도만이 비정상 데이터인 경우가 많다. 이와 같은 비정상 데이터는 그만큼 얻기 어려우므로, 데이터의 불균형 또는 불일치 문제는 어려운 응용 사례인 것이다. GAN의 우수한 특성 중 하나는, 이러한 데이터 불균형 문제를 G(생성기)의 데이터 생성을 통해 해소시켜 준다.

GAN의 결과 구성물을 계층적으로 학습하고 이를 앙상블로 구성하는 방안은, 사회경제적으로 상당한 파급 효과를 불러올 것이다. 이는 감별자(D)의 정확도를 높이는 측면 뿐만 아니라, 생성자(G)의 앙상블 구성을 통해 데이터 생성 능력을 높이는 측면도 산업계에서의 니드(need)가 매우 크기 때문이다.

예를 들어, 현재 가장 딥러닝이 치열하게 실행되는 산업 분야 중 하나로 메디컬 이미징이 있다. 메디컬 이미징 분야 중 특히 폐암이나 유방암, 그리고 암세포 등을 자동으로 판별하는 분야는 활발한 연구가 이루어지고 있다. 그러나 이러한 비정상 데이터는 쉽게 얻을 수 없기 때문에 매우 중요하고, 데이터의 레이블링 비용이 매우 비싸다.

따라서 메디컬 이미징의 폐암, 유방암, 침입탐지의 침입 데이터, 부도 예측의 부도 데이터 등과 같이 특정 소수 카테고리(minority category)에 속해 있는 새로운 데이터의 생성은 많은 경제적 가능성을 제시할 수 있다.

다른 예로 감별자(D)의 앙상블 구성을 통한 정확도 성능 향상도 산업계 전반에 걸쳐 상당한 파급효과를 불러올 것이다. 데이터로부터 정확한 함수를 모델링할 수 있다는 것의 강점은 단순히 컴퓨터 분야 뿐만 아니라 산업계 전반에 영향을 미칠 수 있다. 예를 들어 컴퓨터 공학과 관련이 없는 환경공학 분야에서 미세먼지의 경우, 대기질 모델링 시스템은 기상 모델, 배출량 모델, 그리고 대기질 모델을 사용한다. 최근의 연구를 보면 심층 신경망을 사용하는 대기질 모델이 기존의 가장 우수한 모델로 알려진 3차원 광화학 대기질 모델인 CMAQ(Community Multi-scale Air Quality Model)의 성능을 추월한 것으로 알려졌다.

앞에서 언급했지만, 부도 관련 데이터를 생성하거나 발굴하는 것이나 기업의 부실은 발생빈도가 매우 희귀한 사건으로 특정 전문 신용평가기관은 국내 외부감사 법인의 장기평균 부도율을 약 3~ 5% 수준으로 예상하고 있다.

또한, 앞에서 언급한 침입탐지 시스템의 경우에도 이미 알려진 공격 패턴들을 단순히 분류하는 오용탐지(misuse detection)가 아닌, 시스템에 대한 원치 않는 조작을 탐지하기 위하여 사용자의 각종 비정상적이거나 악의적인 행동을 찾아내는 비정상 탐지(anomaly detection)를 기반으로 작업을 수행한다. 침입탐지 관련 데이터에서도 이러한 실제 침입 데이터를 구하기가 상당히 어렵다.

그러나, 상기와 같이 설명한 내용과 같이 본 발명에 의한 GAN의 특별한 특성 중 하나는 이러한 데이터의 불균형 문제를 G의 데이터 생성을 통해 해소시켜 주는 우수한 효과가 있는 것이다.

이상에서와 같이, 상기 서술한 내용은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

GAN(생성적 대립 네트워크)를 이용한 데이터의 불균형 해결방법에 있어서,
GAN(생성적 대립 네트워크)의 학습, 샘플링, 스태킹(stacking)의 순서로 반복하여 상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델을 구성하는 것을 특징으로 하는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법.
제1항에 있어서,
상기 학습의 과정은 데이터(X)-> 감별자(D) -> 생성자(G)의 순서를 반복하여 이루어지는 것을 특징으로 하는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법.
제1항에 있어서,
상기 GAN기반 동형 앙상블(homogeneous ensemble) 학습모델은 배깅(bagging) 앙상블 알고리즘 또는 부스팅(boosting) 앙상블 알고리즘 중에서 선택되는 어느 하나를 이용하여 수행되는 것을 특징으로 하는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법.
제3항에 있어서,
상기 배깅 앙상블 알고리즘은

인 것을 특징으로 하는 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법.
(용어의 설명 : t는 생성할 배깅 앙상블이 가지는 분류기의 갯수, GANt는 t번째 반복에서 생성되는 GAN신경망, argmin_G은 생성자(G)의 최소값, argmax_D은 감별자(D)의 최대값, V(G,D)는 G(생성자)와 D(구별자)를 입력변수로 하는 손해 함수, x는 신경망에 주어진 실제 이미지 또는 실제 데이터, z는 무작위로 만들어 내는 잡음, E는 평균값)