KR102425503B1 - 불균형 데이터 처리를 위한 gan 기반의 오버샘플링 방법 및 장치 - Google Patents

불균형 데이터 처리를 위한 gan 기반의 오버샘플링 방법 및 장치 Download PDF

Info

Publication number
KR102425503B1
KR102425503B1 KR1020190082977A KR20190082977A KR102425503B1 KR 102425503 B1 KR102425503 B1 KR 102425503B1 KR 1020190082977 A KR1020190082977 A KR 1020190082977A KR 20190082977 A KR20190082977 A KR 20190082977A KR 102425503 B1 KR102425503 B1 KR 102425503B1
Authority
KR
South Korea
Prior art keywords
class
minority
borderline
majority
minority class
Prior art date
Application number
KR1020190082977A
Other languages
English (en)
Other versions
KR20210001805A (ko
Inventor
황인준
손민재
정승원
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of KR20210001805A publication Critical patent/KR20210001805A/ko
Application granted granted Critical
Publication of KR102425503B1 publication Critical patent/KR102425503B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Indication And Recording Devices For Special Purposes And Tariff Metering Devices (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 불균형 데이터 처리를 위한 GAN 기반의 오버샘플링 방법 및 장치를 개시한다. 불균형 데이터 처리를 위한 CGAN(Conditional Generative Adversarial Network) 기반의 오버샘플링 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 다수(majority) 클래스 및 소수(minority) 클래스를 포함하는 데이터에서, 미리 설정된 알고리즘을 이용하여 보더라인 소수 클래스(boaderline minority class)를 탐색하고, 대립신경망모델(GAN) 기반으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 이용하여 생성기 및 판별기를 학습하고, 학습이 완료된 상기 생성기가 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스를 이용하여 오버샘플링을 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 오버샘플링 장치가 제공된다.

Description

불균형 데이터 처리를 위한 GAN 기반의 오버샘플링 방법 및 장치{GAN-based over-sampling method and apparatus for imbalanced data processing}
본 발명은 불균형 데이터 처리를 위한 GAN 기반의 오버샘플링 방법 및 장치에 관한 것이다.
일반적으로 분류학습은 주어진 입력 데이터에 대한 해당 클래스를 예측하는 것을 의미한다. 하지만 분류학습에 사용되는 데이터가 심한 불균형을 가진다면, 분류 성능이 좋지 않은 현상이 발생한다.
예를 들어, 100명의 환자 데이터 중 95명의 암 음성반응 환자와 5명의 암 양성반응 환자로 구성되어 있다고 가정한다.
클래스의 수가 불균형하게 구성된 데이터를 불균형 데이터라 한다. 이런 불균형 데이터를 사용해 분류학습을 하게 되면 일반적인 분류모델 대부분은 100명이 모두 암에 걸리지 않을 것으로 예측한다. 즉, 모두 양성반응이다라고 예측하는 것이다.
이렇게 되면 분류의 전체적인 정확도는 95%로 높으나, 정작 중요한 암환자를 찾아내지는 못하는 문제점이 발생한다.
이러한 문제점을 해결하기 위해, 중요한 소수 클래스(minority class)를 잘 찾아내기 위해 주로 이용되는 기법이 샘플링 기법이다.
샘플링은 다수 클래스(majority class)와 소수 클래스의 샘플 수를 맞춰 균형 잡힌 데이터로 만드는 기법이다.
도 1은 일반적인 샘플링 기법을 도시한 도면이다.
도 1에 도시된 바와 같이, 소수 클래스 샘플을 복제 및 생성해서 균형을 맞추는 법을 오버샘플링이라 한다.
또한, 다수 클래스 샘플을 제거하여 균형을 맞추는 법을 언더샘플링이라고 한다. 하지만 언더샘플링 경우에는 데이터 제거를 통해 균형을 맞추기 때문에 정보 손실이라는 큰 문제가 있다.
도 2는 랜덤 오버샘플링 기법을 도시한 도면이다.
랜덤 오버샘플링은 소수 클래스 샘플을 무작위로 선택 및 복제하여 클래스간 균형을 맞추는 기법이다.
랜덤 오버샘플링의 경우 데이터를 랜덤하게 복제하기 때문에 학습 과정에서 오버피팅이 발생하는 경우가 있다.
도 3은 SMOTE 기법을 나타낸 도면이다.
SMOTE(Synthetic Minority Oversampling TEchnique)는 단순히 복제방식이 아닌 k-NN알고리즘을 활용해 데이터를 합성하는 방식이다.
SMOTE 기법은 소수 클래스 샘플 하나를 선택해 가까이 있는 소수 클래스 샘플 k개를 찾아낸다. 그리고 k개의 이웃과 처음 선택된 샘플 사이의 직선상에서 합성 샘플을 생성한다.
도 4는 ADASYN 기법을 나타낸 도면이다.
ADASYN(Adaptive Synthetic Sampling Technique)은 SMOTE에서 발전된 모델이다.
SMOTE에서는 무작위로 선택된 소수 클래스 샘플에서 무조건 하나의 데이터를 합성한다. 하지만 ADASYN에서는 선택된 소수 클래스 주변에 위치한 다수 클래스의 샘플 개수에 따라 한번에 합성할 수 있는 샘플 수가 다르게 설정된다. .
따라서 도 4에 도시된 바와 같이, 주변 다수 클래스 샘플의 밀도가 높은 곳에 더 많은 데이터가 생성된다. 이는 분류학습을 하는데 구분이 힘든 다수 클래스의 특징을 더 많이 학습시켜 분류기가 더 구분을 잘 할 수 있도록 만드는 것이다.
또한, 오버샘플링을 위한 보더라인(Borderline)-SMOTE 기법이 있다.
보더라인-SMOTE는 다수 클래스와 소수 클래스의 보더라인(경계선)의 소수 클래스 샘플 위로 데이터를 생성한다.
도 5는 SMOTE 기반 오버샘플링의 문제를 나타낸 도면이다.
도 5에 도시된 바와 같이, 보더라인-SMOTE 같은 경우에 SMOTE 기반의 k-NN 합성방식을 이용한 ADASYN 분류 성능에 저하될 수 있는 노이즈 데이터를 생성하는 문제점이 있다.
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 소수 클래스 샘플을 효율적으로 생성할 수 있는 불균형 데이터 처리를 위한 GAN 기반의 오버샘플링 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 불균형 데이터 처리를 위한 CGAN(Conditional Generative Adversarial Network) 기반의 오버샘플링 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 다수(majority) 클래스 및 소수(minority) 클래스를 포함하는 데이터에서, 미리 설정된 알고리즘을 이용하여 보더라인 소수 클래스(boaderline minority class)를 탐색하고, 대립신경망모델(GAN) 기반으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 이용하여 생성기 및 판별기를 학습하고, 학습이 완료된 상기 생성기가 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스를 이용하여 오버샘플링을 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 오버샘플링 장치가 제공된다.
상기 보더라인 소수 클래스 탐색은 k-NN 알고리즘에 의해 수행되며, 제1 소수 클래스에 인접한 다수 클래스의 개수가 미리 설정된 범위에 있는 경우 상기 제1 소수 클래스가 보더라인 소수 클래스로 지정될 수 있다.
제1 소수 클래스에 인접한 다수 클래스의 개수가 아래의 수학식에 따라 결정된 범위 내에 있는 경우 상기 제1 소수 클래스가 보더라인 소수 클래스로 지정될 수 있다.
[수학식]
Figure 112019070472183-pat00001
k: k number of k-NN
m: Number of majority classes
상기 생성기 및 판별기의 학습은 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 제약 조건으로 하여 수행될 수 있다.
본 발명의 다른 측면에 따르면, 불균형 데이터 처리를 위한 CGAN(Conditional Generative Adversarial Network) 기반의 오버샘플링 방법으로서, 다수(majority) 클래스 및 소수(minority) 클래스를 포함하는 데이터에서, 미리 설정된 알고리즘을 이용하여 보더라인 소수 클래스(boaderline minority class)를 탐색하는 단계; 대립신경망모델(GAN) 기반으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 이용하여 생성기 및 판별기를 학습하는 단계; 및 학습이 완료된 상기 생성기가 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스를 이용하여 오버샘플링하는 단계를 포함하는 오버샘플링 방법이 제공된다.
본 실시예에 따르면, 구분하기 어려운 경계선에 위치한 보더라인 소수 클래스를 탐색하고, 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 제약 조건으로 하기 때문에 효율적인 오버샘플링이 가능한 장점이 있다.
도 1은 일반적인 샘플링 기법을 도시한 도면이다.
도 2는 랜덤 오버샘플링 기법을 도시한 도면이다.
도 3은 SMOTE 기법을 나타낸 도면이다.
도 4는 ADASYN 기법을 나타낸 도면이다.
도 5는 SMOTE 기반 오버샘플링의 문제를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 오버샘플링 과정을 도시한 도면이다.
도 7 내지 도 12는 보더라인 소수 클래스 탐색 과정을 설명하기 위한 도면이다.
도 13은 본 실시예에 따른 CGAN 모델의 상세 구성을 도시한 도면이다.
도 14는 본 발명의 일 실시예에 따른 GAN에 y라는 특성을 추가적으로 반영하여 가상 데이터를 생성하는 과정을 도시한 도면이다.
도 15는 본 실시예에 따른 분류 장치의 구성을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도 6은 본 발명의 일 실시예에 따른 오버샘플링 과정을 도시한 도면이다.
도 6은 본 실시예에 따른 오버샘플링 장치에서 수행되는 과정이며, 본 실시에에 따른 오버샘플링 장치는 프로세서 및 메모리를 포함하는 컴퓨팅 장치일 수 있다.
프로세서는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
메모리에는 프로세서에 의해 실행 가능한 프로그램 명령어들이 저장되며, 이하에서 상술하는 것은 프로그램 명령어들에 의해 수행되는 과정으로 정의될 수 있다.
도 6에 도시된 바와 같이, 본 실시예에 따른 오버샘플링은 대립신경망모델(Genarative Adversarial Network: GAN)를 기반으로 하며, 구분하기 어려운 보더라인에 위치한 소수 클래스를 탐색하고(S600), 이를 Conditional GAN 기반으로 학습을 수행하고(S602), 학습이 완료된 모델을 이용하여 오버샘플링을 수행한다(S604).
본 실시예에 따른 오버샘플링 기법은 BCGAN(Borderline-Conditional Generative Adversarial Network)로 정의될 수 있다.
도 7 내지 도 12는 보더라인 소수 클래스 탐색 과정을 설명하기 위한 도면이다.
보더라인 소수 클래스는 학습하기 어려운 샘플로, 본 실시예에 따르면, k-NN 알고리즘을 이용하여 보더라인 소수 클래스를 탐색한다.
도 7 내지 도 12에서는 아래의 수식을 갖는 k-nn 알고리즘에서 k가 5인 경우를 예로 들어 설명하며, 여기서, m은 k-NN 알고리즘을 통해 뽑은 이웃에 포함된 다수 클래스 샘플의 개수이다. k가 5인 경우, 수학식 1을 만족하는 m은 3이다.
Figure 112019070472183-pat00002
k: k number of k-NN
m: Number of majority classes
도 8을 참조하면, 우선 각 소수 클래스 별로 소수 클래스 및 다수 클래스를 구분하지 않고 인접한 이웃 5개를 탐색한다.
다음으로 찾은 이웃 중 다수 클래스의 개수를 확인한다. 도 8과 같이, 제1 소수 클래스(800)의 주변 이웃 5개 중 다수 클래스 샘플은 3개이다. 이는 수학식 1에서 정의한 기준에 부합하므로, 제1 소수 클래스(800)를 보더라인 소수 클래스로 지정한다.
상기한 과정을 모든 소수 클래스에 대해 수행한다.
도 9의 제2 소수 클래스(900)에 인접한 이웃은 모두 다수 클래스이므로 기준에 부합하지 않아 제2 소수 클래스(900)는 보더라인 소수 클래스로 지정하지 않는다.
도 10의 제3 소수 클래스(1000)에 인접한 다수 클래스 샘플은 3개이므로 기준에 부합한다. 따라서, 제3 소수 클래스(1000)는 보더라인 소수 클래스로 지정한다.
도 11은 제4 소수 클래스(1100)에 인접한 이웃은 1개로 기준에 부합하지 않아 보더라인 소수 클래스로 지정되지 않는다.
도 12는 수학식 1에 따른 기준에 따라 분류된 최종 형태를 나타내며, 경계선이 될만한 보더라인 소수 클래스를 탐색한 결과를 나타낸 것이다.
도 13은 본 실시예에 따른 CGAN 모델의 상세 구성을 도시한 도면이다.
GAN은 판별 네트워크(Discriminator Network)에서 실제 데이터(real data)와 생성기 네트워크(Generator Network)에서 생성한 비교 데이터를 비교하여 참과 거짓을 구분한다.
GAN은 임의의 노이즈(Random Noise)를 이용하여 가상의 데이터(비교 데이터)를 생성하기 때문에 불안정성이 높아, 최근에는 CGAN이 다양하게 적용되고 있다.
도 13에 도시된 바와 같이, 본 실시예에 따른 CGAN은 생성기(Generator: G) 및 판별기(Discriminator: D)를 포함할 수 있다.
생성기(G)는 가상의 데이터를 생성하고, 판별기(D)는 실제 데이터와 생성기(G)에서 생성한 가상 데이터를 입력 받아 참과 거짓을 판별하여 상호간의 경쟁 학습을 통해 학습을 수행한다.
CGAN은 GAN과는 달리 생성기(G)와 판별기(D)가 소정 제한 조건을 고려하는 것이다.
CGAN의 손실함수는 아래의 수학식 2와 같다.
Figure 112019070472183-pat00003
Figure 112019070472183-pat00004
는 실제 데이터 분포를 나타내고, x는
Figure 112019070472183-pat00005
로부터 추출된 데이터 샘플을 나타내며,
Figure 112019070472183-pat00006
는 노이즈 데이터 분포이고, z는
Figure 112019070472183-pat00007
로부터 추출된 노이즈 샘플이다.
판별기(D)는 입력 데이터가 실제 데이터인 경우에는 1을 출력하고, 그렇지 않으면 0을 출력한다. 따라서, D(x)=1이어야 하고, D(G(z))=0이어야 한다. 판별자는 V (D, G)를 최대화하려고 학습을 수행한다.
CGAN에서는 GAN과 달리 y와 관련된 제한 조건이 추가된다.
본 실시예에 따른 BCGAN은 경계선 근처의 소수 클래스 샘플을 기반으로 오버샘플링을 수행한다. 이를 위해, 도 7 내지 도 12에서와 같이, 보더라인 소수 클래스를 탐색하고, 보더라인 소수 클래스에 대해 레이블을 부여한다.
즉, 본 실시예에 따른 데이터는 다수 클래스, 소수 클래스 및 보더라인 소수 클래스로 구분되며, 이것이 y로 정의된다.
이후, 가우시안 분포로부터 랜덤하게 선택된 노이즈(z)와 함께 클래스 정보(y)를 생성기(G)에 입력한다.
본 실시예에 따른 생성기(G)는 도 14에 도시된 바와 같이 기존의 GAN에 y라는 특성을 추가적으로 반영하여 가상 데이터를 생성한다.
판별기(D)에 실제 데이터(
Figure 112019070472183-pat00008
), 가상 데이터(
Figure 112019070472183-pat00009
) 및 제한 조건이 입력된다. 판별기(D)는 실제 데이터와 가상 데이터를 구분한다. CGAN의 손실에 따라 생성기와 판별기가 파라미터를 업데이터를 하고 손실을 최소화하기 위한 과정은 반복하면서 학습을 완료한다.
도 15는 본 실시예에 따른 분류 장치의 구성을 도시한 도면이다.
도 15에 도시된 바와 같이, 본 실시예에 따른 분류 장치는 도 13 내지 도 14에서 설명한 바와 같이 학습이 완료된 생성기 및 분류기(Classifier)를 포함할 수 있다.
학습이 완료된 생성기는 랜덤하게 선택된 노이즈(z)와 도 12와 같은 보더라인 소수 클래스 샘플을 입력으로 하여 보더라인 소수 클래스의 특성을 갖는 가상 데이터(dataminority)를 생성한다.
분류기는 오버샘플링된 소수 클래스 샘플 및 트레이닝 데이터를 이용하여 분류 과정을 수행한다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (5)

  1. 오버샘플링 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    다수(majority) 클래스 및 소수(minority) 클래스를 포함하는 데이터에서, 미리 설정된 알고리즘을 이용하여 보더라인 소수 클래스(borderline minority class)를 탐색하고,
    대립신경망모델(GAN) 기반으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 이용하여 생성기 및 판별기를 학습하고,
    학습이 완료된 상기 생성기가 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스를 이용하여 오버샘플링을 수행하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
    상기 보더라인 소수 클래스 탐색은 k-NN 알고리즘에 의해 수행되며,
    제1 소수 클래스에 인접한 다수 클래스의 개수가 미리 설정된 범위에 있는 경우 상기 제1 소수 클래스가 보더라인 소수 클래스로 지정되고,
    상기 생성기는, 랜덤하게 선택된 노이즈와 제한 조건으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 입력 받아 가상 데이터를 생성하면서 학습되고,
    상기 학습이 완료된 상기 생성기는, 상기 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스 샘플을 입력으로 하여 상기 보더라인 소수 클래스의 특성을 갖는 가상 데이터를 생성하는 오버샘플링 장치.
  2. 삭제
  3. 제1항에 있어서,
    제1 소수 클래스에 인접한 다수 클래스의 개수가 아래의 수학식에 따라 결정된 범위 내에 있는 경우 상기 제1 소수 클래스가 보더라인 소수 클래스로 지정되는 오버샘플링 장치.
    [수학식]
    Figure 112022010508798-pat00010

    k: k number of k-NN
    m: Number of majority classes
  4. 제1항에 있어서,
    상기 생성기 및 판별기의 학습은 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 제약 조건으로 하여 수행되는 오버샘플링 장치.
  5. 불균형 데이터 처리를 위한 CGAN(Conditional Generative Adversarial Network) 기반의 오버샘플링 방법으로서,
    다수(majority) 클래스 및 소수(minority) 클래스를 포함하는 데이터에서, 미리 설정된 알고리즘을 이용하여 보더라인 소수 클래스(borderline minority class)를 탐색하는 단계;
    대립신경망모델(GAN) 기반으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 이용하여 생성기 및 판별기를 학습하는 단계; 및
    학습이 완료된 상기 생성기가 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스를 이용하여 오버샘플링하는 단계를 포함하되,
    상기 보더라인 소수 클래스 탐색은 k-NN 알고리즘에 의해 수행되며,
    제1 소수 클래스에 인접한 다수 클래스의 개수가 미리 설정된 범위에 있는 경우 상기 제1 소수 클래스가 보더라인 소수 클래스로 지정되고,
    상기 생성기는, 랜덤하게 선택된 노이즈와 제한 조건으로 상기 다수 클래스, 소수 클래스 및 보더라인 소수 클래스를 입력 받아 가상 데이터를 생성하면서 학습되고,
    상기 학습이 완료된 상기 생성기는, 상기 랜덤하게 선택된 노이즈와 상기 보더라인 소수 클래스 샘플을 입력으로 하여 상기 보더라인 소수 클래스의 특성을 갖는 가상 데이터를 생성하는 오버샘플링 방법.




KR1020190082977A 2019-06-28 2019-07-10 불균형 데이터 처리를 위한 gan 기반의 오버샘플링 방법 및 장치 KR102425503B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190077626 2019-06-28
KR1020190077626 2019-06-28

Publications (2)

Publication Number Publication Date
KR20210001805A KR20210001805A (ko) 2021-01-06
KR102425503B1 true KR102425503B1 (ko) 2022-07-26

Family

ID=74128250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190082977A KR102425503B1 (ko) 2019-06-28 2019-07-10 불균형 데이터 처리를 위한 gan 기반의 오버샘플링 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102425503B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048119A (ko) * 2017-10-30 2019-05-09 부산대학교 산학협력단 Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Nasik Muhammad Nafi, "Generative versus Sampling-Based Approaches to Variability of Class Imbalance in Visual Anomaly Detection",A THESIS for the degree M. S., KANSAS STATE UNIVERSITY (2019.05)*
서상현, 전용진, 이종수, 정호재, 김준태,"불균형 빅데이터의 효율적인 분류를 위한 생성적 적대 신경망 기반 오버샘플링 기법",한국정보과학회 학술발표논문집, 1030-1032, (2017.12.31)*

Also Published As

Publication number Publication date
KR20210001805A (ko) 2021-01-06

Similar Documents

Publication Publication Date Title
Rezende et al. Malicious software classification using transfer learning of resnet-50 deep neural network
Zhang et al. Feature selection using tabu search method
US20170344881A1 (en) Information processing apparatus using multi-layer neural network and method therefor
JP5880454B2 (ja) 画像識別装置及びプログラム
CN110110858B (zh) 一种基于强化学习的自动化机器学习方法
JP6102947B2 (ja) 画像処理装置及び特徴検出方法
Nguyen et al. Particle swarm optimisation with genetic operators for feature selection
CN112949693B (zh) 图像分类模型的训练方法、图像分类方法、装置和设备
JP6282045B2 (ja) 情報処理装置および方法、プログラム、記憶媒体
JP6039768B1 (ja) 調整装置、調整方法および調整プログラム
Ochoa et al. Recent advances in fitness landscape analysis
Baldini et al. Stochastic Information Granules Extraction for Graph Embedding and Classification.
JP2020053073A (ja) 学習方法、学習システム、および学習プログラム
CN112836735B (zh) 一种优化的随机森林处理不平衡数据集的方法
KR20170109304A (ko) 객체 인식을 위한 캐스케이드 분류기의 병렬 학습 방법
JP2010009518A (ja) パターン検出器の学習装置、学習方法及びプログラム
JP2009510509A (ja) セグメント別特徴比較によりプレイリストを自動生成する方法及び装置
JP4967705B2 (ja) クラスタ生成装置およびクラスタ生成プログラム
KR102425503B1 (ko) 불균형 데이터 처리를 위한 gan 기반의 오버샘플링 방법 및 장치
JP5187635B2 (ja) 能動学習システム、能動学習方法、及び能動学習用プログラム
Lin et al. A new density-based scheme for clustering based on genetic algorithm
Pourhabibi et al. Feature selection on Persian fonts: a comparative analysis on GAA, GESA and GA
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
KR101919698B1 (ko) 실루엣을 적용한 그룹 탐색 최적화 데이터 클러스터링 방법 및 시스템
Garcia et al. A parallel feature selection algorithm from random subsets

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant