KR102266950B1 - 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법 - Google Patents

데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법 Download PDF

Info

Publication number
KR102266950B1
KR102266950B1 KR1020190033526A KR20190033526A KR102266950B1 KR 102266950 B1 KR102266950 B1 KR 102266950B1 KR 1020190033526 A KR1020190033526 A KR 1020190033526A KR 20190033526 A KR20190033526 A KR 20190033526A KR 102266950 B1 KR102266950 B1 KR 102266950B1
Authority
KR
South Korea
Prior art keywords
data
instances
computer system
ensemble
subgroup
Prior art date
Application number
KR1020190033526A
Other languages
English (en)
Other versions
KR20200113397A (ko
Inventor
강대기
Original Assignee
동서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서대학교 산학협력단 filed Critical 동서대학교 산학협력단
Priority to KR1020190033526A priority Critical patent/KR102266950B1/ko
Publication of KR20200113397A publication Critical patent/KR20200113397A/ko
Application granted granted Critical
Publication of KR102266950B1 publication Critical patent/KR102266950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법에 관한 것이다. 본 발명은 다수 기업부실 데이터를 기준으로 다수 범주(정상기업)와 소수 범주(부도기업)로 구분하는 단계와 언더샘플링에 의하여 하위 인스턴스들의 집합을 구성하는 단계와 모집단에 대한 하위집단의 정보손실을 측정하기 위하여 모집단의 데이터와 하위집단의 데이터들 간의 유사성을 측정하는 단계와 각각의 하위집단을 기본 학습기를 이용하여 학습하고 앙상블을 구성하는 단계 및 검증을 위한 테스트 집합을 이용하여 각 분류자의 성과를 평가하고 이들의 성과 차이에 대한 통계적 유의성을 측정하는 단계를 포함하는 것을 특징으로 하는 것이다.

Description

데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법 {Method of under-sampling based ensemble for data imbalance problem}
본 발명은 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법에 관한 것으로, 더욱 자세하게는 데이터 불균형이 문제되는 사안에서 언더 샘플링 방식을 적용한 앙상블 학습방법으로 정확도를 높일수 있는 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법에 관한 것이다.
일반적으로 머신러닝(machine-learning)이 수행되는 응용이 데이터 불균형 상황이 되면 이로 인해 파생되는 문제점은 크게 두 가지가 있다.
첫째로, 분류자의 정확도가 데이터 불균형 상황에서는 바람직하지 않다는 점이다. 일반적으로 분류자의 성능 측정에서 보편적으로 활용되는 지표는 단순평균 기반 정확도(arithmetic mean based accuracy)이다. 이는 전체 학습 인스턴스 중에 올바르게 분류된 인스턴스의 비율로 계산된다. 상기 인스턴스란, 머신러닝이나 딥러닝에서 인스턴스는 통계학에서 하나의 case와 동일한 것으로 볼수 있다. 데이터베이스 테이블에서는 하나의 로우(row), 또는 레코드(record)이다. 예를 들어 일반적인 머신러닝 문제에서는 여러 개의 값들로 구성된 한 개의 복합적인 자료구조 데이터이며, 영상 관련 데이터에서는 하나의 이미지, 그리고 문서 처리 문제에서는 한 개의 문서로 볼 수 있다.
그런데, 데이터 불균형상황에서는 단순히 평균에 근거한 정확도는 다수 범주(majority class) 인스턴스들의 분류 정확성에 의존하여 분류자의 성과를 결정하게 되는 단점이 있다. 예를 들어, 기업의 부실은 발생 빈도가 매우 희귀한 사건으로 국내의 전문 신용평가기관은 국내 외부감사 법인의 장기평균 부도율을 약 3~ 5% 수준으로 예상하고 있다. 만일, 전체 외부감사 기업이 2만개이고 부실기업이 600개인 경우를 학습 자료로 활용하는 경우, 극단적으로 모든 기업에 대해 정상이라고 판단해도 단순평균 정확도는 97%가 된다.
이처럼 단순평균 정확도는 다수 범주인 정상 기업의 분류 정확성에 크게 의존하게 된다. 이처럼 데이터의 불균형을 가지는 문제들은 실생활에 매우 많다. 적 비행기와 아군 비행기를 판단하는 레이더 계측, 공장에서 기계의 장애를 판단하는 진단 기술, 메디컬 이미징에서 유방암, 폐암 등의 판별, 운영체제에서 해커의 침입을 판단하는 침입탐지 시스템 및 화재나 재난을 판단하는 시스템들 등 다양한 분야에서 데이터 불균형 문제를 가진다.
이러한 문제로 인하여 최근 다수 범주와 소수 범주의 정확도를 동시에 고려할 수 있는 ROC 분석(Receiving Operator Characteristic Analysis)이나 기하평균 정확도(geometric mean based accuracy)와 같은 지표들이 단순평균 정확도를 대체하여 이용되고 있다.
둘째, 분류자의 학습 성과가 저하되는 문제이다. 데이터 불균형 하에서 일반적인 머신러닝 학습은 다수 범주의 인스턴스들에 의해 결정 경계영역이 계속 커지므로 소수 범주 영역이 점차로 축소하고 결과적으로 소수 범주에 대한 분류 정확성이 급격히 감소된다. 이러한 분류 경계영역 침해의 문제를 해결하기 접근방법으로는 크게 분류자(또는 알고리즘) 수정기법(classifier/algorithms modification)과 데이터 수정기법(data manipulation)이 활용되고 있다.
분류자 수정기법 중 대표적인 기법인 비용 적응 전략(Cost-Adaptative Strategies)은 오분류에 대해 페널티를 부과하는 방식으로 데이터 분포를 왜곡시키지 않는다는 장점이 있는 반면, 데이터 불균형이 매우 심각할 경우 효과가 미미하다는 단점이 있다. 데이터 조작기법으로는 언더샘플링(Under-Sampling)과 오버샘플링(Over-Sampling) 기법이 활용되고 있는데 언더샘플링 기법은 정해진 규칙에 의해 소수 범주의 인스턴스들의 수와 동일하게 다수 범주의 인스턴스들을 추출하는 방법이다. 언더샘플링 기법은 학습시간이 단축 가능하다는 장점이 있지만, 다수 범주의 인스턴스들을 제거함으로써 발생하는 정보손실(loss of information)의 문제가 존재하고 있다.
반면, 오버샘플링 방법은 언더샘플링 방법과 정반대의 방법으로 정해진 규칙에 의해 다수 범주의 인스턴스들의 수만큼 소수 범주의 인스턴스들을 증가시키는 방법으로 부족한 소수 범주의 데이터를 증가시켜 대용량의 데이터 학습이라는 장점이 있는 반면, 소수 범주의 데이터 간의 유사성(similiarity) 문제로 인한 over-fitting 문제가 존재하고 있다.
대한민국 특허공개 제2001-0087974호 대한민국 특허공개 제2007-0067484호 대한민국 특허공개 제2018-0130511호 대한민국 특허등록 제10-1563406호
따라서, 본 발명은 이러한 문제점을 해결하기 위한 것으로, 데이터가 불균형되는 상황에서 추출된 인스턴스들이 모집단의 특성을 충분히 대표하지 못하는 경우에 데이터의 객관성이 감소되는 문제점을 극복하기 위해 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 학습 방법을 제공함에 있다.
이러한 목적을 달성하기 위하여 본 발명은 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법에 있어서, 다수 기업부실 데이터를 기준으로 다수 범주와 소수 범주로 구분하는 단계와 언더샘플링에 의하여 하위 인스턴스들의 집합을 구성하는 단계와 모집단에 대한 하위집단의 정보손실을 측정하기 위하여 모집단의 데이터와 하위집단의 데이터들 간의 유사성을 측정하는 단계와 각각의 하위집단을 기본 학습기를 이용하여 학습하고 앙상블을 구성하는 단계 및 검증을 위한 테스트 집합을 이용하여 각 분류자의 성과를 평가하고 이들의 성과 차이에 대한 통계적 유의성을 측정하는 단계를 포함하는 것을 특징으로 한다.
또한, 상기 단계에서 상기 인스턴스들의 집단은 다수 범주를 가지는 인스턴스들에서 무작위로 추출하며, 상기 인스턴스들의 수는 상기 소수범주의 수와 동일한 것을 특징으로 한다.
또한, 상기 단계에서 상기 앙상블의 구성방식은 부스팅, 배깅, 아킹, 스태킹 중에서 선택되는 어느 하나인 것을 특징으로 한다.
또한, 상기 부스팅의 알고리즘으로는 에이다부스트(Adaboost) 알고리즘 또는 GM-Boost 알고리즘인 인 것을 특징으로 하는 것이다.
따라서, 본 발명은 데이터 불균형의 문제점을 완화하고 다수 범주와 소수 범주에 대한 균형적 학습이 가능하며, 상기 다수 범주와 소수 범주를 가지는 데이터의 불균형이 존재하는 분류 문제에 대해 검증이 가능한 언더샘플링을 수행하며, 이에 대해 머신러닝 알고리즘으로 유도된 분류기들의 앙상블 학습 알고리즘들을 적용하여 높은 정확도와 신뢰성을 가질수 있게 하는 효과가 있다.
도 1은 부스팅 알고리즘의 사진.
도 2는 본 발명에 의한 언더샘플링 기반 앙상블 방법의 흐름도.
이하에서는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시가 되더라도 가능한 한 동일 부호를 가지도록 하고 있음에 유의하여야 한다.
또한, 하기에서 본 발명을 설명함에 있어 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
본 발명의 상세한 사항을 다루기 전에, 중요한 용어를 정의하거나 또는 명확히 하기로 한다.
언더샘플링(Under-Sampling)은 전체 데이터셋에서 데이터를 무작위 확률로 선택해서 선택된 데이터로 이루어진 작아진 데이터셋을 사용하는 방식이다.
데이터를 무작위로 선택하는 방법은 다양하지만, 가장 중요한 점은 데이터의 특성과 상관없도록 뽑아야 한다는 것이다. 예를 들어, 사용자 구매 이력 데이터에서 50% 확률로 데이터를 뽑는 것은 괜찮지만, 사용자 이름이 가나다순으로 정렬된 데이터셋의 앞부분 절반만 사용하는 것은 데이터의 특성을 바꿀 수 있기 때문이다.
랜덤 언더샘플링(Random Under-Sampling; RUS) 알고리즘은 다수범주 집단에서 무작위로 인스턴스들을 추출하는 알고리즘으로 추출한 인스턴스들의 수는 다수범주 집단의 인스턴스들의 수보다 적어야 한다.
따라서, 본 발명은 언더샘플링된 하위집단 데이터에 대해 머신러닝 알고리즘을 수행하고 이러한 앙상블을 구성하는 방법으로 데이터 불균형 문제를 해결하는 것이 특징인 것이다.
이러한 앙상블을 구성하는 방법은 매우 다양하나 본 발명에서는 부스팅(boosting) 알고리즘을 예로서 설명한다. 그 외의 구성 방법인 배깅(bagging), 아킹(arcing), 스태킹(stacking) 등을 통한 앙상블 구성도 가능하며, 본 발명의 카테고리에 포함된다.
상기 부스팅(boosting) 알고리즘은 잘못 분류된 개체들에 집중하여 새로운 분류기를 만드는 단계를 반복하는 방법을 의미한다. 머신러닝의 분류 문제에서 잘못 분류된 개체들에게 관심을 가지고 이들을 더 잘 분류하는 새로운 분류기를 구성할 수 있다.
이러한 경우, 과거의 분류기와 새로운 분류기를 같이 사용한다면 전체 분류의 성능을 높일 수 있다. 부스팅을 통해 잘못 분류된 개체들에 대해 집중하여 새로운 분류기를 만드는 과정을 반복하고, 이러한 분류기들의 집합을 구성할 수 있는 데, 이것이 바로 부스팅 알고리즘이고, 이러한 분류기들의 집합을 앙상블이라 부른다.
즉, 도 1과 같이 약한 분류기(weak classifier)들을 결합하여 전체적으로 강한 분류기를 만드는 것이 바로 부스팅 알고리즘이다. 이렇게, 부스팅 알고리즘은 약한 학습기(weak learner)라 불리우는 다른 학습 알고리즘들의 결과물들에 가중치를 두어 하나의 집합으로 구성하는 방법이다.
대표적인 부스팅 알고리즘으로 에이다부스트(AdaBoost) 알고리즘의 의사 코드는 이하의 수식이다.
[ 에이다부스트 ( AdaBoost ) 알고리즘]
Figure 112019030309177-pat00001
상기와 같이 AdaBoost에서는 다른 학습 알고리즘(약한 학습기, weak learner)의 결과물들을 가중치를 두어 더하는 방법으로 가속화 분류기의 최종 결과물을 표현할 수 있다. 상기 AdaBoost는 이전 분류기에 의해 잘못 분류된 것들을 이어지는 다른 학습 알고리즘(약한 학습기)들이 수정해줄 수 있다는 점에서 다양한 상황에 적용할 수 있다.
이러한 다른 부스팅 알고리즘으로 GM-Boost(geometric mean based boosting) 방법이 있다. 상기 GM-Boost란 다양한 부스팅 알고리즘의 데이터 불균형 문제의 해결 대안으로 기하평균 정확도와 기하평균 오류계산을 기반으로 하는 부스팅 알고리즘을 의미한다.
이처럼 앞에서 설명한 대로 부스팅 알고리즘이나 배깅(bagging), 아킹(arcing), 스태킹(stacking) 등의 다양한 방법으로 앙상블을 구성할 수 있다.
이러한 앙상블은 특정한 머신러닝 알고리즘의 결과로 생성되는 분류기들의 집합에서 만들어진다.
앙상블 기법에 대한 연구에서는 이렇게 앙상블을 구성하기 위한 하나의 분류기를 학습하는 머신러닝 알고리즘을 기본 학습기(base learner) 또는 기본 학습 알고리즘(base learning algorithm)이라고 부른다.
모든 학습 알고리즘이 기본 학습기(base leraner)가 될 수 있으며, 대표적인 기본 학습기로는 SVM이 있다. SVM이란 Support Vector Machine의 약자로 특징 공간에서 주어진 두 분류의 데이터를 구분지을 수 있는 최적(optimal)의 초평면(hyperplane)을 의미한다. SVM은 그러한 support vector를 찾는 알고리즘으로 두 분류에서 가장 가까운 데이터를 하나씩 찾아서 그 거리를 계산했을 때 가장 멀어질 수 있는 초평면을 찾는 것을 목표로 한다.
본 발명에 따른 데이터 불균형 해결을 위한 언더샘플링 적용 방법은 도 2에 흐름도가 도시된 바와 같다.
즉, 주어진 데이터를 기준으로 다수 범주와 소수범주로 구분하는 단계(S100); 랜덤 언더샘플링(Random Undersampling; RUS)에 의하여 하위집단의 인스턴스들 집합을 구성하는 단계(S200); 모집단에 대한 하위집단의 정보손실을 측정하기 위하여 모집단의 인스턴스들과 하위집단의 인스턴스들 간의 유사성을 측정하는 단계(S300); 각각의 하위집단을 기본 학습기를 이용하여 학습하여 앙상블을 구성하는 단계(S400) 및 검증을 위한 테스트 집합을 이용하여 각 분류자의 성과를 평가하고 이들의 성과 차이에 대한 통계적 유의성을 측정하는 단계(S500)로 이루어진다.
이하, 상기 흐름(S100~ S500)에 관하여 설명하기로 한다.
주어진 데이터를 기준으로 다수 범주와 소수범주로 구분하는 단계(S100)에서는 데이터의 범주들마다 인스턴스들의 개수를 계산하여 상대적으로 양이 더 많은 범주를 다수 범주로 간주한다.
랜덤 언더샘플링(Random Undersampling; RUS)에 의하여 하위집단의 인스턴스들 집합을 구성하는 단계(S200)에서는 다수 범주를 가지는 인스턴스들에서 무작위로 인스턴스들을 추출한다.
이때, 다수 범주에서 추출하는 인스턴스들의 수는 소수 범주 인스턴스들의 수와 동일하게 한다. 언더샘플링은 다수 범주 인스턴스들에 대해서만 수행하며, 언더샘플링의 결과로 하위 집단의 다수 범주 인스턴스들이 구성된다. 이렇게 언더샘플링된 다수 범주 인스턴스들과 기존의 소수 범주 인스턴스들을 합하여 하위집단을 구성한다.
모집단에 대한 하위집단의 정보손실을 측정하기 위하여 모집단의 인스턴스들과 하위집단의 인스턴스들 간의 유사성을 측정하는 단계(S300)에서는 모집단과 하위집단 간의 거리 또는 디버전스(divergence)를 구하는 방법으로 정보 손실을 측정할 수 있다. 서로 다른 두 집단 X1과 X2의 집단 간 거리는 다음과 같이 정의된다.
Figure 112019030309177-pat00002
여기서 N1은 X1의 인스턴스의 개수, N2은 X2의 인스턴스의 개수,
Figure 112019030309177-pat00003
,
Figure 112019030309177-pat00004
이며, dist는 어떠한 거리 측정 수단이나 디버전스도 가능하다.
주로, 마할라노비스 거리(Mahalanobis distance), 유클리드 거리(Euclid distance), 또는 쿨백-리블러 디버전스(Kullback-Liebler divergence), 잰슨-새넌 디버전스(Jensen-Shannon divergence) 등이 사용된다. 측정된 거리가 미리 정해진 임계값(thr eshold)보다 작으면 유사한 것으로 간주할 수 있다.
각각의 하위 집단을 기본 학습기를 이용하여 학습하여 앙상블을 구성하는 단계(S400)에서는 앙상블(ensemble)의 구성을 위해 다양한 앙상블 학습 알고리즘이 가능하다. 주로 사용되는 방식으로는 부스팅(boosting), 배깅(bagging), 아킹(arcing), 스태킹(stacking) 등이 있다. 이 중 부스팅의 알고리즘을 선택할 경우, 이전에서 설명했었던 에이다부스트(Adaboost) 또는 지엠부스트(GM-Boost)를 사용할 수 있다.
검증을 위한 테스트 집합을 이용하여 각 분류자의 성과를 평가하고 이들의 성과차이에 대한 통계적 유의성을 측정하는 단계(S500)에서는 여러 방법이 가능하지만, 이를 측정하기 위하여 귀무가설(제안한 알고리즘에 의한 성능 향상이 우연한 결과일 뿐이라는 가설)을 기각할 수 있는지를 측정하는 방법들을 사용하거나, 특정 신뢰도에 대한 신뢰구간을 계산하여 이를 비교하는 방법을 사용한다.
이 경우, 언더샘플링을 수행하지 않은 앙상블 알고리즘의 결과를 대조군으로 잡고, 언더샘플링을 적용한 앙상블 알고리즘의 결과를 실험군으로 삼는다.
따라서, 본 발명은 데이터 불균형의 상황에서, 추출된 인스턴스(case)들이 모집단의 특성을 충분히 대표하지 못함으로 인해 일반화 또는 객관화의 특성이 감소되는 문제점을 극복하기 위해, 언더샘플링으로 데이터 불균형의 문제점을 완화하고 다수 범주와 소수 범주에 대한 균형적 학습이 가능하도록 하고, 이를 기본 학습기들로 학습하여 그 결과를 앙상블로 구성하는 실시 예로서 데이터 불균형이 존재하는 2범주 분류 문제인 침입 탐지 문제(예, 시스템에서 해커가 침입해서 컴퓨터 교란)와 기업부실 예측문제(즉, 기업의 흥망예측)와 같은 데이터의 불균형으로 인하여 초래되는 데이터의 불균형 문제를 해소할 수 있는 우수한 효과가 있는 것이다.
이상에서와 같이, 상기 서술한 내용은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (4)

  1. 머신러닝 알고리즘을 수행하는 컴퓨터 시스템의 데이터 불균형 문제를 해결하기 위하여 언더 샘플링 방식을 적용한 앙상블 학습방법에 있어서

    상기 컴퓨터 시스템은 다수의 기업부실 데이터를 다수 범주와 소수 범주로 구분하는 제1단계(S100);
    상기 제1단계에서, 상기 컴퓨터 시스템은 상기 소수 범주로 구분된 데이터들로 하위 인스턴스들의 집합인 하위집단을 구성하는 제2단계(S200);
    상기 제2단계에서, 상기 컴퓨터 시스템은 상기 하위집단의 정보손실을 측정하기 위하여 모집단의 데이터와 상기 하위집단의 데이터들 간의 아래 식에 의하여 구한 거리에 의하여 유사성을 측정하는 제3단계(S300);
    모집단과 하위집단 간의 거리 또는 디이버전스(divergence)를 구하는 방법으로 정보 손실을 측정하며, 서로 다른 두 집단 X1과 X2의 집단 간 거리(d)는 다음과 같이 정의하며,
    Figure 112021501589522-pat00007

    여기서 N1은 X1의 인스턴스의 개수, N2은 X2의 인스턴스의 개수,
    Figure 112021501589522-pat00008
    Figure 112021501589522-pat00009
    이며,
    상기 제3단계에서, 상기 컴퓨터 시스템은 상기 하위집단을 학습하여 앙상블을 구성하는 제4단계(S400); 및
    상기 제4단계에서, 상기 컴퓨터 시스템은 상기 앙상블을 상기 식에 의하여 구한 집단간의 거리에 의하여 유사성을 평가하는 제5단계(S500);
    상기 제5단계에서, 상기 컴퓨터 시스템에서 유사성을 평가하는 방법은 제안한 알고리즘에 의한 성능 향상이 우연한 결과일 뿐이라는 가설을 기각할 수 있는지를 측정하는 방법(귀무가설)을 사용하거나, 특정 신뢰도에 대한 신뢰구간을 계산하여 이를 비교하는 것을 포함하는 것을 특징으로 하는 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법.
  2. 제1항에 있어서,
    상기 제2단계(S200)에서, 상기 컴퓨터 시스템은 상기 인스턴스들의 집단은 다수 범주를 가지는 인스턴스들에서 무작위로 추출하며, 상기 인스턴스들의 수는 상기 소수범주의 수와 동일한 것을 특징으로 하는 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법.
  3. 제1항에 있어서,
    상기 S400에서, 상기 컴퓨터 시스템은 상기 앙상블의 구성방식은 부스팅, 배깅, 아킹, 스태킹 중에서 선택되는 어느 하나인 것을 특징으로 하는 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법.
  4. 제3항에 있어서,
    상기 컴퓨터 시스템은 상기 부스팅의 알고리즘을 선택하게 되면 에이다부스트(Adaboost) 알고리즘 또는 GM-Boost 알고리즘인 것을 특징으로 하는 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법.
KR1020190033526A 2019-03-25 2019-03-25 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법 KR102266950B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190033526A KR102266950B1 (ko) 2019-03-25 2019-03-25 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190033526A KR102266950B1 (ko) 2019-03-25 2019-03-25 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Publications (2)

Publication Number Publication Date
KR20200113397A KR20200113397A (ko) 2020-10-07
KR102266950B1 true KR102266950B1 (ko) 2021-06-17

Family

ID=72884096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190033526A KR102266950B1 (ko) 2019-03-25 2019-03-25 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Country Status (1)

Country Link
KR (1) KR102266950B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433989B (zh) * 2023-06-08 2023-12-01 深圳大学 特征增强方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100369901B1 (ko) 2000-03-09 2003-01-29 백승헌 네트워크를 기반으로 한 3차원 이미지 생성 시스템 및 그방법
KR20070067484A (ko) 2005-12-23 2007-06-28 삼성전자주식회사 무선 네트워크 기능을 갖는 복합 화상 형성 장치 및 그복합 화상 형성 장치에서의 이미지 데이터 처리 방법
KR101563406B1 (ko) 2013-12-13 2015-10-26 건국대학교 산학협력단 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법
CA3016903A1 (en) 2016-03-09 2017-09-14 EchoNous, Inc. Ultrasound image recognition systems and methods utilizing an artificial intelligence network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Maira Anis et al., A Novel Similarity Based Under-sampling of Imbalanced Datasets, International Journal of Computer Science and Information Secutiry*
김경민 et al., 불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법, KIISE Transactions on Computing Practices*

Also Published As

Publication number Publication date
KR20200113397A (ko) 2020-10-07

Similar Documents

Publication Publication Date Title
Kim et al. Geometric mean based boosting algorithm with over-sampling to resolve data imbalance problem for bankruptcy prediction
Sinha et al. Evaluating and tuning predictive data mining models using receiver operating characteristic curves
Mohammadi et al. Customer credit risk assessment using artificial neural networks
JP7173332B2 (ja) 不正検知装置、不正検知方法および不正検知プログラム
US10733385B2 (en) Behavior inference model building apparatus and behavior inference model building method thereof
CN110991474A (zh) 一种机器学习建模平台
Raeisi Shahraki et al. Important neighbors: A novel approach to binary classification in high dimensional data
JP2011520183A (ja) サンプルデータの分類
US20060206443A1 (en) Method of, and system for, classification count adjustment
CN112632609A (zh) 异常检测方法、装置、电子设备及存储介质
Júnior et al. Specialized support vector machines for open-set recognition
Manikandan et al. Feature selection on high dimensional data using wrapper based subset selection
CN114746859A (zh) 评价方法、评价程序以及信息处理装置
Muttaqien et al. Increasing performance of IDS by selecting and transforming features
KR102266950B1 (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
US20110299731A1 (en) Information processing device and method, and program
JP2018018153A (ja) 鋼種判別装置及び鋼種判別方法
WO2015070314A1 (en) Supervised credit classifier with accounting ratios
JP6659120B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Lorenz et al. Unfolding local growth rate estimates for (almost) perfect adversarial detection
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN109918905B (zh) 行为推论模型生成装置及其行为推论模型生成方法
Zhang et al. Unbalanced data classification based on oversampling and integrated learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant