KR101828503B1 - 앙상블 모델 생성 장치 및 방법 - Google Patents

앙상블 모델 생성 장치 및 방법 Download PDF

Info

Publication number
KR101828503B1
KR101828503B1 KR1020170106711A KR20170106711A KR101828503B1 KR 101828503 B1 KR101828503 B1 KR 101828503B1 KR 1020170106711 A KR1020170106711 A KR 1020170106711A KR 20170106711 A KR20170106711 A KR 20170106711A KR 101828503 B1 KR101828503 B1 KR 101828503B1
Authority
KR
South Korea
Prior art keywords
data
test data
ensemble model
classes
prediction models
Prior art date
Application number
KR1020170106711A
Other languages
English (en)
Inventor
강정석
김광호
정윤희
Original Assignee
주식회사 에이젠글로벌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이젠글로벌 filed Critical 주식회사 에이젠글로벌
Priority to KR1020170106711A priority Critical patent/KR101828503B1/ko
Application granted granted Critical
Publication of KR101828503B1 publication Critical patent/KR101828503B1/ko

Links

Images

Classifications

    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따른 앙상블 모델 생성 장치는 제1 학습 데이터를 기초로 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 예측 모델 생성부 및 제2 학습 데이터를 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 목적 변수에 대한 확률을 기계 학습의 입력 데이터로 설정하고 목적 변수를 출력 데이터로 설정하여 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 앙상블 모델 생성부를 포함한다.

Description

앙상블 모델 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING ENSEMBLE MODEL}
본 발명은 앙상블 모델 생성 장치 및 방법에 관한 것으로서, 보다 자세하게는 복수의 예측 모델을 가중치에 따라 조합하는 앙상블을 수행하고, 앙상블 모델의 출력값에 대하여 비용을 최소화시키는 임계치를 결정하는 앙상블 모델 생성 장치 및 방법에 관한 것이다.
기계 학습 또는 머신 러닝(machine learning)은 인공 지능의 한 분야로서 컴퓨터가 특정 문제에 대한 올바른 답을 도출할 수 있도록 학습 데이터를 통해 문제와 답 사이의 연관 관계를 스스로 학습하게 하는 기술을 의미한다.
최근에는 하나의 기계 학습 알고리즘을 통해 생성된 예측 모델을 사용할 뿐만 아니라, 동일한 학습 데이터에 여러 가지 기계 학습 알고리즘을 적용하여 생성한 다양한 예측 모델을 조합하여 결과를 도출하는 앙상블 알고리즘에 대한 연구가 활발히 진행되고 있다.
한국 동록특허공보 제10-1713487호: 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램
본 발명의 실시예에서 해결하고자 하는 과제는 여러 가지 기계 학습 알고리즘을 통해 생성된 다양한 예측 모델을 앙상블 함에 있어 예측 모델 간의 가중치를 자동으로 결정하는 기술을 제공하는 것이다.
또한 예측 모델을 사용하여 서비스를 제공하는 분야에서 비즈니스 비용이 최소화되도록 예측 모델에 입력된 데이터의 클래스를 구분하는 임계치를 결정하는 기술을 제공하고자 한다.
다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.
본 발명의 일 실시예에 따른 앙상블 모델 생성 장치는 제1 학습 데이터를 기초로 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 예측 모델 생성부 및 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 기계 학습의 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 앙상블 모델 생성부를 포함한다.
이때 상기 복수의 기계 학습 알고리즘은 상기 목적 변수의 특성에 따라 이미 선택되어 있을 수 있다.
또한 상기 복수의 기계 학습 알고리즘은 사용자로부터 선택 받은 복수의 기계 학습 알고리즘일 수 있다.
더불어 상기 복수의 기계 학습 알고리즘은 logistic regression, multi-layer perceptron, stochastic gradient descent, bagging, k-nearest neighbor, random forest, support vector machine 중 둘 이상을 포함할 수 있다.
아울러 상기 예측 모델 생성부는 상기 제1 학습 데이터로부터 상기 복수의 예측 모델의 각각의 학습에 사용될 각각의 샘플 세트를 생성하고, 상기 각각의 샘플 세트를 기초로 상기 복수의 예측 모델을 학습시킬 수 있다.
또한 상기 각각의 샘플 세트는 각각 상기 제1 학습 데이터로부터 상이한 특징(feature)을 추출하여 생성된 특징 벡터(feature vector)로 이루어질 수 있다.
더하여 상기 출력 데이터는 상기 제2 학습 데이터의 상기 목적 변수가 속하는 클래스가 매핑된 레이블일 수 있다.
한편 상기 장치는 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하는 임계치 결정부를 더 포함할 수 있다.
이때 상기 임계치 결정부는 상기 테스트 데이터가 상기 임계치에 따라 상기 소정의 클래스 중 어느 하나의 클래스로 분류될 때, 상기 테스트 데이터에서 실제 클래스가 동일한 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 적중률, 및 상기 어느 하나의 클래스로 분류된 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 정밀도를 기초로 상기 임계치를 결정할 수 있다.
더불어 상기 임계치 결정부는
Figure 112017081612741-pat00001
의 값이 최대가 되도록 상기 임계치의 값을 결정할 수 있다. (상기 R은 상기 적중률, 상기 P는 상기 정밀도, 상기
Figure 112017081612741-pat00002
는 과탐지에 의한 손실 비용 대비 미탐지에 의한 손실 비용)
본 발명의 일 실시예에 따른 앙상블 모델 생성 방법은 제1 학습 데이터를 기초로 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 단계 및 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 단계를 포함할 수 있다.
이때 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하는 단계를 더 포함할 수 있다.
기존 앙상블의 모델 별 결합 가중치는 전문가의 선험적 경험에 의한 직접적 설정이었으나, 본 발명의 실시예에 따르면 목적변수가 속하는 클래스에 매핑되도록 하는 학습 과정에 기반한 기계 학습으로 가중치를 자동 산출할 수 있다.
또한 예측 모델을 사용하여 서비스를 제공하고자 하는 분야에 맞추어 앙상블에 사용될 기계 학습 알고리즘의 조합을 선별할 수 있다.
더불어 학습 데이터에 대해 각 예측 모델이 출력한 확률과 학습 데이터의 목표 변수 사이의 연관 관계를 기초로 각 예측 모델의 가중치를 결정함으로써, 보다 정확한 결과를 도출하도록 할 수 있다.
아울러 예측 모델을 사용하여 서비스를 제공하는 분야의 비용을 고려한 점수를 기초로 예측 모델에 입력된 데이터의 클래스를 구분하는 임계치를 결정함으로써 손실 비용을 최소화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치의 기능 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치가 조합할 수 있는 기계 학습 알고리즘의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치의 앙상블부가 예측 모델 간의 가중치를 학습하는 것을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치가 임계치 결정부를 더 포함하는 것을 나타내는 기능 블럭도이다.
도 5는 본 발명의 일 실시예에 따른 임계치에 따라 분류된 테스트 데이터의 클래스 및 테스트 데이터의 실제 클래스를 나타내는 예시도이다.
도 6은 FDS 분야에서 카드 승인 데이터를 예측 모델에 입력한 경우 출력되는 점수를 임계치에 따라 분류하여 클래스를 정하는 것을 설명하기 위한 예시도이다.
도 7은 FDS 분야에서 카드 승인 데이터가 도 6에 따라 분류된 클래스에 기초하여 카드 승인 데이터가 사기에 해당하는지 체크하는 과정을 설명하기 위한 예시도이다.
도 8은 적중률 및 정밀도를 기초로 손실 비용이 최소인 점수를 산정하는 것을 설명하기 위한 예시도이다.
도 9는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치를 신용 등급에 따른 대출에 적용하는 경우 감소하는 연체율을 설명하는 실험 결과이다.
도 10은 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치를 신용 등급에 따른 대출에 적용하는 경우 증가하는 성능을 설명하는 실험 결과이다.
도 11은 본 발명의 일 실시예에 따른 앙상블 모델 생성 방법의 프로세스를 도시하는 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.  그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다.  그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.  그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다.
또한 '제1, 제2' 등과 같은 표현은 복수의 구성들을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다.
이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)의 기능 블럭도이다.
도 1을 참조하면, 본 발명의 일 실시예는 예측 모델 생성부(110) 및 앙상블 모델 생성부(120)를 포함한다.
예측 모델 생성부(110)는 제1 학습 데이터를 기초로 기계 학습 알고리즘을 통해 소정의 목적 변수를 예측하는 예측 모델을 생성한다. 이를 위해, 예측 모델 생성부(110)는 제1 학습 데이터로부터 목적 변수를 예측하는데 연관성이 있는 요소를 특징(feature)으로 설정하여 특징 벡터(feature vector)를 생성하고, 목적 변수에 특정 클래스(class)를 지칭하는 레이블(label)을 매핑하여, 특징 벡터와 목적 변수와의 상관 관계가 학습된 예측 모델을 생성할 수 있다.
예를 들어, 은행에서 신규 고객이 대출을 요청할 경우 신규 고객의 정보를 기초로 추후 신규 고객이 대출금을 상환할 것인지 예측하는 예측 모델을 생성하는 경우, 은행과 대출 거래가 있는 기존 고객들의 빅데이터를 제1 학습 데이터로 사용할 수 있다. 이때 대출금 상환 가능성을 예측하는 데에 연관성이 있는 기존 고객의 신용 등급, 자본, 나이, 주거 형태 등의 정보를 특징으로 추출하여 입력 변수로 사용하고, 기존 고객의 대출금 상환 여부를 목적 변수로 설정할 수 있다. 이때 목적 변수의 클래스는 상환한 고객과 상환하지 않은 고객으로 나누어 상환한 고객의 클래스에 '1', 상환하지 않은 고객의 클래스에 '0'의 레이블을 매핑하여 클래스를 구분할 수 있다. 이와 같은 과정을 통해 학습이 완료된 예측 모델에 신규 고객의 신용 등급, 자본, 나이, 주거 형태 등에 해당하는 정보를 입력하면 예측 모델은 신규 고객의 대출금 상환 가능성을 출력할 수 있다.
본 발명의 실시예는 위의 예시에 한정되는 것이 아니라, 은행 거래 고객의 신용 평가 모형(credit scoring system, CSS), 조기 상환, 연체율, 부도, 사기 탐지 시스템(fraud detection system, FDS), 고객의 탈퇴 예측, 상품 선택 패턴 예측 등의 다양한 분야에 적용될 수 있다.
또한 예측 모델 생성부(110)는 도 2에 도시된 바와 같은 복수의 기계 학습 알고리즘을 이용하여 복수의 예측 모델을 생성할 수 있다.
도 2는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)가 조합할 수 있는 기계 학습 알고리즘의 예시도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)는 logistic regression, multi-layer perceptron, stochastic gradient descent, bagging, k-nearest neighbor, random forest, support vector machine 중 적어도 둘 이상의 알고리즘을 조합하여 사용할 수 있다.
이때 예측 모델 생성부(110)는 예측하고자 하는 목적 변수의 특성에 따라 적절한 기계 학습 알고리즘들을 사용할 수 있다. 예를 들어, 목적 변수가 이항 분류 형태일 때는 logistic regression, multi-layer perceptron, stochastic gradient descent, bagging, random forest, decision tree, support vector machine, k-nearest neighbor 중 적어도 둘 이상을 사용 수 있고, 목적 변수가 다중 분류 형태일 때는 multinomial logistic regression, multi-layer perceptron, stochastic gradient descent, random forest, decision tree 중 적어도 둘 이상을 사용할 수 있고, 목적 변수가 회귀 분석 형태일 때는 linear regression, bayesian regression, kernel ridge regression 중 둘 이상을 사용할 수 있다.
일 실시예에서 예측 모델 생성부(110)는 사용자로부터 사용될 기계 학습 알고리즘들을 선택 받을 수 있고, 또는 상술한 바와 같이 목적 변수의 특성에 따라 더 적합한 기계 학습 알고리즘들을 자동으로 선택할 수 있다.
한편, 위에 열거된 기계 학습 알고리즘의 종류는 예시일 뿐으로, 본 발명의 일 실시예에 사용될 수 있는 기계 학습 알고리즘이 위에 열거된 예시로 한정되지 않는다.
또한 예측 모델 생성부(110)는 복수의 기계 학습 알고리즘 각각의 특성이 상이하기 때문에, 각 기계 학습 알고리즘에 사용될 특징을 제1 학습 데이터로부터 각기 다르게 추출할 수 있다. 즉, 복수의 기계 학습 알고리즘의 각각의 특성을 기초로 제1 학습 데이터로부터 상이한 특징을 추출하여 각각의 예측 모델의 학습에 사용될 각각의 샘플 세트(샘플 세트 1, 샘플 세트 2, ..., 샘플 세트 n)를 생성하고, 각각의 샘플 세트를 기초로 각각의 예측 모델(예측 모델 1, 예측 모델 2, ..., 예측 모델 n)을 학습시킬 수 있다.
예를 들면, 도 1에 도시된 바와 같이 n개의 기계 학습 알고리즘을 통해 n개의 예측 모델을 생성한다고 할 때, 예측 모델 1을 학습시키기 위해 사용될 특징 벡터의 집합인 샘플 세트 1, 예측 모델 2를 학습시키기 위해 사용될 특징 벡터의 집합인 샘플 세트 2 등과 같이, 제1 학습 데이터로부터 추출된 특징이 상이한 n 개의 샘플 세트를 생성하고, 각각의 샘플 세트를 기초로 복수의 예측 모델을 생성할 수 있다.
한편, 앙상블 모델 생성부(120)는 예측 모델 생성부(110)가 생성한 각 예측 모델(예측 모델 1, 예측 모델 2, ..., 예측 모델 n)에 제2 학습 데이터를 입력하였을 때 출력되는 목적 변수에 대한 각각의 확률(확률 세트 1, 확률 세트 2, ..., 확률 세트 n)을 앙상블 모델을 위한 기계 학습의 입력 데이터로 설정하고 예측 모델을 생성할 때 설정하였던 목적 변수와 동일한 목적 변수를 앙상블 모델을 위한 기계 학습의 출력 데이터로 설정하여, 복수의 예측 모델이 앙상블될 때, 목적 변수를 올바르게 예측하도록 복수의 예측 모델의 출력 간 가중치를 학습시켜 앙상블 모델을 생성할 수 있다. 이때 제2 학습 데이터는 제1 학습 데이터 중 예측 모델의 학습에 사용되지 않고 검증을 위해 사용되는 검증 데이터(validation set)일 수 있고, 또는 제1 학습 데이터와 동일한 특징 및 목적 변수에 대한 정보를 보유한 새로운 데이터 집합일 수 있다.
앙상블 모델 생성부(120)의 상세 동작을 도 3을 참조하여 살펴본다. 예를 들어 제2 학습 데이터가 3개(T1, T2, T3)가 있다고 가정한다(실제로는 훨씬 더 많은 수의 제2 학습 데이터가 사용되지만 설명의 편의상 3개의 제2 학습 데이터를 기준으로 설명한다). 이때 예측 모델 생성부(110)가 n개의 예측 모델을 생성하였다면, 앙상블 모델 생성부(120)는 3개의 제2 학습 데이터를 n 개의 예측 모델 각각에 입력하여 목적 변수에 대한 확률을 구할 수 있다. 이때 도 3과 같이 예측 모델 1이 제2 학습 데이터에 대하여 출력한 결과를 P1 세트, 예측 모델 2가 제2 학습 데이터에 대하여 출력한 결과를 P2 세트, 예측 모델 n이 제2 학습 데이터에 대하여 출력한 결과를 Pn 세트로 지칭한다. 이후, 앙상블 모델 생성부(120)는 T1에 의해 생성된 P1부터 Pn, T2에 의해 생성된 P1 부터 Pn, T3에 의해 생성된 P1 부터 Pn의 각각을 하나의 특징 벡터로 생성하고, 각각의 특징 벡터로부터 T1, T2, T3에 대응되는 목적 변수에 대한 클래스를 학습시킨 앙상블 모델을 생성할 수 있다. 이때 도 3은 앙상블 모델을 만들기 위한 기계 학습 알고리즘을 딥러닝 신경망을 예시로 도시하였으나, 사용할 수 있는 기계 학습 알고리즘을 한정하기 위함은 아니며 다양한 기계 학습 알고리즘을 사용할 수 있다.
이에 따라, 앙상블 모델 생성부(120)는 각 예측 모델을 앙상블 함에 있어 목적 변수를 더욱 정확하게 예측할 수 있도록 각 예측 모델 간의 가중치를 학습하여 앙상블 모델을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)가 임계치 결정부(130)를 더 포함하는 것을 나타내는 기능 블럭도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)는 도 1과 함께 설명한 예측 모델 생성부(110) 및 앙상블 모델 생성부(120)에 더하여, 임계치 결정부(130)를 더 포함할 수 있다.
예측 모델 생성부(110)가 복수의 예측 모델을 생성하고 앙상블 모델 생성부(120)가 앙상블 모델을 생성한 이후, 임계치 결정부(130)는 테스트 데이터를 예측 모델 및 앙상블 모델에 입력하여 출력되는 목적 변수에 대한 확률값에 따라, 테스트 데이터가 어떠한 클래스에 해당하는 지를 분류하는 임계치를 결정한다.
예를 들어, 도 4에 도시된 바와 같이 테스트 데이터가 복수의 예측 모델 및 앙상블 모델을 통과하였을 때 출력되는 확률이 소정의 임계치 이상이면 클래스 'Y', 소정의 임계치 미만이면 클래스 'N'으로 분류할 수 있다. 이때 임계치는 분류될 클래스의 종류 또는 개수에 따라, 그 개수가 둘 이상이 될 수 있다. 또한 임계치의 값을 얼마로 설정하느냐에 따라 테스트 데이터가 분류되는 클래스는 달라질 수 있다.
도 5는 본 발명의 일 실시예에 따른 임계치에 따라 분류된 테스트 데이터의 클래스 및 테스트 데이터의 실제 클래스를 나타내는 예시도이다.
임계치 결정부(130)는 목적 변수가 출력하는 값에 대해 소정의 간격으로 임계치를 변화시키면서 테스트 데이터의 클래스를 분류할 수 있다. 도 5에 도시된 바와 같이, 임계치 결정부(130)는 목적 변수의 출력 값이 0부터 1 사이의 확률값일 때, 0 부터 1 사이에서 0.1의 간격으로 임계치의 값을 변화시키면서 테스트 데이터의 클래스를 분류할 수 있다. 이때 임계치의 값이 변함에 따라 테스트 데이터가 분류되는 클래스의 비율이 달라짐을 확인할 수 있다. 따라서 임계치의 값이 테스트 데이터에 대한 예측 모델 및 앙상블 모델의 적중률, 정밀도, 또는 예측 모델에 따른 손실 비용을 변화시킬 수 있기 때문에 임계치를 잘 결정하는 것이 중요하다.
여기서, 적중률이란 실제 클래스가 동일한 테스트 데이터 중 임계치의 값에 의해 클래스가 올바르게 분류된 테스트 데이터의 비율이고, 정밀도란 임계치의 값에 의해 어느 하나의 클래스로 분류된 테스트 데이터 중 올바른 클래스로 분류된 테스트 데이터의 비율이며, 손실 비용이란 예측 모델의 과탐지 및 오탐지에 의해 발생할 수 있는 손해액을 의미한다.
예를 들어, 도 8을 참조할 때 알고리즘 조합 A의 결과에서 적중률은 실제 사기 클래스에 해당하는 데이터 중 사기 건으로 올바르게 예측된 데이터의 비율로서 120/(28+120)=0.8108 이고, 정밀도는 사기 클래스로 예측된 데이터 중 올바르게 사기 건으로 예측된 데이터의 비율로서 120/(40+120)=0.7500이다. 또한 도 8에서 과탐지(실제로 사기가 아닌데 사기로 예측된 데이터)에 의해 발생하는 손해가 평균 1만원이고, 미탐지(실제로 사기인데 사기로 예측되지 않은 데이터)로 인해 발생하는 손해가 평균 100만원이라 할 때, 알고리즘 조합 A에서의 손실 비용은 40(과탐지 개수) x 100만원 + 28(미탐지 개수) x 1만원 = 총 4028 만원이다.
따라서 적중률 및 정밀도가 모두 높도록 클래스를 분류하는 것이 가장 이상적이지만, 임계치를 높게 설정할수록 정밀도는 증가하지만 적중률이 낮아지고, 임계치를 낮게 설정할수록 적중률은 높아지지만 정밀도가 낮아지는 문제가 발생할 수 있다. 이에 따라, 사용자가 적중률과 정밀도 중 무엇을 더 중요하게 여기느냐를 반영하여 임계치를 달리 결정할 수 있다. 이러한 케이스를 FDS(fraud detection system) 분야를 예로 들어 설명한다.
도 6은 FDS 분야에서 카드 승인 데이터가 올바른 사용자가 아닌 자에 의해 사용된 것인지 검사하는 과정을 설명하기 위한 예시도이다.
도 6을 참조하면, FDS 분야에서는 국내 오프라인 승인 데이터, 국내 온라인 승인 데이터, 해외 온라인 승인 데이터, 해외 오프라인 승인 데이터 등에 대하여 점수 기반 검사 및 규칙 기반 검사를 수행하여 해당 카드 승인 데이터가 올바른 사용자가 아닌 자에 의해 사용된 것인지를 검사할 수 있다. 이때 점수 기반 검사는 사기 예측 모델에 의해 산출된 점수를 통한 검사를 의미하며, 규칙 기반 검사는 그 동안의 경험에 따른 사기 패턴에 해당하는지를 체크하는 검사를 의미한다.
도 7은 FDS 분야에서 카드 승인 데이터를 예측 모델에 입력한 경우 출력되는 점수를 임계치에 따라 분류하여 클래스를 정하는 것을 설명하기 위한 예시도이다.
도 7을 참조하면, 카드 승인 데이터를 예측 모델에 입력한 경우 출력되는 점수를 임계치에 따라 고위험 클래스, 중위험 클래스, 저위험 클래스로 분류할 수 있다. 이때 고위험 클래스는 곧바로 올바른 자에 의한 거래 내역이 아님으로 판단하여 콜센터가 고객에게 확인 전화를 걸도록 하며, 중위험 클래스는 추가적으로 규칙 기반 검사를 거쳐 그 거래 내역이 사기 패턴에 해당하면 올바른 자에 의한 거래 내역이 아님으로 판단하여 콜센터가 고객에게 확인 전화를 걸도록 하며, 저위험 클래스는 올바른 자에 의한 거래 내역으로 간주한다.
이때 FDS 분야에서 카드 승인 데이터가 올바른 사용자가 아닌 사람에 의해 사용되는 지 판단하는 적중률, 정밀도 및 손실 비용은 임계치의 값이 변함에 따라 달라질 수 있다. 즉, 임계치를 높게 설정하면 테스트 데이터 중 높은 확률값이 나온 데이터만을 사기로 분류하므로 정밀도는 올라가지만 실제 사기 건을 사기가 아니라고 판단(미탐지)할 수 있어 적중률이 낮아지며, 반대로 임계치를 낮게 설정하면 더 많은 테스트 데이터를 사기로 분류할 수 있으므로 적중률은 높아지지만, 사기 건이 아닌 케이스를 사기로 판단(과탐지)할 수 있어 정밀도가 낮아질 수 있다. 참고로, 앞에서 정의한 적중률 및 정밀도를 FDS 분야에 적용하여 설명하면, 적중률은 실제 사기 건수에 대한 예측 사기 건수의 비율을 의미하며, 정밀도는 예측 사기 건수에 대한 실제 사기 건수의 비율을 의미한다.
이때 FDS 분야에서는 과탐지에 의한 손실 비용(더 많은 전화를 하는데 드는 비용)보다 미탐지에 의한 손실 비용(사기를 예측하지 못하여 발생하는 비용)이 크게 발생한다. 과탐지의 경우 콜센터 직원에 대한 비용이 발생할 뿐이지만, 미탐지의 경우 거액의 카드 비용을 보상해줘야 할 수 있기 때문이다.
따라서 본 발명의 일 실시예에선 적중률 및 정밀도가 변함에 따라 발생할 수 있는 손실 비용을 최소화 하기 위한 손실 비용 점수를 사용할 수 있다.
도 8은 적중률 및 정밀도를 기초로 손실 비용이 최소인 점수를 산정하는 것을 설명하기 위한 예시도이다.
도 8을 참조하면, 아래 수학식 1을 통해 손실 비용을 최소화 하기 위한 손실 비용 점수를 사용하여 적중률, 정밀도 및 임계치를 결정할 수 있다.
[수학식 1]
손실 비용 점수 =
Figure 112017081612741-pat00003
(R은 적중률, P는 정밀도,
Figure 112017081612741-pat00004
는 과탐지에 의한 손실 비용 대비 미탐지에 의한 손실 비용)
이때 수학식 1은 적중률과 정밀도의 조화 평균에서 적중률이 정밀도에 비해 갖는 상대적 손실 비용을 가중한
Figure 112017081612741-pat00005
를 정밀도의 계수로 사용한 점수로서 손실 비용 점수가 높을수록 손실 비용이 최소화됨을 의미한다.
따라서 임계치 결정부(130)는 수학식 1에 따른 손실 비용 점수가 최대화되도록 임계치를 결정할 수 있으며, 이때 임계치 결정부(130)는 목적 변수가 출력하는 값에 대해 소정의 간격으로 임계치를 변화시키면서 테스트 데이터의 클래스를 분류할 수 있다. 이때 적용할 수 있는 임계치의 개수는 하나 이상일 수 있다.
또한 본 발명의 일 실시예에 따르면, 예측 모델 생성부(110)는 도 8과 같이 예측 모델을 생성하는데 사용할 수 있는 알고리즘의 조합(조합 A, 조합 B, 조합 C, 조합 D)을 다르게 지정하고, 소정의 임계치를 기준으로 테스트 데이터를 분류한 결과를 각각 생성하여, 각 조합에 따라 분류된 결과에 따른 적중률, 정밀도 또는 손실 비용의 점수를 비교하여 어떤 기계 학습 알고리즘의 조합이 특정 분야에서 사용하기에 적절한지 판별할 수 있다.
도 9는 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)를 신용 등급에 따른 대출에 적용하는 경우 감소하는 연체율을 설명하는 실험 결과이다.
도 9를 참조하면, 신용 등급 10 분위에서 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)를 통해 임계치를 정하여 10등급 내에서 10등급(상) 10등급(하)로 나누어 10등급(하)에게 대출을 하지 않는 것으로 시뮬레이션한 경우, 분위별 연체율이 13.3%에서 10.6%로 감소하는 것을 확인할 수 있다.
도 10은 본 발명의 일 실시예에 따른 앙상블 모델 생성 장치(100)를 신용 등급에 따른 대출에 적용하는 경우 증가하는 성능을 설명하는 실험 결과이다.
도 10을 참조하면, 기존에는 고객의 수를 1/10으로 나누어 고객의 등급을 결정하였다. 이때 본 발명의 실시예에 따르면 9개의 임계치를 결정하여 고객의 데이터를 10개의 신용 등급이 설정된 클래스로 분류하여 고객의 신용 등급을 나눌 수 있다. 이때 10등급으로 분류된 고객의 수를 참조하면, 기존의 10 % 보다 3.5배 증가된 35%가 10등급에 분류됨을 알 수 있으며, 이에 따라 보다 정확한 기준을 기초로 고객의 등급을 산정할 수 있다.
상술한 실시예에 따르면, 예측 모델을 사용하여 서비스를 제공하는 분야에 맞추어 앙상블에 사용될 기계 학습 알고리즘의 조합을 선별할 수 있다.
또한 학습 데이터에 대해 각 예측 모델이 출력한 확률과 학습 데이터의 목표 변수 사이의 연관 관계를 기초로 각 예측 모델의 가중치를 결정함으로써, 보다 정확한 결과를 도출하도록 할 수 있다.
더불어 예측 모델을 사용하여 서비스를 제공하는 분야의 손실 비용을 고려한 점수를 기초로 예측 모델에 입력된 데이터의 클래스를 구분하는 임계치를 결정함으로써 손실 비용을 최소화할 수 있다.
한편 상술한 실시예가 포함하는 예측 모델 생성부(110), 앙상블 모델 생성부(120) 및 임계치 결정부(130)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다.
도 11은 본 발명의 일 실시예에 따른 앙상블 모델 생성 방법의 프로세스를 도시하는 흐름도이다. 도 11에 따른 앙상블 모델 생성 방법의 각 단계는 도 1 및 도 4를 통해 설명된 앙상블 모델 생성 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
우선, 예측 모델 생성부(110)는 제1 학습 데이터를 기초로 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성한다(S1110). 이후, 앙상블 모델 학습부는 제2 학습 데이터를 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 목적 변수에 대한 확률을 입력 데이터로 설정하고 목적 변수를 출력 데이터로 설정하여 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성한다(S1120). 다음으로, 임계치 결정부(130)는 테스트 데이터를 복수의 예측 모델에 입력하였을 때 앙상블 모델에서 출력되는 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 임계치를 결정할 수 있다.
상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드 등이 기록된 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체 또는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 앙상블 모델 생성 장치
110: 예측 모델 생성부
120: 앙상블 모델 생성부
130: 임계치 결정부

Claims (14)

  1. 사기 탐지 시스템(fraud detection system)에 적용되는 앙상블 모델 생성 장치에 있어서,
    복수의 제1 카드 승인 데이터를 포함하는 제1 학습 데이터를 기초로 올바른 자에 의한 거래 내역인지를 나타내는 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 예측 모델 생성부;
    복수의 제2 카드 승인 데이터를 포함하는 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 기계 학습의 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 앙상블 모델 생성부; 및
    새로운 카드 승인 데이터를 포함하는 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하는 임계치 결정부를 포함하고,
    상기 임계치 결정부는,
    소정의 범위로 상기 임계치의 값을 변화시키면서 상기 테스트 데이터의 클래스를 분류하고, 상기 값을 변화시킨 각각의 임계치를 기초로 분류된 테스트 데이터의 클래스에 대해 상기 각각의 임계치마다, 상기 테스트 데이터에서 실제 클래스가 동일한 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 적중률 및 상기 어느 하나의 클래스로 분류된 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 정밀도를 계산하여, 상기 값을 변화시킨 각각의 임계치 중 상기 적중률 및 상기 정밀도를 기초로 계산한 상기 사기 탐지 시스템에서 손실 비용이 최소가 되도록 하는 임계치를 상기 앙상블 모델의 출력에 사용할 임계치로 결정하는
    앙상블 모델 생성 장치.
  2. 제1항에 있어서,
    상기 복수의 기계 학습 알고리즘은,
    상기 목적 변수의 특성에 따라 이미 선택되어 있는
    앙상블 모델 생성 장치.
  3. 제1항에 있어서,
    상기 복수의 기계 학습 알고리즘은,
    사용자로부터 선택 받은 복수의 기계 학습 알고리즘인
    앙상블 모델 생성 장치.
  4. 제1항에 있어서,
    상기 복수의 기계 학습 알고리즘은,
    logistic regression, multi-layer perceptron, stochastic gradient descent, bagging, k-nearest neighbor, random forest, support vector machine 중 둘 이상을 포함하는
    앙상블 모델 생성 장치.
  5. 제1항에 있어서,
    상기 예측 모델 생성부는,
    상기 제1 학습 데이터로부터 상기 복수의 예측 모델의 각각의 학습에 사용될 각각의 샘플 세트를 생성하고, 상기 각각의 샘플 세트를 기초로 상기 복수의 예측 모델을 학습시키는
    앙상블 모델 생성 장치.
  6. 제5항에 있어서,
    상기 각각의 샘플 세트는,
    각각 상기 제1 학습 데이터로부터 상이한 특징(feature)를 추출하여 생성된 특징 벡터(feature vector)로 이루어진
    앙상블 모델 생성 장치.
  7. 제1항에 있어서,
    상기 출력 데이터는,
    상기 제2 학습 데이터의 상기 목적 변수가 속하는 클래스가 매핑된 레이블인
    앙상블 모델 생성 장치.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 임계치 결정부는,
    Figure 112017114058214-pat00019
    의 값이 최대가 되도록 상기 임계치의 값을 결정하는
    (상기 R은 상기 적중률, 상기 P는 상기 정밀도, 상기 는 과탐지에 의한 손실 비용 대비 미탐지에 의한 손실 비용)
    앙상블 모델 생성 장치.
  11. 앙상블 모델 생성 장치에 의해 수행되며 사기 탐지 시스템(fraud detection system)에 적용되는 앙상블 모델 생성 방법에 있어서,
    복수의 제1 카드 승인 데이터를 포함하는 제1 학습 데이터를 기초로 올바른 자에 의한 거래 내역인지를 나타내는 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 단계;
    복수의 제2 카드 승인 데이터를 포함하는 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 단계; 및
    새로운 카드 승인 데이터를 포함하는 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하는 단계를 포함하고,
    상기 임계치를 결정하는 단계는,
    소정의 범위로 상기 임계치의 값을 변화시키면서 상기 테스트 데이터의 클래스를 분류하고, 상기 값을 변화시킨 각각의 임계치를 기초로 분류된 테스트 데이터의 클래스에 대해 상기 각각의 임계치마다, 상기 테스트 데이터에서 실제 클래스가 동일한 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 적중률 및 상기 어느 하나의 클래스로 분류된 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 정밀도를 계산하여, 상기 값을 변화시킨 각각의 임계치 중 상기 적중률 및 상기 정밀도를 기초로 계산한 상기 사기 탐지 시스템에서 손실 비용이 최소가 되도록 하는 임계치를 상기 앙상블 모델의 출력에 사용할 임계치로 결정하는 단계를 포함하는
    앙상블 모델 생성 방법.
  12. 삭제
  13. 복수의 제1 카드 승인 데이터를 포함하는 제1 학습 데이터를 기초로 올바른 자에 의한 거래 내역인지를 나타내는 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 단계;
    복수의 제2 카드 승인 데이터를 포함하는 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 단계; 및
    새로운 카드 승인 데이터를 포함하는 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하되, 소정의 범위로 상기 임계치의 값을 변화시키면서 상기 테스트 데이터의 클래스를 분류하고, 상기 값을 변화시킨 각각의 임계치를 기초로 분류된 테스트 데이터의 클래스에 대해 상기 각각의 임계치마다, 상기 테스트 데이터에서 실제 클래스가 동일한 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 적중률 및 상기 어느 하나의 클래스로 분류된 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 정밀도를 계산하여, 상기 값을 변화시킨 각각의 임계치 중 상기 적중률 및 상기 정밀도를 기초로 계산한 사기 탐지 시스템에서 손실 비용이 최소가 되도록 하는 임계치를 상기 앙상블 모델의 출력에 사용할 임계치로 결정하는 단계를
    프로세서로 하여금 수행하게 하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
  14. 복수의 제1 카드 승인 데이터를 포함하는 제1 학습 데이터를 기초로 올바른 자에 의한 거래 내역인지를 나타내는 소정의 목적 변수에 대한 확률을 출력하는 복수의 예측 모델을 복수의 기계 학습 알고리즘을 통해 생성하는 단계;
    복수의 제2 카드 승인 데이터를 포함하는 제2 학습 데이터를 상기 복수의 예측 모델의 각각에 입력하였을 때 출력되는 각각의 상기 목적 변수에 대한 확률을 입력 데이터로 설정하고 상기 목적 변수를 출력 데이터로 설정하여 상기 복수의 예측 모델의 출력 간의 가중치를 기계 학습시킨 앙상블 모델을 생성하는 단계; 및
    새로운 카드 승인 데이터를 포함하는 테스트 데이터를 상기 복수의 예측 모델에 입력하였을 때 상기 앙상블 모델에서 출력되는 상기 목적 변수에 대한 확률이 소정의 클래스 중 어느 하나에 해당하는 지를 분류하는 기준인 임계치를 결정하되, 소정의 범위로 상기 임계치의 값을 변화시키면서 상기 테스트 데이터의 클래스를 분류하고, 상기 값을 변화시킨 각각의 임계치를 기초로 분류된 테스트 데이터의 클래스에 대해 상기 각각의 임계치마다, 상기 테스트 데이터에서 실제 클래스가 동일한 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 적중률 및 상기 어느 하나의 클래스로 분류된 테스트 데이터 중 상기 임계치에 따라 클래스가 올바르게 분류된 테스트 데이터의 비율인 정밀도를 계산하여, 상기 값을 변화시킨 각각의 임계치 중 상기 적중률 및 상기 정밀도를 기초로 계산한 사기 탐지 시스템에서 손실 비용이 최소가 되도록 하는 임계치를 상기 앙상블 모델의 출력에 사용할 임계치로 결정하는 단계를
    프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020170106711A 2017-08-23 2017-08-23 앙상블 모델 생성 장치 및 방법 KR101828503B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170106711A KR101828503B1 (ko) 2017-08-23 2017-08-23 앙상블 모델 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170106711A KR101828503B1 (ko) 2017-08-23 2017-08-23 앙상블 모델 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101828503B1 true KR101828503B1 (ko) 2018-03-29

Family

ID=61907193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170106711A KR101828503B1 (ko) 2017-08-23 2017-08-23 앙상블 모델 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101828503B1 (ko)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
KR20200054121A (ko) * 2019-11-29 2020-05-19 주식회사 루닛 기계 학습 방법 및 장치
KR20200057832A (ko) * 2018-11-15 2020-05-27 주식회사 에이아이트릭스 기초 메타학습장치에 대한 앙상블가중치를 결정하는 방법 및 장치
KR20200075074A (ko) * 2018-12-07 2020-06-26 서울대학교산학협력단 의료 영상 분획 딥러닝 모델 생성 장치 및 방법과, 그에 따라 생성된 의료 영상 분획 딥러닝 모델
WO2020138575A1 (ko) * 2018-12-28 2020-07-02 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR20200131142A (ko) * 2019-05-13 2020-11-23 숭실대학교산학협력단 승부 예측 방법 및 장치
KR102215978B1 (ko) * 2019-09-17 2021-02-16 주식회사 라인웍스 블록체인망 상 비동기 분산 병렬형 앙상블 모델 학습 및 추론 시스템 및 그 방법
US10922628B2 (en) 2018-11-09 2021-02-16 Lunit Inc. Method and apparatus for machine learning
KR102366153B1 (ko) * 2020-08-20 2022-02-23 한국전력공사 실시간 어플리케이션을 위한 기계학습의 앙상블 추론 방법 및 앙상블 추론을 가속화한 기계 학습 방법
KR20220081880A (ko) 2020-12-09 2022-06-16 (주) 아인스에스엔씨 디지털트윈을 이용한 이산사건 시스템 실시간 분석 및 실시간 동작 가시화 장치
KR102417702B1 (ko) * 2021-01-06 2022-07-07 (주)유엠로직스 설명 가능한 인공지능 기법을 이용한 유해물질 처리 최적 공정 데이터 산출 시스템 및 그 방법
KR102436127B1 (ko) 2021-09-03 2022-08-26 주식회사 룰루랩 인공신경망에 기반하여 주름을 검출하는 방법 및 장치
US11475312B2 (en) 2019-11-18 2022-10-18 Samsung Electronics Co., Ltd. Method and apparatus with deep neural network model fusing
WO2023027277A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 신경망 모델의 다양성을 위한 학습 방법
KR102521246B1 (ko) * 2023-01-30 2023-04-14 주식회사 그래파이 엣지 기반 트랜잭션 사기 탐지 방법 및 이를 수행하는 장치
KR20230139920A (ko) 2022-03-28 2023-10-06 서울시립대학교 산학협력단 인공지능 모델 생성 장치 및 방법
US11810002B2 (en) 2018-12-10 2023-11-07 Industrial Technology Research Institute Dynamic prediction model establishment method, electric device, and user interface
WO2024143668A1 (ko) * 2022-12-27 2024-07-04 쿠팡 주식회사 아이템의 판매량에 관한 예측을 제공하는 전자 장치 및 그 방법
CN118607643A (zh) * 2024-08-07 2024-09-06 中国科学技术大学 大模型部署方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169252A1 (en) 2003-12-03 2010-07-01 International Business Machines Corporation System and method for scalable cost-sensitive learning
US20120278263A1 (en) 2010-10-25 2012-11-01 Intelius Inc. Cost-sensitive alternating decision trees for record linkage
US20140058763A1 (en) 2012-07-24 2014-02-27 Deloitte Development Llc Fraud detection methods and systems
WO2016004062A1 (en) 2014-06-30 2016-01-07 Amazon Technologies, Inc. Feature processing tradeoff management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169252A1 (en) 2003-12-03 2010-07-01 International Business Machines Corporation System and method for scalable cost-sensitive learning
US20120278263A1 (en) 2010-10-25 2012-11-01 Intelius Inc. Cost-sensitive alternating decision trees for record linkage
US20140058763A1 (en) 2012-07-24 2014-02-27 Deloitte Development Llc Fraud detection methods and systems
WO2016004062A1 (en) 2014-06-30 2016-01-07 Amazon Technologies, Inc. Feature processing tradeoff management

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922628B2 (en) 2018-11-09 2021-02-16 Lunit Inc. Method and apparatus for machine learning
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
KR20200057832A (ko) * 2018-11-15 2020-05-27 주식회사 에이아이트릭스 기초 메타학습장치에 대한 앙상블가중치를 결정하는 방법 및 장치
KR102228196B1 (ko) 2018-11-15 2021-03-16 주식회사 에이아이트릭스 기초 메타학습장치에 대한 앙상블가중치를 결정하는 방법 및 장치
KR20200075074A (ko) * 2018-12-07 2020-06-26 서울대학교산학협력단 의료 영상 분획 딥러닝 모델 생성 장치 및 방법과, 그에 따라 생성된 의료 영상 분획 딥러닝 모델
US11321589B2 (en) 2018-12-07 2022-05-03 Seoul National University R&Db Foundation Apparatus and method for generating medical image segmentation deep-learning model, and medical image segmentation deep-learning model generated therefrom
KR102243644B1 (ko) 2018-12-07 2021-04-23 서울대학교 산학협력단 의료 영상 분획 딥러닝 모델 생성 장치 및 방법과, 그에 따라 생성된 의료 영상 분획 딥러닝 모델
US11810002B2 (en) 2018-12-10 2023-11-07 Industrial Technology Research Institute Dynamic prediction model establishment method, electric device, and user interface
WO2020138575A1 (ko) * 2018-12-28 2020-07-02 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR102223687B1 (ko) 2018-12-28 2021-03-04 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR20200082490A (ko) * 2018-12-28 2020-07-08 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치
KR20200131142A (ko) * 2019-05-13 2020-11-23 숭실대학교산학협력단 승부 예측 방법 및 장치
KR102253373B1 (ko) * 2019-05-13 2021-05-18 숭실대학교산학협력단 승부 예측 방법 및 장치
KR102215978B1 (ko) * 2019-09-17 2021-02-16 주식회사 라인웍스 블록체인망 상 비동기 분산 병렬형 앙상블 모델 학습 및 추론 시스템 및 그 방법
US11475312B2 (en) 2019-11-18 2022-10-18 Samsung Electronics Co., Ltd. Method and apparatus with deep neural network model fusing
KR102128056B1 (ko) 2019-11-29 2020-07-07 주식회사 루닛 기계 학습 방법 및 장치
KR20200054121A (ko) * 2019-11-29 2020-05-19 주식회사 루닛 기계 학습 방법 및 장치
KR102366153B1 (ko) * 2020-08-20 2022-02-23 한국전력공사 실시간 어플리케이션을 위한 기계학습의 앙상블 추론 방법 및 앙상블 추론을 가속화한 기계 학습 방법
KR20220081880A (ko) 2020-12-09 2022-06-16 (주) 아인스에스엔씨 디지털트윈을 이용한 이산사건 시스템 실시간 분석 및 실시간 동작 가시화 장치
KR102417702B1 (ko) * 2021-01-06 2022-07-07 (주)유엠로직스 설명 가능한 인공지능 기법을 이용한 유해물질 처리 최적 공정 데이터 산출 시스템 및 그 방법
WO2023027277A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 신경망 모델의 다양성을 위한 학습 방법
KR20230031419A (ko) * 2021-08-27 2023-03-07 디어젠 주식회사 신경망 모델의 다양성을 위한 학습 방법
KR102647608B1 (ko) * 2021-08-27 2024-03-14 디어젠 주식회사 신경망 모델의 다양성을 위한 학습 방법
KR102436127B1 (ko) 2021-09-03 2022-08-26 주식회사 룰루랩 인공신경망에 기반하여 주름을 검출하는 방법 및 장치
US11704901B2 (en) 2021-09-03 2023-07-18 Lululab Inc. Method of detecting wrinkles based on artificial neural network and apparatus therefor
KR20230139920A (ko) 2022-03-28 2023-10-06 서울시립대학교 산학협력단 인공지능 모델 생성 장치 및 방법
WO2024143668A1 (ko) * 2022-12-27 2024-07-04 쿠팡 주식회사 아이템의 판매량에 관한 예측을 제공하는 전자 장치 및 그 방법
KR102521246B1 (ko) * 2023-01-30 2023-04-14 주식회사 그래파이 엣지 기반 트랜잭션 사기 탐지 방법 및 이를 수행하는 장치
CN118607643A (zh) * 2024-08-07 2024-09-06 中国科学技术大学 大模型部署方法及其装置

Similar Documents

Publication Publication Date Title
KR101828503B1 (ko) 앙상블 모델 생성 장치 및 방법
US10783457B2 (en) Method for determining risk preference of user, information recommendation method, and apparatus
US20200134716A1 (en) Systems and methods for determining credit worthiness of a borrower
US20200090268A1 (en) Method and apparatus for determining level of risk of user, and computer device
US11875409B1 (en) Systems and methods for identifying and curing anomalies in insurance claims
US11321224B2 (en) PoC platform which compares startup s/w products including evaluating their machine learning models
US20210133490A1 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
US20150293755A1 (en) System and automated method for configuring a predictive model and deploying it on a target platform
US11481707B2 (en) Risk prediction system and operation method thereof
Zhou et al. Fraud detection within bankcard enrollment on mobile device based payment using machine learning
CN111008898B (zh) 评估模型解释工具的方法和装置
US20220207420A1 (en) Utilizing machine learning models to characterize a relationship between a user and an entity
Kolodiziev et al. Automatic machine learning algorithms for fraud detection in digital payment systems
CN111144899B (zh) 识别虚假交易的方法及装置和电子设备
Salamai et al. Decision support system for risk assessment using fuzzy inference in supply chain big data
Rath et al. Modern approach for loan sanctioning in banks using machine learning
US11461793B2 (en) Identification of behavioral pattern of simulated transaction data
US11544715B2 (en) Self learning machine learning transaction scores adjustment via normalization thereof accounting for underlying transaction score bases
CN111310931A (zh) 参数生成方法、装置、计算机设备及存储介质
WO2022084261A1 (en) A computer-implemented method for deriving a data processing and inference pipeline
Anderies et al. Telekom-net: The embedded bi-lstm and expert knowledge model for stock forecasting and suggestion
KR102105276B1 (ko) 강화학습 기반의 결제 분류시스템 및 방법
CN111340102A (zh) 评估模型解释工具的方法和装置
WO2023177781A1 (en) Analyzing a transaction in a payment processing system
Kazemi et al. Estimation of optimum thresholds for binary classification using genetic algorithm: An application to solve a credit scoring problem

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant