KR102044205B1 - 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 - Google Patents

빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 Download PDF

Info

Publication number
KR102044205B1
KR102044205B1 KR1020150189421A KR20150189421A KR102044205B1 KR 102044205 B1 KR102044205 B1 KR 102044205B1 KR 1020150189421 A KR1020150189421 A KR 1020150189421A KR 20150189421 A KR20150189421 A KR 20150189421A KR 102044205 B1 KR102044205 B1 KR 102044205B1
Authority
KR
South Korea
Prior art keywords
data
target information
modeling
variable
data variable
Prior art date
Application number
KR1020150189421A
Other languages
English (en)
Other versions
KR20170079159A (ko
Inventor
올리비예 뒤센느
초이 유리
크루코브 예브게니
오창용
서영주
Original Assignee
주식회사 솔리드웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔리드웨어 filed Critical 주식회사 솔리드웨어
Priority to KR1020150189421A priority Critical patent/KR102044205B1/ko
Publication of KR20170079159A publication Critical patent/KR20170079159A/ko
Application granted granted Critical
Publication of KR102044205B1 publication Critical patent/KR102044205B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)

Abstract

본 발명은 타겟 정보를 예측하는 시스템 및 예측하는 방법에 관한 것이다. 본 발명의 일 실시예에 따른 타겟 정보 예측 시스템은 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 시스템으로, 데이터 베이스로부터 고객별 데이터를 입력받아 고객별 데이터로부터 초기 데이터변수를 추출하고 타겟 정보의 모델링을 위해 초기 데이터변수를 정리하는 데이터 수집부와, 초기 데이터변수로부터 타겟 정보의 모델링을 위한 모델링 데이터변수를 생성하는 데이터 전처리부와, 그리고 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 산출하는 모델링부를 구비한다. 데이터 전처리부는, 초기 데이터변수로부터 초기 데이터변수의 2 이상의 조합으로 이루어지는 파생 데이터변수를 생성하여 초기 데이터변수와 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성하는 데이터변수 생성 모듈과, 통합 데이터변수 각각을 기설정된 조건에 따라 그룹핑하여 양자화하는 데이터변수 양자화 모듈과, 그리고 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출하여 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우 해당 통합 데이터변수를 타겟 정보의 모델링을 위한 모델링 데이터변수로 선택하는 데이터변수 선택 모듈을 구비한다.

Description

빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법{TARGET INFORMATION PREDICTION SYSTEM USING BIG DATA AND MACHINE LEARNING AND METHOD THEREOF}
본 발명은 타겟 정보를 예측하는 시스템 및 예측하는 방법에 관한 것으로, 보다 상세하게는 빅데이터와 기계학습을 이용하여 고객의 연체일수를 예측하는 시스템 및 예측하는 방법에 관한 것이다.
기존의 고객 등급 산출방법은 신용공여기관의 요청에 따라 해당 고객의 고객정보로부터 요청된 평가 항목들을 추출하여 해당 신용공여기관 고유의 통계 모델에 의하여 평가항목(데이터변수)들을 가산 합하는 형식으로 고객의 신용점수를 산출했다.
그러나 이러한 방식은 데이터 전처리 과정에 있어 파생변수를 자동으로 생성하지 못하여, 각각의 단별 데이터변수에 관한 통계분석만 가능하다. 그리고 각 변수를 선형 결합하는 방식으로 고객의 연체일수에 관한 등급을 산출하게 되는데, 각 변수와 고객의 연체일수의 관계가 비선형적인 경우 산출된 등급이 실제로 고객의 우/불량을 판가름하는 데에 적절하지 못하다. 또한, 매일 누적되는 방대한 양의 데이터를 이용해 변수를 추가하거나 삭제하는 등의 기존의 모델을 업데이트하기가 용이하지 않다.
본 발명이 해결하고자 하는 과제는 고객의 신용등급을 평가할 수 있는 연체일수와 같은 특정 정보를 산출함에 있어, 이전의 데이터로부터 고객들의 우/불량 행동 패턴을 기계학습 기법을 통해 자동으로 각각의 데이터변수와 실제 고객의 우/불량 행동 패턴과의 관계를 분석하고 특정 정보를 예측하는 시스템 및 예측하는 방법을 제공하는 데에 있다.
상기의 기술적 과제를 해결하기 위한, 본 발명에 따른 타겟 정보 예측 방법에 대한 일 실시예는 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 방법으로, 데이터 베이스로부터 고객별 데이터를 입력받는 단계; 상기 고객별 데이터로부터 초기 데이터변수를 추출하고 상기 타겟 정보의 모델링을 위해 상기 초기 데이터변수를 정리하는 단계; 상기 초기 데이터변수로부터 상기 초기 데이터변수의 2 이상의 조합으로 이루어지는 파생 데이터변수를 생성하여, 상기 초기 데이터변수와 상기 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성하는 단계; 상기 통합 데이터변수 각각을 기설정된 조건에 따라 그룹핑하는 양자화 단계; 상기 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출하는 단계; 상기 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우 해당 통합 데이터변수를 상기 타겟 정보의 모델링을 위한 모델링 데이터변수로 선택하는 단계; 상기 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 모델링하는 단계;를 포함한다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 양자화 단계는, 상기 통합 데이터변수 중 수치형 변수를 적어도 하나 포함하는 통합 데이터변수는 수치 구간별로 그룹핑하여 양자화할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 양자화 단계는, 각 구간별로 데이터 빈도수가 균등하게 되도록 그룹핑하여 양자화할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 양자화 단계는, 각 구간의 평균값을 각 구간의 대표값으로 설정할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 양자화된 통합 데이터변수를 정규화(normalization)하는 단계를 더 포함할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 정규화하는 단계 이후에, 상기 입력받은 고객별 데이터 중 일부 데이터값이 누락된 경우, 통합 데이터변수의 평균값으로 누락된 데이터 값을 설정하는 단계를 더 포함할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 모델링하는 단계는, 상기 타겟 정보의 예측값을 회귀분석기법에 의하여 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 모델링하는 단계는, 상기 모델링 데이터변수를 선형결합하여, 상기 타겟 정보의 예측값을 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 모델링하는 단계는, 상기 모델링 데이터변수를 비선형결합하여, 상기 타겟 정보의 예측값을 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 모델링하는 단계는, 상기 모델링 데이터변수를 선형결합하여 선형 타겟 정보 예측값을 산출하는 단계; 상기 모델링 데이터변수를 비선형결합하여 비선형 타겟 정보 예측값을 적어도 하나 산출하는 단계; 및 상기 선형 타겟 정보 예측값과 상기 비선형 타겟 정보 예측값을 선형 결합하여, 상기 타겟 정보의 예측값을 산출하는 단계;를 포함할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 모델링하는 단계로부터 산출된 타겟 정보 예측값으로부터 등급을 산출하는 단계를 더 포함할 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 타겟 정보는 금융 정보일 수 있다.
본 발명에 따른 타겟 정보 예측 방법의 일부 실시예들에 있어서, 상기 금융 정보는 연체일수일 수 있다.
본 발명에 따른 타겟 정보 예측 시스템에 대한 일 실시예는 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 시스템으로, 데이터 베이스로부터 고객별 데이터를 입력받아, 상기 고객별 데이터로부터 초기 데이터변수를 추출하고 상기 타겟 정보의 모델링을 위해 상기 초기 데이터변수를 정리하는 데이터 수집부; 상기 초기 데이터변수로부터 상기 타겟 정보의 모델링을 위한 모델링 데이터변수를 생성하는 데이터 전처리부; 및 상기 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 산출하는 모델링부;를 포함하며, 상기 데이터 전처리부는, 상기 초기 데이터변수로부터 상기 초기 데이터변수의 2 이상의 조합으로 이루어지는 파생 데이터변수를 생성하여, 상기 초기 데이터변수와 상기 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성하는 데이터변수 생성 모듈; 상기 통합 데이터변수 각각을 기설정된 조건에 따라 그룹핑하여 양자화하는 데이터변수 양자화 모듈; 및 상기 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출하여, 상기 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우 해당 통합 데이터변수를 상기 타겟 정보의 모델링을 위한 모델링 데이터변수로 선택하는 데이터변수 선택 모듈;을 구비한다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 데이터변수 양자화 모듈은, 상기 통합 데이터변수 중 수치형 변수를 적어도 하나 포함하는 통합 데이터변수를 수치 구간별로 그룹핑하여 양자화할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 데이터변수 양자화 모듈은, 각 구간별로 데이터 빈도수가 균등하게 되도록 그룹핑할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 데이터변수 양자화 모듈은, 각 구간의 평균값을 각 구간의 대표값으로 설정할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 데이터 전처리부는, 상기 양자화된 통합 데이터변수를 정규화(normalization)하는 데이터변수 정규화 모듈을 더 구비할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 데이터 전처리부는, 상기 입력받은 고객별 데이터 중 일부 데이터값이 누락된 경우, 통합 데이터변수의 평균값으로 누락된 데이터 값을 설정하는 데이터변수 보완 모듈을 더 구비할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 모델링부는, 상기 타겟 정보의 예측값을 회귀분석기법에 의하여 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 모델링부는, 상기 모델링 데이터변수를 선형결합하여, 상기 타겟 정보의 예측값을 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 모델링부는, 상기 모델링 데이터변수를 비선형결합하여, 상기 타겟 정보의 예측값을 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 모델링부는, 상기 모델링 데이터변수를 선형결합하여 산출된 선형 타겟 정보 예측값과 상기 모델링 데이터변수를 비선형결합하여 산출된 적어도 하나의 비선형 타겟 정보 예측값을 선형 결합하여, 상기 타겟 정보의 예측값을 산출할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 모델링부로부터 산출된 타겟 정보의 예측값으로부터 등급을 산출하여 출력하는 등급 산출부를 더 구비할 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 타겟 정보는 금융 정보일 수 있다.
본 발명에 따른 타겟 정보 예측 시스템의 일부 실시예들에 있어서, 상기 금융 정보는 연체일수일 수 있다.
본 발명의 다양한 실시예에 따른 타겟 정보 예측 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체가 제안된다.
본 발명의 다양한 실시예에 따른 타겟 정보 예측 방법을 컴퓨터에서 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램이 제안된다.
본 발명에 따르면, 방대한 양의 고객정보들을 취합하여 데이터 전처리 과정을 통해 자동적으로 복합적인 파생변수를 생성해주며, 선형 및 비선형 모델링함으로써 연체일수와 같은 금융 정보를 보다 정확하게 예측할 수 있게 된다.
도 1은 본 발명에 따른 타겟 정보 예측 시스템에 대한 일 실시예를 나타내는 블록도이다.
도 2는 본 발명에 따른 타겟 정보 예측 방법에 대한 일 실시예의 수행과정을 나타내는 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다. 본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.
도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차(tolerance)에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
도 1은 본 발명에 따른 타겟 정보 예측 시스템에 대한 일 실시예를 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 따른 타겟 정보 예측 시스템에 대한 일 실시예(100)는 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 시스템으로, 데이터 수집부(110), 데이터 전처리부(120), 모델링부(130) 및 등급 산출부(140)를 포함한다. 여기서, 타겟 정보는 금융 정보일 수 있으며, 바람직하게는 연체일수일 수 있다.
데이터 수집부(110)는 은행 혹은 고객등급 산출이 필요한 사업장의 고객 정보 데이터 베이스로부터 각 고객의 아이디(대출실행계좌번호) 별로 데이터를 입력받는다. 그리고 데이터 수집부(110)는 타겟 정보와 관련된 초기 데이터변수를 추출하고, 타겟 정보의 모델링을 위해 추출된 관련 초기 데이터변수를 정리한다. 예컨대, 타겟 정보가 연체일수인 경우, 해당 고객의 여신원장정보로부터 대출 실행일부터 현재 시점까지의 연체기록 데이터를 바탕으로 연체일수를 목표값으로 정의하여 초기 데이터변수를 정리한다.
데이터 전처리부(120)는 데이터 수집부(110)에서 수집하고 추출하여 정리된 초기 데이터변수로부터 타겟 정보의 모델링을 위한 모델링 데이터변수를 생성한다. 데이터 전처리부(120)는 데이터변수 생성 모듈(121), 데이터변수 양자화 모듈(123), 데이터변수 정규화 모듈(125), 데이터변수 선택 모듈(127), 데이터변수 보완 모듈(129)을 구비한다.
데이터변수 생성 모듈(121)은 초기 데이터변수로부터 파생 데이터변수를 생성한다. 파생 데이터변수는 초기 데이터변수의 2 이상의 조합으로 생성한다. 데이터변수 생성 모듈(121)은 가능한 모든 조합의 파생 데이터변수를 자동으로 생성한다. 예컨대, 초기 데이터변수가 고객의 지역, 나이, 초기대출금이라고 한다면, 데이터변수 생성 모듈(121)은 지역+나이, 지역+초기대출금, 나이+초기대출금, 지역+나이+초기대출금의 4개의 파생 데이터변수를 자동으로 생성한다. 그리고 데이터변수 생성 모듈(121)은 초기 데이터변수와 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성한다. 상기의 예를 참조하면, 데이터변수 생성 모듈(121)은 3개의 초기 데이터변수(지역, 나이, 초기대출금)로부터 지역, 나이, 초기대출금, 지역+나이, 지역+초기대출금, 나이+초기대출금, 지역+나이+초기대출금과 같은 7개의 통합 데이터변수를 자동으로 생성하게 된다.
데이터변수 양자화 모듈(123)은 데이터변수 생성 모듈(121)에서 생성된 통합 데이터변수를 기설정된 조건에 따라 그룹핑하여 양자화(quantization)한다. 통합 데이터변수 중 나이, 초기대출금과 같은 수치형 변수는 수치 구간별로 그룹핑하여 양자화한다. 그리고 해당 구간은 데이터 빈도수가 균등하게 그룹핑하며, 각 구간의 평균값을 각 구간의 대표값으로 설정한다. 예컨대, 통합 데이터변수가 나이이고, 10~20세 사이의 고객이 100명, 21~25세 사이의 고객이 100명, 26~28세 사이의 고객이 100명, 29세의 고객이 100명, 30~32세 사이의 고객이 100명이라고 한다면, 각각의 나이 구간별로 그룹핑하여 양자화한다. 그리고 10~20세 사이 구간의 대표값은 15세, 21~25세 사이 구간의 대표값은 23세, 26~28세 사이 구간의 대표값은 27세, 29세 구간의 대표값은 29세, 30~32세 사이 구간의 대표값은 31세로 설정한다. 이와 같이 빈도수의 균등화 조건을 적용하여 양자화하게 되면, 한곳에 치우쳐져 있던 값들이 균등하게 군집화되어 타겟 정보의 예측값을 산출함에 있어 정확도가 높아지게 된다. 그리고 통합 데이터변수 중 지역과 같은 범주형 변수는 최초 정리된 지역을 기초로 기설정된 조건에 따라 양자화한다. 예컨대, 우리나라의 경우, 광역시와 도의 행정구역 편제가 상이하므로 일괄적으로 적용하는 것보다는 타겟 정보의 예측값을 산출할 때 정확도가 높아지는 방향으로 사전에 설정하여 양자화를 수행한다. 일 예로 서울, 부산, 전남과 같은 형태로 양자화할 수도 있고, 서울 강남구, 서울 서초구, 전남 여수와 같은 형태로 양자화할 수도 있다.
데이터변수 정규화 모듈(125)은 데이터변수 양자화 모듈(123)에서 양자화된 통합 데이터변수가 표준정규분포를 따르도록 정규화(normalization)한다. 각 데이터별 스케일과 평균값이 상이하므로, 추후 타겟 정보의 예측값을 산출할 때 각 데이터변수의 중요도(importance value) 분석이 용이하도록 데이터변수 정규화 모듈(125)은 양자화된 통합 데이터변수를 정규화한다.
데이터변수 선택 모듈(127)은 양자화된 데이터변수로부터 타겟 정보의 모델링을 위한 모델링 데이터변수를 선택한다. 이를 위해, 우선 데이터변수 선택 모듈(127)은 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출한다. 그리고 산출된 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우, 해당 통합 데이터변수를 모델링 데이터변수로 선택한다. 예컨대, 타겟 정보가 연체일수이고, 10~20세 사이 구간에 속하는 고객의 실제 연체일수의 평균값이 10일, 21~25세 사이 구간에 속하는 고객의 실제 연체일수의 평균값이 100일, 26~28세 사이 구간에 속하는 고객의 실제 연체일수의 평균값이 150일, 29세 구간에 속하는 고객의 실제 연체일수의 평균값이 120일, 30~32세 사이 구간에 속하는 고객의 실제 연체일수의 평균값이 100일이라고 할 때, 연체일수의 평균값의 분산은 2184이다. 이때 기설정된 분산이 100이라고 하면, 나이에 해당하는 통합 데이터변수는 모델링 데이터변수로 선택된다. 기설정된 분산은 타겟 정보의 예측값을 산출할 때 정확도가 높아지는 방향으로 사전에 설정한다. 일반적으로, 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값의 분산이 작을 경우, 해당 통합 데이터변수는 타겟 정보에 대해 중요도가 떨어지는 데이터변수가 되는 것이다.
데이터변수 보완 모듈(129)은 데이터값의 누락을 보완한다. 데이터 수집부(110)에 입력받은 고객별 데이터 중 일부 데이터값이 누락되어 있다면, 데이터 처리가 불가능한 상황이 발생할 수도 있고, 각 데이터변수의 중요도 분석이 용이하지 않을 수도 있다. 이때 누락된 데이터값을 양자화된 통합 데이터변수의 평균값에 해당하도록 설정하여, 해당 통합 데이터변수의 행동 패턴이 어느 한곳에 치우치지 않게 하고, 그 영향력을 0으로 만들어주게 된다. 양자화된 통합 데이터변수의 정규화 후에는 해당 통합 데이터변수의 평균값은 0이므로, 데이터변수 보완 모듈(129)은 누락된 데이터값을 0으로 설정한다.
이와 같이, 데이터 전처리부(120)는 초기 데이터변수로부터 타겟 정보의 예측값을 산출하기 위한 유의미한 데이터변수를 모델링 데이터변수로 선택한다.
모델링부(130)는 데이터 전처리부(120)에서 선택한 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 모델링한다. 이때 모델링부(130)는 타겟 정보의 예측값을 회귀분석기법에 의하여 산출할 수 있다. 회귀분석기법에 의하여 타겟 정보의 예측값을 산출할 때, 타겟 정보의 예측값은 모델링 데이터변수를 선형결합하거나 비선형결합하여 산출할 수 있다.
Figure 112015128699948-pat00001
Figure 112015128699948-pat00002
선형결합으로 타겟 정보를 모델링하는 방법을 (수학식 1)에 나타내었고, 비선형결합으로 타겟 정보를 모델링하는 방법을 (수학식 2)에 나타내었다. 선형결합 방식의 모델링 기법은 Elastic Net, Ridge regression 등이 사용될 수 있고, 비선형 결합 방식의 모델링 기법은 Deep neural network, Generalized Boosted regression Model 등이 사용될 수 있다.
YL은 선형결합으로 산출된 타겟 정보의 예측값이고, YN은 비선형결합으로 산출된 타겟정보의 예측값이다. (수학식 1) 및 (수학식 2)에서 타겟 정보를 산출하고자 하는 해당 고객의 모델링 데이터변수를 f1(X), f2(X), …, fn(X)로 나타내었다. 여기서, f1(X)는 고객 X의 첫 번째 모델링 데이터변수, f2(X)는 고객 X의 두 번째 모델링 데이터변수, fn(X)는 고객 X의 n 번째 모델링 데이터변수를 의미한다. 여기서 φ(x)는 비선형화하는 함수로, 2차함수, 로그함수, 지수함수 등일 수 있다.
w는 모델링 데이터변수의 중요도값을 나타낸다. 중요도값은 기계학습(Machine Learning) 기법 중 지도학습(Supervised Learning) 방법의 회귀분석기법을 통해 도출할 수 있다. 데이터 전처리부(120)에서 선택된 모델링 데이터변수를 훈련 데이터(Training Data)와 테스트 데이터(Test Data)로 나누어 정의된 중요도 값에 대해 산출된 예측 타겟 정보와 실제 타겟 정보와의 차이가 최대한 작아지도록 한다.
타겟 정보의 예측값을 산출함에 있어, 선형결합 방식 외에 비선형결합 방식을 사용하는 경우, 선형성이 보장되어 있지 않은 모델에서도 타겟 정보를 보다 정확하게 예측할 수 있다.
Figure 112015128699948-pat00003
또한, 모델링 데이터변수를 선형결합하여 산출된 선형 타겟 정보 예측값(YL)과 모델링 데이터변수를 비선형결합하여 산출된 적어도 하나의 비선형 타겟 정보 예측값(YN)을 선형 결합하여 보다 정확한 타겟 정보의 예측값을 산출할 수 있다. 이를 (수학식 3)에 나타내었다. (수학식 3)은 1개의 선형 타겟 정보 예측값(YL)과 m개의 비선형 타겟 정보 예측값(YN)을 선형결합하여 타겟 정보 예측값(Y)을 산출하는 방법을 나타낸 것이다.
등급 산출부(140)는 모델링부(130)로부터 산출된 타겟 정보의 예측값으로부터 이에 대응하는 등급을 산출하여 출력한다. 예컨대, 등급 산출부(140)는 해당 고객의 연체일수 예측값을 모델링부(130)로부터 산출한 후, 해당 연체일수에 대응하는 신용등급을 문서형태 혹은 GUI(Graphical User Interface) 형태로 해당 고객에게 출력한다.
도 2는 본 발명에 따른 타겟 정보 예측 방법에 대한 일 실시예의 수행과정을 나타내는 흐름도이다.
도 2에 도시한 타겟 정보 예측 방법은 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 방법으로, 도 1의 예측 시스템을 이용하여 수행하는 것이 바람직하다. 여기서 타겟 정보는 금융 정보일 수 있으며, 바람직하게는 연체일수일 수 있다. 도 2를 참조하면, 우선, 데이터 베이스로부터 고객별 데이터를 입력받는다(S210). 데이터 베이스는 은행 혹은 고객등급 산출이 필요한 사업장의 정보 데이터 베이스로부터 각 각 고객의 아이디(대출실행계좌번호) 별로 데이터를 입력받는다.
다음으로, 고객별 데이터로부터 초기 데이터변수를 추출하고, 타겟 정보의 모델링을 위해 초기 데이터변수를 정리한다(S220). 예컨대, 타겟 정보가 연체일수인 경우, 해당 고객의 여신원장정보로부터 대출 실행일부터 현재 시점까지의 연체기록 데이터를 바탕으로 연체일수를 목표값으로 정의하여 초기 데이터변수를 정리한다.
다음으로, 초기 데이터변수로부터 타겟 정보의 모델링을 위한 모델링 데이터변수를 생성한다(S230).
모델링 데이터변수를 생성하기 위해, 우선, 초기 데이터변수와 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성한다(S231). 파생 데이터변수는 초기 데이터변수의 2 이상의 조합으로 생성한다. 이때 파생 데이터변수는 초기 데이터변수로부터 가능한 모든 조합의 파생 데이터변수를 자동으로 생성한다. 예컨대, 초기 데이터변수가 고객의 지역, 나이, 초기대출금이라고 한다면, 지역+나이, 지역+초기대출금, 나이+초기대출금, 지역+나이+초기대출금의 4개의 파생 데이터변수를 자동으로 생성한다. 이로부터 초기 데이터변수와 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성한다. 상기의 예를 참조하면, 3개의 초기 데이터변수(지역, 나이, 초기대출금)로부터 지역, 나이, 초기대출금, 지역+나이, 지역+초기대출금, 나이+초기대출금, 지역+나이+초기대출금과 같은 7개의 통합 데이터변수를 자동으로 생성하게 된다.
다음으로, 통합 데이터변수 각각을 그룹핑하여 양자화한다(S233). 통합 데이터변수 중 나이, 초기대출금과 같은 수치형 변수는 수치 구간별로 그룹핑하여 양자화한다. 그리고 해당 구간은 데이터 빈도수가 균등하게 그룹핑하며, 각 구간의 평균값을 각 구간의 대표값으로 설정한다. 통합 데이터변수를 양자화하는 방법은 상기 도 1의 데이터변수 양자화 모듈(123)에서 설명한 것과 동일하다.
다음으로, 양자화된 통합 데이터변수를 정규화한다(S235). 이때, 양자화된 통합 데이터변수가 표준정규분포를 따르도록 정규화한다. 통합 데이터변수의 정규화는 각 데이터별 스케일과 평균값이 상이하므로, 추후 타겟 정보의 예측값을 산출할 때 각 데이터변수의 중요도 분석이 용이하도록 하기 위해서이다.
다음으로, 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출한다(S237).
다음으로, 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 기초로 모델링 데이터변수를 선택한다(S239). 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우, 해당 통합 데이터변수를 모델링 데이터변수로 선택한다. 기설정된 분산은 타겟 정보의 예측값을 산출할 때 정확도가 높아지는 방향으로 사전에 설정한다. 일반적으로, 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보 평균값의 분산이 작을 경우, 해당 통합 데이터변수는 타겟 정보에 대해 중요도가 떨어지는 데이터변수가 되어 이러한 통합 데이터변수는 모델링 데이터변수로 선택하지 않는다.
다음으로, 입력받은 고객별 데이터 중 일부 데이터값이 누락된 경우 누락된 데이터값을 통합 데이터변수의 평균값으로 설정한다(S241). 입력받은 고객별 데이터 중 일부 데이터값이 누락되어 있다면, 데이터 처리가 불가능한 상황이 발생할 수도 있고, 각 데이터변수의 중요도 분석이 용이하지 않을 수도 있다. 이때 누락된 데이터값을 양자화된 통합 데이터변수의 평균값에 해당하도록 설정하여, 해당 통합 데이터변수의 행동 패턴이 어느 한곳에 치우치지 않게 하고, 그 영향력을 0으로 만들어주게 된다. 양자화된 통합 데이터변수의 정규화 후에는 해당 통합 데이터변수의 평균값은 0이므로, 누락된 데이터값을 0으로 설정한다.
데이터 전처리 과정이 완료되면, 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 모델링한다(S250). 타겟 정보의 예측값 모델링은 회기분석기법에 의하여 수행될 수 있다.
타겟 정보 예측값을 모델링하기 위해, 우선, 모델링 데이터변수를 선형결합하여 선형 타겟 정보 예측값을 산출한다(S251). 모델링 데이터변수를 선형결합하여 선형 타겟 정보 예측값을 산출하는 방법은 (수학식 1)에 나타내었다. 선형결합 방식의 모델링 기법은 Elatic Net, Ridge regression 등이 사용될 수 있다.
다음으로, 모델링 데이터변수를 비선형결합하여 비선형 타겟 정보 예측값을 산출한다(S253). 모델링 데이터변수를 선형결합하여 비선형 타겟 정보 예측값을 산출하는 방법은 (수학식 2)에 나타내었다. 비선형 타겟 정보 예측값은 하나 이상 산출한다. 비선형결합 방식의 모델링 기법은 Deep neural network, Generalized Boosted regression Mode 1 등이 사용될 수 있다.
YL은 선형결합으로 산출된 타겟 정보의 예측값이고, YN 은 비선형결합으로 산출된 타겟정보의 예측값이다. (수학식 1) 및 (수학식 2)에서 타겟 정보를 산출하고자 하는 해당 고객의 모델링 데이터변수를 f1(X), f2(X), …, fn(X)로 나타내었다. 여기서, f1(X)는 고객 X의 첫 번째 모델링 데이터변수, f2(X)는 고객 X의 두 번째 모델링 데이터변수, fn(X)는 고객 X의 n 번째 모델링 데이터변수를 의미한다. 여기서 φ(x)는 비선형화하는 함수로, 2차함수, 로그함수, 지수함수 등일 수 있다.
w는 모델링 데이터변수의 중요도값을 나타낸다. 중요도값은 기계학습 기법 중 지도학습 방법의 회귀분석기법을 통해 도출할 수 있다. 모델링 데이터변수를 훈련 데이터와 테스트 데이터로 나누어 정의된 중요도 값에 대해 산출된 예측 타겟 정보와 실제 타겟 정보와의 차이가 최대한 작아지도록 w를 도출한다.
다음으로, 선형 타겟 정보 예측값과 비선형 타겟 정보 예측값을 선형결합하여, 타겟 정보의 예측값을 산출한다(S255). 타겟 정보의 예측값은 (수학식 3)에 나타낸 바와 같이 모델링 데이터변수를 선형결합 하여 산출된 선형 타겟 정보 예측값(YL)과 모델링 데이터변수를 비선형결합하여 산출된 적어도 하나의 비선형 타겟 정보 예측값(YN)을 선형 결합하여 보다 정확한 타겟 정보의 예측값을 산출할 수 있다.
그리고, 산출된 타겟 정보 예측값으로부터 등급을 산출한다(S260). 예컨대, 해당 고객의 연체일수 예측값을 산출한 후, 해당 연체일수에 대응하는 신용등급을 문서 형태 또는 GUI 형태로 해당 고객에게 출력하여 제공한다.
본 발명의 타겟 정보 예측 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 이러한 기록매체는 컴퓨터에 탑재되어 도 1의 시스템에 운용될 수 있다.
또한, 본 발명의 타겟 정보 예측 방법은 컴퓨터에서 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램으로 구현하는 것이 가능하다. 컴퓨터 프로그램이 저장될 수 있는 기록매체에 본 발명의 컴퓨터 프로그램이 저장가능하면 특별한 제한은 없다. 컴퓨터 프로그램 언어는 본 발명이 구현가능한 모든 종류의 컴퓨터 프로그램 언어를 포함한다. 컴퓨터 프로그램 언어의 예로는 C, PASCAL, COBOL, FORTRAN, PL/I. BASIC 등이 있다.
이상에서 본 발명의 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (28)

  1. 데이터 수집부, 데이터 전처리부 및 모델링부를 포함하고, 상기 데이터 전처리부는 데이터 변수 생성 모듈, 데이터 변수 양자화 모듈, 및 데이터 변수 선택 모듈을 포함하는 타겟 정보 예측 시스템으로 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 방법에 있어서,
    상기 데이터 수집부가, 데이터 베이스로부터 고객별 데이터를 입력받는 단계;
    상기 데이터 수집부가, 상기 고객별 데이터로부터 초기 데이터변수를 추출하고 상기 타겟 정보의 모델링을 위해 상기 초기 데이터변수를 정리하는 단계;
    상기 데이터 변수 생성 모듈이, 상기 초기 데이터변수로부터 상기 초기 데이터변수의 2 이상의 조합으로 이루어지는 파생 데이터변수를 생성하여, 상기 초기 데이터변수와 상기 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성하는 단계;
    상기 데이터 변수 양자화 모듈이, 상기 통합 데이터변수 각각을 기설정된 조건에 따라 그룹핑하는 양자화 단계;
    상기 데이터 변수 선택 모듈이, 상기 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출하는 단계;
    상기 데이터 변수 선택 모듈이, 상기 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우 해당 통합 데이터변수를 상기 타겟 정보의 모델링을 위한 모델링 데이터변수로 선택하는 단계; 및
    상기 모델링부가, 상기 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 모델링하는 단계;를 포함하는 것을 특징으로 하는 타겟 정보 예측 방법.
  2. 제1항에 있어서,
    상기 양자화 단계는,
    상기 통합 데이터변수 중 수치형 변수를 적어도 하나 포함하는 통합 데이터변수는 수치 구간별로 그룹핑하여 양자화하는 것을 특징으로 하는 타겟 정보 예측 방법.
  3. 제2항에 있어서,
    상기 양자화 단계는,
    각 구간별로 데이터 빈도수가 균등하게 되도록 그룹핑하여 양자화하는 것을 특징으로 하는 타겟 정보 예측 방법.
  4. 제3항에 있어서,
    상기 양자화 단계는,
    각 구간의 평균값을 각 구간의 대표값으로 설정하는 것을 특징으로 하는 타겟 정보 예측 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 데이터 전처리부는 데이터 변수 정규화 모듈을 더 포함하고,
    상기 양자화 단계 이후에,
    상기 데이터 변수 정규화 모듈이, 상기 양자화된 통합 데이터변수를 정규화(normalization)하는 단계를 더 포함하는 것을 특징으로 하는 타겟 정보 예측 방법.
  6. 제5항에 있어서,
    상기 데이터 전처리부는 데이터 변수 보완 모듈을 더 포함하고,
    상기 정규화하는 단계 이후에,
    상기 데이터 변수 보완 모듈이, 상기 입력받은 고객별 데이터 중 일부 데이터값이 누락된 경우, 통합 데이터변수의 평균값으로 누락된 데이터 값을 설정하는 단계를 더 포함하는 것을 특징으로 하는 타겟 정보 예측 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 모델링하는 단계는,
    상기 타겟 정보의 예측값을 회귀분석기법에 의하여 산출하는 것을 특징으로 하는 타겟 정보 예측 방법.
  8. 제7항에 있어서,
    상기 모델링하는 단계는,
    상기 모델링 데이터변수를 선형결합하여, 상기 타겟 정보의 예측값을 산출하는 것을 특징으로 하는 타겟 정보 예측 방법.
  9. 제7항에 있어서,
    상기 모델링하는 단계는,
    상기 모델링 데이터변수를 비선형결합하여, 상기 타겟 정보의 예측값을 산출하는 것을 특징으로 하는 타겟 정보 예측 방법.
  10. 제7항에 있어서,
    상기 모델링하는 단계는,
    상기 모델링 데이터변수를 선형결합하여 선형 타겟 정보 예측값을 산출하는 단계;
    상기 모델링 데이터변수를 비선형결합하여 비선형 타겟 정보 예측값을 적어도 하나 산출하는 단계; 및
    상기 선형 타겟 정보 예측값과 상기 비선형 타겟 정보 예측값을 선형 결합하여, 상기 타겟 정보의 예측값을 산출하는 단계;를 포함하는 것을 특징으로 하는 타겟 정보 예측 방법.
  11. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 타겟 정보 예측 시스템은 등급 산출부를 더 포함하고,
    상기 등급 산출부가, 상기 모델링하는 단계로부터 산출된 타겟 정보 예측값으로부터 등급을 산출하는 단계를 더 포함하는 것을 특징으로 하는 타겟 정보 예측 방법.
  12. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 타겟 정보는 금융 정보인 것을 특징으로 하는 타겟 정보 예측 방법.
  13. 제12항에 있어서,
    상기 금융 정보는 연체일수인 것을 특징으로 하는 타겟 정보 예측 방법.
  14. 빅데이터와 기계학습을 이용하여 타겟 정보를 예측하는 시스템에 있어서,
    데이터 베이스로부터 고객별 데이터를 입력받아, 상기 고객별 데이터로부터 초기 데이터변수를 추출하고 상기 타겟 정보의 모델링을 위해 상기 초기 데이터변수를 정리하는 데이터 수집부;
    상기 초기 데이터변수로부터 상기 타겟 정보의 모델링을 위한 모델링 데이터변수를 생성하는 데이터 전처리부; 및
    상기 모델링 데이터변수를 통계처리하여 타겟 정보의 예측값을 산출하는 모델링부;를 포함하며,
    상기 데이터 전처리부는,
    상기 초기 데이터변수로부터 상기 초기 데이터변수의 2 이상의 조합으로 이루어지는 파생 데이터변수를 생성하여, 상기 초기 데이터변수와 상기 파생 데이터변수를 포함하여 이루어진 통합 데이터변수를 생성하는 데이터변수 생성 모듈;
    상기 통합 데이터변수 각각을 기설정된 조건에 따라 그룹핑하여 양자화하는 데이터변수 양자화 모듈; 및
    상기 양자화된 통합 데이터변수의 그룹별 실제 타겟 정보의 평균값을 산출하여, 상기 그룹별 실제 타겟 정보 평균값의 분산이 기설정된 분산보다 클 경우 해당 통합 데이터변수를 상기 타겟 정보의 모델링을 위한 모델링 데이터변수로 선택하는 데이터변수 선택 모듈;을 포함하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  15. 제14항에 있어서,
    상기 데이터변수 양자화 모듈은,
    상기 통합 데이터변수 중 수치형 변수를 적어도 하나 포함하는 통합 데이터변수를 수치 구간별로 그룹핑하여 양자화하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  16. 제15항에 있어서,
    상기 데이터변수 양자화 모듈은,
    각 구간별로 데이터 빈도수가 균등하게 되도록 그룹핑하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  17. 제16항에 있어서,
    상기 데이터변수 양자화 모듈은,
    각 구간의 평균값을 각 구간의 대표값으로 설정하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  18. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 데이터 전처리부는,
    상기 양자화된 통합 데이터변수를 정규화(normalization)하는 데이터변수 정규화 모듈을 더 구비하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  19. 제18항에 있어서,
    상기 데이터 전처리부는,
    상기 입력받은 고객별 데이터 중 일부 데이터값이 누락된 경우, 통합 데이터변수의 평균값으로 누락된 데이터 값을 설정하는 데이터변수 보완 모듈을 더 구비하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  20. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 모델링부는,
    상기 타겟 정보의 예측값을 회귀분석기법에 의하여 산출하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  21. 제20항에 있어서,
    상기 모델링부는,
    상기 모델링 데이터변수를 선형결합하여, 상기 타겟 정보의 예측값을 산출하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  22. 제20항에 있어서,
    상기 모델링부는,
    상기 모델링 데이터변수를 비선형결합하여, 상기 타겟 정보의 예측값을 산출하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  23. 제20항에 있어서,
    상기 모델링부는,
    상기 모델링 데이터변수를 선형결합하여 산출된 선형 타겟 정보 예측값과 상기 모델링 데이터변수를 비선형결합하여 산출된 적어도 하나의 비선형 타겟 정보 예측값을 선형 결합하여, 상기 타겟 정보의 예측값을 산출하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  24. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 모델링부로부터 산출된 타겟 정보의 예측값으로부터 등급을 산출하여 출력하는 등급 산출부를 더 포함하는 것을 특징으로 하는 타겟 정보 예측 시스템.
  25. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 타겟 정보는 금융 정보인 것을 특징으로 하는 타겟 정보 예측 시스템.
  26. 제25항에 있어서,
    상기 금융 정보는 연체일수인 것을 특징으로 하는 타겟 정보 예측 시스템.
  27. 제1항 내지 제4항 중 어느 한 항에 기재된 타겟 정보 예측 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
  28. 제1항 내지 제4항 중 어느 한 항에 기재된 타겟 정보 예측 방법을 컴퓨터에서 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.
KR1020150189421A 2015-12-30 2015-12-30 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 KR102044205B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150189421A KR102044205B1 (ko) 2015-12-30 2015-12-30 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150189421A KR102044205B1 (ko) 2015-12-30 2015-12-30 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법

Publications (2)

Publication Number Publication Date
KR20170079159A KR20170079159A (ko) 2017-07-10
KR102044205B1 true KR102044205B1 (ko) 2019-11-13

Family

ID=59355237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150189421A KR102044205B1 (ko) 2015-12-30 2015-12-30 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법

Country Status (1)

Country Link
KR (1) KR102044205B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210078068A (ko) * 2019-12-18 2021-06-28 (주)씨앤솔루션 섬유 원단의 판매량을 추정하기 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
KR20210086175A (ko) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 데이터 전처리 시스템
KR20220043314A (ko) * 2020-09-29 2022-04-05 주식회사 포스코아이씨티 데이터 전처리 시스템
EP4068123A4 (en) * 2019-11-25 2023-12-06 Titechnology Co., Ltd. METHOD FOR QUANTIFYING DATA BASED ON A PRECISE VALUE AND AN ESTIMATED VALUE

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102092633B1 (ko) * 2017-10-30 2020-04-28 고려대학교 산학협력단 스마트 시니어 인지반응 기반의 모델링 방법 및 장치
KR102096035B1 (ko) * 2018-06-04 2020-04-02 (주) 우림인포텍 자기회귀 및 l0-그룹 라소를 이용한 변수 선택 방법 및 이를 수행하는 변수 선택 시스템
KR102047859B1 (ko) * 2018-06-18 2019-11-22 주식회사 비즈부스터 딥 러닝 기반 기업 신용 평가 서버 및 이를 이용한 기업 신용 평가 방법
WO2020145571A2 (ko) * 2019-01-07 2020-07-16 주식회사 제네시스랩 면접영상 자동평가모델을 관리하는 방법, 시스템 및 컴퓨터-판독가능 매체
KR102324634B1 (ko) * 2019-03-08 2021-11-11 주식회사 드림포라 모바일 앱 사용자의 빅데이터 분석 모델 실시간 생성을 위한 딥러닝 오차 최소화 시스템 및 그 제어방법
KR102249028B1 (ko) * 2019-03-18 2021-05-06 주식회사 포스코아이씨티 기업의 채무상환능력 평가시스템
KR102249015B1 (ko) * 2019-03-18 2021-05-06 주식회사 포스코아이씨티 기업의 채무지불여력 산출시스템
KR102246782B1 (ko) * 2019-03-19 2021-04-29 주식회사 포스코아이씨티 상거래데이터를 이용한 ai기반의 평가모델을 포함하는 기업의 채무상환능력 평가시스템
KR102404983B1 (ko) * 2020-04-28 2022-06-13 이진행 릿지 회귀를 이용한 변수 선택 장치 및 방법
KR102404982B1 (ko) * 2020-04-28 2022-06-02 이진행 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법
KR102352036B1 (ko) * 2020-04-28 2022-01-18 이진행 확률적 경사 하강법을 이용한 변수 선택 장치 및 방법
KR102414960B1 (ko) * 2020-07-23 2022-06-30 삼성카드 주식회사 프로모션 대상 선별 방법 및 그 장치
KR102271736B1 (ko) * 2020-09-11 2021-07-02 주식회사 뉴로클 자동화된 기계 학습 방법 및 그 장치
KR102231231B1 (ko) * 2020-10-08 2021-03-24 주식회사 솔리드웨어 변수 영향도 기반 머신러닝 예측 결과 해석 방법 및 그 장치
KR20220153746A (ko) 2021-05-12 2022-11-21 현대자동차주식회사 브레이크 패드 마찰계수 예측용 메타모델 고도화를 위한 시스템 및 방법, 마찰계수 예측용 메타모델을 이용한 제동 제어 시스템
KR20230053384A (ko) * 2021-10-14 2023-04-21 주식회사 솔리드웨어 데이터 시각화 방법 및 그 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100914307B1 (ko) * 2007-07-11 2009-08-27 고려대학교 산학협력단 신용 위험 모형 구축 시스템, 신용 위험 모형 구축을 통한 신용 위험 관리 방법 및 이를 기록한 기록매체
JP2010033536A (ja) * 2007-12-20 2010-02-12 Nippon Steel Corp 製品材質値の予測方法、装置、操業条件の決定方法、プログラム及びコンピュータ読み取り可能な記録媒体
JP2013168020A (ja) * 2012-02-15 2013-08-29 Nippon Steel & Sumikin Engineering Co Ltd プロセスの状態予測方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990048215A (ko) * 1997-12-09 1999-07-05 이규증 기업의 부실 예측 및 신용도 평가 시스템
KR20130100614A (ko) * 2012-03-02 2013-09-11 코리아크레딧뷰로 (주) 신용정보 관리 방법 및 장치
KR101504546B1 (ko) * 2012-10-17 2015-03-20 (주)뉴지스탁 롱텀차트를 이용한 주식 매매 가이드 정보 제공방법 및 그 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100914307B1 (ko) * 2007-07-11 2009-08-27 고려대학교 산학협력단 신용 위험 모형 구축 시스템, 신용 위험 모형 구축을 통한 신용 위험 관리 방법 및 이를 기록한 기록매체
JP2010033536A (ja) * 2007-12-20 2010-02-12 Nippon Steel Corp 製品材質値の予測方法、装置、操業条件の決定方法、プログラム及びコンピュータ読み取り可能な記録媒体
JP2013168020A (ja) * 2012-02-15 2013-08-29 Nippon Steel & Sumikin Engineering Co Ltd プロセスの状態予測方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4068123A4 (en) * 2019-11-25 2023-12-06 Titechnology Co., Ltd. METHOD FOR QUANTIFYING DATA BASED ON A PRECISE VALUE AND AN ESTIMATED VALUE
KR20210078068A (ko) * 2019-12-18 2021-06-28 (주)씨앤솔루션 섬유 원단의 판매량을 추정하기 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
KR102331158B1 (ko) * 2019-12-18 2021-11-25 주식회사 씨앤에이아이 섬유 원단의 판매량을 추정하기 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
KR20210086175A (ko) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 데이터 전처리 시스템
KR102469610B1 (ko) * 2019-12-31 2022-11-21 주식회사 포스코아이씨티 데이터 전처리 시스템
KR20220043314A (ko) * 2020-09-29 2022-04-05 주식회사 포스코아이씨티 데이터 전처리 시스템
KR102530794B1 (ko) * 2020-09-29 2023-05-10 주식회사 포스코디엑스 데이터 전처리 시스템

Also Published As

Publication number Publication date
KR20170079159A (ko) 2017-07-10

Similar Documents

Publication Publication Date Title
KR102044205B1 (ko) 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법
KR101802866B1 (ko) 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법
US8990145B2 (en) Probabilistic data mining model comparison
CN108475393A (zh) 通过合成特征和梯度提升决策树进行预测的系统和方法
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN104778622A (zh) Tps交易事件阈值的预测方法及预测系统
CN112070615A (zh) 基于知识图谱的理财产品推荐方法及装置
CN112561568A (zh) 一种目标客户预测方法、装置及存储介质
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN113344438A (zh) 对贷中行为进行监控的贷款系统、监控方法、设备及介质
KR101851367B1 (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN109977977B (zh) 一种识别潜在用户的方法及对应装置
CN112862182A (zh) 一种投资预测方法、装置、电子设备及存储介质
KR20110114181A (ko) 예측 정확성이 향상된 대출 심사 방법
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
KR20140146437A (ko) 특허정보를 이용한 기업성과 예측 장치 및 방법
CN111046912A (zh) 特征衍生方法、装置及计算机设备
CN114282657A (zh) 一种市场数据长期预测模型训练方法、装置、设备及存储介质
CN113656707A (zh) 一种理财产品推荐方法、系统、存储介质及设备
CN112508689A (zh) 一种基于多维度实现决策评估的方法
CN113537731A (zh) 基于强化学习的设计资源能力评估方法
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2017101001468; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20170327

Effective date: 20190419

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant