KR102637818B1 - 부정 계좌 예측을 위한 서버 및 그 방법 - Google Patents

부정 계좌 예측을 위한 서버 및 그 방법 Download PDF

Info

Publication number
KR102637818B1
KR102637818B1 KR1020220159648A KR20220159648A KR102637818B1 KR 102637818 B1 KR102637818 B1 KR 102637818B1 KR 1020220159648 A KR1020220159648 A KR 1020220159648A KR 20220159648 A KR20220159648 A KR 20220159648A KR 102637818 B1 KR102637818 B1 KR 102637818B1
Authority
KR
South Korea
Prior art keywords
fraudulent
account
data
account data
training
Prior art date
Application number
KR1020220159648A
Other languages
English (en)
Inventor
김윤철
김기태
하유미
황재경
신지혜
Original Assignee
엔에이치투자증권 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치투자증권 주식회사 filed Critical 엔에이치투자증권 주식회사
Priority to KR1020220159648A priority Critical patent/KR102637818B1/ko
Application granted granted Critical
Publication of KR102637818B1 publication Critical patent/KR102637818B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

부정 계좌 예측을 위한 서버 및 그 방법이 개시된다. 본 발명의 일 측면에 부정 계좌 예측을 위한 서버는, 메모리와 연결된 프로세서를 포함하고, 프로세서는 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하고, 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성할 수 있다.

Description

부정 계좌 예측을 위한 서버 및 그 방법{SERVER FOR PREDICTING OF BORROWED-NAME ACCOUNT AND METHOD THEREOF}
본 발명은 부정 계좌 예측을 위한 서버 및 그 방법에 관한 것으로서, 보다 상세하게는 금융 사기가 발생하기 전에 부정 계좌를 탐지할 수 있도록 하는 부정 계좌 예측을 위한 서버 및 그 방법에 관한 것이다.
일반적으로 부정 계좌를 지칭하는 대포통장은 보이스 피싱 등의 금융사기에 광범위하게 사용되고 있다.
이러한 대포통장은 우리나라에서만 볼 수 있는 특이현상이다. 왜냐하면, 외국에서는 계좌를 빌려준 사람에게도 과중한 처벌을 하기 때문에 부정 계좌를 빌려주는 경우가 극히 드문데, 우리나라는 부정 계좌를 빌려주더라도 빌려준 사람에 대한 처벌규정은 마땅히 없고, 구매자에게 부가되는 과태료도 소액이기 때문에 빈번히 발생하고 있다.
그런데, 현재까지 부정 계좌(대포통장)인지 여부를 명확하게 판단할 수 있는 알고리즘도 없어, 서비스 제공자는 금융사기가 발생한 이후, 경찰수사를 통해 부정 계좌(대포통장)을 탐지하고 있을 뿐이다.
이에, 금융 사기가 발생하기 전에 부정 계좌를 탐지할 수 있도록 하는 기술 개발이 필요한 실정이다.
본 발명의 배경기술은 대한민국 등록특허 제10-2239558호(2021.04.12. 공고, 금융사기를 방지하는 방법 및 그를 이용한 서버)에 개시되어 있다.
본 발명은 전술한 문제점을 개선하기 위하여 안출된 것으로, 본 발명의 목적은 금융 사기가 발생하기 전에 부정 계좌를 탐지할 수 있도록 하는 부정 계좌 예측을 위한 서버 및 그 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 측면에 부정 계좌 예측을 위한 서버는, 메모리, 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는, 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하고, 상기 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성할 수 있다.
본 발명에서 상기 정상 계좌 데이터는, 금융 거래 사고 거래가 발생하지 않은 입출금이 가능한 계좌 데이터이고, 상기 부정 계좌 데이터는, 금융 거래 사고 거래가 발생한 계좌 데이터일 수 있다.
본 발명에서 상기 프로세서는, 정상 계좌 데이터와 부정 계좌 데이터를 수집하고, 상기 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 상기 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할하며, 상기 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성하며, 상기 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 금융 거래 사고 발생일 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성하고, 상기 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성하되, 상기 모델링 데이터는 상기 훈련용 데이터 세트와 평가용 데이터 세트를 포함할 수 있다.
본 발명에서 상기 프로세서는, 상기 훈련용 데이터 세트에 대해 GA2M(Generalized Additive Model with Pairwise Interactions) 알고리즘을 이용한 기계학습을 수행할 수 있다.
본 발명에서 상기 프로세서는, 상기 스코어링 모델 생성 시, 상기 스코어링 모델에서 각 입력 변수에 대한 중요도를 산출할 수 있다.
본 발명에서 상기 프로세서는, 상기 모델링 데이터의 평가용 데이터 세트를 상기 스코어링 모델에 적용하여 상기 스코어링 모델에 대한 성능 지표를 산출함으로써, 상기 스코어링 모델에 대한 성능을 평가할 수 있다.
본 발명에서 상기 스코어링 모델은, 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 중 적어도 하나를 입력 변수로 하고, 부정 계좌 의심 확률 및 각 입력 변수의 점수를 출력하는 모델일 수 있다.
본 발명에서 상기 프로세서는, 기 설정된 일정 주기마다 복수의 검사 대상 계좌를 선정하고, 상기 선정된 각 검사 대상 계좌를 상기 스코어링 모델에 적용하여 부정 계좌를 탐지할 수 있다.
본 발명에서 상기 프로세서는, 입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 또는 전일 총 자산이 기준 미만인 계좌를 검사 대상 계좌로 선정할 수 있다.
본 발명에서 상기 프로세서는, 상기 선정된 각 검사 대상 계좌의 입력용 데이터를 획득하고, 각 검사 대상 계좌의 입력용 데이터를 상기 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측하며, 상기 부정 계좌 의심 확률이 기 설정된 임계값 이상인 검사 대상 계좌를 부정 계좌로 탐지할 수 있다.
본 발명은 디스플레이를 더 포함하고, 상기 프로세서는, 상기 부정 계좌로 탐지된 계좌에 대한 부정 계좌 의심 확률 및 각 입력 변수의 점수를 포함하는 부정 계좌 예측 결과를 상기 디스플레이를 통해 출력하거나, 관리자의 단말기로 전송할 수 있다.
본 발명의 다른 측면에 부정 계좌 예측을 위한 방법은, 서버가, 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하는 단계, 및 상기 서버가, 상기 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성하는 단계를 포함한다.
본 발명에서 상기 정상 계좌 데이터는, 금융 거래 사고 거래가 발생하지 않은 입출금이 가능한 계좌 데이터이고, 상기 부정 계좌 데이터는, 금융 거래 사고 거래가 발생한 계좌 데이터일 수 있다.
본 발명에서 상기 모델링 데이터를 생성하는 단계는, 상기 서버가 상기 정상 계좌 데이터와 부정 계좌 데이터를 수집하는 단계, 상기 서버가 상기 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 상기 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할하는 단계, 상기 서버가, 상기 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성하는 단계, 상기 서버가, 상기 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 금융 거래 사고 발생일 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성하는 단계, 상기 서버가, 상기 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성하는 단계, 및 상기 서버가 상기 훈련용 데이터 세트와 평가용 데이터 세트를 포함하는 모델링 데이터를 생성하는 단계를 포함할 수 있다.
본 발명은 상기 스코어링 모델을 생성하는 단계에서, 상기 서버는, 상기 모델링 데이터의 훈련용 데이터 세트에 대해 GA2M(Generalized Additive Model with Pairwise Interactions) 알고리즘을 이용한 기계학습을 수행할 수 있다.
본 발명은 상기 스코어링 모델을 생성하는 단계에서, 상기 스코어링 모델 생성 시, 상기 서버는 상기 스코어링 모델에서 각 입력 변수에 대한 중요도를 산출할 수 있다.
본 발명은 상기 스코어링 모델을 생성하는 단계 이후, 상기 서버가 상기 모델링 데이터의 평가용 데이터 세트를 상기 스코어링 모델에 적용하여 상기 스코어링 모델에 대한 성능 지표를 산출함으로써, 상기 스코어링 모델에 대한 성능을 평가하는 단계를 더 포함할 수 있다.
본 발명에서 상기 스코어링 모델은, 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 중 적어도 하나를 입력 변수로 하고, 부정 계좌 의심 확률 및 각 입력 변수의 점수를 출력하는 모델일 수 있다.
본 발명은 상기 스코어링 모델을 생성하는 단계 이후, 상기 서버가, 기 설정된 일정 주기마다 복수의 검사 대상 계좌를 선정하고, 상기 선정된 각 검사 대상 계좌를 상기 스코어링 모델에 적용하여 부정 계좌를 탐지하는 단계를 더 포함할 수 있다.
본 발명은 상기 부정 계좌를 탐지하는 단계에서, 상기 서버는 입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 또는 전일 총 자산이 기준 미만인 계좌를 검사 대상 계좌로 선정할 수 있다.
본 발명은 상기 부정 계좌를 탐지하는 단계에서, 상기 서버는, 상기 선정된 각 검사 대상 계좌의 입력용 데이터를 획득하고, 각 검사 대상 계좌의 입력용 데이터를 상기 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측하며, 상기 부정 계좌 의심 확률이 기 설정된 임계값 이상인 검사 대상 계좌를 부정 계좌로 탐지할 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 더 제공될 수 있다.
본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버 및 그 방법은, 부정 계좌의 명의자 속성 및 이용패턴 분석하여 스코어링 모델을 생성하고, 그 스코어링 모델을 이용하여 검사 대상 계좌들의 부정 계좌 의심 확률을 예측함으로써, 금융 사기가 발생하기 전에 부정 계좌를 탐지할 수 있다.
본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버 및 그 방법은, 부정 계좌로 예측된 경우 부정 계좌 의심 확률과 각 입력변수의 점수를 출력함으로써, 부정 계좌 의심 이유(사유)를 쉽게 확인할 수 있다.
한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.
도 1은 본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버의 구성을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 입력 변수의 중요도를 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 입력 변수의 가중치를 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 계좌별 부정 계좌 예측 결과 테이블을 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 부정 계좌 예측 결과의 출력 화면을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 부정 계좌 예측 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 스코어링 모델을 생성하는 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 스코어링 모델을 이용한 부정 계좌 예측 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
명세서 전체에서 "계좌"는 은행, 증권사, 보험사, 카드사 등에서 개설되는 통장, 주식 계좌 등을 포함하는 의미로 사용될 수 있다. 또한, "부정 계좌"는 대포통장, 차명계좌, 사기계좌 등을 포함하는 개념으로 사용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버의 구성을 개략적으로 나타낸 블록도, 도 2는 본 발명의 일 실시예에 따른 입력 변수의 중요도를 설명하기 위한 예시도, 도 3은 본 발명의 일 실시예에 따른 입력 변수의 가중치를 설명하기 위한 예시도, 도 4는 본 발명의 일 실시예에 따른 계좌별 부정 계좌 예측 결과 테이블을 설명하기 위한 예시도, 도 5는 본 발명의 일 실시예에 따른 부정 계좌 예측 결과의 출력 화면을 설명하기 위한 예시도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버(100)는, 메모리(110), 통신모듈(120), 디스플레이(130) 및 프로세서(140)를 포함한다.
메모리(110)는 서버(100)의 동작과 관련된 데이터들을 저장하는 구성이다. 특히, 메모리(110)에는 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 스코어링 모델을 생성하고, 검사 대상 계좌를 스코어링 모델에 적용하여 금융 사기가 발생하기 전에 부정 계좌를 탐지(예측)할 수 있도록 하는 어플리케이션(프로그램 또는 애플릿) 등이 저장될 수 있으며, 저장되는 정보들은 필요에 따라 프로세서(140)에 의해 취사 선택될 수 있다. 즉, 메모리(120)에는 서버(100)의 구동을 위한 운영 체제나 어플리케이션(프로그램 또는 애플릿)의 실행 과정에서 발생되는 여러 종류의 데이터가 저장된다. 이때, 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다. 또한, 메모리(110)는 프로세서(140)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리(110)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
통신모듈(120)은 통신망과 연동하여 서버(100)와 외부 서버(또는 증권사 서버, 은행 서버 등) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 특히, 통신모듈(120)은 외부 서버로부터 정상 계좌 데이터와 부정 계좌 데이터를 수신하거나, 검사 대상 계좌들의 입력용 데이터를 수신할 수 있다. 통신모듈(120)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 또한, 통신모듈(120)은 근거리 통신모듈, 무선 통신모듈, 이동통신 모듈, 유선 통신모듈 등 다양한 형태로 구현될 수 있다.
디스플레이(130)는 프로세서(140)의 제어에 따라 부정 계좌 예측 결과를 출력할 수 있다. 여기서, 부정 계좌 예측 결과는 부정 계좌 번호, 부정 계좌 의심 확률, 입력 변수별 점수 등을 포함할 수 있다. 이러한 디스플레이(130)는 예컨대, TFT-LCD(thin film transistor-liquid crystal display) 패널, LED(light emitting diode) 패널, OLED(organic LED) 패널, AMOLED(active matrix OLED) 패널, 또는 플렉서블(flexible) 패널 등으로 구현될 수 있다.
한편, 본 발명에 따른 부정 계좌 예측을 위한 서버(100)는 데이터베이스(미도시)를 더 포함할 수 있다. 데이터베이스에는 증권사별 계좌 데이터, 은행별 계좌 데이터 등이 저장될 수 있다. 여기서, 계좌 데이터는 정상 계좌 데이터 및 부정 계좌 데이터를 포함할 수 있다. 정상 계좌 데이터는 금융 사고 거래가 발생하지 않은 입출금이 가능한 계좌 데이터일 수 있고, 부정 계좌 데이터는 금융 사고 거래가 발생한 계좌 데이터일 수 있다. 정상 계좌 데이터 및 부정 계좌 데이터에는 계좌정보, 고객정보, 거래정보, 거래 정보(특히, 전일 거래 정보) 등을 포함할 수 있다. 고객정보는 고객성명, 고객등급, 고객 유효 카드 보유 여부 등을 포함할 수 있고, 계좌정보는 계좌번호, 계좌 개설기간, 계좌 개설 매체 구분 코드 등을 포함할 수 있다. 거래정보는 각 일자별 수/발신 거래 금액 및 그 합계, 각 일자별 CD 입출금액 및 그 합계, 각 일자별 주식 매수/매도 금액 및 그 합계 등 금융 거래(특히 주식 거래)에 관련된 정보를 포함할 수 있다.
본 발명의 실시예에서는 데이터베이스가 서버(100) 내부에 구비된 것으로 설명되었으나, 데이터베이스는 외부 서버(예: 증권사 서버, 은행 서버 등)에 구비될 수 있다.
프로세서(140)는 서버(100)의 전반적인 동작을 제어하는 구성으로, 집적 회로, 시스템 온 칩, 또는 모바일 AP로 구현될 수 있다.
프로세서(140)는 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하고, 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성하며, 검사 대상 계좌를 스코어링 모델에 적용함으로써, 금융 사고가 발생하기 전에 부정 계좌를 탐지할 수 있도록 한다.
이하, 프로세서(140)의 동작에 대해 구체적으로 설명하기로 한다.
프로세서(140)는 데이터베이스 또는 외부 서버로부터 정상 계좌 데이터와 부정 계좌 데이터를 수집할 수 있다. 이때, 프로세서(140)는 기 설정된 일정 기간동안 일정 개수의 정상 계좌 데이터와 부정 계좌 데이터를 수집할 수 있다.
정상 계좌 데이터와 부정 계좌 데이터가 수집되면, 프로세서(140)는 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할할 수 있다. 여기서, 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터는 부정 계좌의 사고 전 특징을 학습하기 위한 계좌 데이터일 수 있고, 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터는 생성된 스코어링 모델의 부정 계좌 예측 성능을 평가하기 위한 데이터일 수 있다. 이때, 프로세서(140)는 정상 계좌 데이터 또는 부정 계좌 데이터의 원소를 랜덤으로 추출하는 랜덤 방법, 정상 계좌 데이터 또는 부정 계좌 데이터의 원소를 순차적으로 추출하는 순차 방법, 정상 계좌 데이터 또는 부정 계좌 데이터의 원소를 시간 성격을 가지는 변수를 기반으로 시계열적으로 분할하는 시계열 방법 등을 이용하여 정상 계좌 데이터 또는 부정 계좌 데이터를 분할할 수 있다.
예를 들어, 정상 계좌 데이터의 경우, 프로세서(140)는 수집된 정상 계좌 데이터에서 랜덤으로 일정 개수의 정상 계좌 데이터를 추출하여 훈련을 위한 제1 훈련용 정상 계좌 데이터로 하고, 정상 계좌 데이터에서 기 설정된 일정 조건을 만족하는 계좌들을 제외하고 일정 개수의 정상 계좌 데이터를 임의로 추출하여 평가를 위한 제1 평가용 정상 계좌 데이터로 할 수 있다. 또한, 부정 계좌 데이터의 경우, 프로세서(140)는 수집된 부정 계좌 데이터를 월별로 분리하여 훈련을 위한 제1 훈련용 부정 계좌 데이터와 평가를 위한 제1 평가용 부정 계좌 데이터로 분할할 수 있다. 이때, 프로세서(140)는 평가의 정확성을 더 높이기 위해 제1 평가용 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터보다 후반의 월에서 추출할 수 있다. 예를 들면, 프로세서(140)는 1월부터 10월까지의 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터로 하고, 11월부터 12월까지의 부정 계좌 데이터를 제1 평가용 부정 계좌 데이터로 분할할 수 있다.
정상 계좌 데이터가 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할되고, 부정 계좌 데이터가 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할되면, 프로세서(140)는 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성할 수 있다. 이때, 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터는 사고 거래가 발생한 당일까지의 계좌 데이터일 수 있다.
한편, 본 발명은 사고 거래가 발생하기 전에 부정 계좌의 사고 발생을 예측하기 위한 것으로, 부정 계좌에 대해 사고 거래가 발생하기 전까지의 계좌 데이터가 필요하다.
이에, 프로세서(140)는 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 사고 거래 발생일 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성할 수 있다. 즉, 프로세서(140)는 과거 신고된 부정 계좌의 사고 거래 발생일 전의 특징 학습과 예측 능력 평가를 위해, 부정 계좌들에 대해 사고 거래 발생일 하루 전(D-1)까지의 계좌 데이터를 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터로 생성할 수 있다.
예를 들어, A계좌의 사고 발생일이 10월 28일이면, 프로세서(140)는 A계좌 데이터에서 10월 27일까지의 계좌 데이터(예: 평잔, 30일내 주식 매수액 등을 포함함)를 제2 훈련용 부정 계좌 데이터로 생성할 수 있다.
제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터가 생성되면, 프로세서(140)는 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성할 수 있다.
즉, 프로세서(140)는 부정 계좌의 사고 발생전 특징 학습을 위해 사고 거래 발생 하루전 시점의 제2 훈련용 부정 계좌 데이터를 이용하여 훈련용 데이터 세트를 생성할 수 있고, 부정 계좌의 예측 능력을 평가하기 위해 이미 사고가 발생한 당일의 부정 계좌 데이터를 제외하고, 사고 거래 발생 하루전 시점의 제2 평가용 부정 계좌 데이터를 이용하여 평가용 데이터 세트를 생성할 수 있다.
훈련용 데이터 세트 및 평가용 데이터 세트를 포함하는 모델링 데이터가 생성되면, 프로세서(140)는 훈련용 데이터 세트에 대해 기계학습을 수행하여 스코어링 모델을 생성할 수 있다. 이때, 기계학습에 사용되는 알고리즘은 복수의 기계학습 알고리즘 중 예측하고자 하는 결과에 적합한 것을 사용할 수 있으며, 예를 들면 GA2M(Generalized Additive Model with Pairwise Interactions) 등을 사용할 수 있다. 기계학습에 사용되는 알고리즘의 종류는 제한되지 않으며, 이진 클래스 또는 멀티 클래스 기계학습 알고리즘도 사용될 수 있다.
훈련용 데이터 세트 및 평가용 데이터 세트를 포함하는 모델링 데이터가 생성되면, 프로세서(140)는 훈련용 데이터 세트에 대해 기계학습을 수행하기 전에, 모델링 데이터에 대한 전처리를 수행할 수 있다. 여기서, 전처리란 예를 들어 결측치(missing value)의 제거, 이상치(outlier) 처리, 표준화(standardization), 차원 축소(dimensionally reduction), 데이터 변환, 변수 선택(feature selection), 불균형 보완 등 금융 거래를 포함하는 데이터로부터 기계학습을 위한 입력값을 생성하는 데 필요한 임의의 데이터 가공 또는 변환 과정을 지칭할 수 있다.
한편, 본 발명의 실시예에서는 훈련용 데이터 세트 및 평가용 데이터 세트에 대해 전처리를 수행하는 것으로 설명하였으나, 전처리는 정상 계좌 데이터와 부정 계좌 데이터를 수집한 후 수행될 수도 있다.
모델링 데이터에 대한 전처리가 완료되면, 프로세서(140)는 훈련용 데이터 세트에 포함된 각 계좌 데이터에서 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 등의 입력 변수 값을 추출하고, 추출된 입력 변수 값을 GA2M 알고리즘에 입력하여 스코어링 모델을 생성할 수 있다. 여기서, 스코어링 모델은 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 중 적어도 하나를 입력 변수로 하고, 부정 계좌 의심 확률을 출력하는 모델일 수 있다. 고객 및 계좌 속성 정보는 고객의 계좌정보에서 산출 가능한 각종 속성값을 기반으로 한 변수 집합으로, 고객정보(성별, 연령, 주소 등을 포함함), 계좌 개설기간, 고객등급, 계좌개설 매체 구분 코드, 고객유효카드 매체 보유 여부 등을 포함할 수 있다. 전일 거래 통계 정보는 전일 사고 의심 거래가 있어났는지 탐지하기 위해 설계된 변수 집합으로, 전일 수/발신 거래 금액 합계, 전일 CD 입출금액 합계, 전일 주식 매수/매도 금액 합계, 기타 전일 거래 통계 등을 포함할 수 있다. 최근 거래성향정보는 계좌별 최근 거래 패턴 및 사고 계좌가 보인 특이 거래 패턴을 탐지하기 위한 변수 집합으로, 일정 기간(예: 30일간) 국내 주식 매수/매도 금액 합계, 일정 기간(예: 30일간) 평균 계좌 총자산 금액, 기타 최근 거래성향변수, 일정 기간(예: 90일) 이내 고객 지점방문 업무 처리 여부, 기타 특이 거래 변수 등을 포함할 수 있다.
스코어링 모델이 생성되면, 프로세서(140)는 스코어링 모델에서 각 입력 변수에 대한 중요도를 산출할 수 있다. 입력 변수의 중요도는 스코어링 모델 학습 시 계좌들의 부정 계좌 의심 확률 계산에 입력 변수들이 미치는 개별 영향력의 평균을 나타낸 것으로, 수치가 높을수록 전 계좌들의 확률 계산에 영향력이 큰 변수라는 것을 의미할 수 있다. 예를 들면, 프로세서(140)는 도 2에 도시된 바와 같이 스코어링 모델에서 입력 변수의 중요도 순위를 산출할 수 있다. 이 경우, 입력 변수 중 '고객 등급 코드'변수와 '고객 유효카드매체 보유 여부' 변수가 가장 중요한 것으로 판별할 수 있다. 입력 변수의 중요도는 기계학습 알고리즘마다 서로 상이한 산출 방법을 이용하여 산출될 수 있다. 다만, 이에 제한되지 않으며, 일부 기계학습 알고리즘에 대한 변수의 중요도 산출 방법은 같을 수도 있다. 중요도 산출 방법의 일 예로 결정 트리(decision tree)의 지니 불순도(gini impurity)가 있을 수 있다.
또한, 스코어링 모델이 생성되면, 스코어링 모델의 부정 계좌 예측 능력(성능)을 평가할 필요가 있다. 이에, 프로세서(140)는 평가용 데이터 세트를 생성된 스코어링 모델에 적용하여 스코어링 모델에 대한 성능 지표를 산출함으로써, 스코어링 모델에 대한 성능을 분석할 수 있다. 여기서, 성능 지표는 F-1 score, 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), AUC(Area Under the Curve) 등을 포함할 수 있다.
스코어링 모델의 성능 평가가 완료되면, 프로세서(140)는 스코어링 모델을 이용하여 사기 거래 발생 전에 부정 계좌를 검출할 수 있다. 즉, 프로세서(140)는 검사 대상 계좌들에 스코어링 모델을 적용하여 부정 계좌를 탐지(예측)할 수 있다. 이때, 프로세서(140)는 배치(Batch) 예측을 수행할 수 있다. 배치 예측은 일정 시간동안 기록된 계좌 데이터를 외부 서버로부터 입력받아 해당 계좌 데이터에 대해 예측 결과를 도출하는 것일 수 있다. 또한, 프로세서(140)는 실시간 예측을 수행할 수도 있다.
프로세서(140)는 기 설정된 일정 주기마다 복수의 검사 대상 계좌를 선정하고, 선정된 각 검사 대상 계좌의 입력용 데이터를 추출하며, 각 검사 대상 계좌의 입력용 데이터를 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측할 수 있다.
구체적으로, 프로세서(140)는 일정 주기(예: 매 영업일 새벽)마다 입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 혹은 전일 총 자산이 기준 미만인 계좌들을 검사 대상 계좌로 선정할 수 있다. 이때, 프로세서(140)는 선정된 검사 대상 계좌들에 대한 개별 계좌번호 리스트 테이블을 생성할 수 있다.
그런 후, 프로세서(140)는 데이터베이스 또는 외부 서버(예: 증권사 서버)로부터 각 검사 대상 계좌의 입력용 데이터를 추출하고, 추출된 각 검사 대상 계좌의 입력용 데이터를 스코어링 모델에 입력할 수 있다. 이때, 프로세서(140)는 각 검사 대상 계좌의 입력용 데이터를 CSV(comma separated value) 파일로 다운로드하여 스코어링 모델에 입력할 수 있다. 여기서, 입력용 데이터는 스코어링 모델에 설정된 입력 변수에 대한 값으로, 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 등의 입력 변수 값을 포함할 수 있다.
각 검사 대상 계좌의 입력용 데이터를 입력받은 스코어링 모델은 입력용 데이터에서 각 입력 변수의 값을 추출하고, 각 입력 변수의 값에 입력 변수별로 설정된 가중치를 적용하여 입력 변수별 점수를 산출할 수 있다. 그러면, 스코어링 모델은 각 입력 변수의 점수를 연산하여 부정 계좌 의심 확률을 산출할 수 있다.
여기서, 입력 변수별로 설정된 가중치는 입력 변수의 값에 따라 정해진 가중치일 수 있다. 예를 들어, 고객등급코드의 경우, 가중치는 도 3의 (a)에 도시된 바와 같이 고객등급코드에 따라 다른 값이 설정되어 있다. 예컨대, 등급없음은 +0.32, 일반등급은 +0.40, 블루등급은 -0.58, 그린등급은 -0.58, 로얄등급은 -0.42, 골드등급 및 탑클래스등급은 -0.69로 가중치가 설정되어 있다. 이는 고객등급이 블루등급 이상인 경우 부정 계좌일 가능성을 감소시키고, 일반등급 고객이나 등급값이 없는 경우에는 부정 계좌일 가능성을 증가시킨다는 것을 알 수 있다. 또한, 특정 계좌 내 자산이 없어도 명의인이 해당 증권회사 내 계좌 혹은 그룹 내 자산이 많다면, 해당 계좌가 부정 계좌일 확률이 감소한다는 것을 알 수 있다.
또한, 고객 유효카드매체 보유 여부의 경우, 가중치는 도 3의 (b)에 도시된 바와 같이 고객유효카드 보유 여부에 따라 다른 가중치가 설정되어 있다. 예컨대, 유효카드를 보유하면 +0.98, 유효카드를 보유하지 않으면 -0.30으로 가중치가 설정될 수 있다. 고객이 유효한 카드매체(IC, 체크등)를 보유한 경우 부정 계좌일 가능성이 크게 증가하고, 유효한 카드매체를 보유하지 않은 경우에는 부정 계좌일 가능성이 소폭 감소할 수 있다. 비대면 계좌가 많아지며 카드를 보유한 고객비중이 줄었으나, ATM을 이용해 현금을 인출하기 위해서는 비대면 계좌라도 카드가 필요하기에 스코어링 모델에 가중치를 크게 부여할 수 있다.
부정 계좌 의심 확률이 산출되면, 프로세서(140)는 부정 계좌 의심 확률을 기 설정된 임계값과 비교하고, 부정 계좌 의심 확률이 임계값 이상인 검사 대상 계좌를 부정 계좌로 예측(탐지)할 수 있다.
프로세서(140)는 부정 계좌로 예측(탐지)된 계좌에 대한 부정 계좌 의심 확률 및 각 입력 변수의 점수를 포함하는 계좌별 부정 계좌 예측 결과를 저장할 수 있다.
또한, 프로세서(140)는 계좌별 부정 계좌 예측 결과를 디스플레이(130)를 통해 출력할 수 있다.
또한, 프로세서(140)는 계좌별 부정 계좌 예측 결과를 관리자의 단말기로 전송할 수도 있다. 이때, 프로세서(140)는 계좌별 부정 계좌 예측 결과를 테이블 형태로 생성하여, 관리자의 단말기로 전송할 수 있다. 예를 들면, 프로세서(140)는 계좌별 부정 계좌 예측 결과를 도 4와 같은 테이블로 형태로 생성할 수 있다. 도 4를 참조하면, 입력변수가 80개인 경우, 프로세서(140)는 스코어링 모델의 업데이트 이후에도 테이블내 칼럼 형태가 변하지 않도록 1개의 의심 확률 변수와 80개 입력 변수들을 각 행마다 기입하여 1개 계좌 정보를 80행*5열 형태로 구성할 수 있다.
디스플레이(130) 또는 관리자 단말기는 계좌별 부정 계좌 예측 결과를 디스플레이할 수 있다. 예를 들면, 디스플레이(130) 또는 관리자 단말기는 도 5에 도시된 바와 같이 부정 계좌 의심 확률 및 입력 변수별 점수를 디스플레이할 수 있다. 관리자는 부정 계좌 예측 결과에서 부정 계좌 의심 확률 및 입력 변수별 점수를 확인할 수 있다. 입력 변수별 점수의 절대값이 높은 변수들이 해당 결과를 예측하는데 큰 영향을 미치는 것으로 해석할 수 있다. 도 5는 해당 계좌가 부정 계좌로 예측한 주요원인으로 계좌를 개설한 기간이 짧으며, 유효한 카드매체를 보유하였고, 고객등급이 낮은 점 등으로 나타났으며, 실제로 부정 계좌가 되었기에 예측에 성공하였다는 것을 알 수 있다.
도 6은 본 발명의 일 실시예에 따른 부정 계좌 예측 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 서버(100)는 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 스코어링 모델을 생성한다(S610). 서버(100)가 스코어링 모델을 생성하는 방법에 대한 상세한 설명은 도 7을 참조하기로 한다.
S610 단계가 수행되면, 서버(100)는 검사 대상 계좌를 스코어링 모델에 적용하여 부정 계좌를 탐지(예측)한다(S620). 서버(100)가 부정 계좌를 탐지하는 방법에 대한 상세한 설명은 도 8을 참조하기로 한다.
도 7은 본 발명의 일 실시예에 따른 스코어링 모델을 생성하는 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 서버(100)는 정상 계좌 데이터와 부정 계좌 데이터를 수집한다(S702). 이때, 서버(100)는 기 설정된 일정 기간 동안 일정 개수의 정상 계좌 데이터와 부정 계좌 데이터를 수집할 수 있다. 여기서, 일정 기간은 현재를 기준으로 과거 일정 기간을 말하는 것으로, 전일이나 전주 또는 과거 한달 등일 수 있으며 이는 관리자에 의해 설정될 수 있다.
S702 단계가 수행되면, 서버(100)는 수집된 정상 계좌 데이터와 부정 계좌 데이터를 이용하여 훈련용 데이터 세트 및 평가용 데이터 세트를 포함하는 모델링 데이터를 생성한다(S704). 모델링 데이터를 생성하기 위해, 서버(100)는 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할할 수 있다. 여기서, 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터는 부정 계좌의 사고 전 특징을 학습하기 위한 계좌 데이터일 수 있고, 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터는 부정 계좌의 예측 성능을 평가하기 위한 데이터일 수 있다. 그런 후, 서버(100)는 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성할 수 있다. 이때, 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터는 사고 거래가 발생한 당일까지의 계좌 데이터일 수 있다.
본 발명은 사고 거래가 발생하기 전에 부정 계좌의 사고 발생을 예측하기 위한 것으로, 부정 계좌에 대해 사고 거래가 발생하기 전까지의 계좌 데이터가 필요하다. 이에, 프로세서(140)는 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 사고 거래 발생일 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성할 수 있다.
제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터가 생성되면, 서버(100)는 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성할 수 있다. 모델링 데이터는 훈련용 데이터 세트와 평가용 데이터 세트를 포함할 수 있다.
S704 단계가 수행되면, 서버(100)는 훈련용 데이터 세트에 대해 기계학습을 수행하여 스코어링 모델을 생성한다(S706). 이때, 서버(100)는 GA2M 알고리즘을 이용하여 스코어링 모델을 생성할 수 있다. 또한, 서버(100)는 훈련용 데이터 세트에 대해 기계학습을 수행하기 전에 모델링 데이터에 대한 전처리를 수행하고, 모델링 데이터에 대한 전처리가 완료되면, 훈련용 데이터 세트에 대해 기계학습을 수행하여 스코어링 모델을 생성할 수도 있다.
스코어링 모델이 생성되면, 서버(100)는 각 입력 변수의 스코어링 모델에 대한 중요도를 산출하고, 중요도 순위를 출력할 수도 있다.
S706 단계가 수행되면, 서버(100)는 평가용 데이터 세트를 스코어링 모델에 적용하여 스코어링 모델에 대한 성능을 분석한다(S708). 이때, 서버(100)는 평가용 데이터 세트를 생성된 스코어링 모델에 적용하여 스코어링 모델에 대한 성능 지표를 산출함으로써, 스코어링 모델에 대한 성능을 분석할 수 있다.
도 8은 본 발명의 일 실시예에 따른 스코어링 모델을 이용한 부정 계좌 예측 방법을 설명하기 위한 흐름도이다.
도 8을 참조하면, 서버(100)는 일정 주기(예: 매 영업일 새벽)마다 검사 대상 계좌를 선정한다(S802). 이때, 서버(100)는 입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 혹은 전일 총 자산이 기준 미만인 계좌들을 검사 대상 계좌로 선정할 수 있다. 서버(100)는 선정된 검사 대상 계좌들에 대한 개별 계좌번호 리스트 테이블을 생성할 수 있다.
S802 단계가 수행되면, 서버(100)는 각 검사 대상 계좌의 입력용 데이터를 추출하고(S804), 추출된 각 검사 대상 계좌의 입력용 데이터를 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측한다(S806). 이때, 서버(100)는 각 검사 대상 계좌의 입력용 데이터를 CSV(comma separated value) 파일로 다운로드하여 스코어링 모델에 입력할 수 있다. 여기서, 입력용 데이터는 스코어링 모델에 설정된 입력 변수에 대한 값으로, 고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 등의 입력 변수 값을 포함할 수 있다. 각 검사 대상 계좌의 입력용 데이터를 입력받은 스코어링 모델은 입력용 데이터에서 각 입력 변수의 값을 추출하고, 각 입력 변수의 값에 입력 변수별로 설정된 가중치를 적용하여 입력 변수별 점수를 산출할 수 있다. 그러면, 스코어링 모델은 각 입력 변수의 점수를 연산하여 부정 계좌 의심 확률을 산출할 수 있다.
S806 단계가 수행되면, 서버(100)는 부정 계좌 의심 확률을 기 설정된 임계값과 비교하여 부정 계좌 의심 확률이 임계값 이상인지를 판단한다(S808).
S808 단계의 판단결과, 부정 계좌 의심 확률이 임계값 이상이면, 서버(100)는 해당 검사 대상 계좌를 부정 계좌로 예측하고(S810), 부정 계좌로 예측된 계좌에 대한 부정 계좌 의심 확률 및 각 입력 변수의 점수를 포함하는 부정 계좌 예측 결과를 저장한다(S812).
S812 단계가 수행되면, 서버(100)는 부정 계좌 예측 결과를 디스플레이하거나 관리자의 단말기로 전송한다(S814). 이때, 서버(100)는 계좌별 부정 계좌 예측 결과를 도 4와 같은 테이블 형태로 생성하여 관리자의 단말기로 전송할 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버 및 그 방법은, 부정 계좌의 명의자 속성 및 이용패턴 분석하여 스코어링 모델을 생성하고, 그 스코어링 모델을 이용하여 검사 대상 계좌들의 부정 계좌 의심 확률을 예측함으로써, 금융 사기가 발생하기 전에 부정 계좌를 탐지할 수 있다.
본 발명의 일 실시예에 따른 부정 계좌 예측을 위한 서버 및 그 방법은, 부정 계좌로 예측된 경우 부정 계좌 의심 확률과 각 입력변수의 점수를 출력함으로써, 부정 계좌 의심 이유(사유)를 쉽게 확인할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.
100 : 서버
110 : 메모리
120 :통신모듈
130 : 디스플레이
140 : 프로세서

Claims (21)

  1. 메모리; 및
    상기 메모리와 연결된 프로세서를 포함하고,
    상기 프로세서는,
    정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하고, 상기 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성하며,
    상기 프로세서는,
    상기 모델링 데이터의 훈련용 데이터 세트에 대해 GA2M(Generalized Additive Model with Pairwise Interactions) 알고리즘을 이용한 기계학습을 수행하고,
    상기 프로세서는,
    상기 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 상기 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할하며,
    상기 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성하며,
    상기 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 금융 거래 사고 발생일(D) 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성하고,
    상기 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  2. 제1항에 있어서,
    상기 정상 계좌 데이터는, 금융 거래 사고 거래가 발생하지 않은 입출금이 가능한 계좌 데이터이고,
    상기 부정 계좌 데이터는, 금융 거래 사고 거래가 발생한 계좌 데이터인 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  3. 제1항에 있어서,
    상기 모델링 데이터는 상기 훈련용 데이터 세트와 평가용 데이터 세트를 포함하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  4. 삭제
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 스코어링 모델 생성 시, 상기 스코어링 모델에서 각 입력 변수에 대한 중요도를 산출하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 모델링 데이터의 평가용 데이터 세트를 상기 스코어링 모델에 적용하여 상기 스코어링 모델에 대한 성능 지표를 산출함으로써, 상기 스코어링 모델에 대한 성능을 평가하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  7. 제1항에 있어서,
    상기 스코어링 모델은,
    고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 중 적어도 하나를 입력 변수로 하고, 부정 계좌 의심 확률 및 각 입력 변수의 점수를 출력하는 모델인 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  8. 제1항에 있어서,
    상기 프로세서는,
    기 설정된 일정 주기마다 복수의 검사 대상 계좌를 선정하고, 상기 선정된 각 검사 대상 계좌를 상기 스코어링 모델에 적용하여 부정 계좌를 탐지하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  9. 제8항에 있어서,
    상기 프로세서는,
    입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 또는 전일 총 자산이 기준 미만인 계좌를 검사 대상 계좌로 선정하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  10. 제8항에 있어서,
    상기 프로세서는,
    상기 선정된 각 검사 대상 계좌의 입력용 데이터를 획득하고, 각 검사 대상 계좌의 입력용 데이터를 상기 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측하며, 상기 부정 계좌 의심 확률이 기 설정된 임계값 이상인 검사 대상 계좌를 부정 계좌로 탐지하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  11. 제1항에 있어서,
    디스플레이를 더 포함하고,
    상기 프로세서는,
    상기 부정 계좌로 탐지된 계좌에 대한 부정 계좌 의심 확률 및 각 입력 변수의 점수를 포함하는 부정 계좌 예측 결과를 상기 디스플레이를 통해 출력하거나, 관리자의 단말기로 전송하는 것을 특징으로 하는 부정 계좌 예측을 위한 서버.
  12. 서버가, 정상 계좌 데이터와 부정 계좌 데이터에 기초하여 모델링 데이터를 생성하는 단계; 및
    상기 서버가, 상기 생성된 모델링 데이터에 기계학습을 수행하여 스코어링 모델을 생성하는 단계를 포함하되,
    상기 스코어링 모델을 생성하는 단계에서,
    상기 서버는, 상기 모델링 데이터의 훈련용 데이터 세트에 대해 GA2M(Generalized Additive Model with Pairwise Interactions) 알고리즘을 이용한 기계학습을 수행하고,
    상기 모델링 데이터를 생성하는 단계는,
    상기 서버가 상기 정상 계좌 데이터를 제1 훈련용 정상 계좌 데이터와 제1 평가용 정상 계좌 데이터로 분할하고, 상기 부정 계좌 데이터를 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터로 분할하는 단계;
    상기 서버가, 상기 제1 훈련용 정상 계좌 데이터와 제1 훈련용 부정 계좌 데이터를 혼합하여 제1 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제1 평가용 부정 계좌 데이터를 혼합하여 제1 평가용 데이터 세트를 생성하는 단계;
    상기 서버가, 상기 제1 훈련용 부정 계좌 데이터와 제1 평가용 부정 계좌 데이터 각각에서 금융 거래 사고 발생일 하루 전(D-1)까지의 계좌 데이터를 추출하여 제2 훈련용 부정 계좌 데이터와 제2 평가용 부정 계좌 데이터를 생성하는 단계;
    상기 서버가, 상기 제1 훈련용 정상 계좌 데이터와 제2 훈련용 부정 계좌 데이터를 혼합하여 훈련용 데이터 세트를 생성하고, 상기 제1 평가용 정상 계좌 데이터와 제2 평가용 부정 계좌 데이터를 혼합하여 평가용 데이터 세트를 생성하는 단계; 및
    상기 서버가 상기 훈련용 데이터 세트와 평가용 데이터 세트를 포함하는 모델링 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  13. 제12항에 있어서,
    상기 정상 계좌 데이터는, 금융 거래 사고 거래가 발생하지 않은 입출금이 가능한 계좌 데이터이고,
    상기 부정 계좌 데이터는, 금융 거래 사고 거래가 발생한 계좌 데이터인 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  14. 삭제
  15. 삭제
  16. 제12항에 있어서,
    상기 스코어링 모델을 생성하는 단계에서,
    상기 스코어링 모델 생성 시, 상기 서버는 상기 스코어링 모델에서 각 입력 변수에 대한 중요도를 산출하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  17. 제12항에 있어서,
    상기 스코어링 모델을 생성하는 단계 이후,
    상기 서버가 상기 모델링 데이터의 평가용 데이터 세트를 상기 스코어링 모델에 적용하여 상기 스코어링 모델에 대한 성능 지표를 산출함으로써, 상기 스코어링 모델에 대한 성능을 평가하는 단계를 더 포함하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  18. 제12항에 있어서,
    상기 스코어링 모델은,
    고객 및 계좌 속성 정보, 전일 거래 통계 정보, 및 최근 거래 성향 정보 중 적어도 하나를 입력 변수로 하고, 부정 계좌 의심 확률 및 각 입력 변수의 점수를 출력하는 모델인 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  19. 제12항에 있어서,
    상기 스코어링 모델을 생성하는 단계 이후,
    상기 서버가, 기 설정된 일정 주기마다 복수의 검사 대상 계좌를 선정하고, 상기 선정된 각 검사 대상 계좌를 상기 스코어링 모델에 적용하여 부정 계좌를 탐지하는 단계를 더 포함하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  20. 제19항에 있어서,
    상기 부정 계좌를 탐지하는 단계에서,
    상기 서버는 입출금 거래가 가능한 상품이면서 현재 휴면 계좌가 아니고 계좌 개설 기간 또는 전일 총 자산이 기준 미만인 계좌를 검사 대상 계좌로 선정하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
  21. 제19항에 있어서,
    상기 부정 계좌를 탐지하는 단계에서,
    상기 서버는, 상기 선정된 각 검사 대상 계좌의 입력용 데이터를 획득하고, 각 검사 대상 계좌의 입력용 데이터를 상기 스코어링 모델에 입력하여 부정 계좌 의심 확률을 예측하며, 상기 부정 계좌 의심 확률이 기 설정된 임계값 이상인 검사 대상 계좌를 부정 계좌로 탐지하는 것을 특징으로 하는 부정 계좌 예측을 위한 방법.
KR1020220159648A 2022-11-24 2022-11-24 부정 계좌 예측을 위한 서버 및 그 방법 KR102637818B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220159648A KR102637818B1 (ko) 2022-11-24 2022-11-24 부정 계좌 예측을 위한 서버 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220159648A KR102637818B1 (ko) 2022-11-24 2022-11-24 부정 계좌 예측을 위한 서버 및 그 방법

Publications (1)

Publication Number Publication Date
KR102637818B1 true KR102637818B1 (ko) 2024-02-19

Family

ID=90055651

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220159648A KR102637818B1 (ko) 2022-11-24 2022-11-24 부정 계좌 예측을 위한 서버 및 그 방법

Country Status (1)

Country Link
KR (1) KR102637818B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
KR20210141917A (ko) * 2018-12-14 2021-11-23 데이터로봇, 인크. 머신 러닝 모델의 설명 가능성 기반의 조정
JP2022508106A (ja) * 2018-11-14 2022-01-19 シー3.エーアイ, インコーポレイテッド マネーロンダリング防止分析のためのシステムおよび方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022508106A (ja) * 2018-11-14 2022-01-19 シー3.エーアイ, インコーポレイテッド マネーロンダリング防止分析のためのシステムおよび方法
KR20210141917A (ko) * 2018-12-14 2021-11-23 데이터로봇, 인크. 머신 러닝 모델의 설명 가능성 기반의 조정
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体

Similar Documents

Publication Publication Date Title
US11386075B2 (en) Methods for detecting and interpreting data anomalies, and related systems and devices
Fu et al. Crowds, lending, machine, and bias
US7761379B2 (en) Mass compromise/point of compromise analytic detection and compromised card portfolio management system
CN111967779B (zh) 一种风险评估方法、装置及设备
US20070055619A1 (en) Systems and methods for analyzing disparate treatment in financial transactions
Petrides et al. Cost-sensitive learning for profit-driven credit scoring
CN112801529B (zh) 财务数据分析方法及装置、电子设备及介质
US11694208B2 (en) Self learning machine learning transaction scores adjustment via normalization thereof accounting for underlying transaction score bases relating to an occurrence of fraud in a transaction
Van Thiel et al. Artificial intelligent credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era
Liu et al. Interpreting the prediction results of the tree‐based gradient boosting models for financial distress prediction with an explainable machine learning approach
EP4075363A1 (en) Self learning machine learning scores adjustment via normalization thereof
CN114781937A (zh) 一种预付卡企业风险预警方法和装置以及存储介质
EP4083888A1 (en) System for detection of entities associated with compromised records
CN110991650A (zh) 训练养卡识别模型、识别养卡行为的方法及装置
KR102637818B1 (ko) 부정 계좌 예측을 위한 서버 및 그 방법
Elrefai et al. Using artificial intelligence in enhancing banking services
CA3170618A1 (en) Data processing method and device
Yeh et al. Predicting failure of P2P lending platforms through machine learning: The case in China
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
Ayadurai et al. Artificial Intelligence and Bank Soundness: Between the Devil and the Deep Blue Sea-Part 2
Saeed The Application of Data Mining Techniques for Financial Risk Management: A classification framework
Hargreaves Machine learning application to identify good credit customers
Lin et al. Credit Card Default Prediction: A Comparative Study Of Machine Learning Models Based On Accuracy, Sensitivity, And Specificity
Suhanjoyo et al. Fraud Detection in Sales of Distribution Companies Using Machine Learning
Saddi et al. Leveraging Big Data and AI for Predictive Analysis in Insurance Fraud Detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant