KR102046651B1 - 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법 - Google Patents

클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법 Download PDF

Info

Publication number
KR102046651B1
KR102046651B1 KR1020170050854A KR20170050854A KR102046651B1 KR 102046651 B1 KR102046651 B1 KR 102046651B1 KR 1020170050854 A KR1020170050854 A KR 1020170050854A KR 20170050854 A KR20170050854 A KR 20170050854A KR 102046651 B1 KR102046651 B1 KR 102046651B1
Authority
KR
South Korea
Prior art keywords
real
data stream
time processing
data
transaction
Prior art date
Application number
KR1020170050854A
Other languages
English (en)
Other versions
KR20180117836A (ko
Inventor
김민경
Original Assignee
주식회사 비아이큐브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비아이큐브 filed Critical 주식회사 비아이큐브
Priority to KR1020170050854A priority Critical patent/KR102046651B1/ko
Publication of KR20180117836A publication Critical patent/KR20180117836A/ko
Application granted granted Critical
Publication of KR102046651B1 publication Critical patent/KR102046651B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

대용량 데이터 스트림의 실시간 처리 방법이 제공되며, 대용량 데이터 스트림을 적어도 하나의 노드를 가지는 뉴런에 배당하는 단계, 배당된 뉴런에서 대용량 데이터 스트림에 포함된 데이터 중 이상 데이터(Fraud Data)가 감지되는 경우, 감지된 이상 데이터의 레벨(Level)에 기초하여 감지의 오류 여부를 확인하는 단계, 이상 데이터의 레벨이 기 설정된 레벨에 해당하는 경우, 위험 영역(Danger Zone)으로 할당하고, 위험 영역에 할당되어 재판별된 이상 데이터에 대한 알림을 출력한다.

Description

클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법{METHOD FOR CLOUD BASED REAL-TIME PROCESSING BIGDATA STREAM}
본 발명은 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법에 관한 것으로, 이상 거래로 판별되는 트랜잭션이 포함된 대용량 데이터 스트림을 실시간으로 처리하는 방법에 관한 것이다.
최근, 금융 사기 및 카드 복제로 인한 피해가 커지면서 금융 이상 거래를 감지하는 다양한 알고리즘 및 방법이 연구 및 개발중에 있으나, 정확도가 낮아 정상 거래인데도 비정상 거래로 판단하여 거래를 중지시키는 사례로 인하여 고객들의 항의가 빈발하고 있다.
이때, 금융 이상 거래를 감지하는 방법은 위치를 이용한 방법으로 이루어지고 있다. 이와 관련하여, 선행기술인 한국공개특허 제2015-0041614호(2015.04.16 공개)에는, 모바일 기기나 이동통신기지국을 사용하여 금융 고객(카드나 계좌의 주인)의 현 위치정보를 수신하여 이를 기반으로 불법 금융거래를 감지하는 구성이 개시되어 있다.
다만, 위치로만 이상 거래를 감지하는 경우에는, 특수 상황이나 패턴을 인식하지 못하므로 정상 거래인데 이상 거래로 탐지하여 거래를 중지시키는 등 고객의 불편 및 항의를 증가시키는 요인으로 작용할 수 있다.
본 발명의 일 실시예는, 고객 정보를 프로파일링하고, 특수 상황 및 거래 패턴을 학습함으로써 정상 거래인데 이상 거래로 탐지하거나, 이상 거래인데 정상 거래로 탐지하는 오류를 제로화할 수 있고, 대용량의 데이터 스트림을 인공지능망의 복수의 뉴런을 이용함으로써 분산처리함으로써 그 속도를 높일 수 있으며, 오류로 분류된 데이터는 위험 영역으로 할당하여 재판별하게 함으로써 이상 탐지의 정확성을 높일 수 있는, 대용량 데이터 스트림의 실시간 처리 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 대용량 데이터 스트림을 적어도 하나의 노드를 가지는 뉴런에 배당하는 단계, 배당된 뉴런에서 대용량 데이터 스트림에 포함된 데이터 중 이상 데이터(Fraud Data)가 감지되는 경우, 감지된 이상 데이터의 레벨(Level)에 기초하여 감지의 오류 여부를 확인하는 단계, 이상 데이터의 레벨이 기 설정된 레벨에 해당하는 경우, 위험 영역(Danger Zone)으로 할당하고, 위험 영역에 할당되어 재판별된 이상 데이터에 대한 알림을 출력한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 고객 정보를 프로파일링하고, 특수 상황 및 거래 패턴을 학습함으로써 정상 거래인데 이상 거래로 탐지하거나, 이상 거래인데 정상 거래로 탐지하는 오류를 제로화할 수 있고, 대용량의 데이터 스트림을 인공지능망의 복수의 뉴런을 이용함으로써 분산처리함으로써 그 속도를 높일 수 있으며, 오류로 분류된 데이터는 위험 영역으로 할당하여 재판별하게 함으로써 이상 탐지의 정확성을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 시스템을 설명하기 위한 구성도이다.
도 2는 도 1에 도시된 대용량 데이터 스트림의 실시간 처리 서버를 설명하기 위한 구성도이다.
도 3은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법 중 이상 데이터를 감지하기 위한 사용자 및 트랜드 프로파일을 생성하고 연관 고객을 프로파일링하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리를 위한 빅데이터 머신 러닝 플랫폼을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리를 위하여 유전자 알고리즘을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Maching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 시스템을 설명하기 위한 구성도이다. 도 1을 참조하면, 대용량 데이터 스트림의 실시간 처리 시스템(1)은, 거래 생성 단말(100) 및 실시간 처리 서버(300)를 포함할 수 있다. 다만, 이러한 도 1의 대용량 데이터 스트림의 실시간 처리 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통해 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 거래 생성 단말(100)은, 네트워크(200)를 통하여 대용량 데이터 스트림의 실시간 처리 서버(300)와 연결될 수 있다. 그리고, 대용량 데이터 스트림의 실시간 처리 서버(300)는, 네트워크(200)를 통하여 거래 생성 단말(100)과 연결될 수 있다.
여기서, 네트워크(200)는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(200)의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다. 도 1에 도시된 거래 생성 단말(100), 대용량 데이터 스트림의 실시간 처리 서버(300)는 도 1에 도시된 것들로 한정 해석되는 것은 아니다.
거래 생성 단말(100)은, 계좌 또는 카드를 이용하여 결제를 하거나 이체를 하는 사용자의 단말일 수 있다. 그리고, 거래 생성 단말(100)은, 펀드, 주식, 선물, 금, 외화 등을 포함한 투자 종목에 투자를 하는 개인 또는 회사의 단말일 수 있다. 그리고, 거래 생성 단말(100)은, 투자를 위한 거래를 생성하는 단말일 수 있다. 또한, 거래 생성 단말(100)은, 거래를 위하여 자신의 직업, 나이 등의 정보를 제공하는 단말일 수 있다. 그리고, 거래 생성 단말(100)은, 자신이 거래를 위하여 생성한 데이터에 의해 이상 거래 감지를 위한 모니터링을 받는 단말일 수 있다. 이때, 거래를 위하여 생성한 데이터는, 거래 액수, 거래 종목, 거래 시간, 거래 주기 등일 수 있다.
여기서, 거래 생성 단말(100)은, 네트워크(200)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 거래 생성 단말(100)은, 네트워크(200)를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 거래 생성 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
대용량 데이터 스트림의 실시간 처리 서버(300)는, 대용량 데이터 스트림을 분산처리하는 서버일 수 있다. 이때, 실시간 처리 서버(300)는, 대용량 데이터 스트림의 분산처리를 위하여 기계 학습을 이용할 수 있고, 특히 인공신경망을 이용하여 뉴런을 수학적으로 모델링한 후, 시뮬레이션하여 인간의 뇌와 같은 학습 능력을 가지도록 하고, 특히 이상 데이터의 패턴을 인식하도록 하는 서버일 수 있다. 또한, 실시간 처리 서버(300)는, 이상 데이터 감지의 정확도를 높이기 위하여 패턴을 학습하고, 학습으로 모델링된 알고리즘에 레벨을 나누어 이상 데이터를 분류하는 서버일 수 있다. 그리고, 실시간 처리 서버(300)는, 분류된 레벨 중 기 설정된 레벨을 가지는 이상 데이터는 재판별을 하도록 기계 학습을 이용한 후, 정상 데이터인데 이상 데이터로 감지하는 경우, 이상 데이터인데 정상 데이터를 감지하는 경우의 확률을 제로화시키는 서버일 수 있다. 이때, 대용량 데이터 스트림의 실시간 처리 서버(300)는, 네트워크(200)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
도 2는 도 1에 도시된 대용량 데이터 스트림의 실시간 처리 서버를 설명하기 위한 구성도이고, 도 3은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법 중 이상 데이터를 감지하기 위한 사용자 및 트랜드 프로파일을 생성하고 연관 고객을 프로파일링하는 과정을 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리를 위한 빅데이터 머신 러닝 플랫폼을 설명하는 도면이고, 도 5는 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리를 위하여 유전자 알고리즘을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 서버(300)는, 입력부(310), 배당부(320), 확인부(330) 및 출력부(340)를 포함할 수 있다.
본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 서버(300) 또는 대용량 데이터 스트림의 실시간 처리 서버(300)와 연동되어 동작하는 다른 서버(미도시)가 거래 생성 단말(100)로 대용량 데이터 스트림의 실시간 처리 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 거래 생성 단말(100)은, 대용량 데이터 스트림의 실시간 처리 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 거래 생성 단말(100)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
이때, 네트워크(200)의 연결은, 거래 생성 단말(100), 대용량 데이터 스트림의 실시간 처리 서버(300)가 네트워크(200)로 연결되어 있는 단말과 통신을 위해 통신 접점에 통신 객체를 생성하는 것을 의미한다. 대용량 데이터 스트림의 실시간 처리 서버(300)는 통신 객체를 통해 서로 데이터를 교환할 수 있다.
입력부(310)는, 대용량 데이터 스트림을 입력받을 수 있다.
배당부(320)는, 대용량 데이터 스트림을 적어도 하나의 노드를 가지는 뉴런에 배당할 수 있다. 이때, 뉴런은 복수로 구비될 수 있다. 여기서, 복수의 뉴런의 기능 그룹은 대용량 데이터 스트림을 분산처리하도록 복제될 수 있다. 그리고, 뉴런은, 데이터 스트림을 처리하는 최소 단위의 처리 유닛일 수 있다.
확인부(330)는, 배당된 뉴런에서 대용량 데이터 스트림에 포함된 데이터 중 이상 데이터(Fraud Data)가 감지되는 경우, 감지된 이상 데이터의 레벨(Level)에 기초하여 감지의 오류 여부를 확인할 수 있다. 또한, 뉴런은 설정된 상태값을 저장하고, 뉴런은 상태값에 따라 생성 또는 소멸될 수 있다. 예를 들어, A라는 패턴을 가진 거래가 발견되면 뉴런은 정상이라고 판단했었는데, 오탐인 경우가 발견되거나 오류로 더 이상 쓸모가 없어지는 경우, 소멸될 수 있다. 반대로, B라는 패턴을 가진 거래가 이상 데이터인 경우로 발견된 경우에는, B라는 패턴을 인식하여 이상 데이터로 감지하는 뉴런이 생성될 수도 있다.
출력부(340)는, 이상 데이터의 레벨이 기 설정된 레벨에 해당하는 경우, 위험 영역(Danger Zone)으로 할당하고, 위험 영역에 할당되어 재판별된 이상 데이터에 대한 알림을 출력할 수 있다. 이때, 위험 영역으로 할당되는 이상 데이터는, 인공 면역 시스템(Artificial Immune System)에 의해 재판별되어 감지 정확도가 증가될 수 있다. 여기서, 레벨은, 차단, 경고, 의심 및 패스의 4 가지 레벨을 포함하고, 의심 및 패스되는 레벨은 기 설정된 레벨일 수 있다.
이때, 재판별되는 과정은 SVM(Support Vector Machine), RF(Random Forest) 및 LR(Logistic Regression) 중 적어도 하나의 기계 학습 방법에 의해 실행될 수 있다. 이때, 기계 학습 방법은 상술한 것에 한정되지 않고, 다양한 기계 학습 방법이 이용될 수 있음은 물론이다.
또한, 대용량 데이터 스트림 중 이상 데이터로 판별되지 않은 정상 데이터는, 유전자 알고리즘으로 학습되어 정상 거래를 판별하는 기준값으로 이용될 수 있다.
그리고, 이상 데이터는, 대용량 데이터 스트림 중 1 년간 거래가 없고, 최근 1 주일 간 로그인을 3 회 이상 실시하며, 새벽 1 시 내지 6 시 사이에 300만원 이하의 거래가 3 회 이상 실시된 경우에 이상 데이터로 분류될 수 있다. 이때, 1 년, 1 주일, 3 회, 새벽 1 시 내지 6 시, 300 만원, 3 회와 같은 숫자는 패턴이 인식되고 학습된 결과에 따라 변경 또는 오차 범위를 가질 수 있다. 이에 따라, 상술한 숫자에 한정되지 않고 변경 또는 다른 실시예가 있을 수 있음은 자명하다 할 것이다.
한편, 실시간 처리 서버(300)는 대용랑 데이터 스트림을 발생하는 모든 사용자의 거래 프로파일, 고객 속성 프로파일 및 기기정보 프로파일을 실시간 분석하여 검사하고, 검사된 프로파일은 메모리에 저장할 수 있다. 또한, 실시간 처리 서버(300)는, 대용량 데이터 스트림을 발생하는 사용자 중 동일 직업의 고객의 거래 패턴을 분석하고, 이후 신규로 가입한 고객의 직업과 분석된 거래 패턴을 비교할 수 있다. 즉, 어떠한 거래가 어떠한 고객에 의해 어떻게 수행된다는 것을 학습하고 패턴을 추출하여 모델링을 실시하는 경우, 사기 등과 같은 범죄를 이상 데이터로 추출할 수 있게 된다.
이하, 상술한 구성을 가지는 대용량 데이터 스트림의 실시간 처리 서비스를 도 3 내지 도 5를 참조로 하여 설명하기로 한다.
도 3을 참조하면, (a) 실시간 처리 서버(300)는, 모든 사용자의 거래 프로파일, 고객 속성 프로파일 및 기기 정보 프로파일을 실시간 분석하면서 검사할 수 있다. 그리고, 검사한 프로파일 정보는 메모리에 프로파일로 유지하게 된다.
또한, (b) 실시간 처리 서버(300)는, 특정 기간, 시간 및 장소에 따른 거래 쏠림 현상을 미리 프로파일링하여 이상 금융 거래를 탐지할 때 이용하게 된다. 예를 들어, 은행 고객인 A가 4 월초에 갑자기 여의도 인근에서 현금 인출을 한 경우, 평상시 거래 패턴으로 보았을 때, 이상 거래 확률이 높지만, 4 월초에 여의도에서 벚꽃 축제가 있었으므로, False Positve(정상인데 이상 데이터로 판단하는 경우)를 낮춰 이상 거래 탐지의 정확도를 높일 수 있다.
그리고, (c) 실시간 처리 서버(300)는, 연관 고객 프로파일링도 실시할 수 있다. 예를 들어, 신규 사용자나 일정 기간 동안 거래가 없었던 사용자의 이상 거래 탐지의 정확도를 높이기 위하여 연관 고객 프로파일링을 구성하고, 이를 이용하여 이상 거래를 판단, 즉 같은 직업군의 사람은 비슷한 거래 패턴을 가진다는 전제하에 모델링을 실시할 수 있다. 물론, 특수 상황이 고려되어 프로파일링될 수도 있다. 예를 들어, 휴가철인 경우, A나라의 국민이 B나라에서 돈을 쓸 경우도 있으므로, 비행기 표를 구매한 경우 등과 같이 특수 상황이 발생하는 경우도 패턴을 파악하여 예외 상황에 대한 False Positive를 없애도록 한다.
이때, 직업별 연관 프로파일링 및 거래패턴별 연관 프로파일링의 일 실시예는 각각 표 1 및 표 2와 같다.
직업구분 거래패턴 특징
자영업 일마감/월마감 시간때 거액, 다수거래
샐러리맨 점심시간창구/업무시간대 모바일 거래
학생 소액 인출거래 비중이 높음
구분 거래군별 패턴
사기
사기거래군 패턴
정상거래군 패턴
거래금액
소액거래군 패턴
고액거래군 패턴
또한, False Postive인 경우, 즉 정상 거래인데 이상 거래로 판단한 경우에는 과도하게 탐지한 경우로서, 정상 거래가 차단되어 고객 항의가 빈발할 수 있다. 예를 들어, A씨가 B 지역에서 거래를 한 후, 1 시간 내에 어떠한 교통수단으로도 C지역에 도달할 수 없는데, 동일한 카드로 C지역에서 카드 결제가 발생한 경우에는 정상 거래가 아니라고 판단할 수 있지만, C지역에 도달할 수 있는 거리 및 시간이라면 정상 거래로 판단할 수 있다.
한편, 사기인데 정상으로 판단한 경우에는, False Negative 사기거래가 발생하고, 은행 피해가 발생할 수 있다. 따라서, 사기 거래의 패턴을 파악하여 사기거래의 발생률을 낮출 수 있다.
도 4를 참조하면, 본 발명의 대용량 데이터 스트림의 실시간 처리 방법은, 빅데이터 머신 러닝 플랫폼 상에 생성된다. 이때, 머신 러닝 기능을 가진 뉴런을 이상 탐지 시스템에 추가하여 이상 금융 거래의 탐지 가능성을 높일 수 있다.
이때, 뉴런 항목을 보면 알 수 있듯이 뉴런은 수상돌기에서 주변에 있는 다른 뉴런들로부터 오는 신호를 수용한 뒤, 신호의 강도가 특정 역치값을 넘어가면 축삭돌기를 통해 다른 뉴런에 신호를 보내는 세포이다. 이를 수학적으로 모델링 하면 다른 뉴런에서 들어오는 신호 벡터 xx 에 신호를 수용하는 수용체의 민감도(가중치) 벡터 ww 를 곱한 후, 역치값 bb 과 비교하는 형태의 모델이 나오게 된다.
따라서 인공 뉴런의 출력은 wx + bwx+b 의 값이 되게 되는데 이 식을 그대로 사용할 경우 출력값이 xx 에 따라 실수 전체 범위에서 선형적인 값을 갖는 선형 모델(Linear Model)이라 하고, 분석능력이 상당히 떨어지는 원시적인 모델이 되어버린다. 이를 해결하기 위해 비선형 모델(Non-Linear Model)이 나왔는데 실제 뉴런의 행동 방식처럼 역치 부분에서 값이 극적으로 변하는 함수를 사용한다. 대표적으로 sigmoid 함수를 사용하는 논리 모델(Logistic Model)이 있고, tanh나 softmax 함수를 사용하는 다른 여러 모델들이 있으며 이때 사용되는 함수를 활성화함수(Activation Function)라 한다.
이 외에도, 기계 학습 알고리즘으로, 경사 하강법, 회귀기법, 확률 기반, Naive Bayes Classifier (NBC), Hidden Markov Model (HMM), 기하 기반, K-Means Clustering, k-Nearest Neighbors (k-NN), Support Vector Machine (SVM), 인공신경망, Perceptron, Multi Layer Perceptron (MLP), Deep Learning 등을 모델링에 이용할 수 있다.
이때, 오탐(False Positive)을 방지하기 위한 방법으로, 도 5를 참조하면, 면역 시스템이 위험을 감지하였을 때, 항원이나 외부 침입자를 없애는 매커니즘을 이용하여 이상 거래가 의심되는 트랜잭션을 위험 영역(Danger Zone)으로 넘겨서 재검사함으로써 탐지의 정확도를 높일 수 있다.
즉, 기 설정된 레벨로 분류된 경우에는, 이상이 탐지된 경우이나 False Alarm일 수 있으므로, 우선 위험 영역에 할당한 후, 재판별을 실시하여 오탐의 가능성을 줄임과 동시에 이상 거래를 정확히 판별할 수 있도록 한다.
이와 같은 도 2 내지 도 5의 대용량 데이터 스트림의 실시간 처리 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 대용량 데이터 스트림의 실시간 처리 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 6은 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법을 설명하기 위한 동작 흐름도이다. 도 6을 참조하면, 대용량 데이터 스트림의 실시간 처리 서버는, 대용량 데이터 스트림을 입력받는다(S6100).
그리고, 대용량 스트림의 실시간 처리 서버는, 대용량 데이터 스트림을 적어도 하나의 노드를 가지는 뉴런에 배당하고(S6200), 배당된 뉴런에서 대용량 데이터 스트림에 포함된 데이터 중 이상 데이터(Fraud Data)가 감지되는 경우, 감지된 이상 데이터의 레벨(Level)에 기초하여 감지의 오류 여부를 확인한다(S6300).
또한, 대용량 데이터 스트림의 실시간 처리 서버는, 이상 데이터의 레벨이 기 설정된 레벨에 해당하는 경우, 위험 영역(Danger Zone)으로 할당하고, 위험 영역에 할당되어 재판별된 이상 데이터에 대한 알림을 출력한다(S6400).
이와 같은 도 6의 대용량 데이터 스트림의 실시간 처리 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 5를 통해 대용량 데이터 스트림의 실시간 처리 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 6을 통해 설명된 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 대용량 데이터 스트림의 실시간 처리 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 대용량 데이터 스트림을 실시간으로 처리하는 실시간 처리 서버에서 실행되는 실시간 처리 방법에 있어서,
    대용량 데이터 스트림을 입력받는 단계;
    상기 대용량 데이터 스트림을 적어도 하나의 노드를 가지는 뉴런에 배당하는 단계;
    상기 배당된 뉴런에서 상기 대용량 데이터 스트림에 포함된 데이터 중 이상 데이터(Fraud Data)가 감지되는 경우, 상기 감지된 이상 데이터의 레벨(Level)에 기초하여 감지의 오류 여부를 확인하는 단계; 및
    상기 이상 데이터의 레벨이 기 설정된 레벨에 해당하는 경우, 위험 영역(Danger Zone)으로 할당하고, 상기 위험 영역에 할당되어 재판별된 이상 데이터에 대한 알림을 출력하는 단계를 포함하되,
    상기 위험 영역으로 할당되는 이상 데이터는, 인공 면역 시스템(Artificial Immune System)에 의해 재판별되어 감지 정확도가 증가되는 것이고,
    상기 재판별되는 과정은 SVM(Support Vector Machine), RF(Random Forest) 및 LR(Logistic Regression) 중 적어도 하나의 기계 학습 방법에 의해 실행되는 것이며,
    상기 실시간 처리 서버는,
    특정 기간, 특정 시간 및 특정 장소에 따른 거래 쏠림 현상을 미리 프로파일링하고, 정상 데이터를 이상 데이터로 감지하거나 이상 데이터를 정상 데이터로 감지하는 확률을 제로화시키는 것을 특징으로 하는
    클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 대용량 데이터 스트림 중 이상 데이터로 판별되지 않은 정상 데이터는, 유전자 알고리즘으로 학습되어 정상 거래를 판별하는 기준값으로 이용되는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  5. 제 1 항에 있어서,
    상기 뉴런은, 상기 데이터 스트림을 처리하는 최소 단위의 처리 유닛으로,
    상기 뉴런은 복수로 구비되고,
    상기 복수의 뉴런의 기능 그룹은 상기 대용량 데이터 스트림을 분산처리하도록 복제되는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  6. 제 1 항에 있어서,
    상기 레벨은, 차단, 경고, 의심 및 패스의 4 가지 레벨을 포함하고,
    상기 의심 및 패스되는 레벨은 상기 기 설정된 레벨인 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  7. 제 1 항에 있어서,
    상기 뉴런은 설정된 상태값을 저장하고,
    상기 뉴런은 상기 상태값에 따라 생성 또는 소멸되는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  8. 제 1 항에 있어서,
    상기 이상 데이터는, 상기 대용량 데이터 스트림 중 1 년간 거래가 없고, 최근 1 주일 간 로그인을 3 회 이상 실시하며, 새벽 1 시 내지 6 시 사이에 300만원 이하의 거래가 3 회 이상 실시된 경우에 이상 데이터로 분류되는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  9. 제 1 항에 있어서,
    상기 실시간 처리 서버는 상기 대용량 데이터 스트림을 발생하는 모든 사용자의 거래 프로파일, 고객 속성 프로파일 및 기기정보 프로파일을 실시간 분석하여 검사하고, 상기 검사된 프로파일은 메모리에 저장하는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
  10. 제 1 항에 있어서,
    상기 실시간 처리 서버는, 상기 대용량 데이터 스트림을 발생하는 사용자 중 동일 직업군의 고객의 거래 패턴을 분석하고, 이후 신규로 가입한 고객의 직업과 분석된 거래 패턴을 비교하는 것인, 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법.
KR1020170050854A 2017-04-20 2017-04-20 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법 KR102046651B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170050854A KR102046651B1 (ko) 2017-04-20 2017-04-20 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170050854A KR102046651B1 (ko) 2017-04-20 2017-04-20 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법

Publications (2)

Publication Number Publication Date
KR20180117836A KR20180117836A (ko) 2018-10-30
KR102046651B1 true KR102046651B1 (ko) 2019-11-20

Family

ID=64100856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170050854A KR102046651B1 (ko) 2017-04-20 2017-04-20 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법

Country Status (1)

Country Link
KR (1) KR102046651B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101720538B1 (ko) * 2016-03-08 2017-03-28 주식회사 인피니그루 비정상행위 탐색방법 및 탐색프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101720538B1 (ko) * 2016-03-08 2017-03-28 주식회사 인피니그루 비정상행위 탐색방법 및 탐색프로그램

Also Published As

Publication number Publication date
KR20180117836A (ko) 2018-10-30

Similar Documents

Publication Publication Date Title
US11797844B2 (en) Neural embeddings of transaction data
Gyamfi et al. Bank fraud detection using support vector machine
Quah et al. Real-time credit card fraud detection using computational intelligence
US20200074416A1 (en) Routing transactions to a priority processing network based on routing rules
AU2018267630A1 (en) Intelligent chargeback processing platform
Shukur et al. Credit card fraud detection using machine learning methodology
US20230196367A1 (en) Using Machine Learning to Mitigate Electronic Attacks
Arora et al. Facilitating user authorization from imbalanced data logs of credit cards using artificial intelligence
Caroline Cynthia et al. An outlier detection approach on credit card fraud detection using machine learning: a comparative analysis on supervised and unsupervised learning
WO2023067025A1 (en) Mixed quantum-classical method for fraud detection with quantum feature selection
Dzakiyullah et al. Semi-supervised classification on credit card fraud detection using autoencoders
US20210182830A1 (en) Utilizing a machine learning model to determine whether a transaction account user is traveling
Jain et al. Role of data mining in detecting theft and making effective impact on performance management
US20220215393A1 (en) Real-time updating of a security model
Jog et al. Implementation of credit card fraud detection system with concept drifts adaptation
KR102046651B1 (ko) 클라우드기반의 대용량 데이터 스트림의 실시간 처리 방법
Chandradeva et al. Monetary transaction fraud detection system based on machine learning strategies
Mehndiratta et al. Credit card fraud detection techniques: a review
Nijwala et al. Extreme Gradient Boost Classifier based Credit Card Fraud Detection Model
Alam et al. Effective machine learning approaches for credit card fraud detection
Peng et al. Unbalanced Data Processing and Machine Learning in Credit Card Fraud Detection
Owolafe et al. A long short term memory model for credit card fraud detection
Ashraf et al. A comparative analysis of credit card fraud detection using machine learning and deep learning techniques
Illanko et al. A big data deep learning approach for credit card fraud detection
Mohari et al. Credit card fraud detection techniques: a review

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant