KR102105276B1

KR102105276B1 - 강화학습 기반의 결제 분류시스템 및 방법

Info

Publication number: KR102105276B1
Application number: KR1020190157605A
Authority: KR
Inventors: 노철균; 민예린; 투옌
Original assignee: 주식회사 애자일소다
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-29

Abstract

강화학습 기반의 결제 분류시스템 및 방법을 개시한다. 본 발명은 금융 거래에 강화학습을 적용하여 금융 거래시에 정상 결제 및 중복 결제의 확률값 비율에 따라 예측되는 정상 결제 및 중복 결제의 예측값의 맞고 틀림에 따른 리워드 정보를 강화학습에 반영하여 더욱 정확한 분류를 제공할 수 있다.

Description

강화학습 기반의 결제 분류시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFYING PAYMENTS BASED ON REINFORCEMENT LEARNING}

본 발명은 강화학습 기반의 결제 분류시스템 및 방법에 관한 발명으로서, 더욱 상세하게는 금융 거래시에 정상 결제 및 중복 결제의 확률값 비율에 따라 예측되는 정상 결제 및 중복 결제의 예측값의 맞고 틀림에 따른 리워드 정보를 강화학습에 반영하여 더욱 정확한 분류를 제공하는 강화학습 기반의 결제 분류시스템 및 방법에 관한 것이다.

일반적으로 정상 결제는 금융 거래시에 임의의 가맹점에서 하나의 카드를 이용하여 정상적으로 결제가 이루어진다. 그러나, 기기의 오류나 담당자의 착오에 의해 동일 매출에 대하여 중복결제가 이루어질 수 있다. 중복 결제는 임의의 결제에 대하여 사용자가 의도하지 않게 2회 이상 중복하여 결제한 것으로 정의될 수 있다.

각 금융사들은 중복결제가 의심되는 경우를 선별하고 콜센터를 통해, 해당 카드 소지자에게 전화를 걸어서 정상적인 결제인지 중복결제인지 여부를 확인하고 있다.

경험이 있는 콜센터 직원의 경우, 주기적인 패턴에 의한 결제와 같이 학원 등의 가맹점에서 동일한 금액이 복수회 결제된 것은 정상 결제로 판단하여 중복 결제에서 제외할 수 있다.

또한, 식당 가맹점에서 결제를 위해 일정 금액을 인원수 대로 분할하여 결제가 이루어진 경우 나눠내기 패턴에 의한 필터링을 통해 중복 결제에서 제외시킬 수 있다.

또한, 요식업 가맹점에서 주류 영업사원이 리베이트 차원에서 법인 카드를 이용하여 결제한 경우 의도적 매출 발생에 의한 필터링을 통해 중복 결제에서 제외되도록 할 수 있다.

그러나, 각 금융사들은 중복결제가 의심되는 경우를 선별하고 콜센터를 통해, 해당 카드 소지자에게 전화를 걸어서 정상적인 결제인지 중복결제인지 여부를 확인하기 위해서 적지 않은 인력을 운영해야 하는 문제점이 있다.

강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 로봇이나 인공 지능 분야에서 많이 사용되고 있다.

이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.

즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.

또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) a를 결정하는 방법을 학습시키고, 각 액션인 a는 그 다음 스테이트(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) r로 측정할 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 스테이트(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.

또한, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생하므로, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 된다.

그러나, 종래 기술에 따른 강화 학습 장치는 주어진 환경에서 목표 달성과 관련되어 획일적으로 결정되는 보상에 기초하여 학습을 진행함으로써, 목표를 이루기 위해 하나의 행동 패턴을 가질 수 밖에 없는 문제점이 있다.

또한, 종래 기술에 따른 강화 학습 장치는 액션에 대한 보상 점수를 예를 들면, 맞으면 +1점, 틀리면 -2점과 같이 획일적으로 결정되는 보상 점수를 부여함으로써, 학습 결과를 보면서 적정한 보상 값을 지정해야만 하는 과정이 요구되어 경우에 따라서는 막대한 시간과 컴퓨팅 리소스가 소비되는 문제점이 있다.

한국 등록특허공보 등록번호 제10-1990326호(발명의 명칭: 감가율 자동 조정방식의 강화학습 방법)

이러한 문제점을 해결하기 위하여, 본 발명은 금융 거래시에 정상 결제 및 중복 결제의 확률값 비율에 따라 예측되는 정상 결제 및 중복 결제의 예측값의 맞고 틀림에 따른 리워드 정보를 강화학습에 반영하여 더욱 정확한 분류를 제공하는 강화학습 기반의 결제 분류시스템 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 강화학습 기반의 결제 분류시스템으로서, 정보 입력부로부터 임의의 결제 정보가 입력되면, 과거 결제 패턴 정보, 가맹점 정보 및 상권 정보를 임베딩(Embedding)을 기법을 통해 범주형 또는 비정형 데이터의 정보를 축약 및 정형화하고, 이를 숫자형 변수로 축약한 입력 변수에 기반하여 미리 저장된 분석 프로그램을 통해 상기 결제 정보에 대한 정상 결제 확률값과 중복 결제 확률값을 각각 산출하고, 상기 산출된 정상 결제 확률값과 중복 결제 확률값 중에서 높은 쪽의 확률값으로 분류한 예측 결과 - 이때, 예측 결과는 정상 결제 확률값이 높으면 정상 결제이고, 중복 결제 확률값이 높으면 중복 결제임 - 를 출력하는 선별대상 분류 에이전트; 및 상기 분류된 예측 결과를 상기 결제 정보의 실제 결과 - 이때, 실제 결과는 입력된 결제 정보가 정상 결제 또는 중복 결제인지를 나타낸 결과 정보임 - 와 비교하여 상기 예측 결과의 맞고 틀림에 따라 분류된 리워드 정보를 상기 선별대상 분류 에이전트로 제공하는 리워드 분류부를 포함하되,
상기 리워드 정보는 정상 결제와 중복 결제를 맞추면, 제1 스코어, 정상 결제를 틀리면 제2 스코어, 중복 결제를 틀리면 제3 스코어 - 이때, 제3 스코어는 3개의 스코어 중에서 가장 낮은 스코어를 가짐 - 를 상기 선별대상 분류 에이전트(120)에 리워드 정보로 제공하고,
상기 제공된 스코어와, 상기 예측 결과의 맞고 틀림에 따른 비교를 통해 상기 선별대상 분류 에이전트에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 출력하며,
상기 선별대상 분류 에이전트는 제공된 리워드 정보를 결제 정보의 확률값 산출에 반영하여 강화학습을 수행하는 것을 특징으로 한다.

삭제

또한, 본 발명의 일 실시 예에 따른 강화학습을 이용한 결제 분류 방법은 a) 정보 입력부로부터 임의의 결제 정보가 입력되면, 과거 결제 패턴 정보, 가맹점 정보 및 상권 정보를 임베딩(Embedding)을 기법을 통해 범주형 또는 비정형 데이터의 정보를 축약 및 정형화하고, 이를 숫자형 변수로 축약한 입력 변수에 기반하여 미리 저장된 분석 프로그램을 통해 상기 결제 정보에 대한 정상 결제 확률값과 중복 결제 확률값을 각각 산출하고, 상기 산출된 정상 결제 확률값과 중복 결제 확률값 중에서 높은 쪽의 확률값으로 분류한 예측 결과 - 이때, 예측 결과는 정상 결제일 확률값이 높으면 정상 결제이고, 중복 결제일 확률값이 높으면 중복 결제임 - 를 출력하는 단계; b) 상기 선별대상 분류 에이전트로부터 분류된 예측 결과를 리워드 분류부가 상기 결제 정보의 실제 결과 - 이때, 실제 결과는 입력된 결제 정보가 정상 결제 또는 중복 결제를 나타낸 결과 정보임 - 와 비교하여 상기 예측 결과의 맞고 틀림에 따라 분류된 리워드 정보를 상기 선별대상 분류 에이전트로 제공하는 단계; 및 c) 상기 선별대상 분류 에이전트가 상기 리워드 분류부로부터 제공된 리워드 정보를 결제 정보의 확률값 산출에 반영하여 강화학습을 수행하는 단계;를 포함하되,
상기 리워드 분류부는 정상 결제와 중복 결제를 맞추면, 제1 스코어, 정상 결제를 틀리면 제2 스코어, 중복 결제를 틀리면 제3 스코어 - 이때, 제3 스코어는 3개의 스코어 중에서 가장 낮은 스코어를 가짐 - 를 상기 선별대상 분류 에이전트에 리워드 정보로 제공하고,
상기 제공된 스코어와, 상기 예측 결과의 맞고 틀림에 따른 비교를 통해 상기 선별대상 분류 에이전트에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 출력하는 것을 특징으로 한다.

삭제

본 발명은 금융 거래에 강화학습을 적용하여 금융 거래시에 정상 결제 및 중복 결제의 확률값 비율에 따라 예측되는 정상 결제 및 중복 결제의 예측값의 맞고 틀림에 따른 리워드 정보를 강화학습에 반영하여 더욱 정확한 분류를 제공할 수 있는 장점이 있다.

이에 따라, 각 금융사들은 중복결제가 의심되는 경우를 선별하고 콜센터를 통해, 해당 카드 소지자에게 전화를 걸어서 정상적인 결제인지 중복결제인지 여부를 확인하기 위해서 운영되는 인력을 현저하게 줄일 수 있다.

도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시 예에 따른 강화학습 기반의 결제 분류시스템의 구성을 나타낸 블록도.
도 3은 도 2의 실시 예에 따른 강화학습 기반의 결제 분류시스템의 분류과정을 설명하기 위한 예시도.
도 4는 본 발명의 일 실시 예에 따른 강화학습 기반의 결제 분류방법을 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 강화학습 기반의 결제 분류시스템 및 방법의 바람직한 실시 예를 상세하게 설명한다.

도 2는 본 발명의 일 실시 예에 따른 강화학습 기반의 결제 분류시스템의 구성을 나타낸 블록도이고, 도 3은 도 2의 실시 예에 따른 강화학습 기반의 결제 분류시스템의 분류과정을 설명하기 위한 예시도이다.

도 2 및 도 3을 참조하여 설명하면, 강화학습 기반의 결제 분류시스템(100)은 정보 입력부(110)와, 선별대상 분류 에이전트(120)와, 리워드 분류부(130)를 포함하여 구성된다.

정보 입력부(110)는 선별대상 분류 에이전트(120)의 강화학습을 위한 결제 정보를 제공하는 구성으로서, 키보드 등의 입력수단, 메모리 등의 저장수단, 네트워크를 통해 연결된 외부 단말 등으로 구성될 수 있다.

또한, 결제 정보는 선별대상 분류 에이전트(120)가 분류할 대상인 카드 결제 정보로서, 결제 금액 정보, 가맹점 정보, 과거 결제 정보 또는 기타 부가 정보 등을 포함할 수 있다.

또한, 정보 입력부(110)는 강화학습을 위해 입력된 개별 결제 정보에 대하여 정상 결제인지 또는 중복 결제인지에 대한 실제 결과 정보를 제공할 수 있다.

선별대상 분류 에이전트(120)는 정보 입력부(110)로부터 결제 정보가 입력되면, 미리 설정된 분류 프로그램을 이용하여 결제 정보에 대한 정상 결제 확률값과 중복 결제 확률값을 산출하고, 정상 결제 및 중복 결제의 확률값 비율에 따라 정상 결제 및 중복 결제 중 어느 하나로 분류한 예측 결과를 출력한다.

선별대상 분류 에이전트(120)는 정보 입력부(110)로부터 임의의 결제 정보가 입력되면, 미리 저장된 분석 프로그램을 이용하여 결제 정보가 정상 결제일 확률값과 중복 결제일 확률값을 각각 산출하고, 산출된 확률값 중에서 높은 쪽으로 분류한 예측 결과, 즉 정상 결제일 확률값이 높으면 정상 결제로 분류한 예측 결과를 출력하고, 중복 결제일 확률값이 높으면 중복 결제로 분류한 예측 결과를 출력한다.

여기에서, 분석 프로그램은 결제 정보에 포함된 가맹점 정보, 업종, 물품명, 금액, 가맹점별 중복 매출의 발생 빈도, 상권정보를 임베딩(Embedding) 기법으로 분석한 정보, 기계학습을 통해 분석한 정보 등을 기반으로 확률값을 산출하여 제공하는 프로그램이다.

또한, 임베딩 기법은 선택적으로 사용될 수 있으며, 본 발명은 이에 제한되지 않는다.

또한, 선별대상 분류 에이전트(120)는 정보 입력부(110)로부터 입력되는 결제 정보에 대하여 강화학습을 수행함으로써, 입력된 결제 정보가 정상 결제인지 또는 중복 결제인지에 대한 예측 정보를 출력하여 선별 대상을 예측할 수 있다.

또한, 선별대상 분류 에이전트(120)에 수행되는 강화학습은 결제 정보에 포함된 가맹점 정보, 업종, 물품명, 금액, 가맹점별 중복 매출의 발생 빈도, 상권정보를 임베딩(Embedding) 기법으로 분석된 정보, 기계학습을 통해 분석된 정보 등을 이용하여 결제 정보가 정상 결제인지 또는 중복 결제인지를 확률값 산출을 통해 예측할 수 있다.

즉, 선별대상 분류 에이전트(120)는 도 3에 나타낸 바와 같이, 개별 결제 정보, 예를 들면, 결제 정보 1(210a), 결제 정보 2(210b), 결제 정보 3(210c), 결제 정보 4(210d) ‥ 결제 정보 n(210n)에 대하여 가맹점 정보(220a), 업종(220b), 물품명(220c) ‥ 금액(220d) 등에 기반한 정상 결제인지 또는 중복 결제인지 확률값을 산출하고, 산출된 확률값에 기반하여 의사 결정한 결과로서, 정상 결제인지 또는 중복 결제인지를 결정한 예측값(300)을 출력한다.

또한, 선별대상 분류 에이전트(120)는 산출된 정상 결제에 대한 확률값과 중복 결제에 대한 확률값의 비교를 통해 확률값이 큰 값을 갖는 쪽으로 결제 정보가 결정되도록 한다.

예를 들면, 산출된 정상 결제에 대한 확률값이 "40"이고, 중복 결제에 대한 확률값이 "60"이면, 입력된 결제 정보는 "중복 결제"로 예측한다.

또한, 선별대상 분류 에이전트(120)는 강화학습을 통해 예를 들면, 학원, 주류 리베이트 등과 같이, 과거 결제 패턴이 존재하는지 유/무를 분석하여 정상 결제에 대한 확률값과 중복 결제에 대한 확률값을 산출할 수 있다.

또한, 선별대상 분류 에이전트(120)는 특정 카드 정보의 특성, 예를 들면, 법인 카드를 이용한 결제 정보 등을 고려하여 정상 결제가 중복 결제로 잘못 분류되는 것을 방지하도록 강화학습을 수행함으로써, 입력된 결제 정보가 정상 결제인지 또는 중복 결제인지에 대한 예측 정보를 출력할 수 있다.

또한, 선별대상 분류 에이전트(120)는 계절적 요인에 의해 카드 매출이 증가하거나 또는 중복 결제가 빈번하게 발생하는 가맹점에 대하여 미리 설정된 스코어 등이 낮아지도록 강화학습을 수행함으로써, 입력된 결제 정보가 정상 결제인지 또는 중복 결제인지에 대한 예측 정보를 출력한다.

또한, 선별대상 분류 에이전트(120)는 결제 정보에 포함된 가맹점 정보와, 과거 결제 패턴 정보 또는 임의의 상권 정보를 임베딩(Embedding) 기법을 이용하여 분석할 수 있다.

임베딩 기법은 고차원의 데이터를 저차원의 데이터로 줄여주는 기법으로써, 정상 결제 또는 중복 결제의 예측에 있어서, 예를 들면 가맹점 업종(약 250개의 코드로 이루어짐)과 상권 정보(약 460개의 코드로 이루어짐)가 가장 중요한 역할을 하는 바, 숫자형이 아닌 범주형 또는 비정형 데이터의 정보 축약 및 정형화 기법으로 임베딩을 적용할 수 있다.

또한, 임베딩은 예를 들면, 업종 코드×상권 코드에 적용하여 3개의 숫자형 변수로 축약한 다음 입력 변수로 사용할 수 있다.

리워드 분류부(130)는 선별대상 분류 에이전트(120)가 강화학습을 통해 예측한 확률값에 기반하여 정상 결제 또는 중복 결제로 분류한 예측값(300)을 실제 결과(310), 즉 강화학습을 위해 입력된 결제 정보의 정상 결제 또는 중복 결제를 나타낸 결과 정보와 비교하여, 예를 들면, 정상 결제가 '맞다' 또는 '틀리다', 중복 결제가 '맞다' 또는 '틀리다'로 분류한 결과를 제공할 수 있다.

또한, 리워드 분류부(130)는 선별대상 분류 에이전트(120)의 예측 결과와 실제 결과의 맞고 틀림에 따라 선별대상 분류 에이전트(120)의 예측값 분류를 위한 학습 방향을 결정하는 리워드 정보(400)를 선별대상 분류 에이전트(120)로 제공한다.

또한, 리워드 분류부(130)는 예측 결과와 실제 결과가 맞으면, 일정 스코어가 가산되도록 하고, 예측 결과와 실제 결과가 틀리면, 일정 스코어가 감산되도록 리워드 정보를 설정할 수 있다.

또한, 리워드 분류부(130)는 선별대상 분류 에이전트(120)의 예측 결과와 실제 결과가 맞으면, 정상 결제와 중복 결제에 대하여 동일한 스코어가 선별대상 분류 에이전트(120)에 리워드 정보로 제공되도록 한다.

또한, 리워드 분류부(130)는 선별대상 분류 에이전트(120)의 예측 결과와 실제 결과가 틀리면, 정상 결제와 중복 결제에 대하여 서로 다른 스코어가 선별대상 분류 에이전트(120)에 리워드 정보를 제공할 수도 있다.

또한, 리워드 정보는 정상 결제와 중복 결제를 맞추면, 스코어 '1', 정상 결제를 틀리면 스코어 '-5', 중복 결제를 틀리면 '-7'을 리워드 정보로 제공하는 것이 바람직하다.

또한, 리워드 분류부(130)는 현재 제공된 스코어와, 상기 예측 결과의 맞고 틀림에 따른 비교를 통해 선별대상 분류 에이전트(120)에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 제공할 수 있다.

다음은 본 발명의 일 실시 예에 따른 강화학습 기반의 결제 분류방법을 도 2 내지 도 4를 참조하여 설명한다.

선별대상 분류 에이전트(120)가 정보 입력부(110)로부터 결제 정보를 수신(S100)한다.

선별대상 분류 에이전트(120)는 미리 저장된 분석 프로그램을 이용하여 결제 정보가 정상 결제일 확률값과 중복 결제일 확률값을 각각 산출하고, 산출된 확률값 중에서 높은 쪽으로 분류한 예측 결과, 즉 정상 결제일 확률값이 높으면 정상 결제로 분류하고, 중복 결제일 확률값이 높으면 중복 결제로 분류한 예측값(300)을 출력(S200)한다.

S200 단계에서, 선별대상 분류 에이전트(120)는 정보 입력부(110)로부터 입력되는 결제 정보에 대하여 분석 프로그램이 결제 정보에 포함된 가맹점 정보, 업종, 물품명, 금액, 가맹점별 중복 매출의 발생 빈도, 상권정보를 임베딩(Embedding) 기법으로 분석한 정보, 기계학습을 통해 분석한 정보 등을 기반으로 확률값을 산출할 수 있다.

S200 단계를 수행한 다음, 선별대상 분류 에이전트(120)로부터 분류된 예측 결과(예측값, 300)는 리워드 분류부(130)에서 실제 결과(310)와 비교하고, 예측값(300)과 실제 결과(310)의 맞고 틀림에 따라 선별대상 분류 에이전트(120)의 예측값 산출을 위한 학습 방향을 결정하는 리워드 정보를 분류(S300)한다.

S300 단계에서, 리워드 분류부(130)는 예측 결과와 실제 결과가 맞으면, 일정 스코어가 가산되도록 하고, 예측 결과와 실제 결과가 틀리면, 정상 결제 및 중복 결제의 확률값을 계산하기 위한 임의의 정보에 대하여 일정 스코어가 감산 또는 가산되도록 리워드 정보를 설정할 수 있다.

또한, S300 단계에서 리워드 분류부(130)는 선별대상 분류 에이전트(120)의 예측 결과와 실제 결과가 맞으면, 정상 결제 및 중복 결제의 확률값을 계산하기 위한 임의의 정보에 대하여 동일한 스코어를 리워드 정보로 설정할 수도 있다.

또한, S300 단계에서 리워드 분류부(130)는 선별대상 분류 에이전트(120)의 예측 결과와 실제 결과가 틀리면, 정상 결제 및 중복 결제의 확률값을 계산하기 위한 임의의 정보에 대하여 서로 다른 스코어가 리워드 정보로 설정할 수도 있다.

또한, S300 단계에서 설정 및 제공되는 리워드 정보는 정상 결제와 중복 결제를 맞추면, 스코어 '1', 정상 결제를 틀리면 스코어 '-5', 중복 결제를 틀리면 '-7'인 것이 바람직하다.

또한, S300 단계에서 리워드 분류부(130)는 현재 설정된 리워드 정보의 스코어에 대하여, 선별대상 분류 에이전트(120)에서 출력되는 예측 결과의 맞고 틀림에 따른 비교를 통해 선별대상 분류 에이전트(120)에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 제공할 수도 있다.

S300 단계에서 설정된 리워드 정보는 리워드 분류부(130)로부터 선별대상 분류 에이전트(120)로 제공되고, 선별대상 분류 에이전트(120)는 리워드 분류부(130)로부터 제공된 리워드 정보를 결제 정보의 예측 결과 결정을 위한 임의의 정보, 예를 들면, 결제 정보에 포함된 가맹점 정보, 업종, 물품명, 금액, 가맹점별 중복 매출의 발생 빈도, 상권정보 등에 기반한 확률값의 산출시에 반영하여 강화학습을 수행(S400)한다.

따라서, 정상 결제 및 중복 결제의 확률값 비율에 따라 예측되는 정상 결제 및 중복 결제의 예측값의 맞고 틀림에 따른 리워드 정보를 강화학습에 반영하여 더욱 정확한 분류와 함께, 선별대상 분류 에이전트(120)의 예측값 분류를 위한 학습 방향이 최적의 방향으로 학습될 수 있도록 한다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있으며, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

100 : 분류 시스템
110 : 정보 입력부
120 : 선별대상 분류 에이전트
130 : 리워드 분류부

Claims

정보 입력부(110)로부터 임의의 결제 정보가 입력되면, 과거 결제 패턴 정보, 가맹점 정보 및 상권 정보를 임베딩(Embedding)을 기법을 통해 범주형 또는 비정형 데이터의 정보를 축약 및 정형화하고, 이를 숫자형 변수로 축약한 입력 변수에 기반하여 미리 저장된 분석 프로그램을 통해 상기 결제 정보에 대한 정상 결제 확률값과 중복 결제 확률값을 각각 산출하고, 상기 산출된 정상 결제 확률값과 중복 결제 확률값 중에서 높은 쪽의 확률값으로 분류한 예측 결과 - 이때, 예측 결과는 정상 결제 확률값이 높으면 정상 결제이고, 중복 결제 확률값이 높으면 중복 결제임 - 를 출력하는 선별대상 분류 에이전트(120); 및
상기 분류된 예측 결과를 상기 결제 정보의 실제 결과 - 이때, 실제 결과는 입력된 결제 정보가 정상 결제 또는 중복 결제인지를 나타낸 결과 정보임 - 와 비교하여 상기 예측 결과의 맞고 틀림에 따라 분류된 리워드 정보를 상기 선별대상 분류 에이전트(120)로 제공하는 리워드 분류부(130)를 포함하되,
상기 리워드 정보는 정상 결제와 중복 결제를 맞추면, 제1 스코어, 정상 결제를 틀리면 제2 스코어, 중복 결제를 틀리면 제3 스코어 - 이때, 제3 스코어는 3개의 스코어 중에서 가장 낮은 스코어를 가짐 - 를 상기 선별대상 분류 에이전트(120)에 리워드 정보로 제공하고,
상기 제공된 스코어와, 상기 예측 결과의 맞고 틀림에 따른 비교를 통해 상기 선별대상 분류 에이전트(120)에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 출력하며,
상기 선별대상 분류 에이전트(120)는 제공된 리워드 정보를 결제 정보의 확률값 산출에 반영하여 강화학습을 수행하는 것을 특징으로 하는 강화학습 기반의 결제 분류시스템.
삭제
a) 정보 입력부(110)로부터 임의의 결제 정보가 입력되면, 과거 결제 패턴 정보, 가맹점 정보 및 상권 정보를 임베딩(Embedding)을 기법을 통해 범주형 또는 비정형 데이터의 정보를 축약 및 정형화하고, 이를 숫자형 변수로 축약한 입력 변수에 기반하여 미리 저장된 분석 프로그램을 통해 상기 결제 정보에 대한 정상 결제 확률값과 중복 결제 확률값을 각각 산출하고, 상기 산출된 정상 결제 확률값과 중복 결제 확률값 중에서 높은 쪽의 확률값으로 분류한 예측 결과 - 이때, 예측 결과는 정상 결제일 확률값이 높으면 정상 결제이고, 중복 결제일 확률값이 높으면 중복 결제임 - 를 출력하는 단계;
b) 선별대상 분류 에이전트(120)로부터 분류된 예측 결과를 리워드 분류부(130)가 상기 결제 정보의 실제 결과 - 이때, 실제 결과는 입력된 결제 정보가 정상 결제 또는 중복 결제를 나타낸 결과 정보임 - 와 비교하여 상기 예측 결과의 맞고 틀림에 따라 분류된 리워드 정보를 상기 선별대상 분류 에이전트(120)로 제공하는 단계; 및
c) 상기 선별대상 분류 에이전트(120)가 상기 리워드 분류부(130)로부터 제공된 리워드 정보를 결제 정보의 확률값 산출에 반영하여 강화학습을 수행하는 단계;를 포함하되,
상기 리워드 분류부(130)는 정상 결제와 중복 결제를 맞추면, 제1 스코어, 정상 결제를 틀리면 제2 스코어, 중복 결제를 틀리면 제3 스코어 - 이때, 제3 스코어는 3개의 스코어 중에서 가장 낮은 스코어를 가짐 - 를 상기 선별대상 분류 에이전트(120)에 리워드 정보로 제공하고,
상기 제공된 스코어와, 상기 예측 결과의 맞고 틀림에 따른 비교를 통해 상기 선별대상 분류 에이전트(120)에서 분류되는 정상 결제 및 중복 결제의 검출 효율을 산출하여 출력하는 것을 특징으로 하는 강화학습 기반의 결제 분류방법.
삭제