KR101468764B1

KR101468764B1 - 앙상블 가맹점 예측 시스템을 구현하기 위한 방법 및 장치

Info

Publication number: KR101468764B1
Application number: KR1020107017232A
Authority: KR
Inventors: 토마스 맥지핸
Original assignee: 마스터카드 인터내셔날, 인코포레이티드
Priority date: 2007-12-31
Filing date: 2008-12-04
Publication date: 2014-12-04
Also published as: MX2010007273A; JP5485911B2; EP2240916A1; RU2510891C2; KR20100114058A; EP2240916A4; RU2010125682A; US8738486B2; BRPI0821420A2; AU2008343492A1; CA2710752A1; AU2008343492B2; US20090171759A1; JP2011508353A; WO2009085554A1

Abstract

거래 데이터 내에서 가맹점의 그룹 멤버쉽을 결정하는 목적을 위하여 금융 거래 카드 거래 데이터의 패턴을 발견하기 위한 컴퓨터 기반 방법이 기술된다. 데이터는 지불을 위하여 상기 금융 거래 카드를 수용하는 가맹점과 관련된다. 상기 방법은 적어도 하나의 데이터베이스로부터 거래 데이터를 수신하는 단계, 적어도 하나의 예측 알고리즘 및 검색된(retrieved) 거래 데이터를 사용하여 그룹 내에서 가맹점의 멤버쉽을 예측하는 단계 - 상기 알고리즘은 상기 예측을 기술하는 메타데이터를 생성함 - , 상기 적어도 하나의 예측된 그룹 멤버쉽 및 상기 메타데이터를 데이터 마이닝 애플리케이션으로 입력하는 단계, 및 상기 예측된 그룹 멤버쉽 및 상기 메타데이터를 활용하여, 상기 데이터 마이닝 애플리케이션에 의해 신뢰도 스코어를 각각의 예측된 그룹 멤버쉽에 할당하는 단계를 포함한다.

Description

앙상블 가맹점 예측 시스템을 구현하기 위한 방법 및 장치{METHODS AND APPARATUS FOR IMPLEMENTING AN ENSEMBLE MERCHANT PREDICTION SYSTEM}

본 발명은 일반적으로 가맹점 예측 시스템에 관한 것으로, 보다 구체적으로는 예금주를 대표하여 은행카드 네트워크 상에서 수행되는 지불 거래에 관련된 앙상블 가맹점 예측 시스템을 구현하기 위한 방법 및 장치에 관한 것이다.

역사적으로, 소비자 거래 지불을 위한 "신용(charge)" 카드의 사용은 기껏해야 지역색이 강했고, 지역 신용 발행 은행과 다양한 현지 가맹점들 간의 관계에 기초하였다. 지불 카드 산업은 가맹점과 카드 발행사들의 대출 관계(banking relationship)에 관계없이, 카드 소지자가 임의의 가맹점 시설에서 신용 카드를 널리 사용할 수 있게 하기 위해 (예를 들면, 마스터카드와 같은) 연합을 형성한 발행 은행들 및 {예를 들면, "가맹점 매입사(Merchant Acquirers)"와 같은} 관련 제3자 거래 처리 회사와 함께 진화해왔다.

예를 들면, 본 출원의 도 1은 카드에 의한 지불 거래를 가능하게 하기 위한 예시적인 다자간(multi-party) 지불 카드 산업 시스템을 도시한다. 도시한 바와 같이, 가맹점 및 발행사는 1 대 1 관계를 가져야 할 필요는 없다. 그러나, 오늘날 카드에 의한 지불 산업에는 다양한 시나리오가 존재하고, 여기서 카드 발행사는 특정 가맹점 또는 가맹점들의 그룹과 특별한 관계 또는 맞춤화된 관계를 갖는다.

2500만 개가 넘는 가맹점들이 지불 카드 형태를 받아들인다. 때때로 이러한 가맹점은 더 지명도가 높은 체인, 브랜드, 또는 다른 법적 개체와 제휴한다. 일 예에서, 큰 다국적 패스트 푸드 회사의 프랜차이즈 가맹점은 거래 카드 발행사에 "Chris's Restaurants, LLC"로 식별될 수 있고, 그러므로 프랜차이즈 업체와 어떤 상관관계도 없다. 카드에 의한 지불 산업에서의 구현을 개선하는 방법이 고려 대상이 되고 있다. 특히, 미래의 금융 카드 거래를 예측하고 데이터로부터 만들어질 상관관계가 있는지 여부를 결정하기 위한 역사적인 거래 데이터를 활용하는 것에 주의가 기울여진다.

보다 구체적으로, 회사에 의해 수집되는 가맹점 위치 데이터는 종종 법적 소유권, 브랜드, 또는 소정의 다른 정의에 기초하여 더 상위 레벨 그룹에 할당된다. 종종 이러한 관계는 명백히 정의되지 않거나, 용이하게 이용가능하지 않는다. 지금까지는 이러한 관계를 추론하는 것이, 적절한 그룹에 대한 멤버쉽을 위해 위치를 충족시키 위해 사용될 수 있는 필드 또는 필드 세트를 발견하도록 거래 데이터의 수동 검사를 수반해왔다.

일 특징에서, 거래 데이터 내에서 가맹점의 그룹 멤버쉽을 결정하도록 금융 거래 카드 거래 데이터의 패턴을 발견하기 위한 컴퓨터 기반 방법이 제공되고, 상기 데이터는 지불을 위하여 상기 금융 거래 카드를 수용하는 가맹점과 관련된다. 상기 방법은 적어도 하나의 데이터베이스로부터 거래 데이터를 수신하는 단계, 적어도 하나의 예측 알고리즘 및 상기 검색된 거래 데이터를 이용하여 그룹 내에서 가맹점의 멤버쉽을 예측하는 단계 - 상기 알고리즘은 상기 예측을 기술하는 메타데이터를 생성함 - , 상기 적어도 하나의 예측된 그룹 멤버쉽 및 상기 메타데이터를 데이터 마이닝 애플리케이션으로 입력하는 단계, 및 상기 예측된 그룹 멤버쉽 및 상기 메타데이터를 활용하여, 상기 데이터 마이닝 애플리케이션에 의해 신뢰도 스코어를 각각의 예측된 그룹 멤버쉽에 할당하는 단계를 포함한다.

또 다른 특징에서, 거래 데이터를 활용하는 개별 가맹점에 대한 그룹 멤버쉽을 결정하기 위한 금융 거래 카드 거래 데이터에서 패턴을 발견하기 위한 컴퓨터 시스템이 제공된다. 상기 컴퓨터 시스템은 상기 거래 데이터로 복수의 예측 알고리즘을 실행하고 - 각각의 예측 알고리즘은 상기 거래 데이터에 기초하여 가맹점에 대한 그룹 멤버쉽을 예측함 - , 신뢰도 스코어를 각각의 예측된 그룹 멤버쉽에 할당하고, 상기 가맹점에 대한 최종 멤버쉽 예측으로서 최고 신뢰도 스코어를 갖는 상기 그룹 멤버쉽 예측을 출력하도록 프로그램된다.

도 1은 일반적인 카드에 의한 지불 거래를 가능하게 하기 위한 예시적인 다자간 지불 카드 산업 시스템을 도시하는 도식적인 도면.
도 2는 본 발명의 일 실시예에 따른 시스템의 서버 아키텍처의 예시적인 실시예의 단순화된 블록도.
도 3은 본 발명의 일 실시예에 따른 시스템의 서버 아키텍처의 예시적인 실시예의 확장된 블록도.
도 4는 앙상블 종합 가맹점 예측 시스템(ensemble aggregate merchant prediction system)을 위한 고레벨 구성요소를 도시하는 흐름도.
도 5는 앙상블 종합 가맹점 예측 시스템과 연관된 스코어링 엔진(scoring engine)의 동작을 도시하는 흐름도.
도 6은 가맹점 위치를 분류하는 알고리즘으로 입력되는 데이터를 도시하는 흐름도(250).
도 7은 가맹점 위치를 분류하는 알고리즘을 도시하는 흐름도.
도 8a-8b는 가맹점 집단 및 세트를 분류 시스템 내의 문서들로 도시하는 도면.
도 9는 데이터 베이스 내의 참조 문자 스트링, 또는 주성분 세트의 결정을 도시하는 흐름도.
도 10은 후보 문자 스트링에 대한 유사성 척도(similarity metric)를 결정하는 참조 스트링 세트의 활용을 도시하는 흐름도.

앙상블 가맹점 예측 시스템 및 방법이 본 명세서에서 기술되며, 브랜드, 체인, 법적 소유권, 또는 기존에 존재하는, 일종의 임의의 가맹점 위치의 집합과의 유사성과 같은 높은 레벨의 배치를 드러내는 비지니스에서의 의미 있는 패턴(예를 들면, 가맹점 위치 데이터)을 발견하기 위해 활용된다. 본 명세서에서 활용되는 앙상블 예측 시스템은 복수의 예측 시스템을 지칭하며, 그 예측 시스템의 개별적인 예측은 단일 예측을 형성하기 위해 다 같이 집단화된다.

일반적으로, 그러한 그룹 멤버쉽이 명백히 정의되지 않을 때, 관계는 위치 데이터의 수동 검사(manual inspection)를 통해 추론되어야 한다. 기술된 앙상블 가맹점 예측 시스템은 위치 레코드(location records)를 포함하는 공간(space)의 적어도 일부에 대한 기술된 문제를 해결하기 위해 알고리즘적 접근방식을 활용한다.

본 명세서에 기술된 시스템 및 프로세스의 기술적 효과는 (a)위치 데이터와 같은 가맹점 비지니스에 관한 패턴 결정, (b) 가맹점 위치 데이터와 연관된 복수의 예측으로부터의 집단화된 예측 제공, 및 (c) 복수의 예측 및 그 예측과 관련된 임의의 메타 데이터를 활용하여 각각의 집단화된 예측에 대한 신뢰치(confidence values) 결정 중 적어도 하나를 포함한다.

일 실시예에서, 컴퓨터 프로그램이 제공되고, 그 프로그램은 컴퓨터 판독 가능 매체에서 구체화되며, 관리를 위한 클라이언트 사용자 인터페이스 프론트-엔드 및 표준 사용자 입력과 보고를 위한 웹 인터페이스와 함께 구조화 질의어(Structured Query Language; SQL)를 활용한다. 예시적인 실시예에서, 시스템은 인에이블된(enabled) 웹이고 비지니스-개체 인트라넷에서 실행된다. 또 다른 실시예에서, 시스템은 인터넷을 통해 비지니스-개체의 방화벽 외부의 인증된 엑세스를 갖는 개인들에 의해 완전히 액세스된다. 추가 예시적인 실시예에서, 시스템은 윈도우즈® 환경에서 실행되고 있다(윈도우즈는 워싱턴 레드몬드에 위치한 마이크로소프트 코포레이션의 등록된 상표임). 이 출원은 융통성 있고 임의의 주요 기능을 절충하지 않고도 다양한 서로 다른 환경에서 실행되도록 설계된다.

시스템 및 프로세스는 본 명세서에 기술된 특정 실시예에 한정되는 것은 아니다. 또한, 각각의 시스템 및 각각의 프로세스의 구성요소는 본 명세서에 기술된 다른 구성요소 및 프로세스로부터 독립적이면서 개별적으로 실행될 수 있다. 각각의 구성요소 및 프로세스는 또한 다른 조립 패키지 및 프로세스와의 조합에 사용될 수 있다.

기술적 배경을 거쳐, 도 1은, 역사적으로 거래가 앙상블 종합 가맹점 예측 시스템의 적어도 일부분으로 활용되는 일반적인 카드에 의한 지불 거래를 가능하게 하기 위한 예시적인 다자간 지불 카드 산업 시스템을 도시하는 도식적 도면(20)이다. 본 명세서에서 활용된 바와 같이, 종합 가맹점(aggregate merchant)이란 가맹점 위치의 고레벨 그룹을 지칭한다. 보다 구체적으로는, 소매상에 대한 다양한 각각의 가맹점 위치는 종합 가맹점을 형성하기 위해 (예를 들면, 데이터베이스에서 서로 링크되는 것과 같이) 함께 집단화된다. 그러므로 하나의 가맹점 위치는 종합 가맹점의 구성요소이다. 일반적으로, 종합 가맹점은 상점 체인을 지칭할 때 활용되며, 본 명세서에서 더 기술되는 바와 같이, 위치는 거래 데이터의 데이터베이스에 저장된 다수의 필드 값에 기초하여 함께 집단화된다.

본 발명은 마스터카드® 인터체인지를 사용하는 신용 카드 지불 시스템과 같은 지불 카드 시스템에 관한 것이다. 마스터카드® 인터체인지는 마스터카드 인터내셔널 인코포레이티드®의 멤버인 금융 기관들 간의 금융 거래 데이터의 교환을 위해 마스터카드 인터네셔널 인코포레이티드®에 의해 공포된 등록된 통신 표준(proprietary communications standard)이다(마스터카드는 뉴욕 퍼처스에 위치한 마스터카드 인터내셔널 인코포레이티드의 등록 상표이다).

일반적인 지급 카드 시스템에서, "발행사"로 불리는 금융 기관은 신용 카드와 같은 지불 카드를 소비자에게 발행하고, 소비자는 가맹점으로부터 구입하기 위해 지불을 제공하는 지불 카드를 사용한다. 지불 카드로의 지불을 받아들이기 위해, 가맹점은 보통 금융 지불 시스템의 일부인 금융 기관에 계좌를 개설해야 한다. 금융 기관은 종종 "종합금융회사(merchant bank)" 또는 "승인 은행(acquiring bank)" 또는 "매입사(acquirer bank)"로 불린다. 소비자(22)가 구입을 위해 지불 카드(또한 금융 거래 카드로 알려짐)로 지불을 제공할 때, 가맹점(24)은 구입한 양에 대하여 종합금융회사(26)로부터의 승인을 요청한다. 요청은 전화를 통해 수행될 수 있지만, 보통 판매시점관리(point-of-sale) 단말기의 사용을 통해 수용되고, 판매시점관리 단말기는 지불 카드의 마그네틱 선으로부터 소비자의 계좌 정보를 판독하고 종합금융회사의 거래 처리 컴퓨터와 전자적으로 통신한다. 이와 달리, 종합금융회사는 제3자가 대신 거래 처리를 수행하도록 승인할 수 있다. 이 경우, 판매시점관리 단말기는 제3자와 통신하도록 구성될 것이다. 그러한 제3자는 보통 "가맹점 프로세서(merchant processor)" 또는 "승인 프로세서"로 불린다.

인터체인지(28)를 사용하여, 종합금융회사의 컴퓨터 또는 가맹점 프로세서는 소비자의 계좌가 양호한 상태인지 여부 및 소비자의 이용가능한 신용 한도로 구입이 커버되는지 여부를 결정하기 위해 발행사 은행(30)의 컴퓨터와 통신할 것이다. 이러한 결정들에 기초하여, 인증 요청은 거부되거나 수용될 것이다. 요청이 수용되는 경우, 인증 코드가 가맹점으로 발행된다.

인증 요청이 수용될 때, 소비자의 계좌(32)의 이용가능한 신용 한도가 감소된다. 일반적으로, 비용은, 마스터카드 인터내셔널 인코포레이티드®와 같은 은행카드 연합이 가맹점으로 하여금 물건이 배송되거나 서비스가 배달되기 전까지 거래를 청구하거나 "저장하지(capture)" 못하게 하는 규칙을 공포하였기 때문에 소비자의 계좌로 즉시 포스팅되지 않는다. 가맹점이 물건 또는 서비스를 배송하거나 배달한 때, 가맹점은, 예를 들면 적절한 데이터가 판매시점관리 단말기 상의 절차에 들어감으로써 거래를 저장한다(captures). 만약 소비자가 저장되기 전에 거래를 취소한다면, "보이드(void)"가 발생된다. 만약 소비자가 거래가 저장된 후 물건을 반품한다면, "신용(credit)"이 발생된다.

거래가 저장된 후, 거래가 가맹점, 종합금융회사, 및 발행사 간에 정산된다(settled). 정산은 거래와 관련된 가맹점의 계좌, 종합금융회사, 및 발행사 간의 금융 데이터 또는 자금의 전달을 지칭한다. 보통, 거래는 "배치(batch)"로 저장되고 축적되며, "배치(batch)"는 그룹으로 정산된다. 본 명세서에서 더 기술되는 바와 같은 그러한 거래와 연관된 데이터는 미래의 구입 행위를 예측하는 기술 분야에서 활용된다.

금융 거래 카드 또는 지불 카드는 신용 카드, 직불 카드, 및 선불 카드를 지칭할 수 있다. 이러한 카드는 모두 거래를 수행하기 위한 지불 방법으로 사용될 수 있다. 본 명세서에 기술된 바와 같이, "금융 거래 카드" 또는 "지불 카드"라는 용어는 신용 카드, 직불 카드, 및 선불 카드와 같은 카드를 포함할 뿐만 아니라, 모바일 폰, 개인 휴대 정보 단말기(PDA), 및 키 포브(key fobs)와 같은 지불 계좌 정보를 보유할 수 있는 임의의 기타 장치를 또한 포함한다.

도 2는 본 발명의 일 실시예에 따른 예시적인 시스템(100)의 단순화된 블록도이다. 일 실시예에서, 시스템(100)은, 예를 들면 거래와 연관된 역사적인 데이터를 프로세싱하는 동안, 맞춤화된 발행사-가맹점 관계를 또한 구현하기 위해 사용되는 지불 카드 시스템이다. 또 다른 실시예에서, 시스템(100)은 지불 거래에 적용될 프로세싱 코드를 입력하기 위해 예금주들이 활용할 수 있는 지불 카드 시스템이다.

보다 구체적으로는, 예시적인 실시예에서, 시스템(100)은 서버 시스템(112)및 서버 시스템(112)과 연결된 복수의 클라이언트 서브-시스템을 포함하며, 복수의 클라이언트 서브-시스템은 또한 클라이언트 시스템(114)으로 지칭된다. 일 실시예에서, 클라이언트 시스템(114)은 웹 브라우저를 포함하는 컴퓨터이고, 서버 시스템(112)은 인터넷을 이용하여 클라이언트 시스템(114)에 엑세스 가능하다. 클라이언트 시스템(114)은 근거리 통신망(LAN) 또는 광역 통신망(WAN), 전화 접속 연결(dial-in-connections), 케이블 모뎀, 및 특별 고스피드 ISDN 회선과 같은 네트워크를 포함하는 많은 인터페이스를 통해 인터넷에 상호연결된다. 클라이언트 시스템(114)은 웹 기반 전화기, 개인 휴대 정보 단말기(PDA), 또는 기타 웹 기반 연결가능 장비를 포함하는, 인터넷과 상호연결할 수 있는 임의의 장치일 수 있다. 아래에서 더 자세히 설명되는 바와 같이, 데이터베이스 서버(116)는 다양한 것들에 관한 정보를 포함하는 데이터베이스(120)에 연결된다. 일 실시예에서, 중앙집중화된 데이터베이스(120)는 서버 시스템(112) 상에 저장되고 클라이언트 시스템(114) 중 하나를 통해 서버 시스템(112)에 로깅함으로써, 클라이언트 시스템(114) 중 하나에서 잠재적 사용자에 의해 엑세스될 수 있다. 대안적인 실시예에서, 데이터베이스(120)는 서버 시스템(112)으로부터 원격으로 저장되고 비중앙집중화될(non-centralized) 수 있다.

아래에서 기술하는 바와 같이, 데이터베이스(120)는 가맹점, 예금주 또는 소비자, 및 구입과 관계된 데이터를 포함하는 은행카드 네트워크에 걸쳐 수행되는 판매 행위의 일부로서 발생된 거래 데이터를 저장한다. 데이터베이스(120)는 상이한 보상 프로그램 및 특별 제안과 연관된 프로세싱 코드 및 비지니스 규칙을 포함하는 보상 프로그램 및 특별 제안과 관계된 데이터를 더 포함한다.

도 3은 본 발명의 일 실시예에 따라서 시스템(122)의 서버 아키텍처의 예시적인 실시예의 확장된 블록도이다. (도 2에 도시된) 시스템(100)의 구성요소와 동일한 시스템(122)의 구성요소는 도 2에서 사용된 동일한 참조 번호를 사용하여 도 3에서 식별된다. 시스템(122)은 서버 시스템(112) 및 클라이언트 시스템(114)을 포함한다. 서버 시스템(112)은 데이터베이스 서버(116), 애플리케이션 서버(124), 웹 서버(126), 팩스 서버(128), 디렉토리 서버(130), 및 메일 서버(132)를 더 포함한다. 디스크 저장 유닛(134)은 데이터베이스 서버(116) 및 디렉토리 서버(130)에 연결된다. 서버(116, 124, 126, 128, 130, 및 132)는 근거리 통신망(LAN; 136)에 결합된다. 또한, 시스템 관리자의 워크스테이션(138), 사용자 워크스테이션(140), 및 감독관의 워크스테이션(142)은 LAN(136)에 연결된다. 이와 달리, 워크스테이션(138, 140, 및 142)은 인터넷 링크를 사용하여 LAN(136)에 연결되거나 인트라넷을 통해 연결된다.

각각의 워크스테이션(138, 140, 및 142)은 웹 브라우저를 갖는 개인 컴퓨터이다. 워크스테이션에서 수행되는 함수는 일반적으로 각각의 워크스테이션(138, 140, 및 142)에서 수행되는 것으로 도시되지만, 그러한 함수는 LAN(136)에 연결된 많은 개인 컴퓨터 중 하나에서 수행될 수 있다. 워크스테이션(138, 140, 및 142)은 단지 LAN(136)으로의 엑세스를 갖는 개인에 의해 수행될 수 있는 상이한 유형의 함수에 대한 이해를 활용하기 위해 개별적인 함수와 연관되어 도시된다.

서버 시스템(112)은 ISP 인터넷 연결(148)을 사용하여 종업원(144) 및 제3자, 예를 들면 예금주, 소비자, 회계 감사관 등(146)까지 포함하는 다양한 개인과 의사전달가능하게 연결되도록 구성된다. 예시적인 실시예에서의 통신은 인터넷을 사용하여 수행되는 것으로 도시되지만, 임의의 기타 광역 통신망(WAN) 유형 통신이 다른 실시예에서 활용되어질 수 있는데, 즉 이는 시스템 및 프로세스가 인터넷을 사용하여 실행되는 것에 한정되는 것은 아니라는 의미이다. 또한, WAN(150)대신 근거리 통신망(136)이 WAN(150)을 대체하여 사용될 수 있다.

예시적인 실시예에서, 워크스테이션(154)을 갖는 임의의 인증된 개인은 시스템(122)에 엑세스할 수 있다. 클라이언트 시스템 중 적어도 하나는 원거리 위치(remote location)에 위치하는 관리자 워크스테이션(156)을 포함한다. 워크스테이션(154 및 156)은 웹 브라우저를 갖는 개인 컴퓨터이다. 또한, 워크스테이션(154 및 156)은 서버 시스템(112)과 통신하도록 구성된다. 게다가, 팩스 서버(128)는 전화 접속을 이용하여 클라이언트 시스템(156)을 포함하는 원거리에 위치한 클라이언트 시스템과 통신한다. 팩스 서버(128)는 또한 다른 클라이언트 시스템(138, 140, 및 142)과 통신하도록 구성된다.

도 4는 앙상블, 또는 집단화된, 가맹점 예측 시스템의 일 실시예에 대한 고레벨 기능별 구성요소를 도시하는 흐름도(200)이고, 여기서 각각의 구성요소는 기능별 거래 카드 네트워크의 동작에 관한 예측을 제공한다. 예측은 더 기술되는 바와 같이 단일 예측으로 집단화된다. 예측의 집단은 때때로 앙상블 예측으로 지칭된다. 본 명세서에서 기술된 실시예와 관련 있는 일 예는 수신된 가맹점 위치 데이터에 관한 집단화된 예측을 포함한다. 도 4에 관해 소개되는 동안, 본 명세서에서 모든 예측 알고리즘이 충분히 기술된다.

제1 구성요소는 (때때로 k-유사 위치 예측 알고리즘이라고 지칭되는) 유사 위치 예측 알고리즘(202)이고, 이는 주어진 가맹점 위치에 가장 유사한 "k" 가맹점 위치를 검색하도록 구성된다. 예측 알고리즘(202)은 유사한 가맹점 위치의 그룹을 검색된 "k" 가장 유사한 위치 중 모드 그룹으로 분류하도록 더 동작할 수 있다.

문서 예측 알고리즘으로서의 집단화된 위치(204)는 알려진 값의 공간에서 (데이터의 고레벨 그룹인) 각각의 위치 집단과 관련된 모든 필드 및 필드 값에 대한 관련성을 계산하도록 활용된다. 결과는 문서로 저장된다. 예측을 생성하기 위해 이런 문서에서 가장 관련 있는 값이 활용된다.

위치 매칭 시스템을 포함하는 제3자 데이터 예측 알고리즘(206)이 활용되고, 여기서 예측이 특정 제3자 브랜드와 연관된다. 알고리즘(206)에 대한 적어도 하나의 입력은 제3자로부터 수신된 거래 레코드를 포함하고, 거래 레코드는 예측을 생성하는데 활용된다. 일 실시예에서, 예측은 제3자 데이터 소스로의 위치 매칭이 수행된 후 생성된다. 주로 벤포드의 법칙(Benford's Law)에 기초하면서 또한 상대적으로 일관된 방법으로 벤포드에 의해 확인된 분포에서 벗어나기 위해 동일한 그룹에 속한 가맹점에 대해 관측된 경향에 기초한 실시예인 숫자 시그너처 예측 알고리즘(208)이 흐름도(200)에 포함된다. 알고리즘(208)에 기인한 예측은 각각의 가맹점 위치와 비교할 때 가장 유사한 숫자 분포를 갖는 위치 그룹이 된다.

일 실시예에서 오라클로 구현된 상위 레벨 통계 모델 및 스코어링 엔진(210)은 데이터베이스 내에 새롭게 수신되고/수신되거나 저장되는 데이터 중 그룹 멤버쉽을 결정하기 위해 알고리즘(202, 204, 206, 및 208)으로부터의 예측을 활용한다. 데이터의 예는 가맹점 위치 데이터이다. 적어도 하나의 실시예에서, 그리고 본 명세서에서 더 기술되는 바와 같이, 데이터베이스 내의 가맹점 위치 데이터는 위치 및 거리의 면에서, 예를 들면 주어진 위치로부터 주어진 거리 내에 있는 다수의 가맹점 위치에 관하여 기술된다. 적어도 하나의 특징에서, 위치 및 거리는 필수적으로 지리에 관한 것일 필요는 없고, 데이터베이스 내에 저장된 가맹점 데이터를 활용하여 계산되는 유사성에 기초한다. 특정 실시예에서, 위치 및 거리는 데이터베이스 내의 필드 값 및 필드 토큰화된 값에 대한 크로스 속성(cross-attribute), 가중치기반(weighted), 용어 빈도/역문헌 빈도(term frequency/inverse document frequency; TF/IDF) 계산에 의해 측정되는 유사성에 기초한다.

도 5는 스코어링 엔진(210)의 동작을 도시하는 흐름도(220)이다. 특히, 스코어링 엔진(210)은 각각의 개별적인 예측을 둘러싼 환경을 기술하기 위해 오라클 데이터 마이닝(ODM) 애플리케이션(224)의 예측에 관한 메타 데이터와 함께 알고리즘(202, 204, 206, 및 208)으로부터의 가맹점 위치 예측을 활용하고(222), 집단화된 개별적인 예측으로부터 최종 예측을 생성한다(226). 이 최종 예측은 가맹점 위치에 관한 것일 수 있다. 이 애플리케이션은 또한 복수의 알고리즘(202, 204, 206, 및 208)에 관한 집단화된 예측과 연관된 신뢰도 스코어(confidence score)를 생성한다.

4개의 알고리즘(202, 204, 206, 및 208) 각각이 추가로 자세히 기술된다.

K-유사 위치{알고리즘(202)}

도 6은 예를 들면 위치 유사성과 같은 유사성에 기초하여 가맹점 위치를 분류하는 알고리즘(202)으로 입력되는 데이터를 도시한 흐름도(250)이다. 체인 또는 집합(예를 들면, 그룹) 멤버쉽을 얻는 맥락에서 중요하다고 알려진 위치 레벨 필드 또는 위치 좌표(252)의 세트는 금융 거래 카드를 수용하는 기관(254)의 데이터베이스로부터 식별된다. 추가로, 일별(daily) 새로운/변경된 위치 데이터베이스(256)로부터의 데이터는 그들의 연관된 새로운/변경된 위치 좌표(258)와 함께 이하에 기술된 가맹점 위치 분류 알고리즘에 제공된다.

도 7은 가맹점 위치를 그룹 멤버쉽으로 분류하도록 활용되는 알고리즘 중 하나{도 4에 도시된 알고리즘(202)}를 기술하는 흐름도(280)이다. 알고리즘(202)은 적어도 도 6의 흐름도(250)에 관해 기술된 데이터를 활용한다. 구체적으로, 데이터베이스 내의 가맹점 위치 데이터는 주어진 위치로부터 주어진 거리 내에 있는 다수(k)의 위치에 대해 검색된다(282). 추가로, 주어진 거리 내의 위치는 임의의 새롭고/새롭거나 변경된 위치를 결정하도록(284) 유사성에 대해 검색된다. 모드 값은 특정한 특징 공간 {즉, 거래 데이터가 이곳으로부터 알고리즘(202)으로 입력되는 영역} 내의 (k) 위치 중에 발생하는 가맹점 위치를 분류함으로써 결정된다(286). (k) 위치 레코드의 분류에서 기인한 가장 최근에 발생한 값은 최고 가중치를 갖고, 아래에서 기술되는 바와 같이 결정되는 모드 값으로 지칭된다. 이 모드 값은 알고리즘(202)으로부터 예측으로 반환된다(288).

이하에서 더 기술되는 바와 같이, 필드{위치 좌표(252 및 258)}는 토큰화되고 특징 공간을 확장하는 모든 토큰화된 필드값에 대해 역문헌 빈도가 계산된다. 일 실시예에서, 각각의 위치에 대하여, 용어 빈도/역문헌 빈도로서의 각각의 필드값 및 각각의 토큰화된 필드 값에 대한 가중치 척도의 희소 행렬(sparse matrix)이 계산된다. 예측 값은 하나 이상의 필드 유형 및 필드 값에 기초하여 주어진 위치 필드를 모든 다른 위치 필드에 합침으로써 계산된다.

희소 행렬은 위치, 필드 유형 및 용어 값에 대한 가중치, 및 용어 토큰을 포함하며, 아래의 단락에 기술된 바와 같이 생성된다.

모든 필드 값 및 토큰화된 필드 값의 역문헌 빈도를 포함하는 행렬이 생성되고, 일 실시예에서는 9차원에 걸친다. 특정 실시예에서, 이러한 9차원은 가맹점 분류 코드, 인터뱅크 카드 협회(ICA) 코드, 비지니스 영역, 가맹점 이름, 가맹점 전화 번호, 승인 가맹점 식별자(acquiring merchant identifier), 계층 가맹점 식별자(tier merchant identifier), 가맹점 법적 이름(merchant legal name), 및 연방 세금 식별자(federal tax identifier)를 포함한다. 이러한 차원은 모든 가맹점 위치 레코드에 포함된다. 역문헌 빈도는 레코드 수를 특정 값을 포함하는 레코드 수로 나눈 몫의 {일 특정 실시예에서 밑(base)이 2인} 로그다. 일 예가 표 1에 표현된다. 일 실시예에서, 이 몫은 9차원 각각에 대해 개별적으로 계산된다. 레코드 수는 가맹점 위치의 수로 계산된다. 특정 용어를 포함하는 레코드 수는 각각의 필드 유형 내에 각각의 용어를 포함하는 가맹점 위치 수를 셈으로써 계산된다.

각각의 위치에 대해, 크로스 속성 정규화된 용어 빈도 - 더블 역문헌 빈도 가중치가 표 2에 도시된 바와 같이 9 차원에 걸친 값 및 토큰화된 값에 대해 계산되고, 여기서 9차원은 다시 가맹점 분류 코드, ICA 코드, 비지니스 영역, 가맹점 이름, 가맹점 전화 번호, 승인 가맹점 식별자, 계층 가맹점 식별자, 가맹점 법적 이름, 및 연방 세금 식별자를 포함한다.

예측하기 위한 위치를 필드 유형 및 필드 값에 대해 모든 다른 위치로 합치고 공통적인 필드 유형 및 필드 값에 대한 용어 빈도- 더블/역문헌 빈도 가중치의 곱을 합함으로써 주어진 위치에 대한 그룹 멤버쉽 예측 및 신뢰도가 계산된다. 위치 결과는 결과 스코어(resulting score)의 내림차순으로 정렬되고, 예를 들면 최고 스코어를 갖는 13개의 위치 중에서 발생하는 모드 그룹이 예측으로서 주어진다. 이 예측의 신뢰도 스코어는 동일한 그룹(예측된 값), 예측된 그룹에 속하는 k 위치에 대한 개별 가중치, 및 가중치 간의 분산(variance)을 포함한 상위 13개의 위치 중 위치의 수로 표현된다.

문서 예측으로 집단화된 위치{알고리즘(204)}

도 8a-8b는 분류 시스템으로서 문서 내에 세트로 집단화된 위치를 도시하는 도면(300)이다. 집단화된 위치의 문서를 생성하는 (도 4에 도시된) 알고리즘(204)은 인터넷 검색 엔진에 의해 보통 이용되는 문서 관련 알고리즘과 유사하다. 구체적으로, 각각의 가맹점 위치의 집단 또는 집합(collection)에 대한 주어진 가맹점 위치의 관련도는 아래에 기술된 바와 같이 계산된다.

문서(302)를 생성하기 위해, 예를 들면 거리 주소와 같은 관련 특징이 복수의 위치(304)에 관련된 데이터베이스 데이터로부터 추출되고, 예를 들어 세트(306)와 같이 세트로 그룹화된다. 예시의 목적을 위해, 도면(300)은 네 개의 위치 세트(306, 308, 310, 및 312)를 포함한다. 세트(312)는 세트 M으로 라벨링되어 특정 구현에서 세트의 수가 도시된 네 개 보다 많거나 적을 수 있다는 것을 나타낸다. 유사하게 세트 내의 위치 수는 1에서부터 "N"까지 다양할 수 있다.

각각이 관련 추출 특징을 포함하는 생성된 문서(302, 320, 322, 및 324)는 사전(330)에 수집된다. 사전(330)을 활용하여, 희소 행렬(340)이 형성되고 그럼으로써 각각의 필드 값 및 토큰화된 필드 값의 관련도가 계산되며, 용어 빈도 및 역문헌 빈도 중 적어도 하나에 기초하여 각각의 집단화된 가맹점 그룹에 대해 추출된 특징을 활용한다.

희소 행렬(340) 내에서, 위치 레벨 가중치의 행렬은 필드 유형 및 필드 값에 기초하여 가맹점 그룹 가중치의 행렬에 합쳐진다. 이러한 가중치의 합은 각각의 가맹점 그룹에 대한 각각의 위치의 관련도를 결정하기 위해 관련 엔진(350)에 의해 일 실시예에서 활용된다. 최고 관련도를 갖는 가맹점 그룹이 위에서 기술된 예측된 값으로 반환된다. 보다 구체적으로, 그룹, 필드 유형, 및 용어 룰에 대한 가중치, 및 용어 토큰의 희소 행렬은 이하 문단에서 기술되는 바와 같이 생성된다.

먼저, 본 명세서의 다른 곳에서 나열된 9 차원, 구체적으로 가맹점 분류 코드, ICA 코드, 비지니스 영역, 가맹점 이름, 가맹점 전화 번호, 승인 가맹점 식별자, 계층 가맹점 식별자, 가맹점 법적 이름, 및 연방 세금 식별자에 걸친 모든 필드 값 및 토큰화된 필드 값의 역문헌 빈도를 포함하는 행렬이 모든 가맹점 위치 레코드에 걸쳐 생성된다.

도 3에 도시된 바와 같이 문서 예측 알고리즘으로서 집단화된 위치에 관해, 역문헌 빈도는 몫, 즉 레코드 수를 특정 값을 포함하는 레코드의 수로 나눈 값의 (일 특정 실시예에서 밑이 2인) 로그이다. 일 실시예에서, 역문헌 빈도는 9차원의 각각에 대해 개별적으로 계산된다. 레코드의 수는 가맹점 위치의 수로 계산된다. 특정 용어를 포함하는 레코드 수는 각각의 필드 유형 내에서 각각의 용어를 포함하는 가맹점 위치의 수를 셈으로써 계산된다.

각각의 그룹에 대하여, 도 4에 도시된 바와 같이 가맹점 분류 코드, ICA 코드, 비지니스 영역, 가맹점 이름, 가맹점 전화 번호, 승인 가맹점 식별자, 계층 가맹점 식별자, 가맹점 법적 이름, 및 연방 세금 식별자의 9차원에 걸친 값 및 토큰화된 값에 대한 크로스 속성 정규화 용어 빈도 - 더블 역문헌 빈도가 계산되고, 모든 위치는 각각의 그룹에 속한다.

열(rows)을, 위에서 기술된 바와 같이, (k)-유사 위치 행렬로부터 필드 유형 및 필드 값에 대한 그룹 행렬로 합치고 공통적인 필드 유형 및 필드 값에 대한 용어 빈도 - 더블 역문헌 빈도 가중치의 곱을 합함으로써, 주어진 위치에 대한 하나의 그룹 멤버쉽 예측이 계산된다. 예측된 그룹 및 신뢰도 스코어는 (필드 값 및 토큰화된 값을 매칭하기 위한 가중치×가중치의 합에 의해 주어지는) 최고 유사성 스코어를 갖는 그룹이다. 이런 예측에 대한 신뢰도가 결과 스코어이다.

제3자 데이터 예측 및 위치 매칭{알고리즘(206)}

앙상블 예측의 제3 구성요소는 가맹점 위치에 의해 금융 거래의 데이터베이스에 매칭되어온 제3자 제공 데이터를 사용하는 (도 4에 도시된) 알고리즘(206)이다. 일 실시예에서, 이러한 제3자 레코드는 예를 들면 벤더(vendor)에 관련된 체인 식별자에 할당된다. 이러한 체인 식별자는 (예를 들어, 카드 발행사와 같은) 금융 거래 카드 브랜드와 연관된 가맹점 위치 그룹에 링크된다. 그러므로, 예측은 단순히 제3자 레코드가 링크되는 체인에 대응하는 가맹점 데이터의 그룹이다. 이렇게 링크를 하고 나면 다음 문단에 기술되는 바와 같이 위치 매칭을 하게 된다.

가맹점 위치 데이터세트는 제3자 데이터 제공자로부터 추출되고, 여기서 위치는 (벤더에 의해) 체인으로 할당되어 왔다. 제3자 가맹점 위치의 공간 내의 가각의 체인은 적절한 대응 그룹에 할당된다. 근사 가맹점 위치 매칭 엔진(approximate merchant location matching engine)은 제3자 가맹점 위치 레코드의 세트를 카드 발행사에 의해 유지된 가맹점 위치 레코드의 세트로 합치기 위해 사용된다. 주어진 위치에 대한 예측된 그룹은 카드 발행사 가맹점 위치 레코드에 매칭되는 제3자 위치 레코드에 대응하는 체인에 대응하는 그룹으로서 계산된다. 신뢰도 스코어는 근사 가맹점 위치 매칭 엔진에 의해 할당된 매칭 신뢰도 스코어(match confidence score)이다.

숫자 시그너처 예측{알고리즘(208)}

일 실시예에서, (도 4에 도시된) 가맹점 숫자 시그너처 알고리즘(208)은 일별 거래액 및 거래량의 제1 포지션에서의 숫자 분포에 관한 관측을 이용한다. 구체적으로, 다양한 가맹점 데이터가 집단화될 때 분포가 다소 고유한 경향이 있다. 또한, 분포는 자연 데이터(natural data)에서 벤포드의 법칙에 의해 제안된 분포와 일관된 경향이 있다. 실제 세계의 예에서, 패스트 푸드 음식점 체인은 특정 숫자를 첫 거래액 숫자로서 반복적으로 등장시키려는 경향을 나타낼 수 있다. 이러한 경향은, 예를 들면 패스트 푸드 음식점 체인의 프랜차이즈 가맹점 위치가 특정 위치 또는 주소에 있다는 것을 적어도 부분적으로 식별하도록 활용될 수 있다.

이러한 알고리즘을 활용하는 예측의 일 예는 각각의 종합 가맹점(가맹점 데이터의 그룹)으로부터의 가맹점 위치의 10% 무작위(random) 샘플이다. 거래액 및 거래량의 제1 포지션에서 발생하는 숫자 1-9의 분포는 종합 가맹점에 의해 계산되고 요약된다. 그 분포와 벤포드의 법칙에 의해 확인되는 분포 사이의 각거리(angle distance)가 계산된다.

거래액 및 거래량의 제1 포지션에서 발생하는 숫자 1-9의 분포가 주어진 가맹점 위치에 대하여 계산된다. 그 분포와 벤포드의 법칙에 의해 확인된 분포 사이의 각거리가 계산된다. 가맹점 위치의 각거리에 가장 근접한 각거리를 갖는 종합 가맹점이 주어진 위치에 대한 예측된 종합 가맹점으로 주어진다.

보다 구체적으로, 각각의 그룹에 대해, 거래 수, 거래액, 및 평균 거래액 중 그룹 내의 모든 위치에 걸친 각각의 숫자(즉, 1, 2, 3, 4, 5, 6, 7, 8, 9)의 발생 빈도의 분포가 계산되고 전체에 대한 퍼센트로 표현된다. 상기 분포가 표에 저장되어 표 5에서 표현된다.

각각의 그룹에 대한 분포가 계산되면, 벤포드의 법칙에 의해 제안된 그룹의 분포 벡터와 분포 벡터의 내적을 계산함으로써, 각각의 그룹에 대한 숫자 시그너처가 결정된다. 내적(분산각)은 각각의 그룹에 대한 분포 벡터의 제곱의 합으로 나눠진다. 벤포드의 법칙에서 확인된 분포가 계산되고 표에 저장되며, 표 6에 표현된다.

각각의 위치에 대하여, 주어진 위치에 대해 한 달의 기간 동안 관찰된 거래 수, 거래액, 및 평균 거래액에 걸친 각각의 숫자(1, 2, 3, 4, 5, 6, 7, 8, 9)의 발생 빈도의 분포가 계산되고 전체에 대한 퍼센트로 표현된다. 이러한 분포는 표에 저장되고, 이는 도 7에 표현되어 있다.

각각의 위치에 대한 분포가 계산되면, 각각의 위치에 대한 숫자 시그너처가 벤 포드의 법칙에 의해 제안된 위치의 분포 벡터와 분포 벡터의 내적을 계산함으로써 결정된다. 벤포드의 법칙에서 확인된 분포 및 각각의 위치에 대한 분포의 벡터의 제곱의 합으로 나뉘는 이런 내적(분산각)이 계산되고, 표에 저장되며, 표 8로 표현된다.

주어진 위치에 대한 예측된 그룹 멤버쉽은 주어진 위치의 숫자 시그너쳐와 가장 근접한 숫자 시그너처를 갖는 그룹을 찾음으로써 계산되고, 신뢰도 스코어는 두 시그너쳐 간의 간격으로 계산된다.

통계 모델 및 스코어링(scoring)

도 5에 관하여 위에서 기술된 바와 같이, 4개의 예측 알고리즘(202, 204, 206, 및 208)으로부터의 각각의 예측된 값은, 각각의 예측의 환경을 기술하는 풍부한 메타 데이터 세트와 함께 수집되고(222), 오라클 데이터 마이닝(ODM) 애플리케이션(224)으로 입력된다. 일 실시예에서, ODM 애플리케이션(224)은 각각의 예측된 값에 신뢰도 스코어를 할당하기 위해 라벨링된 트레이닝 데이터를 사용하여 만들어진 통계 모델(결정 트리)을 활용한다. 최고 신뢰도 스코어를 갖는 예측된 값은 각각의 가맹점 위치에 대한 최종 예측된 집단 값으로 제공된다.

근사 스트링 매칭(Approximate String Matching)

위에서 기술된 바와 같이, 앙상블 예측의 하나의 구성요소는 위치 데이터를 사용하는 알고리즘이고, 예를 들면, 그 위치 데이터는 가맹점 위치와 제휴된 금융 거래 카드의 데이터베이스에 매칭되어 왔다. 소정의 데이터는 제3자 소스에 의해 제공될 수 있다. 아래에 기술된 실시예는 데이터베이스 내의 데이터에 대한 근사 스트링(예를 들어, 문자 스트링) 매칭을 검색하기 위한 방법 및 시스템에 관한 것이다. 실시예에서, 스트링 매칭은, 예를 들면 위치를 표현하는 스트링이 또 다른 스트링에 의해 데이터베이스에 표현되는지를 결정하도록 활용된다. 다양한 실시예에서, 거래 레코드에 발생하는 변형들 때문에, 특히 그러한 레코드가 가맹점 이름 및 위치에 관한 것이기 때문에, 그러한 알고리즘은 적절하다.

완벽히 매칭하거나 공통적인 필드 값과 같은 공통적인 조인 키(join key)가 데이터 내에 존재하지 않을 때, 근사 스트링 매칭 데이터베이스 시스템은 하나의 레코드 세트를 또 다른 레코드 세트로 합치도록 작동될 수 없다. 아마, 레코드 세트에 소정의 유사성이 있다.

일반적으로, 두 개의 데이터세트가 데이터베이스 내에 합쳐질 때, 그들은 하나 이상의 필드에 정확한 값들을 공유한다. 정확한 필드 값들이 데이터 내에서의 변형 때문에 두 개의 데이터 소스(레코드 세트)에 의해 공유되지 않을 때, 각각의 데이터 소스로부터 데이터세트를 합치는 전통적인 접근방식은 두 값을 취하여 그들의 유사성를 계산하고 반환하는 함수를 구현할 것이다. 데이터 세트를 합치기 위한 기본방안으로서 이러한 유형의 함수를 사용하는 것은 합치게 될 각각의 데이터세트 내의 레코드 수의 곱과 동일한 수만큼의 다수의 반복(iterations)을 요구한다.

예로서, 데이터세트 A에 10,000개의 레코드가 있고 데이터세트 B에 500,000개의 레코드가 있다면, 유사성 계산 함수는 데이터세트 A을 데이터세트 B에 합치기 위해 50억번 호출될 것이다. 게다가, 그러한 함수가 작동될(invoked) 때, 임의의 인덱스 또는 인덱스에 기초한 함수는 데이터베이스 최적화기에 의해 사용되지 않을 것이다. 이러한 데이트 세트 유형은 매우 비효율적이고 소량이 아닌 데이터 양을 갖는 데이터세트를 합치도록 사용되기에는 너무 지나치게 집약적인 프로세싱이다.

스트링 매칭 기술이 개발되고, 다양한 실시예에서 하나 이상의 다음 구성요소를 활용하여 구현된다. 구체적으로, 참조 스트링 세트가 주성분 요인 분석(principal components factor analysis; PCFA)을 사용하여 생성된 조인 기준(join criteria)에 사용된다. PCFA는 참조 스트링으로 사용될 알려진 값의 공간에 존재하는 매우 비유사한 스트링 세트를 식별하는 것을 추구한다.

또 다른 구성요소는 관계형 데이터베이스 관리 시스템(relational database management system; RDBMS)에서의 성능을 최대화하기 위한 순수한 ASCII 구성 쿼리 언어(SQL)로 구현된 n-그램 빈도 유사성 계산(n-gram frequency similarity calculation)이다. 추가로, 프로세스는 2진 키를 형성하기 위해 n-그램 빈도 유사사도 계산을 사용하도록 RDBMS에 구현되고, 아래에 기술된 바와 같이 2진 키는 PCFA에서 식별된 각각의 참조 스트링에 대한 주어진 레코드의 유사성을 나타낸다.

일 실시예에서, 데이터 구동 표준화 함수 세트가 RDBMS 내에 구현되고, 이는 모든 n-그램의 역문헌 빈도(IDF) 및 크로스 속성 가중치기반 용어 빈도/역문헌 빈도(TF/IDF) 계산의 SQL 구현을 포함하는 표이다.

스트링 매칭 기술의 일 실시예는 동일한 2진 키 값을 공유하는 레코드들을 합치고 그들을 모든 매칭 n-그램의 TF/IDF 가중치의 곱을 합함으로써 관련도로 정렬하는 변수화된 분석적 SQL 쿼리를 포함한다. 레코드가 특정 문턱값 위로 i 번째 참조 스트링을 매칭하는 경우, 2진 키의 i 번째 비트는 논리 1로 설정된다.

데이터세트의 합침에 관련된 데이터를 저장하기 위한 RDBMS 데이터 모델이 또한 포함되는 동안, 프로세스는 신뢰도 스코어를, 합쳐짐에 의해 기인된 각각의 매칭으로 할당하도록 RDBMS 내에 구현된다.

데이터세트 합침 문제의 하나의 단순한 버전은 하나의 이름(또는 주소)을 오라클 표와 같은 데이터베이스 내에 포함된 더 큰 이름(또는 주소) 세트에 대해 매칭시키는 것이다. 이런 n-그램 매칭의 예가 표 9에 도시된다.

데이터세트 합침 솔루션을 위해 필요로 되는 요소는 스트링 간의 임의의 유사성을 측정하기 위한 척도이다. n-그램은 단순히 n개의 문자의 고유한 스트링이고, n-그램 매칭은 n-그램들 간의 매칭을 결정하기 위한 프로세스이다. n이 2와 같은 경우에 대하여, 표 1의 후보 주소는 다음의 2-그램들, "10", "00", "01", "14", "4<space>", "<space>S", "S<space>", "<space>C", "Cl", "la", ..., "Rd"를 포함한다.

표 10은 n-그램 매칭 알고리즘을 요약하고, 이는 후보 스트링(예를 들면, Candidate_array)에 대한 n-그램 빈도 벡터를 결정하는 것, 후보 매칭 데이터베이스(예를 들면, Candidate_Match_Array) 내의 각각의 엔트리에 대한 n-그램 빈도 벡터를 결정하는 것, Candidate_Array 및 Candidate_Match_Array 간의 유사성 정도를 측정하는 것, 및 특정 문턱값을 초과하는 이러한 후보 매칭들을 유지하는 것을 포함한다. 예를 들면, "JoJo's Diner"의 경우는 다음과 같다.

도 11, 12, 13은 n-그램 매칭 척도의 예이다. "내적(inner product)"은 배열의 내적(dot product)이고, "크기(Magnitudes)"는 제곱의 합의 제곱근이며, "(각도의) 코사인"은 내적을 크기들의 곱으로 나눈 값이며, 각도는 내적을 크기들의 곱으로 나눈 값의 역 코사인 값이다.

참조 스트링

위의 표 및 기술은 스트링을 양적으로 표현하는 능력을 도시하고 그들간의 유사성을 측정한다. 이 시점에서, 데이터베이스 내의 각각의 레코드에 대한 인덱스는 작은 참조 스트링 세트에 대한 해당 상대적인 포지션에 기초하여 만들어질 수 있다.

참조 스트링을 선택함으로써, 각각의 참조 스트링에 대한 새로운 레코드의 상대적인 포지션이 계산될 수 있다. 또한, 데이터베이스 내의 모든 레코드는 참조 스트링에 관한 고유의 사전계산된 포지션을 갖는다. 그러므로, 근사 매칭은 새로운 레코드와 전체 데이터베이스 간의 종합 유사성 척도를 계산하지 않고도 동일한 근접성으로 인덱스된 그러한 레코드를 검색함으로써 찾아질 수 있다. 참조 스트링 선택의 하나의 목표는 비유사한 레코드를 선택하여, 더 나은 관점을 제공하는 것이다. 참조 스트링 선택에 대한 한 가지 접근방식은 다음 문단에서 그 개요가 서술된다.

참조 스트링은 인덱스된 데이터베이스로부터 스트링 샘플을 수집함으로써 식별된다. 샘플 내의 각각의 스트링에 대한 n-그램 표현은 빈도수 벡터를 창조함으로써 생성되고, 여기서 벡터의 i 번째 구성요소는 n-그램이 그 스트링에 발생되는 수를 포함한다. 유사성에 대한 행렬은 코사인 유사성 척도를 사용하여 샘플 스트링의 모든 쌍 간의 유사성을 측정함으로써 생성된다.

유사성 데이터의 집합에서 비유사한 구성요소를 찾기 위한 한 가지 기술은 주성분 분석이다. 주성분 분석은 유사성 행렬에 수행되고 제1 k 주성분이 유지된다. 각각의 구성요소에 최대 로딩을 갖는 샘플 스트링이 유지되고, 참조 스트링 세트를 형성한다.

2진 인덱스 및 정보 검색

유사한 스트링을 함께 그룹지어 인덱스가 근사 스트링 매칭동안 빠른 후보 검색을 제공하도록 생성될 수 있기 위해, 각각의 잠재적인 후보 레코드 및 각각의 비교 레코드는 n-그램 빈도 유사성 SQL 계산을 사용하여 각각의 참조 스트링과 비교된다.

유사도 계산이 사전정의된 문턱값보다 더 높은 스코어를 산출하면, 참조 스트링에 대응하는 2진 키의 포지션이 값 1로 할당된다. 스코어가 문턱값 아래이면, 키의 대응 포지션은 0으로 할당된다.

N-그램 유사성 계산

두 개의 주어진 스트링 내에 존재하는 모든 고유한 N-그램의 발생 빈도를 포함하는 2차원 벡터를 형성하는 SQL 쿼리가 개발되어왔다. 쿼리는 정규화된 유사성 척도에 다다르기 위해 각각의 빈도수 곱의 합을 빈도수 벡터의 각각의 차원의 크기의 제곱으로 나눈다.

이러한 계산이 다음 예에 의해 표현되고, 여기서 비교 스트링 A는 "MASTERCARD"이고, 비교 스트링 B는 "MASTERCHARGE"이다. 다음 표 14는 2개의 비교 스트링 내에 존재하는 모든 고유의 n-그램의 발생 빈도를 포함하는 2차원 벡터이다.

스트링 A의 크기는 차원 A의 각각의 빈도수 값에 대한 제곱의 합의 제곱근으로 계산되고, 구체적으로 스트링 A의 크기는 3.0이다. 스트링 B의 크기는 차원 B의 각각의 빈도수 값의 제곱의 합의 제곱근으로 계산되고, 구체적으로 B의 크기는 3.3166247903554이다. 벡터의 내적이 계산되고, 이 예에서 내적은 7.0이다(A와 B 둘 다 1의 값을 갖는 표 엔트리의 수이다). 유사성은 내적/(A 크기 * B 크기)로 계산되거나, 예시적인 예에 대하여 0.703526470681448이다.

2진 키 값의 형성

유사성 계산이 사전정의된 문턱값보다 더 높은 스코어를 산출하는 경우, 참조 스트링에 대한 2진 키의 포지션은 값 1로 할당된다. 스코어가 문턱값 이하라면, 키의 대응 포지션은 0으로 할당된다. 일 실시예에서, 이진 키 포지션을 결정하기 위한 프로세스는 SQL 및 PL/SQL의 조합을 사용하여 구현된다. 이진 키가 알고리즘 내의 이전 반복에서 그 정확한 값에 대해 계산되었던 경우, 알고리즘의 구현은 자동으로 주어진 스트링을 이진 키 값에 할당하기 위해 분석적인 구조화 쿼리 언어를 사용함으로써, 요구되는 스트링 비교 계산의 수를 최소화한다. 이러한 최적화는 SQL에서 달성된다.

고유 식별자 및 각각의 이진 키 값은 RDBMS의 파티셔닝된 인덱스 구성 테이블(index organized table; IOT)에 저장된다. 각각의 고유 데이터세트는 단일 파티션 내에 저장되고, 두 개의 데이터세트가 동일한 파티션을 공유하지 않는다. 로드 성능(load performance)을 최대화하기 위해, 각각의 데이터세트가 이 표로 로딩하는 것은 CTAS(create table as select) 및 파티션 교환을 사용하여 달성된다. 각각의 파티션 내의 데이터는 조인 성능을 최대화하도록 2진 키 값의 순서로 저장된다.

데이터 표준화

유사성 비교의 정확성 및 2진 키 값의 분포를 개선하기 위해, 일 실시예에서 데이터는 알려진 약어 및 동의어에 대해 표준화된다. 그러한 데이터 표준화를 달성하기 위해, 다양한 필드 유형에 대한 모든 알려진 동의어 및 변형을 포함하는 표는, 그들의 각각의 표준 표현들과 함께 생성된다. 알고리즘은 각각의 데이터 요소를 토큰화하고 그들의 표준 형태에 대한 임의의 알려진 변형 또는 동의어를 맵핑하도록 동작한다.

IDF 표

근사 매칭 조인과 관련된 필드에 존재하는 모든 n-그램에 대한 가중치기반 TF/IDF를 계산할 때의 더 빠른 성능을 위해, 표는 후보 레코드의 공간 내에 존재하는 모든 두 개의 문자 n-그램의 역문헌 빈도를 포함하여 만들어진다. 공간 내의 모든 n-그램의 형성이 PL/SQL을 통해 달성되는 반면, IDF 계산은 ASCII SQL로 수행된다. IDF 표는 각각의 데이터 분류를 위해 각각의 가능한 n-그램에 대한 IDF 값을 저장한다. 표는 조인 성능을 최대화하기 위해 데이터 분류 및 n-그램에 따른 인덱스로 체계화된다.

크로스 속성 가중치기반 TF/IDF

근사 매칭 조인에 관계된 각각의 필드에 대해, 주어진 레코드에 존재하는 각각의 두 개의 문자 n-그램에 대한 가중치 또는 중요도를 할당하기 위해, 크로스 속성 가중치기반 부여된 용어 빈도/역문헌 빈도 TF/IDF 값은 각각의 n-그램 값에 대해 계산된다. n-그램 용어 및 각각의 주어진 레코드 및 필드 내에서의 그들 각각의 발생 빈도는 REF_CURSOR를 입력으로 취하는 파이프라인 표 함수를 사용하여 계산된다. 이 계산은 각각의 필드 내의 각각의 n-그램에 대한 TF/IDF를 계산한 후 각각의 필드에 존재하는 모든 n-그램에 대한 가중치를, 동일한 레코드의 다른 필드에 존재하는 n-그램의 총 가중치에 따라 위 또는 아래로 조절한다는 점에서 종래의 가중치기반 TF/IDF 계산과 약간 다르다. 이 기술로 인해, 각각의 필드의 값의 전체 중요도에 따라 매칭한 n-그램의 상대적인 가중치에 대한 레코드 레벨 동적 조정이 발생한다.

위에서 언급한 바와 같이, 주어진 데이터 세트의 각각의 레코드에 대한 고유 식별자는 그들의 n-그램 용어 및 계산된 가중치 스코어와 더불어 조인 성능을 최대화하기 위해 파티셔닝된 인덱스 구성 표(IOT)에 저장된다. 표는 고유 식별자, 데이터 분류, 및 n-그램 용어 값에 따라 체계화된다. 각각의 고유 데이터세트는 표 내의 개별적인 파티션에 저장된다. 각각의 파티션은 로딩 성능을 최대화하기 위해 CTAS(create table as select) 및 파티션 교환을 이용하여 로딩된다.

조인 쿼리

2진 키 및 크로스 속성 TF/IDF 계산이 RDBMS로 로딩되면, 분석적 조인 쿼리가 모든 후보 매칭 레코드를 검색하고 그들을 비교 레코드과 비교하여 그들의 관련도 또는 매칭 질(quality)에 따라 정렬하도록 이용된다. 이는 먼저 레코드를 매칭 2진 키 값과 함께 합치고, 결과 후보 레코드에 대한 n-그램 값을 합치며, 그들의 가중치의 곱의 합을 계산함으로써 달성된다.

신뢰도 스코어 할당

조인 쿼리의 결과는, 각각의 입력 및 후보 레코드에 매우 낮은 레벨의 비교를 수행하고 위에 기술된 오라클 데이터 마이닝 애플리케이션에서의 사용을 위한 통계 모델을 이용하여 신뢰도 스코어를 할당하는 RDBMS 내에 구현된 함수를 통해 전송된다.

근사 스트링 매칭과 연관된 위에 기술된 프로세스는 도 9 및 도 10에 의해 더 도시되고, 도 9 및 도 10은 각각 참조 문자 스트링 세트의 결정을 도시하는 흐름도(400) 및 후보 문자 스트링에 대한 유사성 척도를 결정하기 위한 참조 스트링 세트의 활용을 도시하는 흐름도(450)이다. 각각의 구성요소에서 최대 로딩을 갖는 샘플 스트링은 참조 스트링 세트를 형성하기 위해 유지된다. 이러한 샘플 스트링은 상관관계 목적을 위한 주성분의 표현이다. 유사성 척도는 결정된 참조 문자 스트링 세트 내의 후보 문자 스트링과 개별 문자 스트링과 비교해 볼 때 다수의 n-그램 매칭에 기초한다.

구체적으로, 도 9를 참조하면, 데이터베이스는 잠재적인 후보 매칭 데이터(402)의 공간을 포함하고, 이는 종종 본 명세서에서 문자 스트링의 데이터베이스로 지칭된다(예를 들면, 가맹점에 대한 이름 및/또는 위치 데이터). 본 명세서에 기술된 바와 같이, 매칭 필드 또는 데이터베이스 레코드의 무작위 샘플은, 예를 들면 비유사한 문자 스트링 세트에 대한 최적화 검색에 기초하여 생성된다(404). 유사성 행렬이 계산되고(406), 주성분 요인 분석이 적용되며(408), 주성분(410)이 결과로 나오며, 이들 각각은 대응하는 참조 문자 스트링을 지칭한다. 이런 참조 문자 스트링 세트는, 그 세트가 구체적으로 비유사 데이터를 포함하도록 생성되기 때문에 후보 문자 스트링에 대한 비교에 유용하다.

도 10을 참조하면, 후보 문자 스트링의 수신 시에, 각각의 주성분과 연관된 참조 스트링과 각각의 후보 문자 스트링 간의 유사도가 계산된다(452). 본 명세서에 기술된 바와 같이, 그러한 비교는 n-그램 매칭 알고리즘에 기초할 수 있고, 각각의 참조 스트링에 대한 후보 문자 스트링과 그에 대응하는 주성분 간의 유사성을 나타내는 2진 키가 생성된다(454). 빠르고 효율적인 근사 문자 스트링 매칭, 레코드(참조 문자 스트링)가 그들 각각의 2진 키 레코드의 비교에 기초하여 후보 문자 스트링에 합쳐진다(456). 그러한 프로세스는 사용자로 하여금 가맹점 이름 및/또는 위치 데이터의 표현일 수 있는 후보 문자 스트링에 대한 참조 문자 스트링들(가맹점 이름 및/또는 위치 데이터를 포함할 수 있음) 간의 높은 확률 매칭을 빠르게 검색하게 한다. 매칭될 각각의 데이터베이스 레코드에 대한 2진 키를 생성함으로써(458), 후보 문자 스트링에 대한 매칭 참조 문자 스트링의 파일이 생성될 수 있다(460).

본 발명은 다양한 구체적인 실시예의 측면에서 기술되었지만, 본 발명이 특허청구범위의 사상과 범주 내에서 수정되어 실시될 수 있다고 당업자가 인지할 것이다.

Claims

거래 데이터 내에서 가맹점의 그룹 멤버쉽을 결정하도록 금융 거래 카드 거래 데이터의 패턴을 발견하기 위한 컴퓨터 기반 방법으로서,
적어도 하나의 데이터베이스 내에서, 지불(payment)을 위하여 거래 카드들을 수용하는 가맹점들과 관련된 데이터를 포함하는 거래 데이터를 저장하는 단계;
상기 적어도 하나의 데이터베이스에 연결된 제1 컴퓨터에 의해 상기 거래 데이터를 검색하는(retrieving) 단계;
가맹점들에 대한 하나 이상의 그룹핑들(groupings) 내에서 가맹점에 대한 복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 단계 - 상기 알고리즘은 상기 제1 컴퓨터에 의해 수행됨 - ;
상기 적어도 하나의 예측 알고리즘에 의해 출력되는 각각의 예측을 기술하는 메타데이터를 생성하는 단계 - 상기 메타데이터는 상기 적어도 하나의 예측 알고리즘에 의해 생성됨 -;
상기 가맹점에 대한 상기 예측된 복수의 그룹 멤버쉽과 각각의 예측을 기술하는 상기 메타데이터를 제2 컴퓨터 상에서 실행되는 데이터 마이닝 애플리케이션으로, 상기 제1 컴퓨터에 의해 입력하는 단계; 및
상기 제2 컴퓨터에 의해, 상기 예측된 그룹 멤버쉽 및 상기 메타데이터에 적어도 부분적으로 기초하여, 상기 데이터 마이닝 애플리케이션에 의한 신뢰도 스코어(confidence score)를 각각의 예측된 그룹 멤버쉽에 할당하는 단계 - 상기 신뢰도 스코어는 상기 가맹점이 상응하는 상기 예측된 그룹 멤버쉽과 실제로 연관될 가능성을 나타냄 -
를 포함하는 컴퓨터 기반 방법.
삭제
제1항에 있어서,
복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는
상기 적어도 하나의 데이터베이스로부터 그룹 멤버쉽을 유도하는 데 있어 의미있는 데이터 필드 세트를 식별하는 단계;
주어진 위치로부터 주어진 거리 내에 존재하는 복수의 가맹점 위치에 대하여 상기 적어도 하나의 데이터베이스 내에서 가맹점 위치 데이터를 검색하는 단계 - 위치 및 거리는 상기 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들(field tokenized values)에 대한 크로스 속성(cross-attribute), 가중치 기반(weighted), 용어 빈도/역문헌 빈도(term frequency/inverse document frequency; TF/IDF) 계산에 의해 측정되는 유사성에 기초함 - ;
새로운 가맹점 위치들 및 변경된 가맹점 위치들 중 적어도 하나를 결정하기 위해, 유사성에 대해 주어진 위치로부터 주어진 거리 내에 존재하는 상기 가맹점 위치들에 대한 상기 가맹점 위치 데이터를 검색하는 단계;
상기 주어진 위치로부터 상기 주어진 거리 내에 발생하는 상기 가맹점 위치들의 분류를 통해 모드 값을 계산하는 단계; 및
가장 자주 발생하는 모드 값을 상기 그룹 멤버쉽 예측으로서 반환하는 단계
를 포함하는 컴퓨터 기반 방법.
제1항에 있어서,
복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는,
상기 데이터베이스 내의 적어도 하나의 필드를 토큰화하는 단계;
상기 데이터베이스 내의 모든 토큰화된 필드 값에 대한 역문헌 빈도를 계산하는 단계;
각각의 데이터베이스 필드 값 및 각각의 토큰화된 데이터베이스 필드 값에 대한 가중치 척도의 희소 행렬(sparse matrix)을 계산하는 단계; 및
상기 희소 행렬을 활용하는 하나 이상의 필드 유형 및 필드 값에 기초하여, 주어진 데이터베이스 필드 위치를 모든 다른 데이터베이스 필드 위치에 합침으로써 예측을 생성하는 단계를 포함하며,
상기 희소 행렬은 가맹점 카테고리 코드, 인터뱅크 카드 연합(ICA) 코드, 비지니스 영역, 가맹점 이름, 가맹점 전화 번호, 승인 가맹점 식별자, 계층 가맹점 식별자, 가맹점 법적 이름, 및 연방 세금 식별자를 포함하는, 컴퓨터 기반 방법.
삭제
제1항에 있어서,
복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는 가맹점 위치 세트에 대한 단일 가맹점 위치의 관련도를 계산하는 단계를 포함하고, 위치는 계산된 유사성에 기초하며, 상기 유사성은 상기 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하고,
상기 가맹점 위치 세트에 대한 단일 가맹점 위치의 관련도를 계산하는 단계는,
세트들로 그룹화된 복수의 가맹점 위치로부터 관련 특징들을 추출하여 각각의 세트에 대한 문서를 생성하는 단계;
상기 생성된 문서들을 사전 내에(within a dictionary) 수집하는 단계;
상기 사전을 활용하여 희소 행렬을 형성하는 단계 - 용어 빈도 및 역문헌 빈도 중 적어도 하나에 기초하고 상기 추출된 관련 특징들을 활용하여, 상기 생성된 문서들 내의 각각의 필드 값 및 토큰화된 필드 값의 상기 관련도가 계산됨 - ;
상기 희소 행렬 내의 필드 유형들 및 필드 값들에 기초하여, 가맹점 위치 레벨 가중치의 행렬을 가맹점 그룹 가중치의 행렬에 합치는 단계;
각각의 가맹점 위치 세트에 대한 각각의 가맹점 위치의 상기 관련도를 결정하기 위해 관련 엔진 내의 상기 가맹점 위치 레벨 가중치 및 상기 가맹점 그룹 가중치의 합을 활용하는 단계; 및
최고 관련도를 갖는 가맹점 위치 세트를 예측으로서 출력하는 단계
를 더 포함하는, 컴퓨터 기반 방법.
삭제
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,
복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는, 동일한 그룹에 속하는 가맹점이 비교적 일관된 방식으로 분포에서 벗어나는(diverge) 것에 대하여 관측된 경향 및 숫자 시그너처 알고리즘(numerical signature algorithm)을 활용하여, 각각의 가맹점 위치와 비교할 때 유사한 숫자 분포(numeric distribution)를 갖는 위치 그룹을 예측하는 단계를 포함하고,
위치는 계산된 유사성에 기초하며, 상기 유사성은 상기 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하는, 컴퓨터 기반 방법.
제1항에 있어서, 복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는,
상기 적어도 하나의 데이터베이스 내의 가맹점 데이터의 그룹으로부터 가맹점 데이터를 무작위로 샘플링하는 단계;
거래액의 제1 포지션에서 발생하는 숫자 1, 2, 3, 4, 5, 6, 7, 8, 및 9의 분포를 계산하는 단계;
가맹점 그룹에 의해 거래량을 요약하는 단계;
벤포드의 법칙(Benford's Law)에 의해 확인된 숫자 분포와 상기 계산된 숫자 분포 간의 각거리(angle distance)를 계산하는 단계; 및
샘플링된 가맹점에 대한 예측된 가맹점 그룹으로서 상기 계산된 각거리에 가장 가까운 각거리를 갖는 가맹점 그룹을 출력하는 단계
를 포함하는, 컴퓨터 기반 방법.
삭제
제1항에 있어서,
복수의 그룹 멤버쉽을 예측하기 위해 적어도 하나의 예측 알고리즘 및 검색된 상기 거래 데이터를 이용하는 상기 단계는 가맹점에 대한 복수의 멤버쉽 예측을 제공하기 위해 복수의 예측 알고리즘을 활용하는 단계를 포함하고,
상기 신뢰도 스코어를 각각의 예측된 그룹 멤버쉽에 할당하는 단계는,
가맹점에 대한 상기 복수의 멤버쉽 예측 각각에 신뢰도 스코어를 할당하는 단계; 및
상기 가맹점에 대한 최종 멤버쉽 예측으로서 최고 신뢰도 스코어를 갖는 멤버쉽 예측을 제공하는 단계
를 포함하는, 컴퓨터 기반 방법.
삭제
삭제
금융 거래 카드 거래 데이터를 활용하여 하나 이상의 가맹점 그룹핑들 내에서 개별 가맹점별로 상기 가맹점에 대한 멤버쉽을 결정하고자 상기 거래 데이터에서 패턴을 발견하기 위한 컴퓨터 시스템으로서,
상기 컴퓨터는
프로세싱 장치; 및 메모리를 포함하고,
상기 프로세싱 장치는 상기 메모리에 저장된 명령들을 실행하도록 동작가능하며,
상기 명령들은 상기 컴퓨터가
상기 메모리 내에 거래 데이터를 저장하고 - 상기 거래 데이터는 지불을 위하여 거래 카드들을 수용하는 가맹점들과 관련된 데이터를 포함함 -;
상기 거래 데이터로 상기 메모리에 저장된 복수의 예측 알고리즘을 실행하며 - 각각의 예측 알고리즘은 상기 거래 데이터에 기초하여 상기 하나 이상의 가맹점 그룹핑들 내에서 가맹점에 대한 멤버쉽을 예측하며, 상기 예측 알고리즘 중 적어도 하나는 상기 예측을 기술하는 메타데이터를 생성함 -;
상기 예측된 그룹 멤버쉽들과 상기 메타데이터를 데이터 마이닝 애플리케이션으로 입력하고;
상기 데이터 마이닝 애플리케이션에 의해 제공되는 결과에 기초하여 상기 가맹점에 대한 각각의 예측된 그룹 멤버쉽에 신뢰도 스코어를 할당하며 - 상기 신뢰도 스코어는 상기 가맹점이 상응하는 상기 예측된 그룹 멤버쉽과 실제로 연관될 가능성을 나타냄 -
상기 가맹점에 대한 최종 멤버쉽 예측으로서 최고 신뢰도 스코어를 갖는 그룹 멤버쉽 예측을 출력하도록 프로그래밍되는, 컴퓨터 시스템.
제19항에 있어서,
상기 알고리즘들 중 적어도 하나는 그룹 멤버쉽을 유도하는 데 있어 의미 있는 데이터베이스 필드 세트를 상기 거래 데이터 내에서 식별하도록 동작가능한, 컴퓨터 시스템.
제20항에 있어서,
상기 알고리즘들 중 적어도 하나는,
주어진 위치로부터 주어진 거리 내의 복수의 가맹점 위치에 대한 상기 거래 데이터 내에서 가맹점 위치 데이터를 검색하고;
상기 주어진 위치로부터 상기 주어진 거리 내에서 발생하는 상기 가맹점 위치들의 분류를 통해 모드 값들을 계산하고;
가장 자주 발생하는 모드 값을 상기 그룹 멤버쉽 예측으로서 반환하도록 동작가능하며,
위치 및 거리는 계산된 유사성에 기초하고, 상기 유사성은 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하는, 컴퓨터 시스템.
제19항에 있어서,
상기 거래 데이터로 복수의 예측 알고리즘을 실행하기 위해 상기 알고리즘들 중 적어도 하나는,
데이터베이스 내의 적어도 하나의 필드를 토큰화하고;
상기 데이터베이스 내의 모든 토큰화된 데이터베이스 필드 값에 대한 역문헌 빈도를 계산하고;
각각의 데이터베이스 필드 값 및 각각의 토큰화된 데이터베이스 필드 값에 대한 가중치 척도의 희소 행렬을 생성하고;
상기 희소 행렬 내의 하나 이상의 필드 유형 및 필드 값에 기초하여, 주어진 데이터베이스 필드 위치를 모든 다른 데이터베이스 필드 위치에 합침으로써 예측을 계산하도록 동작가능한, 컴퓨터 시스템.
제19항에 있어서,
상기 거래 데이터로 복수의 예측 알고리즘을 실행하기 위하여, 상기 컴퓨터 시스템은 상기 거래 데이터 내의 가맹점 위치 세트에 대한 단일 가맹점 위치의 관련도를 계산하도록 프로그래밍되고,
위치는 계산된 유사성에 기초하며, 상기 유사성은 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하는, 컴퓨터 시스템.
제23항에 있어서,
상기 거래 데이터 내의 가맹점 위치 세트에 대한 단일 가맹점 위치의 관련도를 계산하기 위해, 상기 컴퓨터 시스템은,
세트들로 그룹화된 복수의 가맹점 위치로부터 관련 특징들을 추출하여 각각의 세트에 대한 문서를 생성하고,
사전 내에 상기 생성된 문서들을 수집하고;
상기 사전을 활용하여 희소 행렬을 형성하고 - 용어 빈도 및 역문헌 빈도 중 적어도 하나에 기초하고 상기 추출된 관련 특징들을 활용하여, 상기 생성된 문서들 내의 각각의 필드 값 및 토큰화된 필드 값의 상기 관련도가 계산됨 - ;
상기 희소 행렬 내의 필드 유형들 및 필드 값들에 기초하여, 가맹점 위치 레벨 가중치의 행렬을 가맹점 그룹 가중치의 행렬에 합치도록 프로그래밍되며,
각각의 가맹점 위치 데이터 세트에 대한 값을 결정하기 위해, 상기 컴퓨터 시스템은 가맹점 그룹에 대한 각각의 위치의 관련도를 결정하도록 관련 엔진 내의 상기 가중치들의 합을 활용하도록 프로그래밍되는, 컴퓨터 시스템.
삭제
제24항에 있어서,
상기 컴퓨터 시스템은,
각각의 가맹점 위치 세트에 대한 각각의 가맹점 위치의 상기 관련도를 결정하도록 관련 엔진 내의 상기 가맹점 그룹 가중치 및 상기 가맹점 위치 레벨 가중치의 합을 활용하고;
최고 관련도를 갖는 가맹점 위치 세트를 예측으로서 출력하도록 프로그래밍되는, 컴퓨터 시스템.
제19항에 있어서,
상기 거래 데이터로 복수의 예측 알고리즘을 실행하기 위해, 상기 컴퓨터 시스템은 가맹점 위치에 의해 금융 거래 카드 거래의 데이터베이스에 매칭된 제3자 제공 데이터를 활용하도록 프로그래밍되고,
위치는 계산된 유사성에 기초하며, 상기 유사성은 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하는, 컴퓨터 시스템.
제19항에 있어서,
위치는 계산된 유사성에 기초하고, 상기 유사성은 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하며,
상기 거래 데이터로 복수의 예측 알고리즘을 실행시키기 위하여, 상기 컴퓨터 시스템은,
금융 거래 카드 브랜드의 가맹점 위치 데이터의 데이터베이스에 매칭된 제3자 위치 데이터를 사용하고 - 상기 제3자 위치 데이터는 할당된 체인 식별자를 포함함 - ;
상기 금융 거래 카드 브랜드와 연관된 상기 가맹점 위치 데이터에 상기 체인 식별자들을 링크하도록 프로그래밍되는, 컴퓨터 시스템.
제19항에 있어서,
위치는 계산된 유사성에 기초하고, 상기 유사성은 데이터베이스 내의 필드 값들 및 필드 토큰화된 값들에 기초하며,
상기 거래 데이터로 복수의 예측 알고리즘을 실행시키기 위하여, 상기 컴퓨터 시스템은,
제3자 가맹점 위치 레코드 세트를 가맹점 위치 레코드 세트로 합치기 위하여 근사 가맹점 위치 매칭 엔진(approximate merchant location matching engine)을 사용하고;
주어진 위치에 대한 상기 합쳐진 세트에 대응하는 가맹점 그룹으로서 상기 주어진 위치에 대한 예측된 그룹을 계산하도록 프로그래밍되는, 컴퓨터 시스템.
제29항에 있어서,
상기 근사 가맹점 위치 매칭 엔진에 의해 할당된 매칭 신뢰도 스코어(match confidence score)를 할당하도록 더 프로그래밍되는, 컴퓨터 시스템.
제19항에 있어서,
상기 거래 데이터로 복수의 예측 알고리즘을 실행시키기 위해, 상기 컴퓨터 시스템은,
가맹점 데이터 그룹으로부터 가맹점 데이터를 무작위로 샘플링하고;
상기 거래 데이터 내의 거래액의 제1 포지션에서 발생하는 숫자 1, 2, 3, 4, 5, 6, 7, 8 및 9의 분포를 계산하고;
가맹점 그룹에 의해 거래량을 요약하도록 프로그래밍되는, 컴퓨터 시스템.
제31항에 있어서,
벤포드의 법칙에 의해 확인되는 숫자 분포와 상기 계산된 숫자 분포 간의 각거리를 계산하고;
샘플링된 가맹점에 대한 예측된 가맹점 그룹으로서 상기 계산된 각거리와 가장 가까운 각거리를 갖는 가맹점 그룹을 출력하도록 더 프로그래밍되는, 컴퓨터 시스템.