MX2010007273A

MX2010007273A - Metodos y aparatos para implementar un sistema de prediccion de grupo de comerciantes.

Info

Publication number: MX2010007273A
Application number: MX2010007273A
Authority: MX
Inventors: Thomas Mcgeehan
Original assignee: Mastercard International Inc
Priority date: 2007-12-31
Filing date: 2008-12-04
Publication date: 2010-12-02
Also published as: BRPI0821420A2; RU2510891C2; WO2009085554A1; KR101468764B1; US8738486B2; AU2008343492B2; JP5485911B2; CA2710752A1; US20090171759A1; EP2240916A4; RU2010125682A; KR20100114058A; JP2011508353A; EP2240916A1; AU2008343492A1

Abstract

Se describe un método basado en computadora para descubrir patrones en datos de transacción de tarjeta de transacción financiera para el propósito de determinar membresía de grupo de un comerciante dentro de los datos de transacción. Los datos se relacionan con comerciantes que aceptan la tarjeta de transacción financiera para pago. El método incluye recibir los datos de transacción desde por lo menos una base de datos, predecir una membresía de un comerciante en un grupo utilizando por lo menos un algoritmo de predicción y los datos de transacción recuperados, el algoritmo genera metadatos que describen las predicciones, ingresar por lo menos una membresía de grupo pronosticada y los metadatos en una aplicación de extracción de datos, y asignar un valor de confianza a cada membresía de grupo pronosticada por la aplicación de extracción de datos, utilizando las membresías de grupos pronosticadas y los metadatos.

Description

MÉTODOS Y APARATOS PARA IMPLEMENTAR UN SISTEMA DE PREDICCIÓN DE GRUPO DE COMERCIANTES DESCRIPCIÓN DE LA INVENCIÓN Esta invención se refiere generalmente a sistemas de predicción de comerciantes, y más específicamente,, a métodos y aparatos para implementar un sistema de predicción de grupo de comerciantes con respecto a transacciones de pago llevadas a cabo en una red de tarjetas bancarias a nombre de tenedores de cuentas .

- Históricamente, el uso de tarjetas de "cobro" para pagos de transacción de cliente a lo mucho era regional y se basa en relaciones entre los bancos locales que expedían el crédito y varios comerciantes locales . La industria de tarjetas de pago ha evolucionado desde entonces con los bancos emisores formando asociaciones (por ejemplo MasterCard) e implicando compañías de procesamiento de transacción de terceros (por ejemplo, "Compradores Comerciales") para permitir que los tarj etahabientes utilicen ampliamente las tarjetas de cobro en cualquier establecimiento comercial independientemente de la relación bancaria del comerciante con el emisor de la tarjeta.

Por ejemplo, la Figura 1 de la presente solicitud muestra un sistema de la industria de las tarjetas de pago de varias partes ejemplar para permitir transacciones de pago con tarjeta. Como se ilustra, los comerciantes y el emisor no necesariamente deben tener que tener una relación de uno a uno. Incluso, existen varios escenarios en la industria de pago por tarjeta de hoy en día, en donde el emisor de la tarjeta tiene una relación especial o personalizada con un comerciante específico o un grupo de comerciantes.

Más de 25 millones de comerciantes aceptan una forma de tarjeta de pago. Algunas veces estos comerciantes se afilian con una cadena más reconocible, marca, u otra entidad legal. En un ejemplo, una franquicia de una compañía de comida rápida multinacional grande puede identificarse en el emisor de la tarjeta de transacción como "Chris's Restaurants, LLC" , y por lo tanto no existe ninguna correlación con el concesor. Ahora se proporciona consideración a las formas de mejorar implementaciones en la industria de pago con tarjeta. En particular, se dirige la atención a utilizar datos de transacción históricos para predecir transacciones de tarjetas financieras futuras y determinar si existen correlaciones que se realizan a partir de los datos .

Más específicamente, los datos de ubicación de comerciantes que se recolectan por las compañías con frecuencia se les asignan un grupo de más alto nivel basándose en la propiedad legal, marca o alguna otra definición. Con frecuencia estas relaciones no se definen explícitamente o ya se encuentran disponibles. Deducir esta relación por lo tanto ha implicado inspección manual de los datos de transacción . para descubrir un campo o conjunto de campos que puedan utilizarse para calificar ubicaciones para membresía en un grupo apropiado.

En un aspecto, un método basado en computadora para descubrir patrones en datos de transacción de tarjetas de transacción financiera para determinar membresía de grupo de un comerciante dentro de los datos de transacción se proporciona donde los datos se refieren a comerciantes que aceptan la tarjeta de transacción financiera para pago. El método incluye recibir datos de transacción de por lo menos una base de datos, predecir una membresía de un comerciante en un grupo que utiliza por lo menos un algoritmo de predicción y los datos de transacción recuperados, el algoritmo que genera metadatos que describen las predicciones, ingresar por lo menos una membresía de grupo prevista y los metadatos en una aplicación de extracción de dato, y asignar un valor de confianza a cada membresía de grupo previsto por la aplicación de extracción de datos, utilizando las membresía de grupo previsto y los metadatos.

En otro aspecto, se proporciona un sistema de computadora para descubrir patrones en datos de transacción de tarjetas de transacción financiera para determinar membresías de grupos para comerciantes individuales 'que utilizan los datos de transacción. El sistema de computadora se programa para ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, cada algoritmo de predicción predice una membresía de grupo para un comerciante basándose en los datos de transacción, asigna una puntuación de confianza a cada membresía de grupo previsto, y produce la predicción de membresía de grupo con la puntuación de confianza más alta como una predicción de membresía final para el comerciante.

La Figura 1 es un diagrama esquemático que ilustra un sistema de la industria de tarjetas de pago de varias partes ejemplar para habilitar transacciones de pago con tarjetas ordinarias.

La Figura 2 es un diagrama de bloque simplificado de una modalidad ejemplar de una arquitectura de servidor de un sistema de acuerdo con una modalidad de la presente invención .

La Figura 3 es un diagrama de bloque expandido de una modalidad ejemplar de una arquitectura de servidor de un sistema de acuerdo con una modalidad de la presente invención.

La Figura 4 es un diagrama de flujo que ilustra componentes de alto nivel para un sistema de predicción de comerciante agregado de ensamble.

La Figura 5 es un diagrama de flujo que ilustra la operación de un motor de puntuación asociado con el sistema de predicción de comerciante agregado de ensamble.

La Figura 6 es un diagrama de flujo 250 que ilustra los datos que se ingresan en un algoritmo que clasifica las ubicaciones de comerciante.

La Figura 7 es un diagrama de flujo que ilustra un algoritmo que clasifica las ubicaciones de comerciante.

Las Figuras 8A-8B son diagramas que ilustran agregados de comerciantes y conjuntos como documentos en un sistema de clasificación.

La Figura 9 es un diagrama de flujo que ilustra la determinación de un conjunto de cadenas de caracteres de referencia, o componentes principales, dentro de una base de datos .

La Figura 10 es un diagrama de flujo que ilustra la utilización de un conjunto de cadenas de referencia para determinar una métrica de similitud para una cadena de caracteres candidato.

Los sistemas y métodos de predicción de grupos de comerciantes se describen en la presente y se utilizan para descubrir patrones significativos en comercio (por ejemplo, datos de ubicación de comerciantes) que revelan una orden de alto nivel tal como marca, cadena, propiedad legal o similitud en una recolección existen de alguna forma arbitraria de ubicaciones de comerciantes. Un sistema de predicción de grupo como se utiliza en la presente, se refiere a una pluralidad de sistemas de predicción cuyas predicciones individuales se agregan juntas para formar : una sola predicción.

Típicamente, cuando tal membresía de grupo no se define explícitamente, la relación debe deducirse a través de la inspección manual de los datos de ubicación. El sistema de predicción de grupo de comerciantes descrito utiliza un procedimiento algorítmico para resolver el problema descrito para al menos una porción de un espacio que incluye los registros de ubicación.

Un efecto técnico de los sistemas y procesos descritos en la presente incluye por lo menos uno de (a) determinación de patrones con respecto a los negocios de los comerciantes, tales como datos de ubicación, (b) proporcionar una predicción agregada de múltiples predicciones que se asocian con datos de ubicación de comerciantes, y . (c) determinación de valores de confianza para cada predicción agregada que utiliza múltiples predicciones y cualesquier metadatos asociados con estas predicciones.

En una modalidad, se proporciona un programa de computadora, y el programa se representa en un medio que se puede leer por computadora y utiliza un Lenguaje de Consulta Estructurado (SQL) con una terminal de entrada de interfaz de usuario cliente para la administración y/o interfaz web para la entrada y reportes de usuario estándar. En una modalidad ejemplar, el sistema se habilita por web y se ejecuta en una intranet de entidad comercial. En aún otra modalidad, el sistema se accede completamente por individuos que tiene un acceso autorizado fuera de los cortafuegos de la entidad comercial a través de la Internet. En una modalidad ejemplar adicional, el sistema que se ejecuta en un ambiente Windows® (Windows es una marca comercial registrada de Microsoft Corporation, Redmond, Washington) . La aplicación es flexible y se diseña para ejecutar en varios ambientes diferentes sin comprometer ninguna funcionalidad principal.

Los sistemas y procesos no se limitan a las modalidades específicas descritas en la presente. Además los componentes de cada sistema y cada proceso pueden practicarse de manera independiente y separada de otros componentes y procesos descritos en la presente. Cada componente y proceso también puede utilizarse en combinación con otros paquetes y procesos de ensamblaje.

A manera de antecedente, la Figura 1 es un diagrama 20 esquemático que ilustra un sistema de la industria de tarjeta de pago de varias partes ejemplar para habilitar transacciones de pago con tarjeta ordinaria en las cuales las transacciones históricas se utilizan por lo menos en parte con un sistema de predicción de comerciante agregado y ensamble. Como se utiliza en la presente, el comerciante agregado se refiere a un grupo de alto nivel de ubicaciones de comerciantes. Más específicamente, las diversas ubicaciones de comerciantes individuales para un vendedor se agregan juntas (por ejemplo, se enlazan entre sí en una base de datos) para formar un comerciante agregado. Una ubicación de comerciante por lo tanto es un componente de un comerciante agregado. Típicamente, un comerciante agregado se utiliza cuando se refiere a una cadena de tiendas y las ubicaciones se agregan juntas, como se describe además en la presente basándose en un número de valores de campo almacenados en una base de datos de datos de transacción.

La presente invención se refiere a un sistema de tarjeta de pago, tal como un sistema de pago con tarjeta de crédito que utiliza al intercambio MasterCard®. El intercambio MasterCard® es un estándar de comunicación de propiedad promulgado por la MasterCard International Incorporated® para el intercambio de datos de transacción financiera entre instituciones financieras que son miembros de la MasterCard International Incorporated®, (MasterCard es una marca comercial registrada de MasterCard International Incorporated ubicada en Purchase, New York) .

En un sistema de tarjeta de pago típico, una institución financiera denominada el "emisor" emite una tarjeta de pago, tal como una tarjeta de crédito, a un cliente, quien utiliza la tarjeta de pago para realizar pago por una compra a un comerciante. Para aceptar el pago con la tarjeta de pago, el comerciante debe establecer normalmente una cuenta con una institución financiera que es parte del sistema de pago financiero. Esta institución financiera normalmente se denomina como el "banco del comerciante" o el "banco adquiriente" o "banco del comprador" . Cuando un cliente 22 realiza el pago por una compra con una tarjeta de pago (también conocida como tarjeta de transacción financiera) , el comerciante 24 solicita autorización del banco 26 del comerciante por la cantidad de la compra.1 La solicitud puede realizarse por teléfono, aunque normalmente se realiza a través del uso de una terminal del punto de venta, la cual lee la información de cuenta del cliente de la cinta magnética en la tarjeta de pago y se comunica de manera electrónica con las computadoras de procesamiento de transacción del banco del comerciante. Alternativamente, un banco del comerciante puede autorizar a un tercero para que realice el procesamiento de transacción a su nombre. En este caso, la terminal de punto de venta se configurará para comunicarse con el tercero. Tal tercero normalmente se denomina como "procesador de comerciante" o un "procesador adquiriente . " Al utilizar el intercambio 28, las computadoras del banco del comerciante o el procesador de comerciante se comunicará con las computadoras del banco 30 emisor para determinar si la cuenta del cliente se encuentra en buena posición y si la compra es cubierta por la línea de crédito disponible del cliente. Basándose en estas determinaciones, la solicitud de autorización se declinará o aceptará. Si se acepta la solicitud, se emite un código de autorización al comerciante .

Cuando se acepta una solicitud de autorización, la línea de crédito disponible de la cuenta 32 del cliente se disminuye. Normalmente, no se fija un cargo inmediatamente a la cuenta del cliente debido a las asociaciones de la tarjeta bancaria, tal como la MasterCard International Incorporated® , que ha promulgado reglas que no permiten a un comerciante cargar o "capturar" una transacción hasta que no se envíen los productos o los servicios se entreguen. Cuando un comerciante envía o entrega los productos o servicios, el comerciante captura la transacción por ejemplo, por los procedimientos de ingreso de datos apropiados en la terminal de punto de venta. Si un cliente cancela una transacción antes de que se capture, se genera una "anulación" . Si un cliente regresa los productos después de que se ha capturado la transacción, se genera "crédito" .

Después de que se captura la transacción, la transacción se liquida entre el comerciante, el banco del comerciante, y el emisor. La liquidación se refiere a la transferencia de datos o fondos financieros entre la cuenta del comerciante, el banco del comerciante, y el emisor relacionada con la transacción. Normalmente, las transacciones se capturan y se acumulan en un "lote," el cual se establece como grupo. Los datos que se asocian con las transacciones, como se describe además en la presente, se utilizan en la técnica para predecir actividades de compra futuras .

Las tarjetas de transacción financieras o tarjetas de pago pueden denominarse como tarjetas de crédito, tarjetas de débito, y tarjetas de prepago. Estas tarjetas todas pueden utilizarse como un método de pago para realizar una transacción. Como se describe en la presente, el término "tarjeta de transacción financiera" o "tarjeta de. pago" incluye tarjetas tales como tarjeta de créditos, tarjetas de débito, y tarjetas de prepago, aunque también incluye cualquier otro dispositivo que pueda contener información de cuenta de pago, tal como teléfonos móviles, asistentes digitales personales (PDAs) , y llaveros.

La Figura 2 es un diagrama de bloque simplificado de un sistema 100 ejemplar de acuerdo con una modalidad de la presente invención. En una modalidad, el sistema 100 es un sistema de tarjeta de pago utilizado para implementar, por ejemplo, relaciones personalizadas de emisor-comerciante mientras también procesa datos históricos asociados con las transacciones. En otra modalidad, el sistema 100 es un sistema de tarjeta de pago, el cual puede utilizarse por los tenedores de cuenta para ingresar códigos de procesamiento que se aplican a las transacciones de pago.

Más específicamente, en la modalidad ejemplar, el sistema 100 incluye un sistema 112 de servidor, y una pluralidad de sub- sistemas de cliente, también denominados como sistemas 114 de cliente, conectados al sistema 112 de servidor. En una modalidad, los sistemas 114 de cliente son computadoras que incluyen un navegador web, de tal forma que el sistema 112 de servidor se puede acceder a los sistemas 114 de cliente utilizando Internet. Los sistemas 114 de cliente se interconectan a la Internet a través muchas interfaces que incluyen una red, tal como una red de área (LAN) o una red de área extensa (WAN) , conexiones de marcación, módems de cable y líneas de ISDN de alta velocidad especiales. Los sistemas 114 de cliente podrían ser cualquier dispositivo capaz de interconectarse al Internet incluyendo un teléfono basado en web, un asistente digital personal (PDA) , u otro equipo que se pueda conectar a la web.1 Un servidor 116 de base de datos se conecta a una base de datos 120 que contiene información sobre una variedad de cuestiones como se describe en lo siguiente en mayor detalle. En una modalidad, la base de datos 120 centralizada se almacena en el sistema 112 de servidor y puede accederse por usuarios potenciales en uno de los sistemas 114 de cliente al iniciar sesión en el sistema 112 de servidor a través de uno de los sistemas 114 de cliente. En una modalidad alternativa, la base de datos 120 se almacena de manera remota del sistema 112 de servidor y puede no centralizarse.

Como se discute en lo siguiente, la base de datos 120 almacena datos de transacción generados como parte de las actividades de venta llevadas a cabo sobre la red de tarjeta bahcaria incluyendo datos con respecto a comerciantes, tenedores de cuenta o clientes, y compras. La base de datos 120 además incluye datos con respecto a programas de recompensas y ofertas especiales que incluyen códigos de procesamiento y reglas comerciales asociadas con diferentes programas de recompensas y ofertas especiales.

La Figura 3 es un diagrama de bloque expandido de una modalidad ejemplar de una arquitectura de servidor de un sistema 122 de acuerdo con una modalidad de la presente invención. Los componentes en el sistema 122, idénticos a los componentes del sistema 100 (mostrado en la Figura 2) , se identifican en la Figura 3 utilizando los mismos números de referencia como se utilizan en la Figura 2. El sistema 122 incluye el sistema 112 de servidor y los sistemas 114 de cliente. El sistema 112 de servidor además incluye el servidor 116 de base de datos, un servidor 124 de aplicación, un servidor 126 web, un servidor 128 de fax, un servidor 130 de directorio y un servidor 132 de correo. Una unidad 134 de almacenamiento en disco se acopla al servidor 116 de base de datos y el servidor 130 de directorio. Los servidores 116, 124, 126, 128, 130, y 132 se acoplan en una red 136 de área local (LAN) . Además, la estación de trabajo 138 del administrador de sistema, una estación de trabajo 140 de usuario y una estación de trabajo 142 de supervisor se acoplan a la LAN 136. Alternativamente, las estaciones de trabajo 138, 140, y 142 se acoplan a la LAN 136 utilizando un enlace de Internet o se conectan a través de una Intranet., Cada estación de trabajo, 138, 140, y 142 es [una computadora persona que tiene un explorador web. Aunque las funciones realizadas en las estaciones de trabajo típicamente se ilustran como siendo realizada en estaciones de trabajo 138, 140, y 142 respectivas, tales funciones pueden realizarse en una de muchas computadoras personales acopladas con la LAN 136. Las estaciones de trabajo 138, 140, y 142 se ilustran como siendo asociados con funciones separadas sólo para facilitar un entendimiento de los diferentes tipos! de funciones que pueden realizarse por individuos que tienen acceso a la LAN 136.

El sistema 112 de servidor se configura para acoplarse de manera comunicativa con varios individuos, incluyendo empleados 144 y terceros, por ejemplo, tenedores de cuenta, clientes, auditores, etc., 146 utilizando una conexión 148 de Internet ISP. La comunicación en la modalidad ejemplar se ilustra como siendo realizada utilizando la Internet, sin embargo, cualquier otro tipo de comunicación de red de área extensa (WAN) puede utilizarse en otras modalidades, es decir, los sistemas y procesos no se limitan a llevarse a cabo utilizando la Internet. Adémás, y en lugar de la WAN 150, la red 136 de área local puede utilizarse en lugar de la WAN 150.

En la modalidad ejemplar, cualquier individuo autorizado que tenga una estación de trabajo 154 puede acceder al sistema 122. Por lo menos uno de los sistemas de cliente incluye una estación de trabajo 156 de gerente localizada en una ubicación remota. Las estaciones de trabajo 154 y 156 son computadoras personales que tiene un navegador web. También, las estaciones de trabajo 154 y 156 se configuran para comunicarse con el sistema 112 de servidor. Además, el servidor 128 de fax se comunica con sistemas de cliente remotamente ubicados, incluyendo sistema 156 de cliente utilizando in enlace telefónico. El servidor 128 de fax se configura para comunicarse con otros sistemas 138, 140, y 142 de cliente también.

La Figura 4 es un diagrama de flujo 200 que ilustra componentes funcionales de alto nivel para una modalidad de un sistema de predicción de comerciante ensamblado o agregado donde cada componente proporciona una predicción con respecto a operaciones de una red de tarjeta de transacción financiera. Las predicciones entonces se agregan en una sola predicción como se describe en lo siguiente. Esta adición de predicciones algunas veces se denomina como predicción ensamblada. Un ejemplo relevante en las modalidades descritas en la presente incluye predicciones agregadas que se refieren a datos de ubicación de comerciantes recibidos. Aunque se introduce con respecto a la Figura 4, todos los algoritmos de predicción se describen más complemente en la presente.

Un primer componente es un algoritmo 202 de predicción de ubicación similar (algunas veces mencionado como algoritmo de predicción de ubicación k-similar) el cual se configura para recuperar las "k" ubicaciones de comerciante que son más similares en una ubicación de comerciante dada. El algoritmo 202 de predicción además se puede operar para clasificar un grupo de ubicaciones de comerciantes similares como un grupo de modo de entre las "k" ubicaciones más similares.

Un algoritmo 204 de Predicción de Ubicaciones Agregadas como Documentos se utiliza para calcular una relevancia por cada campo y valor de campo con respecto a cada agregado de ubicaciones (un grupo de alto nivel de datos) en el espacio de valores conocidos. Los resultados se almacenan como documento. Los valores más relevantes a partir de estos documentos se utilizan para generar la predicción.

Un algoritmo 206 de Predicción de Datos de Terceros, que incluye un sistema de correlación de ubicación, se utiliza donde la predicción se asocia con una marca particular de tercero. Por lo menos una entrada en el algoritmo 206 incluye registros de transacción, recibidos de un tercero, los cuales se utilizan para generar 1 la predicción. En una modalidad, la predicción se genera después de que se realiza la correlación de ubicación en la fuente de datos de terceros. Un algoritmo 208 de Predicción de Firma Numérica, una modalidad de la cual se basa ampliamente en la Ley de Benford, y además se basa en la tendencia observada de comerciantes que pertenecen al mismo grupo para apartarse de la distribución identificada por Benford en una forma relativamente consistente se incluye en el diagrama de flujo 200. La predicción que resulta del algoritmo 208 se vuelve el grupo de ubicaciones que tiene la distribución numérica más similar en comparación con cada ubicación de comerciante.

Un modelo estadístico de nivel superior y el motor 210 de puntuación, implementado en Oracle en una modalidad, utiliza las predicciones a partir de algoritmos 202, 204, 206, y 208 para determinar los miembros de grupos entre los datos que recién se reciben y/o se almacenan dentro de una base de datos. Un ejemplo de los datos es los datos de ubicación de comerciante. Por lo menos en una modalidad y como se describe además en la presente, los datos de ubicaciones de comerciantes dentro de la base de datos se describen en términos de ubicación y distancia, por ejemplo, un número de ubicaciones de comerciante que se encuentra dentro de una distancia determinada a partir de una ubicación determinada. Por lo menos en un aspecto, la ubicación y distancia no necesariamente son geográficas, de hecho se basan en una similitud como calculada utilizando datos de comerciantes almacenados dentro de la base de datos. En ciertas modalidades, ubicación y la distancia se basan en una similitud como medida por un cálculo de frecuencia de documento inversa/frecuencia de términos (TF/IDF) , ponderada, de atributo simultáneo para valores de campo y valores simbolizados de campo dentro de la base de datos.

La Figura 5 es un diagrama de flujo 220 que ilustra la operación del motor 210 de puntuación. Específicamente el motor 210 de puntuación utiliza 222 predicciones de ubicación de comerciantes de los algoritmos 202, 204, 206, y 208, junto con meta-datos con respecto a las predicciones en una aplicación 224 de Extracción de Datos Oracle (ODM) , para describir circunstancias que rodean a cada predicción individual, después producen 226 una predicción final, a partir de las predicciones agregadas individuales . Esta predicción final puede ser con respecto a una ubicación de comerciante . La aplicación también produce una puntuación de confianza asociada con las predicciones agregadas con respecto a una pluralidad de algoritmos 202, 204, 206, y 208.

Cada uno de los cuatro algoritmos 202, 204, 206, y 208 ahora se describen en detalle adicional.

Ubicaciones K-Similares (algoritmo 202) La Figura 6 es un diagrama de flujo 250 que ilustra los datos que se ingresan en un algoritmo 202 que clasifica las ubicaciones de comerciante basándose en una similitud, por ejemplo, una similitud de ubicación. Un conjunto de campos de nivel de ubicación o coordenadas 252 de ubicación que se conocen, son útiles en el contexto para derivar la membresía de cadena o colección (por ejemplo, grupo) se identifica a partir de una base de datos de instituciones 254 que aceptan la tarjeta de transacción financiera. Adicionalmente , los datos · de una base de datos 256 de ubicación nueva/cambiada diaria junto con sus coordenadas 258 de ubicación nueva/cambiada asociadas se proporcionan al algoritmo de clasificación de ubicación de comerciante antes descrito.

La Figura 7 es un diagrama de flujo 280 que describe uno de los algoritmos (algoritmo 202 mostrado en la Figura 4) que se utiliza para clasificar ubicaciones1 de comerciantes en membresías de grupos. El algoritmo 202 utiliza por lo menos los datos descritos con respecto al diagrama de flujo 250 de la Figura 6. Específicamente, los datos de ubicación de comerciante dentro de una base de datos de consulta 282 para un número (k) de ubicaciones que se encuentra dentro de una distancia determinada desde una ubicación determinada. Adicionalmente , ubicaciones dentro de la distancia determinada se consultan para obtener similitud para determinar 284 cualesquier ubicaciones nuevas y/o cambiadas. Un valor de modo se determina 286 al clasificar las ubicaciones de comerciantes que se presentan entre las ubicaciones (k) dentro de un espacio de característica particular (un área de la cual los datos de transacción se ingresan en el algoritmo 202) . El valor que se presenta con más frecuencia que resulta de la clasificación de los (k) registros de ubicación tiene la mayor ponderación y se denomina como valor de modo, determinado como se describe en lo siguiente. Este valor de modo se regresa 288 como la predicción del algoritmo 202.

Como se describe adicionalmente en lo siguiente, los campos (coordenadas de ubicación 252 y 258) se simbolizan y la frecuencia de documento inversa se calcula para todos los valores de campo simbolizados que abarcan el espacio característico. En una modalidad, para cada ubicación, 'una matriz esparcida de métricas de ponderación se calcula para cada valor de campo y cada valor de campo simbolizado como la frecuencia de término/frecuencia de documento inversa. El valor de predicción se calcula al unir un campo de ubicación determinado a cada tercer campo de ubicación basándose en uno o más del' tipo de campo o valor de campo.

La matriz esparcida incluye ubicaciones, tipo de campo y ponderaciones para los valores de término, y los símbolos de término y se genera como se describe en los párrafos siguientes.

La matriz se crea para que contenga la frecuencia de documento inversa de todos los valores de campo y los valores de campo simbolizados y en una modalidad, abarca nueve dimensiones. En una modalidad específica, estas nueve dimensiones incluyen un código de categoría de comerciante, un código de asociación de tarjeta interbancaria (ICA) , una región comercial, un nombre de comerciante, un número telefónico de comerciante, un identificador de comerciante adquiriente, un identificador de comerciante de grupo, un nombre legal de comerciante y un identificador de impuesto federal. Estas dimensiones se incluyen en todos los registros de ubicaciones de comerciantes. La frecuencia de documento inversa es el logaritmo (en una implementación específica en la base 2) del cociente del número de registros dividido por el número de registros que contienen un valor particular, Un ejemplo se muestra en la Tabla 1. En una modalidad, éste cociente se calcula por separado para cada una de las nueve dimensiones. El número de registros se calcula como el número de ubicaciones de comerciantes. El número de registros que contiene un término particular se calcula al contar el número de ubicaciones de comerciantes que contiene cada término dentro de cada tipo de campo.

Tabla 1 Para cada ubicación, una ponderación de frecuencia de término normalizada de atributo simultáneo-frecuencia de documento inversa doble se calcula para valores y valores simbolizados que abarca las nueve dimensiones como se ilustra en la Tabla 2, donde las nueve dimensiones incluyen nuevamente un código de categoría de comerciante, código de ICA, región comercial, nombre de comerciante, número telefónico de comerciante, identificador de comerciante adquiriente, identificador de comerciante de grupo, nombre legal del comerciante e identificador de impuesto federal.

Tabla 2 Una predicción y membresía de grupo y confianza para una ubicación determinada se calcula al unir la ubicación para predecir todas las otras ubicaciones en el tipo de campo y el valor de campo, después sumar el producto de las ponderaciones de frecuencia de término doble/frecuencia de documento inversa para los tipos de campo comunes y los valores de campo. Los resultados de la ubicación entonces se clasifican en orden descendente de la puntuación resultante y el grupo de modo que se presenta entre por ejemplo, las trece ubicaciones dentro de la puntuación más alta se proporciona como la predicción. Una puntuación de confianza de esta predicción se representa por el número de ubicaciones entre las primeras trece ubicaciones que contenían el mismo grupo (valor previsto) las ponderaciones individuales para las k ubicaciones que pertenecen al grupo previsto y la variación entre las ponderaciones .

Predicciones de Ubicaciones Agregadas como Documentos (algoritmo 204) Las Figuras 8A-8B son diagramas 300 que ilustran ubicaciones agregadas en conjuntos dentro de documentos como un sistema de clasificación. El algoritmo 204 (mostrado en la Figura 4) que genera los documentos de ubicaciones agregadas es análogo a los algoritmos de relevancia del documento comúnmente empleados por motores de búsqueda de internet.

Específicamente, una relevancia de una ubicación de comerciante determinada para cada agregado o colección de ubicaciones de comerciante se calcula como se describe en lo siguiente.

Para generar un documento 302, características relevantes, por ejemplo una dirección de calle se extrae de los datos de la base de datos con respecto a una pluralidad de ubicaciones 304 y se agrupan en conjuntos, por ejemplo, el conjunto 306. Para propósitos ilustrativos, el diagrama 300 incluye 4 conjuntos de ubicación 306, 308, 310 y 312. El conjunto 312 se etiqueta como Conjunto M, que indica que en una implementación específica, el número de conjuntos puede ser mayor o menor que los cuatro ilustrados. De igual forma, el número de ubicaciones dentro de un conjunto puede variar de uno a "N" .

Los documentos generados 302, 320, 322, y 324, de los cuales cada uno incluye características extraídas relevantes se recolectan en un diccionario 330. Al utilizar el diccionario 330, una matriz 340 esparcida se forma mediante la cual la relevancia de cada valor de campo y valor de campo simbolizado se calcula, utilizando las características extraídas para cada grupo de comerciante agregado basándose en por lo menos una de una frecuencia de término y una frecuencia de documento inversa.

Dentro de la matriz 340 esparcida, una matriz de ponderaciones de nivel de ubicación se une a una matriz de ponderaciones de grupo de comerciantes basándose en un tipo de campo y el valor de campo. La suma de estas ponderaciones se utiliza, en una modalidad, por un motor 350 de relevancia, para determinar la relevancia de cada ubicación para cada grupo de comerciantes. El grupo de comerciantes con la relevancia más alta se regresa como el valor previsto descrito en lo anterior. Más específicamente, la matriz esparcida de grupos, tipos de campo y ponderaciones para las reglas de términos y los símbolos de término se genera como se describe en los siguientes párrafos.

En primer lugar, una matriz se cree que contiene la frecuencia del documento inversa de todos los valores de campo y los valores de campo simbolizados que abarcan las nueve dimensiones enlistadas en cualquier lugar en la presente, específicamente, el código de categoría de comerciante, código de ICA, región comercial, nombre de comerciante, número telefónico de comerciante, identificador de comerciante adquiriente, identificador de comerciante de grupo, nombre legal del comerciante, identificador de impuesto federal, a través de todos los registros de ubicaciones de comerciante.

Con respecto al algoritmo de predicción de ubicaciones agregadas como documentos, y como se muestra en la Tabla 3, la frecuencia del documento inversa es el logaritmo (base 2 en una modalidad particular) del cociente: número de registro dividido por el número de registros que contiene un valor particular. En una modalidad, la frecuencia del documento inversa se calcula por separado para cada una de las nueve dimensiones. El número de registros se calcula como el número de ubicaciones de comerciantes . El número de registros que contiene un término particular se calcula, al contar el número de ubicaciones de comerciantes que contiene cada término dentro de cada tipo de campo.

Tabla 3 Para cada grupo, la frecuencia de término normalizada de atributo simultáneo- frecuencia de documénto inversa doble se calcula para valores y valores simbolizados que abarcan las nueve dimensiones del código de categoría de comerciante, código de ICA, región comercial, nombre de comerciante, número telefónico de comerciante, identificador de comerciante a cliente, identificador de comerciante de grupo, nombre legal de comerciante e identificador de impuesto federal, como se muestra en la Tabla 4 y todas las ubicaciones que pertenecen a cada grupo.

Grupo Tipo de Campo Valor del Campo Frecuencia de término- Frecuencia de Documento Inversa Doble 14420 comerciante 000000077480312 0.0104721165 adquiriente 14420 comerciante 000000077519532 0.0052360583 adquiriente 14420 Identificador de 362023393 0.6529357998 impuesto 14420 Región Comercial 05 0.0627648557 14420 Símbolo de Nombre de TEN 0.001 1391784 Comerciante Tabla 4 Una predicción de membresía de grupo se calcula para una ubicación predeterminada al unir las filas de la (k) matriz de ubicaciones similares, la cual se describe en lo anterior, a la matriz de grupo en el tipo de campo y el valor de campo, después sumar el producto de las ponderaciones de frecuencia de término- frecuencia de documento inversa doble para los tipos de campo comunes y los valores de campo. El grupo previsto y la puntuación de confianza es el grupo con la puntuación más alta de similitud (determinada por la suma de las ponderaciones x ponderaciones para correlacionar valores de campo y valores simbolizados) . La confianza para esta predicción es la puntuación resultante.

Predicción de Datos de Terceros y Correlación de Ubicación (algoritmo 206) Un tercer componente de una predicción ensamblada es un algoritmo 206 (mostrado en Figura 4) que utiliza datos proporcionados por terceros que se han correlacionado con una base de datos de transacciones financieras por la ubicación del comerciante. En una modalidad, a estos registros de terceros se les asigna un identificador de cadena, que se relaciona, por ejemplo, con un vendedor. Estos identificadores de cadena se enlazan a grupos de ubicaciones de comerciantes asociados con la marca de la tarjeta de transacción financiera (por ejemplo, el emisor de la tarjeta) . La predicción, por lo tanto, simplemente es el grupo de datos de comerciantes que corresponden con la cadena a la cual se ha enlazado un registro de terceros . Este enlace permite la correlación de ubicación como se describe en el siguiente párrafo.

Un conjunto de datos de ubicaciones de comerciantes se extrae de un proveedor de datos de terceros donde las ubicaciones se les han asignado una cadena (por un vendedor) , cada cadena dentro del espacio de las ubicaciones de comerciantes de terceros se les asigna al grupo correspondiente adecuado. Un motor de. correlación de ubicación de comerciante aproximado se utiliza para unir el conjunto de registros de ubicación de comerciantes de terceros al conjunto de registros de ubicaciones de comerciantes mantenidos por el emisor de la tarjeta. El grupo previsto para una ubicación predeterminada entonces se calcula como el grupo que corresponde con la cadena que corresponde con el registro de ubicación de terceros al cual se correlacionó con el registro de ubicación de comerciante del emisor de la tarjeta. La puntación de confianza es la puntuación de confianza de correlación asignada por el motor de correlación de ubicación de comerciante aproximada.

Predicción de Firma Numérica (algoritmo 208) En una modalidad, un algoritmo 208 de firma numérica de comerciante (mostrado en la Figura 4) emplea una observación con respecto a la distribución de números en la primera posición de una cantidad de transacción y un valor de transacción por día. Para ser específico, la distribución tiende a ser de alguna forma única cuando se agregan varios datos de comerciantes. Además, la distribución tiende a ser consistente con la distribución propuesta por la Ley de Benford en datos naturales. En un ejemplo del mundo real, una cadena de restaurantes de comida rápida puede ilustrar una tendencia a tener una apariencia numérica particular de manera repetida como el primer número de una cantidad de transacción. Tal tendencia puede utilizarse, por lo menos parcialmente, para identificar, por ejemplo, que una ubicación de franquicia de una cadena de restaurantes de comida rápida es una ubicación particular o dirección.

Un ejemplo de una predicción que utiliza cada algoritmo es una muestra aleatoria del 10% de ubicaciones de comerciantes de cada comerciante agregado (grupo de datos de comerciante) . Una distribución de los números 1-9 que se presenta en la primera posición de la cantidad de transacción y el volumen de transacción se calcula y se suma por el comerciante agregado. La distancia angular entre la distribución y la distribución identificada por la Ley de Benford se calcula.

. Una distribución del número 1-9 que se presenta en la primera posición de la cantidad de transacción y el volumen de transacción entonces se calcula para una ubicación de comerciante predeterminada. La distancia angular entre la distribución y la distribución identificada por la Ley de Benford se calcula. El comerciante agregado con la distancia angular más cercana a la distancia angular de la ubicación del comerciante se proporciona como el comerciante agregado para la ubicación determinada.

Más específicamente, y para cada grupo, la distribución de la frecuencia de ocurrencia de cada número (es decir, 1, 2, 3, 4, 5, 6, 7, 8, 9) que abarcan todas las ubicaciones dentro del grupo entre la cuenta de transacción, la cantidad de transacción, y cantidad de transacción promedio se calcula y se representa como porcentaje de un todo. Tales distribuciones entonces se almacenan en una tabla, una representación de la cual se muestra en la Tabla 5.

Grupo Número Distribución 14420 1 16% 14420 2 14% 14420 3 20% 14420 4 12% 14420 5 5% 14420 6 19% 14420 7 2% 14420 8 8% 14420 9 4% 58625 1 8% 58625 2 14% 58625 3 12% 58625 4 3% 58625 5 5% 58625 6 3% 58625 7 30% 58625 8 18% 58625 9 7% Tabla 5 Una vez que las distribuciones para cada grupo se calculan, la firma numérica para cada grupo se determina al calcular el producto escalar del vector de distribución de grupo y el vector de distribución propuesto por la Ley de Benford. Este producto escalar (ángulo de divergencia) dividido por la suma del cuadrado del vector de distribuciones para cada grupo. La distribución identificada en la Ley de Benford se calcula y almacena en una tabla, una representación de la cual se ilustra por la Tabla 6.

Tabla 6 Para cada ubicación, la distribución frecuencia de ocurrencia de cada número (1, 2, 3, 4, 5, 6, 7, 8, 9) que abarca el conteo de transacción, la cantidad de transacción, y cantidad de transacción promedio observada durante un intervalo de un mes para la ubicación determinada se calcula y representa como un porcentaje de un todo. Estas distribuciones entonces se almacenan en una tabla, una representación de la cual se ilustra por la Tabla 7.

Tabla 7 Una vez que las distribuciones para cada ubicación se calculan, la firma numérica para cada ubicación se determina al calcular el producto escalar del vector de distribución de la ubicación y el vector de distribución propuesto por la Ley de Benford. Este producto escalar (ángulo de divergencia) dividido por la suma del cuadrado del vector de distribuciones para cada ubicación, y la distribución identificada en la Ley de Benford, se calcula y almacena en una tabla, una representación de la cual se ilustra por la Tabla 8.

Ubicación Firma Numérica 100 70.9 200 75.4 Tabla 8 La membresía del grupo prevista para una ubicación determinada entonces se calcula al encontrar el grupo con la firma numérica más cercana a la firma numérica de la ubicación determinada, con la puntuación de confianza calculada como la distancia entre las dos firmas.

Modelo Estadístico y Puntuación Como se describió en lo anterior con respecto a la Figura 5, cada valor previsto de los cuatro algoritmos predictivos (202, 204, 206, y 208), junto con un conjunto abundante de meta-datos que describe las circunstancias de cada predicción, se recolecta 222 e ingresa en una aplicación 224 de Extracción de Datos Oracle (ODM) . La aplicación 224 de ODM utiliza, en una modalidad, un modelo estadístico (árbol de decisión) construido utilizando datos de capacitación etiquetados para asignar una puntuación de confianza a cada valor previsto. El valor previsto con la puntuación de confianza más alta entonces se proporciona como el valor de agregado previsto final para cada ubicación de comerciante.

Correlación de Cadena Aproximada Como se describe en lo anterior, un componente de de una predicción ensamblada es un algoritmo que utiliza datos de ubicación, que se ha correlacionado, por ejemplo, con una base de datos de ubicaciones de comerciantes afiliados de tarjetas de transacción financiera. Algunos de los datos pueden proporcionarse por fuentes de terceros . Las modalidades descritas en lo siguiente se refieren a métodos y sistemas para recuperar correlaciones de cadena aproximada (por ejemplo, cadenas de caracteres) para datos dentro de una base de datos. En las modalidades, la correlación de cadena se utiliza para determinar si, por ejemplo, una cadena que representa una ubicación, se representa en la base de datos por otra cadena. Tal algoritmo es apropiado, en varias modalidades, debido a las variaciones que se presentan en los registros de transacción, especialmente ya que esos registros se refieren al nombre y ubicación de comerciante.

Un sistema de base de datos de correlación de cadena aproximada que se puede operar para unir los conjuntos de registros a otro conjunto de registros cuando no existe ninguna clave de unión común, tal como correlación exacta, o valores de campo comunes que se presenten en los datos.1 De manera presumible existe cierta similitud en los conjuntos de registros .

Típicamente, cuando dos conjuntos de datos se unen en una base de datos, comparten valores exactos en uno o más campos . Cuando los valores de campos exactos no se comparten por dos fuentes de datos (conjuntos de registros) debido a variaciones dentro de los datos, el procedimiento tradicional para unir los conjuntos de datos a partir de las fuentes de datos respectivas, es implementar una función que toma dos valores, después calcula y regresa su similitud. Para utilizar este tipo de función como la base para unir conjuntos de datos requiere un número de iteraciones iguales al producto del número de registros en cada conjunto de datos que va a unirse.

Como ejemplo, si existen 10,000 registros en el conjunto de datos A y 500,000 registros en el conjunto de datos B, la función de cálculo de similitud puede pedirse cinco billones de veces para unir el conjunto de datos A al conjunto de datos B. Además, cualesquier índices o índices basados en funciones pueden no utilizarse por el optimizador de base de datos cuando tal función se invoca. Este tipo de conjunto de datos es altamente ineficiente y se encuentra demasiado alejado del procesamiento intensivo que se utiliza para unir conjuntos de datos que tienen volúmenes de datos no triviales .

Una técnica de correlación de cadena se ha desarrollado, la cual en varias modalidades, se implementa utilizando uno o más de los siguientes componentes. Específicamente, un conjunto de cadenas de referencia, se utiliza en un criterio de unión que se produce utilizando un análisis de factor de componentes principal (PCFA) . El PCFA busca identificar un conjunto de cadenas muy disimilares presentes en el espacio de valores conocidos, el cual se utilizará como cadenas de referencia.

Otro componente es una cálculo de similitud de frecuencia n-gram implementado en Lenguaje de Consulta Estructurado (SQL) ASCII puro para maximizar el rendimiento en un sistema de manejo de base de datos relacional (RDBMS) . Adicionalmente , Se implementa un proceso en el RDBMS para utilizar el cálculo de similitud de frecuencia n-gram para formar una clave binaria, como se describe en lo siguiente, que indica la similitud de un registro determinado para cada una de las cadenas de referencia identificada en el PCFA.

En una modalidad, un conjunto de funciones de estandarización impulsadas por datos se implementa dentro; del RDBMS, ya que es una tabla que contiene la frecuencia de documénto inversa (IDF) de todos los n-grams, y luna implementación de SQL de un cálculo de frecuencia de documento inversa/frecuencia de término TF/IDF ponderada de atributo simultáneo.

Una modalidad de la técnica de correlación de cadena incluye una consulta SQL analítica con parámetro que unen los registros que comparten el mismo valor de clave binaria, después los clasifica por relevancia al sumar los productos de las ponderaciones de TF/IDF de todos los n-grams correlacionados. El i-avo bit en la clave binaria se establece en un 1 lógico si ese registro concuerda con la i-ava cadena de referencia sobre un cierto umbral.

Se implementa un proceso dentro del RDBMS para asignar una puntuación de confianza a cada correlación que resulta de la unión, mientras un modelo de datos de RDBMS para almacenar los datos implicados en la unión de los conjuntos de datos también se incluye.

Una versión simple del problema de unión de conjunto de datos es correlacionar un nombre (o dirección) con un conjunto más grande de nombres (o direcciones) contenidos dentro de una base de datos tal como una tabla de Oracle. Un ejemplo de esta correlación de n-gram se ilustra por la Tabla 9.

Tabla 9 El elemento necesario para la solución de unión de conjunto de datos es una métrica para medir cualquier similitud entre cadenas. Un .n-gram simplemente es una cadena única de caracteres n y una correlación de n-gram esi un proceso para determinar la correlación entre n-grams. Para el caso en donde n es igual a dos la dirección candidato en la Tabla 1 consiste de los siguientes 2-grams : "10", "00", "01", "14", "4<space>", "<space>S", "S<space>" , "<space>C", "Cl" , "la" , ... , "Rd" .

La Tabla 10 resume el algoritmo de correlación de n-gram el cual incluye determinar el vector de frecuencia de n-gram para la cadena candidato (por ejemplo, Candidate_array) , determinar el vector de frecuencia de n-gram para cada entrada en la base de datos de correlación candidato (por ejemplo, Candidate_Match_Array) , medir un grado de similitud entre la Candidate_Array y la Candidate_Match_Array, y retener estas correlaciones candidato que excedan un umbral específico. Por ejemplo, "JoJo's Diner" se vuelve Tabla 10 Las tablas 11, 12, y 13 son ejemplos de una Mét de Correlación n-gram. "Producto interior" es un producto escalar de la disposición, las "Magnitudes" son la raíz cuadrada de la suma de los cuadrados, el "Coseno (del ángulo) " es el producto escalar dividido por el producto de las Magnitudes, y el ángulo es el Coseno inverso del producto escalar dividido por el producto de las Magnitudes.

Cadena 1 Disposición 1 Disposición 2 Cadena 2 Disposición de Cadena 510 West Third <-Freq Freq-> 512 West Third 1 "51" 1 1 "51 " 2 " 10" 1 0 " 10" 3 "0<space>" 1 0 "0<space>" 4 "12" 0 1 "12" 5 "2<space>" 0 1 "2<space>" 6 "<space>W" 1 1 "<space>W" 7 "We" 1 1 "We" 8 "es" 1 1 "es" 9 "st" 1 1 "st" 10 "t<space>" 1 1 "t<space>" 1 1 "<space>T" 1 1 "<space>T" 12 "Th" 1 1 "Th" 13 "ni" 1 1 "hi" 14 "ir" 1 1 "ir" 15 "rd" 1 1 "rd" Producto Interior 1 1 Magnitud 1 3.605551 Magnitud 2 3.605551 Coseno(Ángulo) 0.846154 Ángulo (gradosO 32.20423 Tabla 11 Cadena 1 Disposición 1 Disposición 2 Cadena 2 Disposición de Cadena 512 West Third <-Freq Freq-> 510 North Third 1 "51" 1 1 "5 1" 2 " 10" 0 1 " 10" 3 "0<space>" 0 1 "0<space " 4 " 12" 1 0 "12" 5 "2<space>" 1 0 "2<space>" 6 "<space>W" 1 0 "<space>W" 7 "We" 1 0 "We" 8 "es" 1 0 "es" 9 "st" 1 0 "st" 10 "t<space>" 1 0 "t<space>" 1 1 "<space>T" 1 1 "<space>T" 12 "Th" 1 1 "Th" 13 "ni" 1 - 1 "hi" 14 "ir" 1 1 "ir" 15 "rd" 1 1 "rd" 16 "<space>N" 0 1 "<space>N" 17 "No" 0 1 "No" 18 "or" 0 1 "or" 19 "rt" 0 1 "rt" 20 "th" 0 1 "th" 21 "h<space>" 0 "h<space>" Producto Interior 6 Magnitud 1 3.605551275 Magnitud 2 3.741657 Coseno(Ángulo) 0.44474959 Ángulo (gradosO 63.59268128 Tabla 12 Cadena 1 Disposición 1 Disposición 2 Cadena 2 Disposición de Cadena 510 North Third <-Freq Freq-> 510 N Third 1 "51" 1 1 "51" 2 "10" 1 1 "10" 3 "0" 1 1 "0" 4 "N" 1 1 "N" 5 "No" 1 0 "No" 6 "or" 1 0 "or" 7 "rt" 1 0 "rt" 8 "th" 1 0 "th" 9 "h" 1 0 "h" 10 1 1 1 "Th" 1 1 "Th" 12 "hi" 1 1 "hi" 13 "ir" 1 1 "ir" 14 "rd" 1 1 "rd" 15 16 17 18 19 20 21 Producto Interior 9 Magnitud 1 3.741657 Magnitud 2 Coseno(Ángulo) 0.801784 Ángulo (gradosO 36.69923 Tabla 13 Cadenas de Referencia Las tablas anteriores y la descripción ilustran' una capacidad de representar cadenas de manera cuantitativa y medir la similitud entre las mismas. En este punto, un índice para cada registro en la base de datos puede construirse basándose en su posición relativa en un conjunto pequeño de cadenas de referencia.

Al seleccionar las cadenas de referencia, una posición relativa de un nuevo registro para cada una de las cadenas de referencia puede calcularse. Adicionalmente , cada registro en la base de datos tiene su propia posición precalculada con respecto a las cadenas de referencia. Por lo tanto, correlaciones aproximadas pueden encontrarse al recuperar esos registros indexados en la misma proximidad sin tener que calcular toda la métrica de similitud entre el nuevo registro y toda la base de datos . Una meta de la selección de cadena de referencia es seleccionar los registros que sean disimilares, de este modo proporcionando una mejor perspectiva. Un procedimiento para la selección de cadena de referencia se representa en los siguientes párrafos . , Las cadenas de referencia se identifican al tomar una muestra de cadenas de la base de datos que se indexá.'Las representaciones n-gram para cada cadena en la muestra se generaran al crear un vector de frecuencias donde el i-avo componente del vector contiene el número de veces que n-gram se presentó en esa cadena. Una matriz de similitudes^ se genera midiendo la similitud entre cada par de cadenas ejemplares utilizando la métrica de similitud de coseno.

Una técnica para encontrar componentes disimilares en una colección de datos de similitud es el análisis de componentes principales. Un análisis de componentes principales se lleva a cabo en la matriz de similitud y los primeros k componentes principales se retienen. La cadena ejemplar con la carga máxima en cada componente se retiene, formando el conjunto de cadenas de referencia. índice Binario y Recuperación de Información Para agrupar las cadenas similares de modo que un índice pueda crearse para proporcionar una recuperación rápida candidato durante la correlación de cadena aproximada, cada registro candidato potencial y cada registro de comparación se compara con cada una de las cadenas de referencia utilizando el cálculo SQL de similitud , de frecuencia n-gram.

Si el cálculo de similitud produce una puntuación mayor que un umbral predefinido, la posición de clave binaria que corresponde con la cadena de referencia se le asigna un valor de 1. Si la puntuación se encuentra por debajo del umbral, la posición correspondiente de la clave se le asigna un 0. ' Cálculo de Similitud NGRAM Una consulta SQL se ha desarrollado, que forma un vector bidimensional que contiene las frecuencias de ocurrencia de todas las N-GRAMS únicas presentes dentro de dos cadenas determinadas. La consulta entonces divide la suma de cada producto de frecuencia por el cuadrado de la magnitud de cada dimensión del vector de frecuencia para llegar a una métrica de similitud normalizada.

Tal cálculo se representa por el siguiente ejemplo en el cual la cadena de comparación A es "MASTERCARD" , y la cadena de comparación B es "MASTERCHARGE" . La siguiente tabla, Tabla 14, es un vector bidimensional que contiene las frecuencias de ocurrencia de cada n-gram única presente dentro de las dos cadenas de comparación: Tabla 14 La magnitud de la cadena A se calcula como la raíz cuadrada de la suma de los cuadrados para cada valor de frecuencia en la dimensión A, específicamente, la magnitud de la cadena A es 3.0. La magnitud de la cadena B se calcula como la raíz cuadrada de la suma de los cuadrados de cada valor de frecuencia en la dimensión B, específicamente, la magnitud B es 3.3166247903554. El producto escalar del vector se calcula, y para este ejemplo el producto escalar es 7.0 (el número de entradas de tabla donde tanto A como B tienen un valor de 1) . La similitud se calcula como, el producto escalar/ (magnitud A x Magnitud B) , o 0.703526470681448 para el ejemplo ilustrativo.

Formando Valores de Clave Binaria Si el cálculo de similitud produce una puntuación mayor que un umbral predefinido, la posición de la clave binaria que corresponde con la cadena de referencia se le asigna un valor de 1. Si la puntuación se encuentra por debajo del umbral, la posición correspondiente de la clave se le asigna un 0. En una modalidad, un proceso para determinar la posición de clave binaria se implementa utilizando una combinación de SQL y PL/SQL. La implementación del algoritmo minimiza el número de cálculos requeridos de comparación de cadena al utilizar el lenguaje de consulta estructurado analítico para asignar de manera automática una cadena determinada a un valor de clave binaria si un valor de clave binaria se ha calculado para ese valor exacto en una iteración previa dentro del algoritmo. Esta optimización se logra en SQL.

Un identificador único y cada valor de clave binaria se almacena en una tabla organizada de índice (IOT) dividido en el RDBMS. Cada conjunto de datos único se almacena dentro de una división sencilla, y dos conjuntos de datos no comparten la misma división. Para maximizar el rendimiento de carga, la carga de cada conjunto de datos en esta tabla se logra utilizando crear una tabla como selecta (CTAS) e intercambio de división. Los datos dentro de cada división se almacenan en el orden de los valores de clave binaria, para maximizar el rendimiento de unión.

Estandarización de Datos Para mejorar la precisión de las comparaciones de similitud y la distribución de valores de clave binaria, los datos se estandarizan en una modalidad, para abreviaciones conocidas y sinónimos. Para lograr tal estandarización de datos se crea una tabla que contiene todas las variaciones y sinónimos conocidos para varios tipos de campo, junto con su representación estándar respectiva. Un algoritmo entonces funciona para simbolizar cada elemento de datos y mapear cualquier variación conocida o sinónimos en sus formas estándar.

Tabla de IDF Para un rendimiento más rápido cuando se calculan la TF/IDF ponderada para todas las n-grams presentes en los campos implicados en la unión de correlación aproximada, se construye una tabla que contiene la frecuencia de documento inversa de todas las n-grams de dos caracteres presentes dentro del espacio de registros candidato. La formación de todas las n-grams dentro del espacio se logra a través de PL/SQL mientras el cálculo de IDF se hace en SQL de ASCII. La tabla de IDF almacena el valor de IDF para cada n-gram posible para cada categoría de datos. La tabla es el índice organizado de acuerdo con la categoría de datos y la n-gram para maximizar el rendimiento de unión.

TF/IDF Ponderada de Atributo Simultáneo Para asignar una ponderación, o importancia, a cada n-gram de dos caracteres presente en un registro determinado para cada campo implicado en la unión de correlación aproximada, un valor de frecuencia de documento inversa/frecuencia de término TF/IDF ponderada de atributo simultáneo se calcula para cada valor de n-gram. Los términos n-grams y sus frecuencias respectivas de ocurrencia dentro de cada registro determinado y campo se calculan utilizando una función de tabla canalizada que toma un REF-CURSOR como entrada. Este cálculo es ligeramente diferente de los cálculos de TF/IDF ponderadas tradicionales, ya que después de calcular la TF/IDF para cada n-gram dentro cada campo ajusta las ponderaciones para todas las n-grams en cada campo ascendente o descendente de acuerdo con la ponderación general de las n-grams presentes en los otros campos del mismo registro. Esta técnica resulta en un ajuste dinámico de nivel de registro en la ponderación relativa de las n-grams correlacionadas de acuerdo con la importancia general del valor en cada campo .

Como se menciona en lo anterior, los identificadores únicos para cada registro en un conjunto de datos predeterminado, junto con sus términos n-gram y las puntuaciones de ponderación calculadas se almacenan en una Tabla Organizada de índice (IOT) dividida para maximizar el rendimiento de unión. La tabla se organiza de acuerdo con el identificador único, la categoría de datos y el valor de término de n-gram. Cada conjunto de datos único se almacena en una división separada dentro de la tabla. Cada división se carga utilizando una tabla de creación como selecta e intercambio de división para maximizar el rendimiento de carga.

Consulta de Unión Una vez que las claves binarias y los cálculos de TF/IDF de atributo simultáneo se han cargado en el RDBMS, una consulta de unión analítica se emplea para recuperar todos los registros de correlación candidato y clasificarlos de acuerdo con su relevancia o calidad de correlación en comparación con el registro de comparación. Esto se logra al unir primero los registros con los valores de clave binaria correlacionados, después unir los valores de n-gram para los registros candidato resultantes y calcular la suma del producto de sus ponderaciones.

Asignación de Puntuación de Confianza Los resultados de la consulta de unión se envían a través de una función implementada dentro del RDB S que realiza una comparación de muy bajo nivel en cada entrada y registro candidato, después asigna una puntuación de confianza utilizando un modelo estadístico para su uso en la aplicación de extracción de datos Oracle descrita en lo anterior .

Los procesos antes descritos asociados con la correlación de cadena aproximada además se ilustran por las Figuras 9 y 10 las cuales son diagramas de flujo 400 y 450 que ilustran de manera respectiva la determinación de un conjunto de cadenas de caracteres de referencia, e ilustra la utilización del conjunto de cadenas de referencia para determinar una métrica de similitud para una cadenas de caracteres candidato. Las cadenas ejemplares con carga máxima en cada componente se retienen para formar el conjunto de cadenas de referencia. Estas cadenas ejemplares son representativas de un componente principal para propósitos de correlación. La métrica de similitud se basa en un número de n-grams correlacionadas en una comparación de la cadena de caracteres candidato y las cadenas de caracteres individuales dentro del conjunto determinado de cadenas de caracteres de referencia.

Específicamente, y con referencia a la Figura 9, una^ base de datos incluye un espacio de datos 402 de correlación candidato potenciales, los cuales algunas veces se denominan en la presente como base de datos de cadenas de caracteres (por ejemplo, datos de nombre y/o ubicación para comerciantes) . Como se describe en la presente, una muestra aleatoria de campos de correlación, o registros de bases de datos) se genera 404, basándose en, por ejemplo, una búsqueda de optimización de un conjunto de cadenas de caracteres disimilares. Una matriz de similitud se calcula 406, y un análisis de factor de componentes principales se aplica 408, resultando en componentes 410 principales, de los cuales cada uno se denomina como cadenas de caracteres de referencia correspondiente. Este conjunto de cadenas de caracteres de referencia es útil para comparación contra cadenas de caracteres candidatos, debido a que el conjunto se ha generado específicamente para incluir datos disimilares.

Ahora con referencia a la Figura 10, con la recepción de una cadena de caracteres candidato, se calcula 452 una similitud entre cada cadena de caracteres candidato y la cadena de referencia asociada con cada componente principal. Como se describe en la presente, tal comparación puede basarse en un algoritmo de correlación de n-gram, de modo que una clave binaria indicativa de la similitud de la cadena de caracteres candidato con cada cadena de referencia y su componente principal se crea 454. Para una correlación de cadena de caracteres aproximada rápida y eficiente, registros (cadenas de caracteres de referencia) se unen 456 a la cadena de caracteres candidatos basándose en la comparación de sus registros respectivos de clave binaria. Tal proceso permite a un usuario recuperar rápidamente correlaciones de alta probabilidad entre las cadenas, de caracteres de referencia (las cuales pueden incluir datos de nombres y/o ubicación de comerciantes) para una cadena de caracteres candidato que puede ser representativa de los datos de nombres y/o ubicación de comerciantes. Al crear 458 una clave binaria para cada registro de base de datos que va a correlacionarse, un archivo para correlacionar las cadenas de caracteres de referencia con la cadena de caracteres candidatos puede generarse 460.

Aunque la invención se ha descrito en términos de varias modalidades específicas, aquellos con experiencia en la técnica reconocerán que la invención puede practicarse |con modificación dentro del espíritu y alcance de las reivindicaciones.

Claims

REIVINDICACIONES

1. Un método basado en computadora para descubrir patrones en datos de transacción de tarjetas de transacción financiera para determinar membresías de grupo de un comerciante dentro de los datos de transacción, los datos con respecto a comerciantes que aceptan la tarjeta de transacción financiera para pago, el método caracterizado porque comprende : recibir datos de transacción de por lo menos una base de datos; predecir una membresía de un comerciante dentro de un grupo utilizando por lo menos un algoritmo de predicción y los datos de transacción recuperados, el algoritmo genera metadatos que describen las predicciones; ingresar por lo menos una membresía de grupo previsto y los metadatos en una aplicación de extracción de datos ; y asignar una puntuación de confianza a cada membresía de grupo previsto por la aplicación de extracción de datos, utilizando las membresías de grupos previstos y los metadatos .

2. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresía de un comerciante en un grupo comprende identificar, a partir de por lo menos una base de datos, un conjunto de campos de bases de datos que son importantes en el contexto de derivar membresía de grupo, y donde el método además comprende : buscar datos de ubicación de comerciante dentro de por lo menos una base de datos para un número de ubicaciones de comerciante que se encuentran dentro de una distancia determinada de una ubicación determinada, donde la ubicación y la distancia se basan en una similitud como medida por un cálculo de frecuencia de término ponderada de atributo simultáneo/frecuencia de documento inversa (TF/IDF) para valores de campo y valores simbolizados de campo dentro de la base de datos ; buscar los datos de ubicaciones de comerciantes para aquellas ubicaciones de comerciantes que se encuentran dentro de una distancia determinada de una ubicación determinada para similitudes para determinar por lo menos una de nuevas ubicaciones de comerciantes y ubicaciones de comerciantes cambiadas; calcular los valores de modo a través de clasificación de ubicaciones de comerciante que se presentan dentro de la distancia determinada de la ubicación determinada; y regresar el valor de modo que se presenta con más frecuencia como en la predicción de membresía de grupo.

3. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresia de un comerciante de un grupo comprende: simbolizar por lo menos un campo en la base, de datos ; calcular una frecuencia de documento inversa para todos los valores de campo simbolizados dentro de la base de datos ; calcular una matriz esparcida de métricas ! de ponderación para cada valor de* campo de base de datos y cada valor de campo base de datos simbolizado; y generar una predicción al unir una ubicación de campo de base de datos determinada en cada tercera ubicación de campo de base de datos basándose en uno o más de un tipo de campo y valor de campo que utiliza la matriz esparcida; y en donde la matriz esparcida incluye un código de categoría de comerciante, un código de asociación de tarjeta Interbancaria (ICA) , una región comercial, un nombre de comerciante, un número telefónico de comerciante, , un identificador de comerciante adquiriente, un identificador de comerciante de grupo, un nombre legal de comerciante, y, un identificador de impuesto federal.

4. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresia de un comerciante en -un grupo que comprende calcular una relevancia para una ubicación de comerciante sencilla con respecto a un conjunto de ubicaciones de comerciantes, en donde la ubicación se basa en una similitud calculada, la similitud basada en valores de campo y valores simbolizados de campo dentro de la base de datos, y donde calcular la relevancia de la ubicación de comerciante sencilla con respecto al conjunto de ubicaciones de comerciantes además comprende: extraer características relevantes de una pluralidad de ubicaciones de comerciantes agrupadas en conjuntos para generar un documento para cada conjunto; recolectar los documentos generados dentro de un diccionario; formar una matriz esparcida que utiliza el diccionario mediante el cual la relevancia · de cada valor de campo y valor de campo simbolizado en los documentos generados se calcula, utilizando las características relevantes extraídas basándose por lo menos en una de una frecuencia de término y una frecuencia de documento inversa; unir una matriz de las ponderaciones de nivel de ubicación de comerciante con una matriz de ponderaciones de grupos de comerciantes basándose en los tipos de campo y los valores de campo dentro de la matriz esparcida; utilizar una suma de las ponderaciones de nivel de ubicación de comerciante y las ponderaciones de grupo de comerciante dentro de un motor de relevancia para determinar la relevancia de cada ubicación de comerciante en cada conjunto de ubicaciones de comerciantes; y producir el conjunto de ubicaciones de comerciante con la relevancia más alta como predicción.

5. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresía de un comerciante en un grupo que comprende predecir, utilizando un algoritmo de firma numérica y una tendencia observada para comerciantes que pertenecen al mismo grupo para desviarse de una distribución en una forma relativamente consistente, un grupo de ubicaciones que tienen una distribución numérica similar en comparación con cada ubicación de comerciante, donde la ubicación se basa en una similitud calculada, la similitud basada en los valores de campo y los valores de campo simbolizados dentro de la base de datos .

6. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresía de un comerciante en un grupo comprende: muestrear de manera aleatoria los datos de comerciante a partir de un grupo de datos de comerciantes en por lo menos una base de datos ; calcular una distribución de los números 1, 2, 3, 4, 5, 6, 7, 8, y 9 que se presentan en la primera posición de la cantidad de transacción; sumar un volumen de transacción por grupo de comerciantes ; calcular una distancia angular entre la distribución calculada de números y una distribución de números identificados por la Ley de Benford; y producir un grupo de comerciantes con una distancia angular más cercana a la distancia angular calculada como el grupo de comerciantes previsto para el comerciante muestreado.

7. El método basado en computadora de conformidad con la reivindicación 1, caracterizado porque predecir una membresía de un comerciante en un grupo utilizando por lo menos un algoritmo de predicción y los datos de transacción recuperados comprende utilizar múltiples algoritmos de predicción para proporcionar múltiples predicciones de membresía para un comerciante, y en donde asignar una puntuación de confianza a cada membresía de grupo previsto comprende: asignar una puntuación de confianza a cada una de múltiples predicciones de membresía para un comerciante; y proporcionar la predicción de membresía con la puntuación de confianza más alta como una predicción de membresía final para el comerciante.

8. Un sistema de computadora para descubrir patrones en datos de transacción de tarjetas de transacción financiera para determinar membresías de grupos para comerciantes individuales que utilizan los datos de transacción, caracterizado porque la computadora programada para : ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, cada algoritmo de predicción predice una membresía de grupo para un comerciante basándose en los datos de transacción; asignar una puntuación de confianza a cada membresía de grupo previsto; y , producir la predicción de membresía de grupo con la puntuación de confianza más alta como una predicción de membresía final para el comerciante.

9. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque por lo menos uno de los algoritmos se puede operar para identificar, dentro de los datos de transacción, un conjunto de campos de bases de datos que son importantes para derivar la membresía de grupo.

10. El sistema de computadora de conformidad con la reivindicación 9, caracterizado porque por lo menos uno de los algoritmos se puede operar para: buscar datos de ubicación de comerciantes dentro de los datos de transacción para un número de ubicaciones de comerciantes dentro de una distancia determinada de una ubicación determinada; . calcular valores de modo a través de la clasificación de las ubicaciones de comerciantes que se presentan dentro de la distancia predeterminada de la ubicación predeterminada; y regresar el valor de modo que se presenta con más frecuencia como la predicción de membresía de grupo, en donde la ubicación y distancia se basan en una similitud calculada, la similitud se basa en valores de campo y valores de campo simbolizados dentro de la base de datos.

11. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, por lo menos uno de los algoritmos puede operar para : simbolizar por lo menos un campo en la base de datos ; calcular una frecuencia de documento inversa para todos los valores de campo de base de datos simbolizados dentro de la base de datos; generar una matriz esparcida de métricas de ponderación para cada valor de campo de base de datos y cada valor de campo de base de datos simbolizado; y calcular una predicción al unir una ubicación de campo de base de datos determinada a cada tercera ubicación de campo de base de datos basándose en uno o más del tipo de campo y valor de campo en la matriz esparcida.

12. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, el sistema de computadora se programa para calcular una relevancia para una ubicación de comerciante sencilla con respecto a un conjunto de ubicaciones . de comerciantes dentro de los datos de transacción, donde la ubicación se basa en una similitud calculada, la similitud se basa en valores de campo y valores de campo simbolizados dentro de la base de datos .

13. El sistema de computadora de conformidad con la reivindicación 12, caracterizado porque calcular una relevancia para una ubicación de comerciante sencilla con respecto a un conjunto de ubicaciones de comerciantes dentro de los datos de transacción, el sistema de computadora se programa para: extraer características relevantes de una pluralidad de ubicaciones de comerciantes agrupadas ¡ en conjuntos para generar un documento para cada conjunto; recolectar los documentos generados dentro de un diccionario ; formar una matriz esparcida utilizando el diccionario mediante el cual la relevancia de cada valor de campo y valor de campo simbolizado en los documentos generados se calcula, utilizando las características relevantes extraídas basándose por lo menos en uno de una frecuencia de término y una frecuencia de documento inversa; y unir una matriz de ponderaciones de nivel de ubicación de comerciante a una matriz de ponderaciones de grupo de comerciantes basándose en los tipos de campo y los valores de campo dentro de la matriz esparcida; y en donde determinar un valor para cada conjunto de datos de ubicación de comerciante, el sistema de computadora se programa para utilizar una suma de las ponderaciones dentro de un motor de relevancia para determinar la relevancia de cada ubicación en un grupo de comerciantes .

14. El sistema de computadora de conformidad con la reivindicación 13, caracterizado porque el sistema de computadora se programa para utilizar una suma de las ponderaciones de nivel de ubicación de comerciante y las ponderaciones de grupo de comerciantes dentro de un motor de relevancia para determinar la relevancia de cada ubicación de comerciante en cada conjunto de ubicaciones de comerciantes; y producir el conjunto de ubicaciones de comerciantes con la relevancia más alta como predicción.

15. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, el sistema de computadora se programa para utilizar datos proporcionados por terceros que se han correlacionado con una base de datos de transacción de tarjetas de transacción financiera por la ubicación del comerciante, donde la ubicación se basa en una similitud calculada, la similitud se basa en valores de campo y valores de campo simbolizados dentro de la base de datos.

16. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque la ubicación se basa en una similitud calculada, la similitud se basa en valores de campo y valores de campo simbolizados dentro de la base de datos, donde ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, el sistema de computadora se programa para: utilizar datos de ubicación de terceros que se han correlacionado con una base de datos de datos de ubicación de comerciante de marca de tarjeta de transacción financiera, los datos de ubicación de terceros incluyen un identificador de cadena asignado; y enlazar los identificadores de cadena con los datos de ubicación de comerciantes asociados con la marca de la tarjeta de transacción financiera.

17. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque la ubicación se basa en una similitud calculada, la similitud se basa en valores de campo y valores de campo simbolizados dentro de la base de datos, donde ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, el sistema de computadora se programa para: utilizar un motor de correlación de ubicación de comerciante aproximada para unir un conjunto de registros de ubicación de comerciantes de terceros en un conjunto de registros de ubicación de comerciantes; y calcular un grupo previsto para una ubicación determinada como el grupo de comerciantes que corresponde con el conjunto unido para la ubicación determinada.

18. El sistema de computadora de conformidad con la reivindicación 17, caracterizado además porque se programa para asignar una puntuación de confianza de correlación como asignada por el motor de correlación de ubicación de comerciante aproximada.

19. El sistema de computadora de conformidad con la reivindicación 8, caracterizado porque ejecutar una pluralidad de algoritmos de predicción con los datos de transacción, el sistema de computadora se programa para: muestrear de manera aleatoria datos de comerciantes de un grupo de datos de comerciantes; calcular una distribución de los números 1, 2, 3, 4, 5, 6, 7, 8, y 9 que se presentan en la primera posición de una cantidad de transacción dentro de los datos de transacción; y sumar un volumen de transacción por el grupo de comerciantes .

20. El sistema de computadora de conformidad con la reivindicación 19, caracterizado además porque se programa para : calcular una distancia angular entre la distribución calculada de los números y una distribución de números identificados por la Ley de Benford; y producir un grupo de comerciantes con una distancia angular más cercana a la distancia angular calculada como el grupo de comerciantes previsto para el comerciante muestreado .