WO2020242337A1 - Method and system for determining the similarity of vector representations of transaction participants - Google Patents

Method and system for determining the similarity of vector representations of transaction participants Download PDF

Info

Publication number
WO2020242337A1
WO2020242337A1 PCT/RU2019/000376 RU2019000376W WO2020242337A1 WO 2020242337 A1 WO2020242337 A1 WO 2020242337A1 RU 2019000376 W RU2019000376 W RU 2019000376W WO 2020242337 A1 WO2020242337 A1 WO 2020242337A1
Authority
WO
WIPO (PCT)
Prior art keywords
transaction
transactions
devices
participants
vector representations
Prior art date
Application number
PCT/RU2019/000376
Other languages
French (fr)
Russian (ru)
Inventor
Дмитрий Андреевич АНДРЕЕВ
Андрей Михайлович ПИНЧУК
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2020242337A1 publication Critical patent/WO2020242337A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists

Definitions

  • the claimed solution relates generally to the field of data processing, and in particular to a method and system for determining the similarity of vector representations of transaction participants.
  • the technical problem or technical problem to be solved is to determine the geo-positional proximity between the participants in the transaction based on their vector representations.
  • the technical result is to provide the ability to determine the location of customers based on transaction data without using geographic coordinates.
  • the main objective of the claimed method is to represent the participants in the transaction in the form of vectors, allowing to determine the proximity / remoteness of the participants (senders and recipients of payments) by converting their data into vector form and determining the vector proximity (for example, cosine similarity) and using this information in models for assessing the risk of transactions.
  • the claimed result is achieved due to a computer-implemented method for determining the similarity of vector representations of transaction participants, performed using a processor and containing the stages at which:
  • the transaction devices are an ATM and / or POS terminal.
  • the transaction data is representative of p2p transfers.
  • the claimed result is also realized due to the system for determining the similarity of vector representations of transaction participants, which contains at least one processor and memory storing machine-readable instructions, which, when executed by the processor, implement the above method.
  • FIG. 1 illustrates flowcharts of a process for performing the claimed method.
  • FIG. 2 illustrates an example of validation of a test sample.
  • FIG. 3 illustrates a graph of the distribution of transaction types.
  • FIG. 4 illustrates an example of a computing system.
  • FIG. 1 shows the execution process of the claimed method (100) for determining the similarity of vector representations of transaction participants.
  • Transaction participants are understood to be persons making transactional transfers of the "client-client” (p2p) type.
  • transactional data is collected, which contains information about the transactional activity of customers (purchases of goods, transfers, payment for services, cash withdrawals, etc.).
  • Each transactional transfer is usually characterized information that identifies the sender of the transfer and the GO device for the transaction, which can be a POS terminal or ATM. Additionally, information about the IP addresses of the transaction devices can be taken into account.
  • Client 1 (POS_l, POS_2, POS_3, ATM_5);
  • Client 2 - (ATM_1, POS O, POES_2, ATM_4).
  • vectorization of GD devices is carried out for each chain of transactional activity (103) to form vector representations of GD devices that are used by clients during transactions.
  • This task uses the word2vec vector transformation family model, in particular Continuous Bag of Words (CBOW), which is widely used in NLP problems.
  • CBOW Continuous Bag of Words
  • the essence of the algorithm is that the context of a word is fed to the input of a neural network with one hidden layer and an output layer, and the target variable for optimization is the word itself.
  • the model learns to predict the word from the given context.
  • the hidden layer of the trained model is used as word embedding, which in practice has shown a good ability to generalize the relationship between words in the corpus.
  • the “words” are vector representations of devices for performing transactions: POS / CS (self-service devices), and “offers” are a sequence of devices that are used by one user.
  • RS will mean ATMs.
  • operations were selected in the CA and POS terminals on a subsample of users for a certain time period, in particular 1 month. Sampling was carried out by users, respectively, if a user is included in the sample, then all his RS and POS, which he used to perform transactions, are used to train the model. User points were ordered by time, and if a point was used two or more times in a row, then reuse was deleted, but if this point was used further, after another point, then it remained in the selection.
  • ATM_1 (3,3,3)
  • step (104) After converting the ID of the transaction devices into a vector form, at step (104), the median among the values of the vector representation for each participant in the transaction is determined and its vector representation is generated based on the average value of the vector representations of the chain of W devices associated with it.
  • Client 1 ((1,1,1), (2,0,5), (1,1,1), (0,1,4)) ...
  • the representations (POS / ATM, IP addresses) are transformed into the space of latent variables, in which the cosine proximity of the vectors averaged over the median describing clients, determines their spatial proximity (105), i.e. proximity in vector space between senders and recipients of a transaction.
  • the algorithm for generating vector representations of users based on vector representations of devices for executing transactions allows calculating the embedding vectors of the user himself - the participant in the transaction so that the cosine proximity of the users' vectors corresponds to their geolocation proximity. Thus, this information can then be used to analyze transactional fraudulent activity.
  • the second test option is to use US / POS embedding to calculate the distance between users and calculate statistics for this distance to analyze false alarms of the fraud monitoring system (legitimate transactions) and fraudulent operations.
  • the distance between users was calculated using the following algorithm:
  • FIG. 4 shows an example of a general view of a computing system (200) based on a computing device (200), which provides the implementation of the claimed method or is a part of a computer system, for example, a server that processes the necessary data to implement the method (100).
  • a computing device contains one or more processors (201) united by a common data exchange bus, memory means such as RAM (202) and ROM (203), input / output interfaces (204), devices input / output (205), and a device for networking (206).
  • processors 201 united by a common data exchange bus
  • memory means such as RAM (202) and ROM (203)
  • input / output interfaces 204
  • devices input / output 205
  • a device for networking 206
  • the processor (201) (or multiple processors, multi-core processor) can be selected from a range of devices currently widely used, for example, Intel TM, AMD TM, Apple TM, Samsung Exynos TM, MediaTEK TM, Qualcomm Snapdragon TM and etc. Under the processor, it is also necessary to take into account a graphics processor, for example, an NVIDIA or ATI GPU, which is also suitable for complete or partial execution of the method (100).
  • the memory means can be the available memory of the graphics card or the graphics processor.
  • RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing.
  • RAM (202) contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
  • ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state data storage device
  • EEPROM electrically erasable programmable read-only memory
  • NAND flash memory
  • optical storage media CD-R / RW, DVD-R / RW, BlueRay Disc, MD, etc.
  • I / O interfaces (204) are used to organize the operation of the components of the device (200) and to organize the operation of external connected devices.
  • the choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • I / O means for example, a keyboard, display (monitor), touch display, touch-pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the networking means (206) allows the device (200) to transmit data via an internal or external computer network, for example, Intranet, Internet, LAN, and the like.
  • One or more means (206) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and dr.
  • satellite navigation means can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to the field of data processing, in particular to a method and a system for determining the similarity of vector representations of transaction participants. The method comprises steps in which: data regarding transactions and data regarding devices for carrying out the transactions are obtained; chains of transaction activities are generated, wherein each of the chains relates to the transactions of one transaction participant; vector representations of the devices for carrying out the transactions are generated by conversion of the chains of transaction activities; a median of the obtained values of the vector representations of the devices for carrying out the transactions is determined for each transaction participant and a vector representation of said participant is generated on the basis of the average value of the vector representations of the chain of the devices for carrying out the transactions that are associated with said participant; a cosine distance between the average vector representations of the transaction participants is calculated, wherein the participants are an associated sender and receiver of a transaction; and the vector distance between said transaction participants is determined on the basis of the value of the cosine proximity. The invention makes it possible to determine the location of clients on the basis of data regarding a transaction without using geographic coordinates.

Description

СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ СХОЖЕСТИ ВЕКТОРНЫХ METHOD AND SYSTEM FOR DETERMINING THE SIMILARITY OF VECTOR
ПРЕДСТАВЛЕНИЙ УЧАСТНИКОВ ТРАНЗАКЦИЙ REPRESENTATIONS OF TRANSACTION PARTICIPANTS
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
[0001] Заявленное решение относится, в общем, к области обработки данных, а в частности к способу и системе определения схожести векторных представлений участников транзакций. [0001] The claimed solution relates generally to the field of data processing, and in particular to a method and system for determining the similarity of vector representations of transaction participants.
УРОВЕНЬ ТЕХНИКИ LEVEL OF TECHNOLOGY
[0002] В настоящее время в наибольшем количестве случаев мошенничества в качестве канала вывода средств используются переводы на платежные карты (дебетовые или кредитные). Для эффективного противодействия мошенничеству, в частности с учетом доминирующего типа мошенничества «самопереводы», важной является задача определения пространственной геопозиционной близости клиентов, совершающих транзакционные переводы, т.е. анализ их фактического расположения в той или иной географической области. [0002] Currently, in the largest number of cases of fraud, transfers to payment cards (debit or credit) are used as a withdrawal channel. For effective counteraction to fraud, in particular, taking into account the dominant type of “self-translation” fraud, an important task is to determine the spatial geo-positional proximity of clients making transactional transfers, i.e. analysis of their actual location in a particular geographic area.
[0003] Поскольку в большинстве случаев мошенники не знают территориальной принадлежности клиента и не могут подобрать мошеннические карты вывода из той же локации, то осуществляют вывод денежных средств на доступные «дроперские» платежные карты. При этом легитимные переводы в основном происходят между клиентами из близкой геолокации (покупка товаров, оплата оказанных р2р услуг, перевод знакомым и пр.). Информация, позволяющая определить насколько отправитель и получатель близки относительно их геопозиций, поможет повысить качество моделей выявления мошенничества. [0003] Since in most cases the fraudsters do not know the territorial affiliation of the customer and cannot pick up fraudulent withdrawal cards from the same location, they withdraw funds to available "dropper" payment cards. At the same time, legitimate transfers mainly occur between clients from a close geolocation (purchase of goods, payment for rendered p2p services, translation to friends, etc.). Information that allows you to determine how close the sender and the recipient are in their geo-location will help improve the quality of fraud detection models.
[0004] Известные подходы основываются, например, на привязке клиентов к тому или иному территориально расположенному банку и/или геоданные POS- терминалов/УС (банкоматов), в которых клиент пользуется платежной картой, и использовать их для определения геолокации клиента. Такие решения, например, раскрываются в следующих патентных документах: US 20120215701 А1 (Playspan Inc., 23.08.2012), US 20190043054 A1 (Capital One Services LLC, 07.02.2019), US 20120209773 A1 (PayPal Inc., 16.08.2012). [0004] Known approaches are based, for example, on linking clients to one or another geographically located bank and / or geodata of POS terminals / CS (ATMs) in which the client uses a payment card, and use them to determine the geolocation of the client. Such solutions, for example, are disclosed in the following patent documents: US 20120215701 A1 (Playspan Inc., 08/23/2012), US 20190043054 A1 (Capital One Services LLC, 02/07/2019), US 20120209773 A1 (PayPal Inc., 08/16/2012) ...
[0005] Известный подход обладает следующими недостатками :\ • Территориальная принадлежность банка - очень обширная территория, поэтому сильно возрастает шанс, что карта вывода мошенников окажется из того же территориального банка; [0005] The known approach has the following disadvantages: \ • The territorial affiliation of the bank is a very vast territory, therefore, the chance that the card for withdrawing fraudsters will end up from the same territorial bank greatly increases;
• POS - геоданные по POS терминалам отсутствуют, есть только информация по мерчанту-арендатору и его юридический адрес/индекс. Данная информация для крупных сетей не позволяет установить местонахождение POS-терминалов, также реально они могут самим мерчантом перемещаться в другие города/регионы без информирования об этом банка; • POS - there is no geodata for POS terminals, there is only information on the merchant-tenant and its legal address / zip code. This information for large networks does not allow to establish the location of POS-terminals; also, in reality, they can move to other cities / regions by the merchant themselves without informing the bank about it;
• Банкомат - по данной категории информация представлена наиболее полно. Проблема заключается в том, что не все клиенты при осуществлении транзакций пользуются банкоматами. • ATM - information on this category is presented most fully. The problem is that not all customers use ATMs when making transactions.
[0006] Таким образом, необходимо разработать эффективный механизм определения геопозиционной близости участников транзакций без использования географических координат. [0006] Thus, it is necessary to develop an effective mechanism for determining the geo-location proximity of transaction participants without using geographic coordinates.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ DISCLOSURE OF THE INVENTION
[0007] Решаемой технической проблемой или технической задачей является определение геопозиционной близости между участниками транзакции на основании их векторных представлений. [0007] The technical problem or technical problem to be solved is to determine the geo-positional proximity between the participants in the transaction based on their vector representations.
[0008] Техническим результатом является обеспечение возможности определения местоположения клиентов на основании данных о транзакции без использования географических координат. [0008] The technical result is to provide the ability to determine the location of customers based on transaction data without using geographic coordinates.
[0009] Основной задачей заявленного способа является представление участников транзакции в виде векторов, позволяющих определить близость/удаленность участников (отправителей и получателей платежей) за счет преобразования их данных в векторную форму и определению векторной близости (например, cosine similarity) и использование данной информации в моделях оценки риска транзакций. [0009] The main objective of the claimed method is to represent the participants in the transaction in the form of vectors, allowing to determine the proximity / remoteness of the participants (senders and recipients of payments) by converting their data into vector form and determining the vector proximity (for example, cosine similarity) and using this information in models for assessing the risk of transactions.
[0010] Заявленный результат достигается за счет компьютерно-реализуемого способа определения схожести векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых: [0010] The claimed result is achieved due to a computer-implemented method for determining the similarity of vector representations of transaction participants, performed using a processor and containing the stages at which:
- получают данные транзакций, содержащие по меньшей мере идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие Ш устройств, используемых упомянутыми участниками транзакций; - формируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций; - receive transaction data containing at least identification data of senders and recipients of transactions, and data of devices for carrying out transactions, including III devices used by said participants in transactions; - form on the basis of the received data chains of transactional activities, and each of the chains refers to the transactions of one participant in the transactions between devices for transactions;
- осуществляют формирование векторных сущностей с помощью преобразования упомянутых цепочек транзакционных активностей, причем упомянутые сущности содержат представления устройств осуществления транзакций; - carry out the formation of vector entities by transforming the mentioned chains of transactional activities, and said entities contain representations of devices for carrying out transactions;
- определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторную сущность на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции; - determine the median among the values of the vector representation for each participant in the transaction and form its vector essence on the basis of the average value of the vector representations of the chain of associated transaction devices;
- выполняют расчет косинусного расстояния между векторным представлением участников транзакций, причем участники являются связанными отправителем и получателем транзакции; и - perform the calculation of the cosine distance between the vector representation of the participants in the transactions, and the participants are connected by the sender and receiver of the transaction; and
- определяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусной близости. - determine the vector distance between the mentioned participants in the transactions based on the value of the cosine proximity.
[ООП] В одном из частных вариантов осуществления способа устройства осуществления транзакций представляют собой банкомат и/или POS-терминал. [OOP] In one particular embodiment of the method, the transaction devices are an ATM and / or POS terminal.
[0012] В другом частном варианте осуществления способа данные транзакций характеризуют р2р переводы. [0012] In another particular embodiment of the method, the transaction data is representative of p2p transfers.
[0013] Заявленный результат также реализуется за счет системы определения схожести векторных представлений участников транзакций, которая содержит по меньшей мере один процессор и память, хранящую машиночитаемые инструкции, которые при их исполнении процессором реализуют вышеуказанный способ. [0013] The claimed result is also realized due to the system for determining the similarity of vector representations of transaction participants, which contains at least one processor and memory storing machine-readable instructions, which, when executed by the processor, implement the above method.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF DRAWINGS
[0014] Фиг. 1 иллюстрирует блок-схемы процесса выполнения заявленного способа. [0014] FIG. 1 illustrates flowcharts of a process for performing the claimed method.
[0015] Фиг. 2 иллюстрирует пример валидации тестовой выборки. [0015] FIG. 2 illustrates an example of validation of a test sample.
[0016] Фиг. 3 иллюстрирует график распределения типов транзакций. [0016] FIG. 3 illustrates a graph of the distribution of transaction types.
[0017] Фиг. 4 иллюстрирует пример вычислительной системы. [0017] FIG. 4 illustrates an example of a computing system.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ CARRYING OUT THE INVENTION
[0018] На Фиг. 1 представлен процесс исполнения заявленного способа (100) определения схожести векторных представлений участников транзакций. Под участниками транзакций понимаются лица, осуществляющие транзакционные переводы типа «клиент-клиент» (р2р). [0018] FIG. 1 shows the execution process of the claimed method (100) for determining the similarity of vector representations of transaction participants. Under Transaction participants are understood to be persons making transactional transfers of the "client-client" (p2p) type.
[0019] На первом этапе (101) выполнения способа (100) осуществляется сбор транзакционных данных, которые содержат информацию о транзакционной активности клиентов (покупки товаров, переводы, оплата услуг, снятие наличных и пр.)· Каждый транзакционный перевод, как правило, характеризуется информацией, идентифицирующей отправителя перевода и ГО устройства для осуществления транзакции, в качестве которых может использоваться POS-терминал или банкомат. Дополнительно может учитываться информация об IP-адресах устройств осуществления транзакций. [0019] At the first stage (101) of the method (100), transactional data is collected, which contains information about the transactional activity of customers (purchases of goods, transfers, payment for services, cash withdrawals, etc.). Each transactional transfer is usually characterized information that identifies the sender of the transfer and the GO device for the transaction, which can be a POS terminal or ATM. Additionally, information about the IP addresses of the transaction devices can be taken into account.
[0020] Затем на основании полученной информации на этапе (101) формируют цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций (102). По транзакционной информации для каждого клиента известна последовательность устройств для осуществления транзакций, которые используются для осуществления операций, например: [0020] Then, based on the information obtained at step (101), chains of transactional activities are formed, each of the chains relating to transactions of one transaction participant between transaction devices (102). Based on the transaction information for each client, the sequence of devices for carrying out transactions is known, which are used to carry out operations, for example:
Клиент 1 - (POS_l, POS_2, POS_3, АТМ_5); Client 1 - (POS_l, POS_2, POS_3, ATM_5);
Клиент 2 - (АТМ_1, POS O, POES_2, АТМ_4). Client 2 - (ATM_1, POS O, POES_2, ATM_4).
[0021] Далее с помощью модели машинного обучения осуществляется векторизация ГО устройств для каждой цепочки транзакционной активности (103) для формирования векторных представлений ГО устройств, которые используются клиентами в ходе выполнения транзакций. [0021] Next, using a machine learning model, vectorization of GD devices is carried out for each chain of transactional activity (103) to form vector representations of GD devices that are used by clients during transactions.
[0022] В данной задаче используется модель семейства векторного преобразования word2vec, в частности Continuous Bag of Words (CBOW), которая широко применяется в задачах NLP. Суть алгоритма заключается в том, что на вход нейронной сети с одним скрытым слоем и выходным слоем подается контекст какого-либо слова, а целевой переменной для оптимизации при этом является само слово. Таким образом, модель учится предсказывать слово по данному контексту. [0022] This task uses the word2vec vector transformation family model, in particular Continuous Bag of Words (CBOW), which is widely used in NLP problems. The essence of the algorithm is that the context of a word is fed to the input of a neural network with one hidden layer and an output layer, and the target variable for optimization is the word itself. Thus, the model learns to predict the word from the given context.
[0023] Скрытый слой обученной модели используется как эмбеддинг (англ. Word embedding— (векторное) представление слова), который на практике показал хорошую способность обобщать взаимоотношения между словами корпуса. В данном случае в качестве «слов» выступают векторные представления устройств для выполнения транзакций: POS/УС (устройства самообслуживания), а «предложений» последовательность устройств, которые использует один пользователь. Под УС в данном контексте будут пониматься банкоматы. [0024] Для обучающей выборки модели машинного обучения были выбраны операции в УС и POS-терминалах на подвыборке из пользователей за определенный временной промежуток, в частности 1 месяц. Сэмплирование проводилось по пользователям, соответственно, если пользователь попадает в выборку, то все его УС и POS, которые он использовал для выполнения транзакций, используются для обучения модели. Точки пользователя были упорядочены по времени, и если точка использовалась два или более раз подряд, то повторные использования удалялись, но если эта точка использовалась дальше, после другой точки, то она оставалась в выборке. [0023] The hidden layer of the trained model is used as word embedding, which in practice has shown a good ability to generalize the relationship between words in the corpus. In this case, the “words” are vector representations of devices for performing transactions: POS / CS (self-service devices), and “offers” are a sequence of devices that are used by one user. In this context, RS will mean ATMs. [0024] For the training set of the machine learning model, operations were selected in the CA and POS terminals on a subsample of users for a certain time period, in particular 1 month. Sampling was carried out by users, respectively, if a user is included in the sample, then all his RS and POS, which he used to perform transactions, are used to train the model. User points were ordered by time, and if a point was used two or more times in a row, then reuse was deleted, but if this point was used further, after another point, then it remained in the selection.
Например: For instance:
Исходная последовательность точек: А -> А -> С -> А -> В -> В Initial sequence of points: A -> A -> C -> A -> B -> B
Последовательность после обработки: А -> С -> А -> В The sequence after processing: A -> C -> A -> B
[0025] Представленный выше пример цепочки используемых ID устройств в векторной форме будет выглядеть следующим образом: [0025] The above example of a chain of used device IDs in vector form would look like this:
POS_l = (1,1,1); POS_l = (1,1,1);
POS_2 = (2,0,5); POS_2 = (2,0,5);
POS_10 = (1,0,0); POS_10 = (1,0,0);
АТМ_1 = (3,3,3); ATM_1 = (3,3,3);
АТМ_4 = (1,1,1); ATM_4 = (1,1,1);
АТМ_5 = (0,1,4). ATM_5 = (0,1,4).
[0026] После преобразования ID устройств для осуществления транзакций в векторную форму, на этапе (104) определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним Ш устройств осуществления транзакций. [0026] After converting the ID of the transaction devices into a vector form, at step (104), the median among the values of the vector representation for each participant in the transaction is determined and its vector representation is generated based on the average value of the vector representations of the chain of W devices associated with it.
[0027] Для каждого клиента соответствующая цепочка транзакционной активности приобретает следующий вид: Клиент 1 = ((1,1,1), (2,0,5), (1,1,1), (0,1,4)). [0027] For each client, the corresponding chain of transactional activity takes the following form: Client 1 = ((1,1,1), (2,0,5), (1,1,1), (0,1,4)) ...
На основании полученного векторного представления в виде цепочки транзакционной активности осуществляется покоординатное усреднение через медиану. Для приведенного выше примера усредненное значение будет представлено в виде вектора (1,1, 2.5). Based on the obtained vector representation in the form of a chain of transactional activity, coordinate-wise averaging is carried out through the median. For the example above, the average value will be represented as a vector (1,1, 2.5).
[0028] На основании сформированных цепочек производится трансформация представлений (POS/ATM, IP-адреса) в пространство латентных переменных, в котором косинусная близость усредненных по медиане векторов, описывающих клиентов, определяет их пространственную близость (105), т.е. близость в векторном пространстве между отправителями и получателями транзакции. [0028] Based on the formed chains, the representations (POS / ATM, IP addresses) are transformed into the space of latent variables, in which the cosine proximity of the vectors averaged over the median describing clients, determines their spatial proximity (105), i.e. proximity in vector space between senders and recipients of a transaction.
[0029] Ниже будет представлен пример вычисления соответствующих векторов. Пример: [0029] An example of calculating the corresponding vectors will be presented below. Example:
Клиент 1 = (1,1, 2.5). Customer 1 = (1,1, 2.5).
Клиент 2 = (1,1.2, 2.1). Client 2 = (1,1.2, 2.1).
Клиент 3 = (4, 0, 0.3) Customer 3 = (4, 0, 0.3)
cosine distance = 1 - cosine similarity cosine distance = 1 - cosine similarity
cosine distance Клиент 1 - Клиент 2 = 1 - (1*1 + 1*1,2 + 2,5*2,l)/(2,87*2,62) = 1 - 0,99 =cosine distance Client 1 - Client 2 = 1 - (1 * 1 + 1 * 1.2 + 2.5 * 2, l) / (2.87 * 2.62) = 1 - 0.99 =
0,01 0.01
cosine distance Клиент 1 - Клиент 3 = 1 - (1*4 + 1*0 + 2,5*0,3)/(2,87*4,01) = 1 - 0,41 = 0,59. cosine distance Client 1 - Client 3 = 1 - (1 * 4 + 1 * 0 + 2.5 * 0.3) / (2.87 * 4.01) = 1 - 0.41 = 0.59.
[0030] Из приведенного примера видно, что Клиент 1 и Клиент 2 с точки зрения косинусного расстояния расположены гораздо ближе друг к другу по сравнению с Клиентом 1 и Клиентом 3. Следовательно, геопозиционная близость и паттерн поведения Клиента 1 и Клиента 2 достаточно близки, из чего можно судить, что транзакции между ними будут более легитимными по сравнению с транзакциями между Клиентом 1 и Клиентом 3. [0030] From the above example, it can be seen that Client 1 and Client 2 in terms of cosine distance are located much closer to each other compared to Client 1 and Client 3. Therefore, the geo-positional proximity and behavior pattern of Client 1 and Client 2 are quite close, from which can be judged that transactions between them will be more legitimate compared to transactions between Client 1 and Client 3.
[0031] Алгоритм формирования векторных представлений пользователей на основании векторных представлений устройств для выполнения транзакций позволяет вычислить embedding-вектора самого пользователя - участника транзакции, чтобы косинусная близость векторов пользователей отвечала их геолокационной близости. Таким образом, данную информацию можно впоследствии использовать для анализа транзакционной мошеннической активности. [0031] The algorithm for generating vector representations of users based on vector representations of devices for executing transactions allows calculating the embedding vectors of the user himself - the participant in the transaction so that the cosine proximity of the users' vectors corresponds to their geolocation proximity. Thus, this information can then be used to analyze transactional fraudulent activity.
[0032] Далее рассмотрим процесс валидации выборки модели машинного обучения, представленный на Фиг. 2. Для быстрой валидации обученных векторных представлений был использован следующий алгоритм: бралось случайное УС (по которому доступны координаты), и искались ближайшие к нему соседи УС по векторному представлению (эмбедцингу). Точка и соседи визуализировались на карте по их геокоординатам. Аналогично по этим же начальным точкам строились самые удаленные УС. Процесс повторялся для нескольких десятков точек. Такая валидация позволяла наглядно оценить, насколько близко на географической карте лежат друг к другу точки, которые близки на эмбеддинге. [0032] Next, consider the process for validating a sample of a machine learning model shown in FIG. 2. For a quick validation of the trained vector representations, the following algorithm was used: a random US was taken (according to which coordinates are available), and the nearest neighbors of the US were searched for by the vector representation (embedding). The point and neighbors were visualized on the map by their geocoordinates. Similarly, the most distant RS were constructed using the same initial points. The process was repeated for several dozen points. This validation made it possible to visually assess how close the points on the geographic map lie to each other that are close on the embedding.
[0033] Второй вариант проверки— это использование эмбедцинга по УС/POS для расчета расстояния между пользователями и подсчет статистик по этому расстоянию для анализа ложных срабатываний системы фрод-мониторинга (легитимные транзакции) и мошеннических операций. Расстояние между пользователями считалось по следующему алгоритму: [0033] The second test option is to use US / POS embedding to calculate the distance between users and calculate statistics for this distance to analyze false alarms of the fraud monitoring system (legitimate transactions) and fraudulent operations. The distance between users was calculated using the following algorithm:
1) Ко всем устройствам, которые использовал пользователь присоединялись рассчитанные измерения эмбеддинга (если по какому-то из устройств эмбеддинг отсутствовал, то он удалялся); 1) The calculated embedding measurements were attached to all devices that the user used (if for some of the devices the embedding was absent, then it was deleted);
2) По измерениям эмбеддинга бралась медиана для каждого пользователя; 2) The median for each user was taken according to the measurements of embedding;
3) По медиане эмбеддинга измерялось косинусное расстояние между пользователями. 3) The cosine distance between users was measured using the embedding median.
[0034] Далее по рассчитанному расстоянию брались перцентили с шагом 5 для операций с маркировкой F (мошенничество), G ложные сработки (легитимные). Для заданного диапазона валидационного периода, например, 1 месяц, была получена следующая статистика, представленная в Таблице 1. [0034] Further, according to the calculated distance, percentiles were taken with a step of 5 for operations marked F (fraud), G false positives (legitimate). For a given range of the validation period, for example, 1 month, the following statistics were obtained, presented in Table 1.
Таблица 1 Table 1
Figure imgf000009_0001
Figure imgf000010_0001
Figure imgf000009_0001
Figure imgf000010_0001
[0035] Из приведенного выше примера следует, что, если установить значения порога допустимости для легитимных операций, например, расстояние в 0.44, то таким образом будет заблокировано 85% мошеннических операций, но при этом ложные срабатывания можно сократить на более чем 40%, что показывает хорошую разделяющую способность данной метрики. [0035] From the above example, it follows that if you set the threshold values for legitimate transactions, for example, a distance of 0.44, then 85% of fraudulent transactions will be blocked, but false positives can be reduced by more than 40%, which shows the good separating power of this metric.
[0036] Если расстояния по всей выборке разбить на бины и потом проанализировать соотношение мошеннических операций к легитимным (ложные срабатывания), то будет видно, что с увеличением дистанции увеличивается количество мошеннических операций и их доля в бине (Таблица 2). Пример графика представлен на Фиг. 3. [0036] If the distances across the entire sample are divided into bins and then the ratio of fraudulent operations to legitimate ones (false positives) is analyzed, it will be seen that with increasing distance the number of fraudulent operations and their proportion in the bin increases (Table 2). An example of a graph is shown in FIG. 3.
Таблица 2 table 2
Figure imgf000010_0002
Figure imgf000010_0002
[0037] В результате реализации заявленного способа (100) был создан эффективный принцип представления и обработки данных для определения геоблизости клиентов без использования геокоординат. Также, использование полученных данных может применяться для целей анализа и противодействия мошенническим операциям. [0037] As a result of the implementation of the claimed method (100), an effective principle of data presentation and processing was created to determine the geo-proximity of clients without using geo-coordinates. Also, the use of the obtained data can be used for the purposes of analysis and counteraction to fraudulent transactions.
[0038] На Фиг. 4 представлен пример общего вида вычислительной системы (200) на базе вычислительного устройства (200), которое обеспечивает реализацию заявленного способа или является частью компьютерной системы, например, сервером, обрабатывающим необходимые данные для осуществления способа (100). [0038] FIG. 4 shows an example of a general view of a computing system (200) based on a computing device (200), which provides the implementation of the claimed method or is a part of a computer system, for example, a server that processes the necessary data to implement the method (100).
[0039] В общем случае, вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0039] In the General case, a computing device (200) contains one or more processors (201) united by a common data exchange bus, memory means such as RAM (202) and ROM (203), input / output interfaces (204), devices input / output (205), and a device for networking (206).
[0040] Процессор (201) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором также необходимо учитывать графический процессор, например, GPU NVIDIA или ATI, который также является пригодным для полного или частичного выполнения способа (100). При этом, средством памяти может выступать доступный объем памяти графической карты или графического процессора. [0040] The processor (201) (or multiple processors, multi-core processor) can be selected from a range of devices currently widely used, for example, Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™ and etc. Under the processor, it is also necessary to take into account a graphics processor, for example, an NVIDIA or ATI GPU, which is also suitable for complete or partial execution of the method (100). In this case, the memory means can be the available memory of the graphics card or the graphics processor.
[0041] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). [0041] RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
[0042] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD- R/RW, DVD-R/RW, BlueRay Disc, MD) и др. [0042] ROM (203) is one or more persistent storage devices such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
[0043] Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/ Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0043] Various types of I / O interfaces (204) are used to organize the operation of the components of the device (200) and to organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0044] Для обеспечения взаимодействия пользователя с вычислительным устройством (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0044] To ensure user interaction with the computing device (200), various I / O means (205) are used, for example, a keyboard, display (monitor), touch display, touch-pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
[0045] Средство сетевого взаимодействия (206) обеспечивает передачу данных устройством (200) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0045] The networking means (206) allows the device (200) to transmit data via an internal or external computer network, for example, Intranet, Internet, LAN, and the like. One or more means (206) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, and dr.
[0046] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0046] In addition, satellite navigation means can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.
[0047] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. [0047] The presented application materials disclose preferred examples of implementation of the technical solution and should not be construed as limiting other, particular examples of its implementation, not going beyond the scope of the claimed legal protection, which are obvious to specialists in the relevant field of technology.

Claims

ФОРМУЛА FORMULA
1. Компьютерно-реализуемый способ определения схожести векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых: 1. A computer-implemented method for determining the similarity of vector representations of transaction participants, performed using a processor and containing stages at which:
• получают данные транзакций, содержащие по меньшей мере идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие ГО устройств, используемых упомянутыми участниками транзакций; • receive transaction data containing at least the identification data of the senders and recipients of the transactions, and data of the transaction execution devices, including the GO of the devices used by the said participants in the transactions;
• формируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций; • form on the basis of the received data chains of transactional activities, and each of the chains refers to the transactions of one participant in the transactions between the transaction devices;
• осуществляют формирование векторных представлений устройств осуществления транзакций с помощью преобразования упомянутых цепочек транзакционных активностей; • carry out the formation of vector representations of devices for carrying out transactions by transforming the mentioned chains of transactional activities;
• определяют медиану среди полученных значений векторных представлений устройств для осуществления транзакций для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции; • determine the median among the obtained values of the vector representations of devices for carrying out transactions for each participant in the transaction and form its vector representation based on the average value of the vector representations of the chain of associated transaction devices;
• выполняют расчет косинусного расстояния между усредненными векторными представлениями участников транзакций, причем участники являются связанными отправителем и получателем транзакции; и • calculating the cosine distance between the averaged vector representations of the participants in the transactions, and the participants are the associated sender and receiver of the transaction; and
• определяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусной близости. • determine the vector distance between the mentioned participants in the transactions based on the value of the cosine proximity.
2. Способ по п.1, характеризующийся тем, что устройство осуществления транзакций представляет собой банкомат и/или POS-терминал. 2. A method according to claim 1, characterized in that the transaction device is an ATM and / or POS terminal.
3. Способ по п.1, характеризующийся тем, что данные транзакций характеризуют р2р переводы. 3. The method according to claim 1, characterized in that the transaction data characterize p2p transfers.
4. Система определения схожести векторных представлений участников транзакций, содержащая по меньшей мере один процессор и память, хранящую машиночитаемые инструкции, которые при их исполнении процессором реализуют способ по любому из пп. 1-3. 4. A system for determining the similarity of vector representations of participants in transactions, containing at least one processor and memory storing machine-readable instructions, which, when executed by the processor, implement the method according to any one of claims. 1-3.
PCT/RU2019/000376 2019-05-28 2019-05-28 Method and system for determining the similarity of vector representations of transaction participants WO2020242337A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2019116394A RU2728953C1 (en) 2019-05-28 2019-05-28 Method and system for determining similarity of vector representations of transaction participants
RU2019116394 2019-05-28

Publications (1)

Publication Number Publication Date
WO2020242337A1 true WO2020242337A1 (en) 2020-12-03

Family

ID=72085346

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000376 WO2020242337A1 (en) 2019-05-28 2019-05-28 Method and system for determining the similarity of vector representations of transaction participants

Country Status (3)

Country Link
EA (1) EA201991626A1 (en)
RU (1) RU2728953C1 (en)
WO (1) WO2020242337A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2510891C2 (en) * 2007-12-31 2014-04-10 Мастеркард Интернешнл Инкорпорейтед Method and device for system used for forecasting of group trade
US20170169033A1 (en) * 2015-12-14 2017-06-15 Dhristi Inc. System and method for targeted data extraction using unstructured work data
RU2623802C2 (en) * 2007-12-31 2017-06-29 Мастеркард Интернешнл Инкорпорейтед Methods and systems for approximate comparing strings in database
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2510891C2 (en) * 2007-12-31 2014-04-10 Мастеркард Интернешнл Инкорпорейтед Method and device for system used for forecasting of group trade
RU2623802C2 (en) * 2007-12-31 2017-06-29 Мастеркард Интернешнл Инкорпорейтед Methods and systems for approximate comparing strings in database
US20170169033A1 (en) * 2015-12-14 2017-06-15 Dhristi Inc. System and method for targeted data extraction using unstructured work data
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data

Also Published As

Publication number Publication date
EA201991626A1 (en) 2020-11-30
RU2728953C1 (en) 2020-08-03

Similar Documents

Publication Publication Date Title
Wang et al. Ponzi scheme detection via oversampling-based long short-term memory for smart contracts
US20180232739A1 (en) Systems and methods for biometric transaction management
US20140067656A1 (en) Method and system for fraud risk estimation based on social media information
US20190073714A1 (en) System and method for issuing a loan to a consumer determined to be creditworthy onto a transaction card
US11288674B2 (en) System, method, and computer program product for determining fraud rules
Fang et al. Credit Card Fraud Detection Based on Machine Learning.
US20220284435A1 (en) System, Method, and Computer Program Product for Determining a Reason for a Deep Learning Model Output
US20210209604A1 (en) Method, System, and Computer Program Product for Detecting Group Activities in a Network
KR102142524B1 (en) Method, apparatus and computer program for forecasting cryptocurrency cost variability using artificial intelligence
CN111428872A (en) Systems, methods, and computer program products for incorporating knowledge from more complex models into simpler models
CN115170319A (en) Abnormal account detection method, and method and device for constructing graph neural network model
Reardon et al. Visualization of ATM usage patterns to detect counterfeit cards usage
Lokanan Predicting mobile money transaction fraud using machine learning algorithms
US10049306B2 (en) System and method for learning from the images of raw data
Iscan et al. Wallet-based transaction fraud prevention through LightGBM with the focus on minimizing false alarms
RU2728953C1 (en) Method and system for determining similarity of vector representations of transaction participants
Deepa et al. Survey paper for credit card fraud detection using data mining techniques
EA041011B1 (en) METHOD AND SYSTEM FOR DETERMINING LEGITIMACY OF TRANSACTIONS BASED ON VECTOR REPRESENTATIONS OF TRANSACTION PARTICIPANTS
RU2699577C1 (en) Fraudulent transactions search method and system
Xu et al. An ensemble fraud detection approach for online loans based on application usage patterns
Zand Towards intelligent risk-based customer segmentation in banking
Lee A data mining approach using transaction patterns for card fraud detection
KR102112798B1 (en) Method, apparatus and computer program for clustering cryptocurrency accounts using artificial intelligence
RU2769084C2 (en) Method and system for finding similar fraudulent groups based on graph models
Shivraman et al. A Model Frame Work To Segregate Clusters Through K-Means Method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19931304

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19931304

Country of ref document: EP

Kind code of ref document: A1