RU2728953C1 - Method and system for determining similarity of vector representations of transaction participants - Google Patents

Method and system for determining similarity of vector representations of transaction participants Download PDF

Info

Publication number
RU2728953C1
RU2728953C1 RU2019116394A RU2019116394A RU2728953C1 RU 2728953 C1 RU2728953 C1 RU 2728953C1 RU 2019116394 A RU2019116394 A RU 2019116394A RU 2019116394 A RU2019116394 A RU 2019116394A RU 2728953 C1 RU2728953 C1 RU 2728953C1
Authority
RU
Russia
Prior art keywords
transaction
transactions
participants
devices
vector representations
Prior art date
Application number
RU2019116394A
Other languages
Russian (ru)
Inventor
Дмитрий Андреевич Андреев
Андрей Михайлович Пинчук
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority to PCT/RU2019/000376 priority Critical patent/WO2020242337A1/en
Priority to RU2019116394A priority patent/RU2728953C1/en
Priority to EA201991626A priority patent/EA201991626A1/en
Application granted granted Critical
Publication of RU2728953C1 publication Critical patent/RU2728953C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: data processing.
SUBSTANCE: invention relates to a method and system for determining similarity of vector representations of transaction participants. Method comprises steps of: obtaining transaction data and transaction device data; form chains of transactional activities, wherein each of the chains relates to transactions of one transaction participant; generating vector representations of devices for performing transactions by converting chains of transaction activities; determining a median among the obtained values of vector representations of devices for performing transactions for each participant of the transaction and forming its vector representation based on the averaged value of the vector representations of the chain of associated devices of the transaction; calculating cosine distance between averaged vector representations of transaction participants, wherein participants are associated sender and recipient of transaction; and determining the vector distance between said transaction participants based on the cosine adjacency value.
EFFECT: technical result consists in improvement of accuracy of location of clients based on transaction data without using geographical coordinates.
4 cl, 4 dwg, 2 tbl

Description

ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY

[0001] Заявленное решение относится, в общем, к области обработки данных, а в частности к способу и системе определения схожести векторных представлений участников транзакций.[0001] The claimed solution relates generally to the field of data processing, and in particular to a method and system for determining the similarity of vector representations of participants in transactions.

УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY

[0002] В настоящее время в наибольшем количестве случаев мошенничества в качестве канала вывода средств используются переводы на платежные карты (дебетовые или кредитные). Для эффективного противодействия мошенничеству, в частности с учетом доминирующего типа мошенничества «самопереводы», важной является задача определения пространственной геопозиционной близости клиентов, совершающих транзакционные переводы, т.е. анализ их фактического расположения в той или иной географической области.[0002] Currently, in the largest number of cases of fraud, transfers to payment cards (debit or credit) are used as a withdrawal channel. For effective counteraction to fraud, in particular, taking into account the dominant type of “self-translation” fraud, it is important to determine the spatial geo-positional proximity of clients making transactional transfers, i.e. analysis of their actual location in a particular geographic area.

[0003] Поскольку в большинстве случаев мошенники не знают территориальной принадлежности клиента и не могут подобрать мошеннические карты вывода из той же локации, то осуществляют вывод денежных средств на доступные «дроперские» платежные карты. При этом легитимные переводы в основном происходят между клиентами из близкой геолокации (покупка товаров, оплата оказанных р2р услуг, перевод знакомым и пр.). Информация, позволяющая определить насколько отправитель и получатель близки относительно их геопозиций, поможет повысить качество моделей выявления мошенничества.[0003] Since in most cases the fraudsters do not know the territorial affiliation of the customer and cannot pick up fraudulent withdrawal cards from the same location, they withdraw funds to available "dropper" payment cards. At the same time, legitimate transfers mainly occur between clients from a close geolocation (purchase of goods, payment for rendered p2p services, transfer to friends, etc.). Information that allows you to determine how close the sender and receiver are in their geo-location will help improve the quality of fraud detection models.

[0004] Известные подходы основываются, например, на привязке клиентов к тому или иному территориально расположенному банку и/или геоданные POS-терминалов/УС (банкоматов), в которых клиент пользуется платежной картой, и использовать их для определения геолокации клиента. Такие решения, например, раскрываются в следующих патентных документах: US 20120215701 A1 (Playspan Inc., 23.08.2012), US 20190043054 A1 (Capital One Services LLC, 07.02.2019), US 20120209773 A1 (PayPal Inc., 16.08.2012).[0004] Known approaches are based, for example, on linking clients to one or another geographically located bank and / or geodata of POS terminals / CS (ATMs) in which the client uses a payment card, and use them to determine the geolocation of the client. Such solutions, for example, are disclosed in the following patent documents: US 20120215701 A1 (Playspan Inc., 08/23/2012), US 20190043054 A1 (Capital One Services LLC, 02/07/2019), US 20120209773 A1 (PayPal Inc., 08/16/2012) ...

[0005] Известный подход обладает следующими недостатками:\[0005] The known approach has the following disadvantages: \

Figure 00000001
Территориальная принадлежность банка - очень обширная территория, поэтому сильно возрастает шанс, что карта вывода мошенников окажется из того же территориального банка;
Figure 00000001
The territorial affiliation of the bank is a very vast territory, therefore, the chance that the withdrawal card of fraudsters will end up from the same territorial bank greatly increases;

Figure 00000001
POS - геоданные по POS терминалам отсутствуют, есть только информация по мерчанту-арендатору и его юридический адрес/индекс. Данная информация для крупных сетей не позволяет установить местонахождение POS-терминалов, также реально они могут самим мерчантом перемещаться в другие города/регионы без информирования об этом банка;
Figure 00000001
POS - there is no geodata for POS terminals, there is only information on the merchant-tenant and its legal address / zip code. This information for large networks does not allow to establish the location of POS terminals; also, in reality, they can move to other cities / regions by the merchant himself without informing the bank about it;

Figure 00000001
Банкомат - по данной категории информация представлена наиболее полно. Проблема заключается в том, что не все клиенты при осуществлении транзакций пользуются банкоматами.
Figure 00000001
ATM - information on this category is presented most fully. The problem is that not all customers use ATMs when making transactions.

[0006] Таким образом, необходимо разработать эффективный механизм определения геопозиционной близости участников транзакций без использования географических координат.[0006] Thus, it is necessary to develop an effective mechanism for determining the geo-location proximity of transaction participants without using geographic coordinates.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION

[0007] Решаемой технической проблемой или технической задачей является определение геопозиционной близости между участниками транзакции на основании их векторных представлений.[0007] The technical problem or technical problem to be solved is to determine the geo-positional proximity between the participants in the transaction based on their vector representations.

[0008] Техническим результатом является обеспечение возможности определения местоположения клиентов на основании данных о транзакции без использования географических координат.[0008] The technical result is to provide the ability to determine the location of customers based on transaction data without using geographic coordinates.

[0009] Основной задачей заявленного способа является представление участников транзакции в виде векторов, позволяющих определить близость/удаленность участников (отправителей и получателей платежей) за счет преобразования их данных в векторную форму и определению векторной близости (например, cosine similarity) и использование данной информации в моделях оценки риска транзакций.[0009] The main objective of the claimed method is to represent the participants in the transaction in the form of vectors, allowing to determine the proximity / remoteness of the participants (senders and recipients of payments) by converting their data into vector form and determining the vector proximity (for example, cosine similarity) and using this information in models for assessing the risk of transactions.

[0010] Заявленный результат достигается за счет компьютерно-реализуемого способа определения схожести векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых:[0010] The claimed result is achieved due to a computer-implemented method for determining the similarity of vector representations of transaction participants, performed using a processor and containing the steps at which:

- получают данные транзакций, содержащие по меньшей мере идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие ID устройств, используемых упомянутыми участниками транзакций;- receive transaction data containing at least identification data of senders and recipients of transactions, and data of devices for carrying out transactions, including IDs of devices used by said participants in transactions;

- формируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций;- form on the basis of the received data chains of transactional activities, and each of the chains refers to the transactions of one participant in the transactions between the transaction devices;

- осуществляют формирование векторных сущностей с помощью преобразования упомянутых цепочек транзакционных активностей, причем упомянутые сущности содержат представления устройств осуществления транзакций;- carry out the formation of vector entities by transforming said chains of transactional activities, and said entities contain representations of devices for carrying out transactions;

- определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторную сущность на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции;- determine the median among the values of the vector representation for each participant in the transaction and form its vector essence on the basis of the average value of the vector representations of the chain of associated transaction devices;

- выполняют расчет косинусного расстояния между векторным представлением участников транзакций, причем участники являются связанными отправителем и получателем транзакции; и- the calculation of the cosine distance between the vector representation of the participants in the transactions is performed, and the participants are connected by the sender and receiver of the transaction; and

- определяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусной близости.- determine the vector distance between the mentioned participants in the transactions based on the value of the cosine proximity.

[0011] В одном из частных вариантов осуществления способа устройства осуществления транзакций представляют собой банкомат и/или POS-терминал.[0011] In one particular embodiment of the method, the transaction devices are an ATM and / or POS terminal.

[0012] В другом частном варианте осуществления способа данные транзакций характеризуют р2р переводы.[0012] In another particular embodiment of the method, the transaction data is representative of p2p transfers.

[0013] Заявленный результат также реализуется за счет системы определения схожести векторных представлений участников транзакций, которая содержит по меньшей мере один процессор и память, хранящую машиночитаемые инструкции, которые при их исполнении процессором реализуют вышеуказанный способ.[0013] The claimed result is also realized by a system for determining the similarity of vector representations of transaction participants, which contains at least one processor and memory storing machine-readable instructions, which, when executed by the processor, implement the above method.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF DRAWINGS

[0014] Фиг. 1 иллюстрирует блок-схемы процесса выполнения заявленного способа.[0014] FIG. 1 illustrates flowcharts of a process for performing the claimed method.

[0015] Фиг. 2 иллюстрирует пример валидации тестовой выборки.[0015] FIG. 2 illustrates an example of validation of a test sample.

[0016] Фиг. 3 иллюстрирует график распределения типов транзакций.[0016] FIG. 3 illustrates a graph of the distribution of transaction types.

[0017] Фиг. 4 иллюстрирует пример вычислительной системы.[0017] FIG. 4 illustrates an example of a computing system.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯCARRYING OUT THE INVENTION

[0018] На Фиг. 1 представлен процесс исполнения заявленного способа (100) определения схожести векторных представлений участников транзакций. Под участниками транзакций понимаются лица, осуществляющие транзакционные переводы типа «клиент-клиент» (р2р).[0018] FIG. 1 shows the execution process of the claimed method (100) for determining the similarity of vector representations of transaction participants. Transaction participants are understood as persons making transactional transfers of the "client-to-client" (p2p) type.

[0019] На первом этапе (101) выполнения способа (100) осуществляется сбор транзакционных данных, которые содержат информацию о транзакционной активности клиентов (покупки товаров, переводы, оплата услуг, снятие наличных и пр.). Каждый транзакционный перевод, как правило, характеризуется информацией, идентифицирующей отправителя перевода и ID устройства для осуществления транзакции, в качестве которых может использоваться POS-терминал или банкомат. Дополнительно может учитываться информация об IP-адресах устройств осуществления транзакций.[0019] At the first step (101) of the method (100), transaction data is collected, which contains information about the transactional activity of customers (purchases of goods, transfers, payment for services, cash withdrawals, etc.). Each transactional transfer, as a rule, is characterized by information identifying the sender of the transfer and the ID of the device for making the transaction, which can be a POS terminal or ATM. Additionally, information about the IP addresses of the transaction devices can be taken into account.

[0020] Затем на основании полученной информации на этапе (101) формируют цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций (102). По транзакционной информации для каждого клиента известна последовательность устройств для осуществления транзакций, которые используются для осуществления операций, например:[0020] Then, based on the information obtained at step (101), chains of transactional activities are generated, each of the chains being related to transactions of one transaction participant between transaction devices (102). Based on the transaction information for each client, the sequence of devices for carrying out transactions is known, which are used to carry out operations, for example:

Клиент 1 - (POS_1, POS_2, POS_3, АТМ_5);Client 1 - (POS_1, POS_2, POS_3, ATM_5);

Клиент 2 - (АТМ_1, PO S_10, POES_2, АТМ_4).Client 2 - (ATM_1, PO S_10, POES_2, ATM_4).

[0021] Далее с помощью модели машинного обучения осуществляется векторизация ID устройств для каждой цепочки транзакционной активности (103) для формирования векторных представлений ID устройств, которые используются клиентами в ходе выполнения транзакций.[0021] Next, using a machine learning model, device IDs are vectorized for each chain of transactional activity (103) to generate vector representations of device IDs that are used by clients during transactions.

[0022] В данной задаче используется модель семейства векторного преобразования word2vec, в частности Continuous Bag of Words (CBOW), которая широко применяется в задачах NLP. Суть алгоритма заключается в том, что на вход нейронной сети с одним скрытым слоем и выходным слоем подается контекст какого-либо слова, а целевой переменной для оптимизации при этом является само слово. Таким образом, модель учится предсказывать слово по данному контексту.[0022] This task uses the word2vec vector transformation family model, in particular Continuous Bag of Words (CBOW), which is widely used in NLP problems. The essence of the algorithm is that the context of a word is fed to the input of a neural network with one hidden layer and an output layer, and the target variable for optimization is the word itself. Thus, the model learns to predict the word from the given context.

[0023] Скрытый слой обученной модели используется как эмбеддинг (англ. Word embedding - (векторное) представление слова), который на практике показал хорошую способность обобщать взаимоотношения между словами корпуса. В данном случае в качестве «слов» выступают векторные представления устройств для выполнения транзакций: POS/УС (устройства самообслуживания), а «предложений» последовательность устройств, которые использует один пользователь. Под УС в данном контексте будут пониматься банкоматы.[0023] The hidden layer of the trained model is used as an embedding, which in practice has shown a good ability to generalize the relationship between words in the corpus. In this case, the “words” are vector representations of devices for performing transactions: POS / CS (self-service devices), and “offers” are a sequence of devices used by one user. In this context, CA will mean ATMs.

[0024] Для обучающей выборки модели машинного обучения были выбраны операции в УС и POS-терминалах на подвыборке из пользователей за определенный временной промежуток, в частности 1 месяц. Сэмплирование проводилось по пользователям, соответственно, если пользователь попадает в выборку, то все его УС и POS, которые он использовал для выполнения транзакций, используются для обучения модели. Точки пользователя были упорядочены по времени, и если точка использовалась два или более раз подряд, то повторные использования удалялись, но если эта точка использовалась дальше, после другой точки, то она оставалась в выборке. Например:[0024] For the training set of the machine learning model, operations in the CS and POS terminals were selected on a subsample of users for a certain time period, in particular, 1 month. Sampling was carried out by users, respectively, if a user is included in the sample, then all his CA and POS, which he used to perform transactions, are used to train the model. User points were ordered by time, and if a point was used two or more times in a row, then reuse was deleted, but if this point was used further, after another point, then it remained in the selection. For example:

Исходная последовательность точек: А ->А ->С ->А ->В ->ВInitial sequence of points: A -> A -> C -> A -> B -> B

Последовательность после обработки: А ->С ->А ->ВThe sequence after processing: A -> C -> A -> B

[0025] Представленный выше пример цепочки используемых ID устройств в векторной форме будет выглядеть следующим образом:[0025] The above example of a chain of used device IDs in vector form would look like this:

POS_1=(1,1,1);POS_1 = (1,1,1);

POS_2=(2,0,5);POS_2 = (2,0,5);

POS_10=(1,0,0);POS_10 = (1,0,0);

АТМ_1=(3,3,3);ATM_1 = (3,3,3);

АТМ_4=(1,1,1);ATM_4 = (1,1,1);

АТМ_5=(0,1,4).ATM_5 = (0,1,4).

[0026] После преобразования ID устройств для осуществления транзакций в векторную форму, на этапе (104) определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним ID устройств осуществления транзакций.[0026] After converting the IDs of the transaction devices into vector form, at step (104), the median among the values of the vector representation for each participant in the transaction is determined and its vector representation is formed based on the average value of the vector representations of the chain of associated IDs of the transaction devices.

[0027] Для каждого клиента соответствующая цепочка транзакционной активности приобретает следующий вид: Клиент 1=((1,1,1), (2,0,5), (1,1,1), (0,1,4)).[0027] For each client, the corresponding chain of transactional activity takes the following form: Client 1 = ((1,1,1), (2,0,5), (1,1,1), (0,1,4)) ...

На основании полученного векторного представления в виде цепочки транзакционной активности осуществляется покоординатное усреднение через медиану. Для приведенного выше примера усредненное значение будет представлено в виде вектора (1,1,2.5).On the basis of the obtained vector representation in the form of a chain of transactional activity, coordinate-wise averaging through the median is carried out. For the above example, the average value will be represented as a vector (1,1,2.5).

[0028] На основании сформированных цепочек производится трансформация представлений (POS/ATM, IP-адреса) в пространство латентных переменных, в котором косинусная близость усредненных по медиане векторов, описывающих клиентов, определяет их пространственную близость (105), т.е. близость в векторном пространстве между отправителями и получателями транзакции.[0028] Based on the formed chains, the representations (POS / ATM, IP addresses) are transformed into the space of latent variables, in which the cosine proximity of the vectors averaged over the median describing the clients determines their spatial proximity (105), i.e. proximity in vector space between senders and recipients of a transaction.

[0029] Ниже будет представлен пример вычисления соответствующих векторов.[0029] An example of calculating the corresponding vectors will be presented below.

Пример:Example:

Клиент 1=(1,1,2.5).Customer 1 = (1,1,2.5).

Клиент 2=(1,1.2,2.1).Client 2 = (1,1.2,2.1).

Клиент 3=(4,0,0.3)Customer 3 = (4,0,0.3)

cosine distance=1 - cosine similaritycosine distance = 1 - cosine similarity

cosine distance Клиент 1 - Клиент 2=1-(1*1+1*1,2+2,5*2,1)/(2,87*2,62)=1-0,99=0,01cosine distance Client 1 - Client 2 = 1- (1 * 1 + 1 * 1.2 + 2.5 * 2.1) / (2.87 * 2.62) = 1-0.99 = 0.01

cosine distance Клиент 1 - Клиент 3=1-(1*4+1*0+2,5*0,3)/(2,87*4,01)=1-0,41=0,59.cosine distance Client 1 - Client 3 = 1- (1 * 4 + 1 * 0 + 2.5 * 0.3) / (2.87 * 4.01) = 1-0.41 = 0.59.

[0030] Из приведенного примера видно, что Клиент 1 и Клиент 2 с точки зрения косинусного расстояния расположены гораздо ближе друг к другу по сравнению с Клиентом 1 и Клиентом 3. Следовательно, геопозиционная близость и паттерн поведения Клиента 1 и Клиента 2 достаточно близки, из чего можно судить, что транзакции между ними будут более легитимными по сравнению с транзакциями между Клиентом 1 и Клиентом 3.[0030] From the above example, it can be seen that Client 1 and Client 2 in terms of cosine distance are located much closer to each other compared to Client 1 and Client 3. Therefore, the geo-positional proximity and behavior pattern of Client 1 and Client 2 are quite close, from which can be judged that transactions between them will be more legitimate compared to transactions between Client 1 and Client 3.

[0031] Алгоритм формирования векторных представлений пользователей на основании векторных представлений устройств для выполнения транзакций позволяет вычислить embedding-вектора самого пользователя - участника транзакции, чтобы косинусная близость векторов пользователей отвечала их геолокационной близости. Таким образом, данную информацию можно впоследствии использовать для анализа транзакционной мошеннической активности.[0031] The algorithm for generating vector representations of users based on vector representations of devices for performing transactions allows calculating the embedding vectors of the user himself - the participant in the transaction so that the cosine proximity of the users' vectors corresponds to their geolocation proximity. Thus, this information can then be used to analyze transactional fraudulent activity.

[0032] Далее рассмотрим процесс валидации выборки модели машинного обучения, представленный на Фиг. 2. Для быстрой валидации обученных векторных представлений был использован следующий алгоритм: бралось случайное УС (по которому доступны координаты), и искались ближайшие к нему соседи УС по векторному представлению (эмбеддингу). Точка и соседи визуализировались на карте по их геокоординатам. Аналогично по этим же начальным точкам строились самые удаленные УС. Процесс повторялся для нескольких десятков точек. Такая валидация позволяла наглядно оценить, насколько близко на географической карте лежат друг к другу точки, которые близки на эмбеддинге.[0032] Next, consider the process for validating a sample of a machine learning model shown in FIG. 2. For a quick validation of the trained vector representations, the following algorithm was used: a random US was taken (according to which coordinates are available), and the nearest neighbors of the US were searched for by the vector representation (embedding). The point and neighbors were visualized on the map by their geocoordinates. Similarly, the most distant RS were constructed using the same initial points. The process was repeated for several dozen points. This validation made it possible to visually assess how close the points on the geographic map lie to each other that are close to each other on the embedding.

[0033] Второй вариант проверки - это использование эмбеддинга по УС/POS для расчета расстояния между пользователями и подсчет статистик по этому расстоянию для анализа ложных срабатываний системы фрод-мониторинга (легитимные транзакции) и мошеннических операций. Расстояние между пользователями считалось по следующему алгоритму:[0033] The second verification option is the use of US / POS embedding to calculate the distance between users and calculating statistics on this distance to analyze false positives of the fraud monitoring system (legitimate transactions) and fraudulent transactions. The distance between users was calculated using the following algorithm:

1) Ко всем устройствам, которые использовал пользователь присоединялись рассчитанные измерения эмбеддинга (если по какому-то из устройств эмбедцинг отсутствовал, то он удалялся);1) The calculated embedding measurements were attached to all devices that the user used (if there was no embedding for some of the devices, then it was deleted);

2) По измерениям эмбеддинга бралась медиана для каждого пользователя;2) The median for each user was taken according to the measurements of embedding;

3) По медиане эмбеддинга измерялось косинусное расстояние между пользователями.3) The cosine distance between users was measured using the embedding median.

[0034] Далее по рассчитанному расстоянию брались перцентили с шагом 5 для операций с маркировкой F (мошенничество), G ложные сработки (легитимные). Для заданного диапазона валидационного периода, например, 1 месяц, была получена следующая статистика, представленная в Таблице 1.[0034] Further, according to the calculated distance, percentiles were taken with a step of 5 for operations marked F (fraud), G false positives (legitimate). For a given range of the validation period, for example, 1 month, the following statistics were obtained, presented in Table 1.

Figure 00000002
Figure 00000002

Figure 00000003
Figure 00000003

[0035] Из приведенного выше примера следует, что, если установить значения порога допустимости для легитимных операций, например, расстояние в 0.44, то таким образом будет заблокировано 85% мошеннических операций, но при этом ложные срабатывания можно сократить на более чем 40%, что показывает хорошую разделяющую способность данной метрики.[0035] From the above example, it follows that if you set the threshold values for legitimate transactions, for example, a distance of 0.44, then 85% of fraudulent transactions will be blocked, but at the same time false positives can be reduced by more than 40%, which shows the good separating power of the given metric.

[0036] Если расстояния по всей выборке разбить на бины и потом проанализировать соотношение мошеннических операций к легитимным (ложные срабатывания), то будет видно, что с увеличением дистанции увеличивается количество мошеннических операций и их доля в бине (Таблица 2). Пример графика представлен на Фиг. 3.[0036] If the distances across the entire sample are divided into bins and then the ratio of fraudulent operations to legitimate ones (false positives) is analyzed, it will be seen that with increasing distance the number of fraudulent operations and their proportion in the bin increases (Table 2). An example of a graph is shown in FIG. 3.

Figure 00000004
Figure 00000004

[0037] В результате реализации заявленного способа (100) был создан эффективный принцип представления и обработки данных для определения геоблизости клиентов без использования геокоординат. Также, использование полученных данных может применяться для целей анализа и противодействия мошенническим операциям.[0037] As a result of the implementation of the claimed method (100), an effective principle of data presentation and processing was created to determine the geo-proximity of clients without using geo-coordinates. Also, the use of the received data can be used for the purposes of analysis and counteraction to fraudulent transactions.

[0038] На Фиг. 4 представлен пример общего вида вычислительной системы (200) на базе вычислительного устройства (200), которое обеспечивает реализацию заявленного способа или является частью компьютерной системы, например, сервером, обрабатывающим необходимые данные для осуществления способа (100).[0038] FIG. 4 shows an example of a general view of a computing system (200) based on a computing device (200) that implements the claimed method or is part of a computer system, for example, a server that processes the necessary data to implement the method (100).

[0039] В общем случае, вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206).[0039] In the General case, the computing device (200) contains one or more processors (201) united by a common bus of information exchange, memory means such as RAM (202) and ROM (203), input / output interfaces (204), devices input / output (205), and a device for networking (206).

[0040] Процессор (201) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором также необходимо учитывать графический процессор, например, GPU NVIDIA или ATI, который также является пригодным для полного или частичного выполнения способа (100). При этом, средством памяти может выступать доступный объем памяти графической карты или графического процессора.[0040] The processor (201) (or multiple processors, multi-core processor) can be selected from a range of devices currently widely used, for example, Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™ and etc. Under the processor, it is also necessary to take into account a graphics processor, for example, an NVIDIA or ATI GPU, which is also suitable for complete or partial execution of the method (100). In this case, the memory means can be the available memory of the graphics card or graphics processor.

[0041] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).[0041] RAM (202) is a random access memory and is intended for storing machine-readable instructions executed by the processor (201) for performing the necessary operations for logical data processing. RAM (202), as a rule, contains executable instructions of the operating system and corresponding software components (applications, program modules, etc.).

[0042] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.[0042] ROM (203) is one or more persistent storage devices, such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.

[0043] Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.[0044] Для обеспечения взаимодействия пользователя с вычислительным устройством (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.[0043] Various types of I / O interfaces (204) are used to organize the operation of the components of the device (200) and to organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific design of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc. [0044] To ensure user interaction with the computing device (200), various means (205) of I / O information are used, for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.

[0045] Средство сетевого взаимодействия (206) обеспечивает передачу данных устройством (200) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п.В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.[0045] The means of networking (206) allows the device (200) to transmit data via an internal or external computer network, for example, Intranet, Internet, LAN, etc. One or more means (206) may be used, but not limited to : Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module, etc.

[0046] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например, GPS, ГЛОНАСС, BeiDou, Galileo.[0046] Additionally, satellite navigation aids can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.

[0047] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.[0047] The presented application materials disclose preferred examples of the implementation of the technical solution and should not be construed as limiting other, particular examples of its implementation, not going beyond the scope of the claimed legal protection, which are obvious to specialists in the relevant field of technology.

Claims (10)

1. Компьютерно-реализуемый способ определения схожести векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых:1. A computer-implemented method for determining the similarity of vector representations of transaction participants, performed using a processor and containing the stages at which:
Figure 00000005
получают данные транзакций, содержащие по меньшей мере идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие ID устройств, используемых упомянутыми участниками транзакций;
Figure 00000005
receiving transaction data containing at least identification data of senders and recipients of transactions, and data of devices for carrying out transactions, including IDs of devices used by said participants in transactions;
Figure 00000005
формируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций;
Figure 00000005
forming on the basis of the received data a chain of transactional activities, and each of the chains refers to the transactions of one participant in the transactions between the transaction devices;
Figure 00000005
осуществляют формирование векторных представлений устройств осуществления транзакций с помощью преобразования упомянутых цепочек транзакционных активностей;
Figure 00000005
carry out the formation of vector representations of devices for carrying out transactions by transforming the above-mentioned chains of transactional activities;
Figure 00000005
определяют медиану среди полученных значений векторных представлений устройств для осуществления транзакций для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции;
Figure 00000005
determining the median among the obtained values of the vector representations of devices for carrying out transactions for each participant in the transaction and forming its vector representation based on the average value of the vector representations of the chain of associated transaction devices;
Figure 00000005
выполняют расчет косинусного расстояния между усредненными векторными представлениями участников транзакций, причем участники являются связанными отправителем и получателем транзакции; и
Figure 00000005
calculating the cosine distance between the averaged vector representations of the participants in the transactions, and the participants are associated sender and receiver of the transaction; and
Figure 00000005
определяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусной близости.
Figure 00000005
determine the vector distance between the mentioned participants in the transactions based on the value of the cosine proximity.
2. Способ по п. 1, характеризующийся тем, что устройство осуществления транзакций представляет собой банкомат и/или POS-терминал.2. A method according to claim 1, characterized in that the transaction device is an ATM and / or a POS terminal. 3. Способ по п. 1, характеризующийся тем, что данные транзакций характеризуют р2р переводы.3. The method according to claim 1, characterized in that the transaction data characterize p2p transfers. 4. Система определения схожести векторных представлений участников транзакций, содержащая по меньшей мере один процессор и память, хранящую машиночитаемые инструкции, которые при их исполнении процессором реализуют способ по любому из пп. 1-3.4. The system for determining the similarity of vector representations of participants in transactions, containing at least one processor and memory storing machine-readable instructions, which, when executed by the processor, implement the method according to any one of claims. 1-3.
RU2019116394A 2019-05-28 2019-05-28 Method and system for determining similarity of vector representations of transaction participants RU2728953C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/RU2019/000376 WO2020242337A1 (en) 2019-05-28 2019-05-28 Method and system for determining the similarity of vector representations of transaction participants
RU2019116394A RU2728953C1 (en) 2019-05-28 2019-05-28 Method and system for determining similarity of vector representations of transaction participants
EA201991626A EA201991626A1 (en) 2019-05-28 2019-07-31 METHOD AND SYSTEM FOR DETERMINING THE SIMILARITY OF VECTOR REPRESENTATIONS OF TRANSACTION PARTICIPANTS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019116394A RU2728953C1 (en) 2019-05-28 2019-05-28 Method and system for determining similarity of vector representations of transaction participants

Publications (1)

Publication Number Publication Date
RU2728953C1 true RU2728953C1 (en) 2020-08-03

Family

ID=72085346

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019116394A RU2728953C1 (en) 2019-05-28 2019-05-28 Method and system for determining similarity of vector representations of transaction participants

Country Status (3)

Country Link
EA (1) EA201991626A1 (en)
RU (1) RU2728953C1 (en)
WO (1) WO2020242337A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2510891C2 (en) * 2007-12-31 2014-04-10 Мастеркард Интернешнл Инкорпорейтед Method and device for system used for forecasting of group trade
US20170169033A1 (en) * 2015-12-14 2017-06-15 Dhristi Inc. System and method for targeted data extraction using unstructured work data
RU2623802C2 (en) * 2007-12-31 2017-06-29 Мастеркард Интернешнл Инкорпорейтед Methods and systems for approximate comparing strings in database
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2510891C2 (en) * 2007-12-31 2014-04-10 Мастеркард Интернешнл Инкорпорейтед Method and device for system used for forecasting of group trade
RU2623802C2 (en) * 2007-12-31 2017-06-29 Мастеркард Интернешнл Инкорпорейтед Methods and systems for approximate comparing strings in database
US20170169033A1 (en) * 2015-12-14 2017-06-15 Dhristi Inc. System and method for targeted data extraction using unstructured work data
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data

Also Published As

Publication number Publication date
EA201991626A1 (en) 2020-11-30
WO2020242337A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
CN106803168B (en) Abnormal transfer detection method and device
US20140067656A1 (en) Method and system for fraud risk estimation based on social media information
US20180232739A1 (en) Systems and methods for biometric transaction management
US11900383B2 (en) System, method, and computer program product for determining fraud rules
US20220284435A1 (en) System, Method, and Computer Program Product for Determining a Reason for a Deep Learning Model Output
US11538044B2 (en) System and method for generation of case-based data for training machine learning classifiers
US20240013235A1 (en) Method, System, and Computer Program Product for Fraud Prevention Using Deep Learning and Survival Models
KR102142524B1 (en) Method, apparatus and computer program for forecasting cryptocurrency cost variability using artificial intelligence
CN113469789A (en) Abnormal order detection method and device and computer equipment
CN114691932A (en) System, method and computer program product for generating synthetic data
Lokanan Predicting mobile money transaction fraud using machine learning algorithms
Reardon et al. Visualization of ATM usage patterns to detect counterfeit cards usage
US10049306B2 (en) System and method for learning from the images of raw data
RU2728953C1 (en) Method and system for determining similarity of vector representations of transaction participants
Rofianti et al. Factors that Affect the Intention to Use Mobile Banking in Sharia Banks
Oprea et al. Is Bitcoin ready to be a widespread payment method? Using price volatility and setting strategies for merchants
WO2020130868A1 (en) Method and system for detecting fraudulent transactions
CN118020088A (en) Systems, methods, and computer program products for detecting merchant data changes
CN118355376A (en) Methods, systems, and computer program products for community detection
EA041011B1 (en) METHOD AND SYSTEM FOR DETERMINING LEGITIMACY OF TRANSACTIONS BASED ON VECTOR REPRESENTATIONS OF TRANSACTION PARTICIPANTS
KR20210106592A (en) Method, apparatus and computer program for classifying cryptocurrency accounts using artificial intelligence
Xu et al. An ensemble fraud detection approach for online loans based on application usage patterns
Lee A data mining approach using transaction patterns for card fraud detection
Snow Financial machine learning regulation
RU2770568C1 (en) Method and system for analysing the financial activity of sales outlets