WO2018138423A1 - Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles - Google Patents

Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles Download PDF

Info

Publication number
WO2018138423A1
WO2018138423A1 PCT/FR2017/053819 FR2017053819W WO2018138423A1 WO 2018138423 A1 WO2018138423 A1 WO 2018138423A1 FR 2017053819 W FR2017053819 W FR 2017053819W WO 2018138423 A1 WO2018138423 A1 WO 2018138423A1
Authority
WO
WIPO (PCT)
Prior art keywords
contextual information
transactions
transaction
classification system
frauds
Prior art date
Application number
PCT/FR2017/053819
Other languages
English (en)
Inventor
Mathieu GARCHERY
Olivier CAELEN
Liyun HE-GUELTON
Michael GRANITZER
Konstantin ZIEGLER
Stefan ZWICKLBAUER
Original Assignee
Worldline
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline filed Critical Worldline
Priority to CN201780084871.8A priority Critical patent/CN110226179A/zh
Priority to EP17832295.4A priority patent/EP3574462A1/fr
Publication of WO2018138423A1 publication Critical patent/WO2018138423A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Definitions

  • the present invention relates to a mechanism for detecting anomalies in a bank transaction flow. It applies in particular to the detection of fraud.
  • Fraud on banking transactions is a growing phenomenon, particularly because of the generalization of payment transactions via telecommunication networks.
  • the second case it is near-real-time fraud detection.
  • the first case has the advantage of being able to block a fraudulent transaction before it takes place, but it is subject to a strong constraint on the processing time, since it delays the finalization of the payment transaction and therefore the experience for the user.
  • the second case makes it possible to have more time and thus to be able to put in place more complex and finer treatments.
  • the object of the present invention is to provide a solution at least partially overcoming the aforementioned drawbacks.
  • the invention aims to provide a solution for automatic detection of fraudulent transactions in a set of transactions using contextual information, that is to say, not contained in transactions subject to processing.
  • the present invention provides a method for detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system driven on a training set and providing for each new transaction of said set a probability to be a fraudulent transaction, characterized in that each transaction is associated contextual information, and in that the classification system is a neural network.
  • this training game can form a disjoint set of all transactions on which is then carried out the generalization, or forecast, during the operating phase classifiers trained on the training game.
  • the invention comprises one or more of the following features which can be used separately or in partial combination with one another or in total combination with one another:
  • said classification system uses said contextual information by means of plunging graphs
  • said contextual information includes data relating to the country associated with the transaction
  • said contextual information includes data relating to days off;
  • said classification system is based on the Word2Vec algorithm.
  • Another object of the invention relates to a device comprising means for implementing the method as previously described.
  • FIG. 1 schematically represents experimental results obtained according to one embodiment of the invention.
  • the number of frauds represents only a very small percentage of the volume of banking transactions: it is considered that the average fraud rate is of the order of 0.5%.
  • the detection of fraud corresponds to a problem of detection of anomalies, which is characterized by an unbalanced distribution between two populations (normal cases / cases in anomaly). This type of problem is very badly solved by learning mechanisms like "machine learning"
  • the set of transactions to be considered is modified by the deletion of cases that can be considered a priori legitimate.
  • This mechanism makes it possible to increase the performance of the neural network.
  • Another specificity of payment transaction frauds lies in the complex nature of the problem: fraud is difficult to distinguish from legitimate transactions, and there may be overlaps between classes resulting from the classification process.
  • fraud schemes can be used by fraudsters, generating various situations, and it is therefore difficult to detect fraud based on "signatures" of typical fraud cases.
  • the problem is to identify frauds among all payment transactions.
  • a classification system is set up, using machine learning techniques, in order to generate two classes: a class comprising legitimate transactions and a class comprising fraudulent transactions.
  • this type of mechanism is based on a learning phase and a prediction phase which consists of a generalization of the training game on which the learning phase was based.
  • the prediction of the class of a transaction takes into account various attributes associated with the transaction, among which contextual information. Taking this contextual information into account is an innovative idea in relation to the state of the art.
  • It can for example be a date (including time) of the transaction, its geographical location, calendar events (school holidays, holidays .).
  • Attributes may also more typically include the owner of the credit card (or other payment instrument), etc.
  • a classifier is first constructed from a training game during the learning phase. Then, this classifier is used during the prediction phase to classify new transactions.
  • classifiers are possible, but through the use of contextual information, these can be based on a larger volume of data for each transaction and thus enrich the possibilities of determinations of a discrimination model to form two classes well identified.
  • the invention is therefore based on the injection of contextual information into the classification mechanism. More particularly, according to one embodiment of the invention, this contextual information is injected into a neural network. Two sources of information can be considered to explain the mechanisms of the invention:
  • a graph or semantic network, or knowledge graph is a multi-relational oriented graph composed of entities such as nodes and links.
  • the integration of these graphs in the neural networks is carried out by graph embeddings, that is to say vector representations of the nodes of the semantic network, which capture the semantic properties of a particular node.
  • DBpedia is an academic and community project for automatic exploration and extraction of Wikipedia-derived data. Its principle is to propose a structured version and in the form of standardized data in the semantic web format of the encyclopedic contents of each encyclopaedic file.
  • features finding the dimension n> 0 and vector representations GR n for all vGV *.
  • Embeddings are n-dimensional vectors associated with concepts.
  • Plungers form a well-known research area in the field of automatic language processing, to represent the semantics of words in a corpus.
  • word embedding or "lexical embedding” is a method of automatic learning from deep learning (or “deep learning” in English) focusing on the learning of a representation of words.
  • This technique makes it possible to represent the words of a dictionary by vectors in order to facilitate their semantic and syntactic analysis.
  • each word will be represented by a vector of reals and words appearing in similar contexts will have vectors that are closer than others appearing in different contexts.
  • This new representation makes it possible to reduce considerably the space of dimensionality (because one does not store anymore an entire dictionary but only a space of continuous vectors).
  • Word2Vec is an unsupervised learning algorithm group for creating word embedding from textual documents. In order to train its embeddings, Word2Vec uses a two-layer neural network that takes raw documents without labels.
  • the architectural model of the neural network can be based on the "continue bag of words” (CBOW) model, or on a “skipgram” architecture.
  • the entry of the model can be wi-2, wi-1, wi + 1, wi + 2, that is to say the preceding and following words of a current word wi.
  • the output of the network and the probability of wi to be the correct word. This task can be described as the prediction of a word given its context.
  • the model works the opposite: the input of the network is a word wi and Word2Vec predicts the context around this word: wi-2, wi-1, wi + 1, wi 2.
  • Word2Vec is very fast and can be further accelerated using parallel learning techniques.
  • training on Wikipedia's corpus can take around 90 minutes with a personal computer equipped with a quad-core processor Intel brand running at 4x3.4 GHz, and a memory of 16 GB.
  • Word2Vec An important property of the Word2Vec algorithm is that it groups the similar word vectors together in the vector space. If learning is done on a sufficient learning set, Word2Vec produces good predictive results on the meaning of a word based on previous occurrences.
  • an embedding algorithm developed to restrict ambiguity in entities is used.
  • Such an algorithm may be the algorithm described in the following article:
  • Word2Vec obtains a vector representation for each word by predicting sequences that word.
  • the random walk can be performed within this graph G.
  • the identifier of this node x is added in the output result.
  • the node succ (x) of the node x is chosen randomly and uniformly equally among the adjacent nodes, that is to say with a uniform probability equal to 1 / Edges0f (x), with "EdgesOf (x)" a function returning the number of links of the node x, that is to say the number of links in the vector vk.
  • the approach for creating the corpus for RDF knowledge bases can be according to the following algorithm:
  • This principle of using contextual information conveying semantic content can be applied to other learning classification mechanisms than neural networks.
  • the curve of FIG. 1 illustrates an experimental result of implementations of the invention.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention concerne un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entrainé sur un jeu d'entrainement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles, et en ce que le système de classification est un réseau de neurones.

Description

DETECTION AUTOMATIQUE DE FRAUDES DANS UN FLUX DE TRANSACTIONS DE PAIEMENT PAR RESEAUX DE NEURONES INTEGRANT DES INFORMATIONS CONTEXTUELLES
DOMAINE DE L'INVENTION
La présente invention est relative à un mécanisme de détection d'anomalies dans un flux de transactions bancaires. Elle s'applique notamment à la détection de fraudes.
CONTEXTE DE L'INVENTION
La fraude sur les transactions bancaires est un phénomène grandissant, notamment du fait de la généralisation des transactions de paiement via les réseaux de télécommunication.
Lorsqu'une transaction de paiement est autorisée par un serveur de paiement, deux mécanismes peuvent être mis en place : avant l'autorisation et.ou après.
Dans le premier cas, on parle de détection de fraude en temps-réel.
Dans le deuxième cas, il s'agit de détection de fraude proche du temps-réel (« near real-time »). Le premier cas présente l'avantage de pouvoir bloquer une transaction frauduleuse avant que celle-ci n'ait lieu, mais elle est assujettie à une contrainte forte sur le temps de traitement, puisqu'elle retarde la finalisation de la transaction de paiement et donc l'expérience pour l'utilisateur. Le deuxième cas permet de disposer de davantage de temps et donc de pouvoir mettre en place des traitements plus complexes et plus fins.
En général, ce problème est considéré par des techniques reposant sur des bases de règles. Des solutions ont été proposées, se basant sur différents mécanismes de classifications. Il est toutefois relevé dans l'état de la technique que la détection de fraudes dans les systèmes de paiement présente des spécificités. Dès lors, les techniques classiques de classifications ne s'appliquent de façon directe et efficace.
Tout d'abord, les conséquences de la fraude sont extrêmement importantes et très sensibles. En outre, comme les données relatives aux données bancaires et aux cartes et autres instruments de paiement sont confidentielles, très peu d'information sont publiquement disponibles sur les outils mis en place pour la détection de la fraude. Il est dès lors malaisé de pouvoir comparer les solutions de l'état de la technique.
RESUME DE L'INVENTION
Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités.
Plus particulièrement, l'invention vise à fournir une solution de détection automatique de transactions frauduleuses dans un ensemble de transactions en utilisant des informations contextuelles, c'est-à-dire non contenue dans les transactions soumises au traitement.
A cette fin, la présente invention propose un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d'entraînement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles, et en ce que le système de classification est un réseau de neurones. Typiquement, ce jeu d'entraînement peut former un ensemble disjoint de l'ensemble des transactions sur lequel est ensuite effectué la généralisation, ou prévision, lors de la phase d'exploitation des classifïeurs entraînés sur le jeu d'entraînement.
Suivant des modes de réalisation préférés, l'invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :
- ledit système de classification utilise lesdites informations contextuelles au moyen de plongements de graphes ;
- lesdites informations contextuelles comprennent des données relatives au pays associé à la transaction ;
- lesdites informations contextuelles comprennent des données relatives aux jours de congés ;
- ledit système de classification est basé sur l'algorithme Word2Vec.
Un autre objet de l'invention concerne un dispositif comportant des moyens pour mettre en œuvre le procédé tel que précédemment décrit.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d'un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.
BREVE DESCRIPTION DES DESSINS
La figure 1 représente schématiquement des résultats expérimentaux obtenus selon un mode de réalisation de l'invention.
DESCRIPTION DETAILLEE DE L'INVENTION Le nombre de fraudes ne représente qu'un très faible pourcentage du volume des transactions bancaires : on considère que le taux moyen de fraude est de l'ordre de 0,5 %. Aussi, la détection de fraude correspond à un problème de détection d'anomalies, qui se caractérise par une distribution déséquilibré entre deux populations (cas normaux / cas en anomalie). Ce type de problème est très mal résolu par les mécanismes d'apprentissage de type « machine learning »
Selon un mode de réalisation de l'invention, l'ensemble des transactions à considérer est modifiée par la suppression des cas que l'on peut considérer a priori légitime. Ainsi, on peut augmenter l'équilibre entre les deux populations. Ce mécanisme permet d'augmenter les performances du réseau de neurones. Une autre spécificité des fraudes à transactions de paiement (par carte bancaire) réside dans la nature complexe du problème : les fraudes sont difficiles à distinguer des transactions légitimes, et il peut y avoir des recouvrements entre les classes issues du procédé de classification. De plus, différents schémas de fraudes peuvent être pratiqués par les fraudeurs, engendrant des situations diverses, et il est donc délicat de détecter les fraudes en se basant sur des « signatures » de cas de fraude typiques.
Le problème consiste à identifier les fraudes parmi en ensemble de transactions de paiement.
Selon l'invention, un système de classification est mis en place, utilisant les techniques de type « machine learning », afin de générer deux classes : une classe comportant les transactions légitimes et une classe comportant les transactions frauduleuses.
Typiquement, ce type de mécanisme repose sur une phase d'apprentissage et sur une phase de prédiction qui consiste en une généralisation du jeu d'entraînement sur lequel s'est basée la phase d'apprentissage.
Selon l'invention, la prédiction de la classe d'une transaction prend en compte différents attributs associés à la transaction, parmi lesquels des informations contextuelles. La prise en compte de ces informations contextuelles est une idée novatrice par rapport à l'état de la technique.
Il peut par exemple s'agir d'une date (incluant l'heure) de la transaction, de sa localisation géographique, d'événements calendaires (vacances scolaires, jours fériés.... ).
Les attributs peuvent aussi plus classiquement contenir le propriétaire de la carte de crédit (ou autre instrument de paiement), etc.
L'utilisation des informations contextuelles permet de distinguer avec une précision accrue les transactions frauduleuses des transactions légitimes.
Comme pour tout mécanisme de classification, un classifïeur est d'abord construit à partir d'un jeu d'entraînement pendant la phase d'apprentissage. Puis, ce classifïeur est utilisé pendant la phase de prédiction afin de classifïer des transactions nouvelles.
Différents types de classifïeurs sont possibles, mais grâce à utilisation d'informations contextuelles, ceux-ci peuvent se baser sur un plus grand volume de données pour chaque transaction et donc d'enrichir les possibilités de déterminations d'un modèle de discrimination pour former deux classes bien identifiées. L'invention repose donc sur l'injection d'informations contextuelles dans le mécanisme de classification. Plus particulièrement, selon un mode de réalisation de l'invention, ces informations contextuelles sont injectées dans un réseau de neurones. Deux sources d'informations peuvent être considérées pour expliquer les mécanismes de l'invention :
- une base de données relationnelle D, représentant les données de l'application interne;
- un graphe sémantique G={V, E} représentant les informations contextuelles.
On suppose par ailleurs qu'il existe un attribut j dans D, pour lequel l'ensemble de valeurs Aj = {dj : d G D} peut être identifié avec un sous- ensemble de vecteurs V * _Ξ V de G. A tel graphe sémantique permet de structurer les informations contextuelles.
Un graphe ou réseau sémantique, ou encore graphe de connaissances est un graphe orienté multi-relationnel composé d'entités tels que des nœuds et des liens.
Dans le cadre de l'invention, l'intégration de ces graphes dans les réseaux de neurones est effectuée par des plongements de graphe, ou « graph embeddings » en langue anglaise), c'est-à-dire des représentations vectorielles des nœuds du réseau sémantique, qui permettent de capturer les propriétés sémantiques d'un nœud en particulier.
Ces plongements (« embeddings ») sont utilisés pour initialisés une couche de plongements du réseau de neurones. Pendant la phase d'apprentissage, ces couches de plongements sont adaptées à partir des informations contextuelles. Par exemple, des attributs comme « pays » ou « année » peuvent être trouvés dans un graphe extérieur tel que le graphe DBpedia. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique.
Il est ainsi possible de tirer profit des modèles existant structurant l'information contextuelles. Sans perte de généralité, on peut également supposer que j=l et on identifie les valeurs pour le premier attribut avec les vecteurs dans V*.
Chaque tuple de D a pour forme d= (v, d2, . . . , dk) for v G V *
Le problème de l'injection d'informations contextuelle sémantique est alors une combinaison de caractéristiques (« features »): trouver la dimension n>0 et les représentations vectorielles
Figure imgf000009_0001
G R n pour tout vGV*.
C'est-à-dire que v « capture » la sémantique de v et permet ainsi d'améliorer les mécanismes du classifîeur de « machine learning » sur D* = {(d, d2, . . . , dk): d G D} .
Les plongements (« embeddings ») sont des vecteurs à n dimensions associés à des concepts.
Ces vecteurs héritent de certaines propriétés sémantiques des concerts, de sorte que notamment des concepts similaires sont associés à des vecteurs proches. Ces proximités peuvent être aisément exprimées par des similarités en cosinus.
Les plongements forment un domaine de recherche bien connu dans le domaine du traitement automatique des langues, afin de représenter la sémantique des mots dans un corpus.
Par exemple le « plongement de mots » ou « plongement lexical » est une méthode d'apprentissage automatique issue de l'apprentissage profond (ou « deep learning » en langue anglaise) se focalisant sur l'apprentissage d'une représentation de mots. Cette technique permet de représenter les mots d'un dictionnaire par des vecteurs afin de faciliter leur analyse sémantique et syntaxique. Ainsi, chaque mot sera représenté par un vecteur de réels et les mots apparaissant dans des contextes similaires auront des vecteurs plus proches que d'autres apparaissant dans des contextes différents. Cette nouvelle représentation permet de diminuer considérablement l'espace de dimensionnalité (car on ne stocke plus un dictionnaire entier mais uniquement un espace de vecteurs continus).
L'algorithme le plus connu est probablement l'algorithme Word2Vec. Une page Wikipédia est consacrée à cet algorithme :
https://en.wikipedia.org/wiki/Word2vec
Word2Vec est un groupe d'algorithme d'apprentissage non supervisé permettant de créer des plongements de mots à partir de documents textuels. Afin d'entraîner ses plongements, Word2Vec utilise un réseau neuronal à deux couches prenant en entrée les documents bruts, sans étiquettes. Le modèle architectural du réseau de neurones peut être basé sur le modèle de « continuons bag of words » (CBOW), ou bien sur une architecture « skip- gram »
Dans le premier cas (CBOW), l'entrée du modèle peut être wi-2, wi-1, wi+1, wi+2, c'est-à-dire les mots précédents et suivants d'un mot courant wi. La sortie du réseau et la probabilité de wi d'être le mot correct. Cette tâche peut être décrite comme la prédiction d'un mot étant donné son contexte.
Dans le second cas (skip-gram), le modèle fonctionne à l'opposé : l'entrée du réseau est un mot wi et Word2Vec prédit le contexte autour de ce mot: wi-2, wi-1, wi+1, wi+2. Au contraire des autres de réseaux de neurones pour le traitement du langage naturel Word2Vec est très rapide et peut être encore accéléré en utilisant des techniques d'apprentissage parallèle. Ainsi, l'entraînement sur le corpus de Wikipedia peut prendre autour de 90 mn avec un ordinateur personnel équipé d'un processeur ÏJ quadricore de la marque Intel fonctionnant à 4x3,4 GHz, et d'une mémoire de 16 Go.
Une propriété importante de l'algorithme Word2Vec est qu'il groupe les vecteurs de mots similaires ensemble dans l'espace des vecteurs. Si l'apprentissage est effectué sur un jeu d'apprentissage suffisant, Word2Vec produit de bons résultats en prédiction sur la signification d'un mot sur la base des occurrences précédentes.
Afin d'obtenir des plongements préservant la sémantique, on utilise un algorithme de plongement développé pour restreindre l'ambiguïté dans les entités. Un tel algorithme peut être l'algorithme décrit dans l'article suivant :
Zwicklbauer, S., Seifert, C, Granitzer, M.: Doser - a knowledge-base- agnostic framework for entity disambiguation using semantic embeddings.
In: Sack, H., Blomqvist, E., d'Aquin, M., Ghidini, C, Ponzetto, S.P., Lange, C. (eds.) The Semantic Web. Latest Advances and New Domains - 13th
International Conférence, ESWC 2016, Heraklion, Crète, Greece, May 29 -
June 2, 2016, Proceedings. Lecture Notes in Computer Science, vol. 9678, pp. 182-198. Springer (2016), http://dx.doi.org/10.1007/978-3-319-34129-
3 12
Selon une mise en œuvre basée sur cet algorithme Word2Vec obtient une représentation vectorielle pour chaque mot en prédisant des séquences ce mot.
Puisqu'un graphe RDF donné ne contient pas un tel type de séquences, on créé une séquence de nœuds vk G V en conduisant une marche aléatoire à partir d'un nœud choisit également de façon aléatoire. On considère que le graphe RDF est un graphe non-orienté G=(V,E) dans lequel les nœuds V sont des ressources de la base de connaissance, et les liens E sont les propriétés de la base de connaissance, et
x, y G V,(x, y) G E <= 3p : (x, p, y) V 3p : (y, p, x) est un triple RDF dans la base de connaissance.
La marche aléatoire peut être effectuée au sein de ce graphe G. Lorsque la marche rencontrer un nœud xGV , l'identifiant de ce nœud x est ajouté dans le résultat de sortie.
Le nœud succ(x) du nœud x est choisi de façon aléatoire et uniformément équitable parmi les nœuds adjacents, c'est-à-dire avec une probabilité uniforme égale à 1/Edges0f(x), avec « EdgesOf(x) » une fonction renvoyant le nombre de liens du nœud x, c'est-à-dire le nombre de liens dans le vecteur vk.
On peut également introduire une variable aléatoire Xx qui détermine la probabilité de sauter à un nœud donné si un saut aléatoire est réalisé.
La probabilité de saut d'un premier nœud vers un second nœud x est calculée en normalisant la fréquence de liens inverse respective IEF du nœud x, IEF(x). Selon des études expérimentales effectuées par les inventeurs, on utilise le paramètre a = 0.1 pour réaliser un saut aléatoire, mais une gamme de valeurs entre 0,05 et 0,25 semble convenir et fournir un bon modèle Word2Vec.
De plus, le paramètre Θ indique le nombre de marches aléatoire dans le graphe. Il est possible d'utiliser par exemple Θ = 5 *|E|, ce qui dans l'exemple de DBpedia fournit environ 50 millions de marches aléatoires. Des valeurs plus élevés de ce paramètres ne semblent pas améliorer les plongements des entités, mais augmente le temps nécessaire pour la phase d'apprentissage. Selon un mode de réalisation de l'invention, l'approche pour la création du corpus pour des bases de connaissances RDF peut être selon l'algorithme suivant:
Ce principe d'utilisation d'informations contextuelles véhiculant un contenu sémantique peut être appliqué à d'autres mécanismes de classification par apprentissage que les réseaux de neurones.
On peut ainsi citer les algorithmes génétiques, les réseaux bayésiens, les modèles de Markov cachés, etc.
La courbe de la figure 1 illustre un résultat expérimental de mises en œuvre de l'invention.
Elle fournit un score global corrélant la précision (axe des ordonnées) et un taux de « recall » (axe des abscisses), c'est-à-dire de transactions frauduleuses correctement classifîées.
Ces courbes montrent 4 situations correspondant à des configurations différentes des couches de plongements du réseau de neurones:
- référence 1 - « no external datai » : aucune information contextuelle n'est prise en compte
- référence 2 - « tx-holiday » : des informations contextuelle relatives aux jours de congés sont pris en compte;
- référence 3 « country embed » : des informations contextuelles relatives aux pays sont prises en compte
- référence 4 - « tx_holiday+country_embed » : des informations contextuelles relatives aux jours de congés et aux pays sont prises en compte.
On remarque ainsi qu'effectivement les résultats sont meilleurs du fait de l'utilisation des informations contextuelles, notamment par l'utilisation des pays. On peut voir aussi que l'utilisation combiné de plusieurs types d'informations contextuelles est un problème délicat. Dans certains cas, il apparaît que certaines combinaisons risquent même dégrader les performances générales des classifïeurs. La combinaison des représentations vectorielles sémantiques sur les pays et les jours de congés publiquement connus (jours fériés, vacances scolaires...) semble expérimentalement démontrer de bons résultats, en particulier sur des valeurs faibles du taux de « recall », pour lesquelles une précision élevée peut être atteinte. Concrètement, cela signifie qu'un classifïeur conforme à ce mode de réalisation de l'invention obtient des bons résultats pour les transactions les plus susceptibles d'être frauduleuse, ce qui représente en pratique les situations les plus courantes.
Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims

REVENDICATIONS
Procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d'entraînement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles, et en ce que ledit système de classification est un réseau de neurones.
Procédé selon la revendication précédente, dans lequel ledit système de classification utilise lesdites informations contextuelles au moyen de plongements de graphes.
Procédé selon l'une des revendications précédentes, dans lequel lesdites informations contextuelles comprennent des données relatives au pays associé à la transaction.
Procédé selon l'une des revendications précédentes, dans lequel lesdites informations contextuelles comprennent des données relatives aux jours de congés.
Procédé selon l'une des revendications précédentes, dans lequel ledit système de classification est basé sur l'algorithme Word2Vec.
Dispositif comportant des moyens pour mettre en œuvre le procédé selon l'une des revendications précédentes.
PCT/FR2017/053819 2017-01-30 2017-12-22 Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles WO2018138423A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201780084871.8A CN110226179A (zh) 2017-01-30 2017-12-22 通过神经网络整合情境信息来自动检测支付交易流中的欺诈
EP17832295.4A EP3574462A1 (fr) 2017-01-30 2017-12-22 Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1750737 2017-01-30
FR1750737A FR3062504A1 (fr) 2017-01-30 2017-01-30 Detection automatique de fraudes dans un flux de transaction de paiement par reseaux de neurones integrant des informations contextuelles

Publications (1)

Publication Number Publication Date
WO2018138423A1 true WO2018138423A1 (fr) 2018-08-02

Family

ID=59409392

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2017/053819 WO2018138423A1 (fr) 2017-01-30 2017-12-22 Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles

Country Status (4)

Country Link
EP (1) EP3574462A1 (fr)
CN (1) CN110226179A (fr)
FR (1) FR3062504A1 (fr)
WO (1) WO2018138423A1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
CN111899085A (zh) * 2020-06-15 2020-11-06 东方微银科技(北京)有限公司 一种身份交叉验证方法及装置
US11403643B2 (en) * 2020-01-24 2022-08-02 Adobe Inc. Utilizing a time-dependent graph convolutional neural network for fraudulent transaction identification
EP4172902A4 (fr) * 2020-06-30 2024-05-29 Stripe Inc Infrastructure d'apprentissage automatique et procédé pour son utilisation

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3975092A1 (fr) 2020-09-29 2022-03-30 MasterCard International Incorporated Procédé et système permettant de détecter des transactions frauduleuses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822741A (en) * 1996-02-05 1998-10-13 Lockheed Martin Corporation Neural network/conceptual clustering fraud detection architecture
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time
US9552548B1 (en) * 2016-07-01 2017-01-24 Intraspexion Inc. Using classified text and deep learning algorithms to identify risk and provide early warning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1450321A1 (fr) * 2003-02-21 2004-08-25 Swisscom Mobile AG Méthode et système de détection des fraudes possibles dans des transactions bancaires
US20150339672A1 (en) * 2014-08-08 2015-11-26 Brighterion, Inc. Automation tool development method for building computer fraud management applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822741A (en) * 1996-02-05 1998-10-13 Lockheed Martin Corporation Neural network/conceptual clustering fraud detection architecture
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time
US9552548B1 (en) * 2016-07-01 2017-01-24 Intraspexion Inc. Using classified text and deep learning algorithms to identify risk and provide early warning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KHUMOYUN AKHMEDOV ET AL: "Spark based distributed Deep Learning framework for Big Data applications", 2016 INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND COMMUNICATIONS TECHNOLOGIES (ICISCT), IEEE, 2 November 2016 (2016-11-02), pages 1 - 5, XP033018240, DOI: 10.1109/ICISCT.2016.7777390 *
ZWICKLBAUER, S.; SEIFERT, C.; GRANITZER, M.: "The Semantic Web. Latest Advances and New Domains - 13th International Conférence, ESWC 2016", vol. 9678, 29 May 2016, SPRINGER, article "Doser - a knowledge-base-agnostic framework for entity disambiguation using semantic embeddings", pages: 182 - 198

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
US11403643B2 (en) * 2020-01-24 2022-08-02 Adobe Inc. Utilizing a time-dependent graph convolutional neural network for fraudulent transaction identification
CN111899085A (zh) * 2020-06-15 2020-11-06 东方微银科技(北京)有限公司 一种身份交叉验证方法及装置
EP4172902A4 (fr) * 2020-06-30 2024-05-29 Stripe Inc Infrastructure d'apprentissage automatique et procédé pour son utilisation

Also Published As

Publication number Publication date
EP3574462A1 (fr) 2019-12-04
FR3062504A1 (fr) 2018-08-03
CN110226179A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
EP3574462A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
EP1364316A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
EP1836651A1 (fr) Procédé de recherche, reconnaissance et localisation dans l&#39;encre, dispositif, programme et langage correspondants
WO2016102153A1 (fr) Representation semantique du contenu d&#39;une image
WO2019129977A1 (fr) Detection d&#39;anomalies par une approche combinant apprentissage supervise et non-supervise
WO2017055250A1 (fr) Procédé et système de recherche d&#39;images similaires quasi-indépendant de l&#39;échelle de la collection d&#39;images
Al-Nabki et al. Short text classification approach to identify child sexual exploitation material
WO2009081016A1 (fr) Procede d&#39;analyse d&#39;un contenu multimedia, produit programme d&#39;ordinateur et dispositif d&#39;analyse correspondants
EP3555816B1 (fr) Procédé de détermination de l&#39;appartenance d&#39;une donnée à une base de données et produit programme d&#39;ordinateur et support d&#39;informations associés
Bhoj et al. LSTM powered identification of clickbait content on entertainment and news websites
EP3752948A1 (fr) Procédé de traitement automatique pour l&#39;anonymisation d&#39;un jeu de données numériques
EP3502904B1 (fr) Procédé d&#39;amélioration du temps d&#39;exécution d&#39;une application informatique
EP3924850A1 (fr) Procédé de construction de signatures comportementales de logiciels
FR3064095B1 (fr) Detection par apprentissage automatique d&#39;anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne
CH717260A2 (fr) Méthode mise en oeuvre par ordinateur pour la recherche analogique de documents.
WO2018206871A1 (fr) Procede, mise en oeuvre par ordinateur, de recherche de regles d&#39;association dans une base de donnees
EP1554687B1 (fr) SystEme associatif flou de description d objets multimEdia
Wei et al. Deep-BIF: blind image forensics based on deep learning
FR2986882A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
WO2018015515A1 (fr) Procedes de partage d&#39;opinion, equipements et programmes d&#39;ordinateur pour la mise en oeuvre des procedes
Ali et al. A Blockchain-Based Digital Classified Forensic Image Preservation Framework
Rana et al. Image Based Fake Tweet Retrieval (IBFTR)
WO2022074301A1 (fr) Procédé d&#39;évaluation du risque de ré-identification de données anonymisées
CN113742449A (zh) 基于情感极性影响力的微博内容可信度评估方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17832295

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017832295

Country of ref document: EP

Effective date: 20190830