WO2019016106A1 - Systeme d'apprentissage machine pour diverses applications informatiques - Google Patents

Systeme d'apprentissage machine pour diverses applications informatiques Download PDF

Info

Publication number
WO2019016106A1
WO2019016106A1 PCT/EP2018/069176 EP2018069176W WO2019016106A1 WO 2019016106 A1 WO2019016106 A1 WO 2019016106A1 EP 2018069176 W EP2018069176 W EP 2018069176W WO 2019016106 A1 WO2019016106 A1 WO 2019016106A1
Authority
WO
WIPO (PCT)
Prior art keywords
hardware
software arrangement
transactions
neural network
authentication
Prior art date
Application number
PCT/EP2018/069176
Other languages
English (en)
Inventor
Olivier CAELEN
Liyun HE-GUELTON
Pierre-Edouard PORTIER
Michael GRANITZER
Konstantin ZIEGLER
Johannes JURGOVSKY
Original Assignee
Worldline
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline filed Critical Worldline
Priority to CN201880053753.5A priority Critical patent/CN110998608B/zh
Priority to EP18755710.3A priority patent/EP3655893A1/fr
Priority to US16/632,267 priority patent/US11763137B2/en
Publication of WO2019016106A1 publication Critical patent/WO2019016106A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Definitions

  • the invention relates to the field of fraud detection systems during authentication, particularly during authentication, an operation or a transaction.
  • these systems generally use neural networks whose statistical learning is based on decision tree forests (random forests) that analyze a sampling of non-sequential data.
  • the object of the present invention is therefore to provide a system for detecting fraud during identification, to overcome at least some of the disadvantages of the prior art, by providing a machine learning system for various computer applications allowing a text search for the detection of defects or anomalies in an authentication, operation or transaction performed by the application, comprising:
  • the neural network driving the treatment model is advantageously:
  • LSTM long-term and short-term memory type recurrent neural network
  • the recurrent neural network of the LSTM type comprises at least two recurrent layers and a Logistic Regression Classifier positioned above the last layer. recurring taking into account the time elapsed between two authentications, operations or transactions.
  • the hardware and software arrangement for validating authentication, operation or transaction is parameterized with a Jaccard index matrix so that the degree of similarity between the output data of a first neural network is measured of the LSTM type and those from a hardware and software arrangement of a second neural network for statistical learning of the type of decision tree and to validate the results of one of the two neural networks.
  • the hardware and software arrangement forming a recurrent neural network resulting in an LSTM-type model uses a GPU.
  • the hardware and software arrangement forming a pretreatment system comprises:
  • At least one first database containing at least one set of sequential schematics of raw data relating to said computer application
  • a hardware and software arrangement forming at least a second database containing at least one set of external data; a hardware and software arrangement for enriching the raw data with external data;
  • the pretreatment system uses a multi-threaded mode.
  • FIG. 1 is a schematic representation of a recurrent neural network unrolled in time by creating a copy of the model for each time step.
  • Figure 2 shows averaged averaged recall curves in the test set (the figure shows LSTM results on Long sequences).
  • the horizontal dashed lines indicate the average AUPCR for each curve (the figure shows the LSTM results on Long sequences).
  • FIG. 4 shows a pairwise comparison of the true positive sets of two models measured with the Jaccard index and encoded in color in a density map
  • FIG. 5 shows the drive architecture of an LSTM model.
  • Figure 6 shows a meta-classifier that combines the LSTM model and the random forest model.
  • Figure 7 shows a fraud detection framework according to the invention.
  • the authentications, transactions or fraudulent transactions can be understood as anomalies in consumer buying behavior or as a set of outliers in the class of genuine authentications, transactions or transactions which themselves form a class opposing fraudulent transactions.
  • frauds mingle very well with genuine authentications, transactions or transactions, for two reasons.
  • the actual buying actions of millions of consumers naturally cover a broad spectrum of variability.
  • fraudsters apply a variety of insurable, yet rational, strategies for performing fraudulent acts that span multiple consumer accounts over different time periods - but in the end, these acts will similarly appear only as authentications, transactions, or individual transactions. in a dataset.
  • identical purchasing actions may reflect either completely legitimate behavior in the context of certain consumers, or obvious anomalies in the context of other consumers.
  • the first method is a well-established practice in the field of credit card fraud detection and is based on manual peculiarity engineering.
  • the second method we focus on recovering the sequential structure of a user's authentication, transaction, or transaction history by modeling the transition dynamics between authentications, transactions, or transactions by means of a recurrent neural network.
  • a long-term and short-term memory network is a special variant of a recurrent neural network (RNN).
  • RNN recurrent neural network
  • Recurrent neural networks were developed in the 1980s [Williams and Hinton, 1986, Werbos, 1988, Elman, 1990] for time series modeling.
  • the structure of an RNN is similar to that of a standard multilayer perception, with the difference that it allows connections among hidden units associated with discrete time steps.
  • the time steps index the individual elements in an input sequence.
  • the model can retain information about past entries, which allows it to discover temporal correlations between events that are possibly far apart from one another in the input sequence. This is a crucial property for the appropriate learning of time series in which the occurrence of an event is likely to depend on the presence of several other events even more distant in time.
  • a generic neural network with an input x f and a state s f for a time step t, is represented by equation 1.
  • the initial state s 0 is the zero vector and a is a certain nonlinear element activation function - tanh in this case.
  • a cost ⁇ measures network performance on a given task and is typically composed of costs at all time steps
  • Such a composite cost will be applicable, for example, to text marking tasks, for which a tag is assigned to each word entered. In this case, only the label of the last authentication, operation or transaction in a sequence is predicted.
  • the model parameters ⁇ are learned by minimizing the cost f with an optimization method based on a gradient.
  • One approach that can be used to calculate the required gradients is backpropagation over time (BPTT).
  • BPTT works by deploying a recurrent network over time to represent it as a deep multilayer network with as many hidden layers as there are time steps (see Figure 1).
  • the well-known backpropagation algorithm [Williams and Hinton, 1986] is applied to the deployed network.
  • the parameter ⁇ affects the error through not only the last state, but also all the previous states. Similarly, the error depends on W across all states s. This dependence becomes problematic when calculating the gradient of W. l. t. ⁇ .
  • the jacobian matrix ÎÎSfc contains all the component interactions between the Sk state and the st state. We can understand it as a means for returning the error of the state t to the state k. It occurs as the product of all paired interactions between consecutive states
  • a means for extracting information from an authentication, operation or transaction sequence consists in aggregating the values of certain variables along the sequence. To assemble these aggregations of peculiarities, one follows the procedure that has recently been proposed by [Brusen et al., 2016]. This simple but powerful procedure can be considered as constituting the state of the art engineering technique in the detection of credit card fraud. They add new features to each authentication, operation or transaction based on certain predefined rules. The value of a new feature is calculated with an aggregation function applied to a subset of previous transactions. The goal is to create a record of the activities from the history of authentications, operations or transactions of a cardholder, which quantifies the degree to which the authentication, operation or transaction in progress complies with the previous ones.
  • ( tl t) ieN is the sequence of authentications, operations or transactions, temporally ordered, of a given card holder, where t indexes the authentications, transactions or individual transactions in its sequence.
  • the value of a particular variable is indicated in an authentication, operation or transaction by
  • t is the quantity used in an authentication, operation or transaction x t .
  • a subset of authentications, transactions or transactions from the past is selected up to a maximum time horizon t h and according to certain nominal variables A and B:
  • the set S k contains all the authentications, operations or transactions of t h hours preceding x k , where the nominal variables A and B have taken the same values as for x k .
  • the pair (sums *, counts /) corresponds to a single constraint given by A, B and t h .
  • these pairs are calculated for all combinations of country, merchant class, and card entry variables. , inside a time horizon of 24 hours. Finally, all these pairs are added to the authentication, operation or transaction particularity vector x k .
  • the real interesting phenomenon is the genuine purchasing behavior of cardholders or, similarly, the malicious behavior of fraudsters. It is assumed that this object, which is roughly called behavior, is controlled by certain latent but coherent qualities. With its state variables, the LSTM is in principle able to identify these qualities from the sequence of observations.
  • sequence data set On the basis of a set of authentication data, operations or transactions labeled credit card, recorded between March and May 2015, we created data sets as follows: all the authentications, operations or Transactions of an identified cardholder are grouped and the authentications, transactions or transactions of each cardholder are sorted according to time. As a result, there is obtained a temporally ordered sequence of authentications, operations or transactions for each cardholder. In the rest of this work, this sequence is called a cardholder's account, and the complete set of all accounts is called the sequence data set.
  • the sequence data set is further divided into two mutually exclusive sets: one set of sequence data contains only the Authentications, Operations or Ecommerce Transactions (ECOM), and the other set contains only the Authentications, Operations or Transactions. made in sales outlets (F2F).
  • a typical characteristic of fraud detection problems is the strong imbalance between the minority class (fraudulent transactions) and the majority class (authentic transactions). The overall fraction of fraudulent authentication, transactions or transactions is usually about 0.5% or less. In the F2F dataset, frauds occur with an order of magnitude lower frequency than the ECOM dataset, further exacerbating the problem of detection.
  • Literature studies [Bhattacharyya et al., 201 1] and previous experiments have shown that some form of under-sampling of the majority class on the training set improves learning.
  • a downsampling strategy can not be applied to a set of sequence data. Therefore, sub-sampling is used at the account level.
  • an account is considered to be compromised if it contains at least authentication, transaction or fraudulent transaction, and is considered to be genuine if it contains only genuine transactions.
  • Deferred Ground Reality The present test period begins more than a week after the training period. The reason for this decision is twofold: in a production system, authentication labels, transactions, or transactions are only available after human investigators have verified the transactions. As a result, the availability of a specific ground reality is always delayed by about a week. The second reason is that the classification is typically more accurate on recent authentications, transactions or transactions that closely follow the training period. But this accuracy and likely to be an overly optimistic evaluation of the performance of the classifier in a production system, since in practice we still do not get access to the real labels.
  • the first set of features contains all the raw features after the specific variables of a trade have been removed. Since frauds do not usually appear in isolation but rather as elements of complete fraud sequences that may span several hours or days, the identity of the cardholder from the set of features has been removed. Otherwise, a classifier could simply remember the identities of cardholders with compromised accounts and make decisions only in this much smaller set of transactions. However, in practice, one would rather know if there is an authentication, operation or fraudulent transaction and then make the account compromised.
  • the second set of features contains all the features of the BASE set plus the delta-time feature as described in section 3.2.
  • This third set of peculiarities contains all the peculiarities of the TDELTA set plus 14 aggregated peculiarities like described above.
  • the authentications, transactions, or transactions of the preceding 24 hours were aggregated in terms of the quantity and number of authentications, transactions, or transactions based on all combinations of the term-mcc, term-country, and card-entry-mode dummy variables. . See Table 2 for an overview of the features.
  • Table 2 List of features in these datasets.
  • Marked features ( * ) are composite features composed of several lower-level features.
  • Nominal variables in the case of the random forest, the nominal variables can be used just as they are. We have only established a correspondence between each value and an integer. In the case of neural networks, we wanted to avoid having vectors of a single particularity encoded by token (one-hot encoding) to very high dimension. Therefore, a label encoding mechanism which is very popular in the field of natural language processing and neural networks has been employed, Collobert et al. [201 1], Socher et al. [2013], Tang et al. [2014], which is applicable to arbitrariness of dummy variables other than words [Guo and Berkhahn, 2016].
  • the peculiarity values and their corresponding vectors are stored inside a dictionary. To encode a particular value of the nominal variable, we look at the value of the particularity in the dictionary and retrieve its vector.
  • the vectors in integration are part of the parameters of the model and can be adjusted jointly during the estimation of the parameters.
  • Time function we consider the function of time as a composition of several nominal variables. For each temporal resolution of the time function, ie the year, the month, the day the day, the hour, the minute and the second, we define a nominal variable in the same way as that described above.
  • the long and short term memory network has two recurrent layers and a logistic regression classifier stacked above the last layer.
  • the logistic regression classifier can be driven in conjunction with the LSTM state transition model via error backpropagation.
  • An abandonment [Srivastava et al., 2014] is applied to the LSTM nodes to regularize the parameters and the whole model is trained by minimizing the cross entropy between the predicted class distribution and the true class distribution with the ADAM algorithm. This implementation is based on the Keras Deep Learning Library.
  • Grid search both the random forest (RF) and the LSTM must be parameterized with hyper-parameters.
  • the space of possible hyper-parameter configurations was searched for in terms of a coarse grid overlapped by a subset of all hyper-parameters (see Table 3). The configuration was then selected with AU CP / 3 ⁇ 4, maximum value 2 on the validation set.
  • Table 3 Hyper-parameters taken into consideration during the grid search
  • AUCPR a precision-return curve (PR) and in particular the area under this curve was used to quantify the accuracy of detection.
  • PR precision-return curve
  • Each point on the PR curve corresponds to the accuracy of the classifier at a specific recall level.
  • the entire curve gives a complete picture of the accuracy of a classifier and its robustness even in unbalanced settings.
  • the integral above this curve yields a single-valued summary of performance, and is called AUCPR.
  • AUCPR@0.2 From the point of view of trade, low booster and high accuracy are preferable to high booster and low accuracy. A typical choice is therefore to measure the accuracy on the first K elements in the list of hierarchical results. This precision at K corresponds to an isolated point on the PR curve and is likely to vary because of the different ones chosen for K. In order to reflect the commercial interests and to avoid a problem of variability, it is suggested to use the integral on the calculated PR curve up to a certain recall level (0.2 in the present experiments). The maximum value for AUCPR@0.2 is 0.2. Jaccard's index: to explore the qualitative differences between the two present approaches, the Jaccard index was used to measure the degree to which two classifiers are similar in terms of the frauds they detect. With two sets of results (true positives) A
  • the Jaccard index is defined by u v
  • the decision threshold is set to st and corresponds to a reminder of 0.2.
  • Savings are another metric measure that is often used in the field of fraud detection credit card. They measure the monetary benefit of a certain algorithm over a trivial acceptor / rejector and are based on a predefined cost matrix.
  • the individual inputs are composed of a processing cost C p , a reimputation C C b and a cost dependent on the transaction g (').
  • g represents the loss of money due to fraud occurring while the investigation process is in progress. It is defined by:
  • Fj is the set of authentication, operations or fraudulent transactions that occur until T hours after authentication, operation or transaction x, ⁇ .
  • a model was qualified for each set combination of features, data set and sequence length, and its classification performance was tested on the test set held. In the case of random forests, the length of the input sequence has no influence on the model since only the last authentication, operation or transaction of the input sequence is used. Qualified models were evaluated on each of the 24 test days individually, and their average performance is reported against the metric values defined above.
  • Table 5 and Table 6 show a summary of the results for face-to-face and ecommerce data sets.
  • a first observation is that the global detection accuracy is much higher on the ECOM than on the F2F, which can be explained by the higher proportion of frauds in the ECOM.
  • longer input sequences seem to have no effect on the accuracy of detection, neither for F2F nor for ECOM.
  • Table 5 Average AUC on all test days. Sequence lengths (SHORT, LONG) and sets of features (BASE, TDELTA, AGG)
  • Tables 5 and 6 report the average statistics on all test days.
  • the AUCPRs of the RF and LSTM are plotted for the individual test days, it can be seen in Figure 3 that the predictions of the two classifiers show strong variations according to the days.
  • the curves are correlated, we can deduce that some days the detection problem is more difficult than other days.
  • both classifiers have their minimum wrt value of the AUPCR in the time periods 9/05 - 10/05 and 25/05 - 26/05.
  • Model regularization when dealing with a temporal process for which one aims at predicting certain properties of future events, no collection of historical data points can truly satisfy the requirements requested from a set representative validation. The accuracy of a prediction the next day just after the end of the training set is better than for the more distant days in the future, suggesting a time dependence of the conditional distribution. When we choose the days just after the learning period as the validation set, the results with this set will suggest a small regularization of the model. But this choice has the opposite effect on performance for the more distant days in the future. An exact and very reliable model of today's data will probably be bad in a few days, while a less reliable model of the day will still be valid in a few days.
  • the system can use only the neural network. recurrent long-term and short-term memory type (LSTM), or the neural network for statistical learning of the type of decision tree, or a combination of both (see Figure 6).
  • LSTM long-term and short-term memory type

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Neurology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Collating Specific Patterns (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

Il est mis à disposition un système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant : - un agencement matériel et logiciel formant un système de prétraitement; - un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées, - un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal, - un agencement matériel et logiciel pour valider l'opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.

Description

SYSTEME D'APPRENTISSAGE MACHINE POUR DIVERSES
APPLICATIONS INFORMATIQUES
Domaine technique de l'invention
[0001 ] L'invention concerne le domaine des systèmes de détection de fraude durant une authentification, en particulier durant une authentification, une opération ou une transaction.
Etat de la technique antérieure
[0002] En raison du volume en constante augmentation des échanges électroniques, les divers acteurs recherchent constamment de nouvelles façons de détecter une fraude durant des authentifications, opérations ou transactions.
[0003] Avec la grande quantité de données que nous voyons de nos jours, l'observation humaine traditionnelle ne répond pas aux exigences essentielles pour l'établissement d'une détection précise d'une fraude étant donné la quantité, la diversité et la nature dynamique des comportements malveillants.
[0004] Les systèmes utilisant des procédés modernes basés sur des données et des méthodes d'apprentissage autonome commencent à être utilisés pour la détection de défauts dans des applications informatiques, comme par exemple des fraudes à l'authentification, en particulier celles liées à l'utilisation de cartes de crédit.
[0005] Pour ce faire, ces systèmes utilisent généralement des réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires) qui analysent un échantillonnage de données non séquentielles.
[0006] Néanmoins, l'utilisation d'un apprentissage par arbre décisionnel peut générer des arbres décisionnels très complexes qui généralisent mal l'ensemble de formation et conduisent à l'acceptation d'une identification frauduleuse qui ne va pas être détectée. [0007] On a par conséquent besoin d'un système rendant possible l'identification d'anomalies qui ne sont pas détectées par les réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires).
Description de l'invention
[0008] L'objet de la présente invention consiste donc à proposer un système pour détecter une fraude durant une identification, permettant de surmonter au moins certains des inconvénients de la technique antérieure, en proposant un système d'apprentissage machine pour diverses applications informatiques permettant une fouille de textes pour la détection de défauts ou d'anomalies dans une authentification, opération ou transaction effectuée par l'application, comprenant :
- un agencement matériel et logiciel formant un système de prétraitement ;
- un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées,
- un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal,
- un agencement matériel et logiciel pour valider l'opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.
[0009] Le réseau neuronal entraînant le modèle de traitement est avantageusement :
- un réseau neuronal récurrent de type à mémoire à long et court terme (LSTM) ;
- un réseau neuronal pour l'apprentissage statistique du type d'arbre de décision ; ou
- une combinaison des deux.
[0010] Avantageusement, le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions.
[001 1 ] Avantageusement, l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.
[0012] Il est avantageusement utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.
[0013] Avantageusement, l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU.
[0014] Avantageusement, l'agencement matériel et logiciel formant un système de prétraitement comprend :
- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,
- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes, - un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,
- un agencement matériel et logiciel pour agréger les données enrichies.
[0015] Avantageusement, le système de prétraitement utilise un mode multifil.
Brève description des figures [0016] D'autres caractéristiques, détails et avantages de l'invention apparaîtront de façon évidente à la lecture de la description qui suit, en référence aux figures jointes, dans lesquelles :
- La Figure 1 est une représentation schématique d'un réseau neuronal récurrent déroulé dans le temps par création d'une copie du modèle pour chaque étape de temps.
- La Figure 2 montre des courbes de précision-rappel moyennées sur tous les jours dans l'ensemble de test (la figure montre les résultats de la LSTM sur des séquences Longues).
- La Figure 3 montre l'évolution de l'AUPCR sur tous les jours de test.
Les lignes pointillées horizontales indiquent l'AUPCR moyen pour chaque courbe (la figure montre les résultats de la LSTM sur des séquences Longues).
- La Figure 4 montre une comparaison par paires des ensembles de positifs vrais de deux modèles mesurés avec l'indice de Jaccard et encodés en couleurs dans une carte de densité ;
- La Figure 5 montre l'architecture d'entraînement d'un modèle de LSTM.
- La Figure 6 montre un méta-classificateur qui combine le modèle de LSTM et le modèle de forêts aléatoires.
- La Figure 7 montre une charpente de détection de fraude selon l'invention.
Description détaillée de différents modes de réalisation de l'invention
[0017] La description qui suit se focalise sur une application de détection des fraudes à la carte de crédit du système, mais elle peut s'appliquer à d'autres fraudes, défauts ou anomalies dans une authentification, opération ou transaction effectuée par diverses applications exécutées par un système ou réseau informatique.
[0018] En fonction de la perspective envisagée, les authentifications, opérations ou transactions frauduleuses peuvent être comprises comme des anomalies dans le comportement d'achat de consommateurs ou comme un ensemble de données aberrantes dans la classe des authentifications, opérations ou transactions véritables qui elles-mêmes forment une classe s'opposant aux transactions frauduleuses. Dans tous les cas, dans l'espace caractéristique, les fraudes se mêlent très bien aux authentifications, opérations ou transactions véritables, pour deux raisons. Premièrement, les actions d'achat véritables faites par des millions de consommateurs couvrent naturellement un large spectre de variabilité. Et deuxièmement, les fraudeurs appliquent diverses stratégies inscrutables, quoique rationnelles, pour effectuer des actes frauduleux qui couvrent plusieurs comptes de consommateurs sur diverses périodes de temps - mais à la fin, ces actes vont de même apparaître uniquement comme des authentifications, opérations ou transactions individuelles dans un ensemble de données. Des actions d'achat identiques peuvent en même temps refléter soit un comportement complètement légitime dans le contexte de certains consommateurs, soit des anomalies évidentes dans le contexte d'autres consommateurs.
[0019] Afin de supporter une meilleure discrimination parmi des authentifications, opérations ou transactions qui sont difficiles à distinguer, nous avons identifié deux approches qui nous permettent de résumer l'historique des transactions de consommateurs et d'utiliser ce résumé durant la classification de transactions individuelles. Le premier procédé est une pratique bien établie dans le domaine de la détection des fraudes à la carte de crédit, et il se base sur une ingénierie de particularité manuelle. Avec le deuxième procédé, nous nous focalisons sur la récupération de la structure séquentielle de l'historique d'authentifications, d'opérations ou de transactions d'un utilisateur en modélisant les dynamiques de transition entre des authentifications, opérations ou transactions au moyen d'un réseau neuronal récurrent.
[0020] Un réseau de mémoire à long et court terme (LSTM) est une variante spéciale d'un réseau neuronal récurrent (RNN). Les réseaux neuronaux récurrents ont été développés dans les années 1980 [Williams et Hinton, 1986, Werbos, 1988, Elman, 1990] pour une modélisation des séries temporelles. La structure d'un RNN est similaire à celle d'une perception multicouche standard, avec comme différence qu'elle permet des connexions parmi des unités cachées associées à des étapes temporelles discrètes. Les étapes temporelles indexent les éléments individuels dans une séquence d'entrée. Par l'intermédiaire des connexions entre des étapes temporelles, le modèle peut conserver des informations concernant les entrées passées, ce qui lui permet de découvrir des corrélations temporelles entre des événements qui sont éventuellement éloignés les uns des autres dans la séquence d'entrée. Ceci constitue une propriété cruciale pour l'apprentissage approprié de séries temporelles dans lesquelles l'occurrence d'un événement est susceptible de dépendre de la présence de plusieurs autres événements encore plus éloignés dans le temps.
[0021 ] Un réseau neuronal générique, avec une entrée xf et un état sf pour une étape temporelle t, est représenté par l'équation 1 .
Figure imgf000008_0001
[0022] Les paramètres du modèle Θ = {W, U, b} sont donnés par la matrice de poids récurrente W, la matrice de poids d'entrées U et les biais b. L'état initial s0 est le vecteur zéro et a est une certaine fonction d'activation par élément non linéaire - tanh dans le présent cas. Un coût ε mesure la performance du réseau sur une certaine tâche donnée et est typiquement composé des coûts à toutes les étapes temporelles
Figure imgf000008_0002
Un tel coût composite va être applicable, par exemple, à des tâches de marquage de texte, pour lesquelles une étiquette est attribuée à chaque mot entré. Dans le présent cas, on ne prédit que l'étiquette de la dernière authentification, opération ou transaction dans une séquence.
[0023] La distribution sur des classes de fraude et de non fraude, l'état sf étant donné, est modélisée au moyen d'un modèle de sortie de régression logistique. On interprète l'étiquette véritable >% ^ {0* 1 } d'une authentification, opération ou transaction comme étant la probabilité xf qu'elle appartienne à la classe 0 ou 1 , et on mesure le coût induit par les probabilités prédites par le modèle au moyen de l'erreur d'entropie croisée, définie par
8t = £(-x1:t, yt) = -Vt l g yt - (1 - i¾) log(l - yt)
[0024] Les paramètres de modèle Θ sont appris par une minimisation du coût £f avec un procédé d'optimisation basé sur un gradient. Une approche que l'on peut utiliser pour calculer les gradients requis est la rétropropagation dans le temps (BPTT). La BPTT fonctionne en déployant un réseau récurrent dans le temps pour le représenter comme un réseau multicouche profond avec autant de couches cachées qu'il y a d'étapes temporelles (voir la Figure 1 ). Ensuite, l'algorithme de rétropropagation bien connu [Williams et Hinton, 1986] est appliqué sur le réseau déployé.
[0025] Bien qu'en principe le réseau récurrent soit un modèle simple et puissant, en pratique il est difficile de l'entraîner de façon appropriée avec une pente de gradient. Parmi les nombreuses raisons pour lesquelles ce modèle est si laborieux, il y a deux problèmes majeurs qui ont été appelés problème de disparition et d'explosion de gradient [Bengio et al ., 1994].
[0026] Avec la connexion récurrente entre des états latents, le paramètre Θ affecte l'erreur à travers non seulement le dernier état, mais aussi tous les états antérieurs. De même, l'erreur dépend de W à travers tous les états s. Cette dépendance devient problématique quand on calcule le gradient de W . l . t . Θ.
Figure imgf000009_0001
dst
[0027] La matrice jacobienne ÎÎSfc contient toutes les interactions de composants entre l'état Sk et l'état st. On peut la comprendre comme un moyen pour ramener l'erreur de l'état t à l'état k. Elle se présente corn produit de toutes les interactions appariées entre des états consécutifs
Figure imgf000010_0001
[0028] Ce produit est la véritable raison pour laquelle il est si difficile d'apprendre des dépendances sur le long terme avec des procédés d'optimisation basés sur un gradient. Plus la dépendance entre t et k est longue, et plus il y a de facteurs qui deviennent multipliés en , en conséquence de quoi la norme du gradient augmente ou diminue ds.
exponentiellement avec t - k. Chaque fa met en jeu à la fois la matrice de poids récurrente et la dérivée
Figure imgf000010_0002
[Pascanu et al., 2013] montrent qu'il suffit que la valeur propre la plus importante de la matrice de poids récurrente soit inférieure à 1 pour que des composants sur le long terme disparaissent, et il suffit qu'elle soit supérieure à 1 pour que les gradients explosent.
[0029] Il existe plusieurs solutions pour réduire ces problèmes.
L'utilisation d'une pénalité L1 ou L2 sur la matrice de poids récurrente peut assurer que la valeur propre la plus importante ne dépasse jamais 1 , étant donné une initialisation avec des poids suffisamment petits. Une autre proposition se base sur la supposition que si le modèle présente dès le début le même type de comportement asymptotique que celui requis par la cible, alors les gradients sons moins susceptibles d'exploser [Doya, 1993]. Toutefois, il n'est pas insignifiant d'initialiser un modèle dans ce régime spécifique. Une troncation de gradient constitue une autre approche radicale qui met en jeu la troncation de composants par éléments du gradient quand ils dépassent un seuil fixé [Mikolov et al., 201 1 ]. Finalement, une solution pour éviter le problème de disparition de gradient a été proposé par [Hochreiter et Schmidhuber, 1997] par élimination de la dépendance directe à une matrice de poids récurrente dans aSi_i [Bayer, 2015]. Cette structure de réseau modifiée est appelée réseau de mémoire à court et long terme (LSTM), et constitue l'état de la technique pour de nombreuses tâches mondiales réelles telles que la reconnaissance vocale, la reconnaissance d'écriture manuscrite et la traduction machine statistique.
[0030] En alternative à la modélisation de séquences d'authentification, d'opération ou de transaction avec une LSTM, on emploie une ingénierie de particularité traditionnelle.
[0031 ] Agrégations de particularités : un moyen pour extraire des informations à partir d'une séquence d'authentification, d'opération ou de transaction consiste à agréger les valeurs de certaines variables le long de la séquence. Pour assembler ces agrégations de particularités, on suit la procédure qui a récemment été proposée par [Bahnsen et al., 2016]. Cette procédure, simple mais puissante, peut être considérée comme constituant l'état de la technique d'ingénierie de particularité dans la détection de fraudes à la carte de crédit. Ils ajoutent de nouvelles particularités à chaque authentification, opération ou transaction en fonction de certaines règles prédéfinies. La valeur d'une nouvelle particularité est calculée avec une fonction d'agrégation appliquée à un sous-ensemble des transactions précédentes. Le but est de créer un enregistrement des activités à partir de l'historique des authentifications, opérations ou transactions d'un porteur de carte, qui quantifie le degré avec lequel l'authentification, opération ou transaction en cours se conforme aux précédentes.
[0032] On considère que (tlt)ieN est la séquence d'authentifications, opérations ou transactions, ordonnée temporellement, d'un porteur de carte donné, où t indexe les authentifications, opérations ou transactions individuelles dans sa séquence. On indique la valeur d'une variable particulière dans une authentification, opération ou transaction par
,.. ,,( Ami)
un exposant : par exemple, t est la quantité utilisée dans une authentification, opération ou transaction xt. En se basant sur une seule authentification, opération ou transaction xk , on sélectionne un sous- ensemble d'authentifications, opérations ou transactions du passé jusqu'à un horizon temporel maximal th et en fonction de certaines variables nominales A et B :
Figure imgf000012_0001
[0033] L'ensemble Sk contient toutes les authentifications, opérations ou transactions des th heures précédant xk , où les variables nominales A et B ont pris les mêmes valeurs que pour xk. Les variables nominales A et B et l'horizon temporel th peuvent être considérés comme des contraintes imposées au sous-ensemble. Par exemple, si on définit A := Pays, B := MCC et th = 24, le sous-ensemble Sk contient toutes les authentifications, opérations ou transactions des 24 heures précédentes qui ont été effectuées dans le même pays et dans la même catégorie de marchands que l'authentification, opération ou transaction xk.
[0034] On peut maintenant définir des fonctions d'agrégation sur Sk. Il y a de nombreuses possibilités pour définir de telles fonctions, et même si toutes sont susceptibles d'être également valides, on se limite aux deux fonctions qui ont été proposées par les auteurs : la quantité totale dépensée et le nombre de transactions.
Figure imgf000012_0002
La paire (sommes*, comptes/ ) correspond à une seule contrainte donnée par A, B et th. Afin de couvrir une plus large gamme de statistiques à partir de l'historique d'authentifications, d'opérations ou de transactions, on calcule ces paires pour toutes les combinaisons des variables nominales pays, catégorie de marchand, et mode d'entrée de carte, à l'intérieur d'un horizon temporel de 24 heures. Finalement, on rajoute toutes ces paires au vecteur de particularité d'authentification, d'opération ou de transaction xk.
[0035] Delta temps : un lecteur de séquences détecte des schémas dans des séquences de transactions consécutives. On suppose que ces schémas ressemblent à une certaine forme de comportement d'achat latent de porteurs de carte. Si cela est, les schémas comportementaux devraient être invariants aux points concrets dans le temps quand les actions d'achat ont été réellement effectuées. Pour supporter une normalisation temporelle sur des séquences d'entrée qui chevauchent des périodes de temps très différentes, on extrait le temps en minutes entre deux authentifications, opérations ou transactions consécutives, et on l'ajoute explicitement sous la forme d'une particularité additionnelle : tdelta, = xf mps) - a^ w> (7)
Figure imgf000013_0001
[0036] Tout comme dans n'importe quelle tâche de modélisation statistique, on peut observer le phénomène véritable dans le monde réel uniquement par l'intermédiaire d'un mandataire indiqué comme étant un jeu fini d'observations ponctuelles.
[0037] Dans la détection de fraudes à la carte de crédit, le vrai phénomène intéressant est le comportement d'achat véritable des porteurs de carte ou, de même, le comportement malveillant des fraudeurs. On suppose que cet objet, que l'on appelle approximativement le comportement, est contrôlé par certaines qualités latentes mais cohérentes. Avec ses variables d'état, la LSTM est en principe capable d'identifier ces qualités à partir de la séquence d'observations.
[0038] Dans le monde réel, les conventions sociétales, les réglementations officielles ou la simple physique imposent des contraintes sur la variabilité potentielle d'observations et par conséquent sur la complexité des qualités qui les contrôlent. Par exemple, les heures d'ouvertures limitent strictement quand et où les consommateurs sont susceptibles d'acheter leurs biens ou services. Les distances géographiques et les modalités de déplacement limitent les possibilités de transactions consécutives. On peut s'attendre à ce que toutes les authentifications, opérations ou transactions face à face que l'on observe dans la présente base de données respectent, dans une certaine mesure, ces contraintes du monde réel. Par contraste, les authentifications, opérations ou transactions de commerce électronique, ou plutôt leurs achats en ligne correspondants, sont largement sans contrainte, tant pour le moment que pour le lieu. Il n'y a pratiquement aucun attribut qui ne puisse pas changer réellement de manière arbitraire entre une authentification, opération ou transaction et la suivante.
[0039] On suppose que la présence de contraintes, dans le monde réel, dans les transactions face à face conduit à des schémas comportementaux plus évidents avec moins de variations. Dans ce cas, un apprenant de séquence va tirer avantage d'une structure séquentielle plus régulière.
[0040] En étant motivé par les considérations et les analyses statistiques antérieures concernant le comportement d'achat dans le monde réel, on a décidé d'étudier séparément l'impact d'un apprenant de séquence sur la précision de détection lors d'authentifications, opérations ou transactions de commerce électronique et face à face. Les résultats sont contrastés avec un non apprenant de séquence, autrement dit une forêt aléatoire.
[0041 ] Sur la base d'un ensemble de données d'authentifications, opérations ou transactions étiquetées de carte de crédit, enregistré entre mars et mai 2015, on a créé des ensembles de données de la façon suivante : toutes les authentifications, opérations ou transactions d'un porteur de carte identifié sont groupées et les authentifications, opérations ou transactions de chaque porteur de carte sont triées en fonction du temps. En résultat, on obtient une séquence ordonnée temporellement d'authentifications, opérations ou transactions pour chaque porteur de carte. Dans le reste de ce travail, cette séquence est appelée le compte d'un porteur de carte, et l'ensemble complet de tous les comptes est appelé l'ensemble de données de séquence. L'ensemble de données de séquence est en outre divisé en deux ensembles mutuellement exclusifs : un ensemble de données de séquence contient uniquement les authentifications, opérations ou transactions de commerce électronique (ECOM), et l'autre contient uniquement les authentifications, opérations ou transactions effectuées dans des points de vente (F2F).
Tableau 1 : tailles d'ensembles de données et proportions de fraudes
Figure imgf000015_0001
[0042] Echantillonnage de comptes : Une particularité typique des problèmes de détection de fraudes est le fort déséquilibre entre la classe minoritaire (transactions frauduleuses) et la classe majoritaire (transactions authentiques). La fraction globale des authentifications, opérations ou transactions frauduleuses se porte habituellement à environ 0,5 % ou moins. Dans l'ensemble de données F2F, les fraudes surviennent avec une fréquence inférieure d'un ordre de grandeur en comparaison avec l'ensemble de données ECOM, ce qui aggrave encore davantage le problème de détection. Des études de la littérature [Bhattacharyya et al., 201 1 ] et des expériences antérieures ont montré qu'une certaine forme de sous- échantillonnage de la classe majoritaire sur l'ensemble d'entraînement améliore l'apprentissage. Toutefois, contrairement aux ensembles de données basés sur les transactions, dans lesquels les authentifications, opérations ou transactions sont considérées comme des exemples d'entraînement indépendants, on ne peut pas appliquer une telle stratégie de sous-échantillonnage à un ensemble de données de séquence. Par conséquent, on emploie le sous-échantillonnage au niveau des comptes. A ce propos, un compte est considéré être compromis s'il contient au moins une authentification, opération ou transaction frauduleuse, et est considéré être authentique s'il ne contient que des transactions authentiques. On a employé un simple processus d'échantillonnage basé sur les comptes pour construire l'ensemble d'entraînement. Avec une probabilité pg = 0,9, on a sélectionné au hasard un compte dans l'ensemble de comptes authentiques et, avec une probabilité 1 - pg, on a sélectionné un compte dans l'ensemble de comptes compromis. Ce processus est répété 106 fois pour créer un ensemble d'entraînement avec un million de comptes. Le rapport de fraude de facto au niveau des transactions est toujours inférieur à 1/10, mais on trouve que cette approche simple fonctionne bien en pratique. Voir le Tableau 1 pour des détails concernant les tailles des ensembles de données et les périodes de temps.
[0043] Réalité de terrain différée : La présente période de test commence plus d'une semaine après la période d'entraînement. La raison de cette décision est double : dans un système de production, les étiquettes d'authentifications, opérations ou transactions ne sont disponibles qu'après que des enquêteurs humains ont vérifié les transactions. Par conséquent, la disponibilité d'une réalité de terrain précise est toujours différée d'une semaine environ. La deuxième raison est que la classification est typiquement plus précise sur des authentifications, opérations ou transactions récentes qui suivent de près la période d'entraînement. Mais cette précision et susceptible d'être une évaluation excessivement optimiste de la performance du classificateur dans un système de production, puisqu'en pratique on ne va toujours pas avoir accès aux véritables étiquettes.
[0044] Alignement des ensembles de données : Tant la forêt aléatoire que la LSTM ont été entraînées pour prédire l'étiquette de transactions individuelles. Il y a toutefois une différence qu'il faut prendre en compte dans les expériences. Avec une LSTM, on peut uniquement prédire l'étiquette d'une authentification, opération ou transaction après que plusieurs authentifications, opérations ou transactions l'ont précédée, tandis qu'avec la forêt aléatoire, aucune transaction antérieure n'est requise. Pour améliorer la comparabilité des résultats, on prend en compte cette différence en retirant toutes les authentifications, opérations ou transactions qui ne sont pas précédées d'au moins w = 9 transactions antérieures. La forêt aléatoire (RF) et la LSTM peuvent maintenant être entraînées, validées et testées sur des ensembles identiques de transactions. Pour étudier l'influence de la longueur de la séquence d'entrée sur les prédictions LSTM, on ne garde que 4 (COURTE) ou 9 (LONGUE) authentifications, opérations ou transactions antérieures en entrée.
[0045] Comme les données collectées durant une authentification, opération ou transaction de carte de crédit doivent se conformer aux normes N I IF (normes internationales d'information financière), l'ensemble des particularités brutes est très similaire dans toute la littérature. Par conséquent, on a retiré toutes les particularités spécifiques d'un commerce et conservé uniquement celles qui sont couramment utilisées dans d'autres études [Bhattacharyya et al., 201 1 , Bahnsen et al., 2016, Carneiro et al., 2017]. Afin de déterminer l'impact de particularités additionnelles sur la précision d'une classification, on a défini trois ensembles de particularités.
[0046] Le premier ensemble de particularités (BASE) contient toutes les particularités brutes après que les variables spécifiques d'un commerce ont été retirées. Comme les fraudes n'apparaissent généralement pas isolément mais plutôt sous la forme d'éléments de séquences de fraudes complètes qui peuvent s'étendre sur plusieurs heures ou jours, on a retiré l'identité du porteur de carte de l'ensemble de particularités. Sinon, un classificateur pourrait simplement se rappeler les identités de porteurs de cartes ayant des comptes compromis et prendre des décisions uniquement dans cet ensemble bien plus petit de transactions. Toutefois, en pratique, on voudrait plutôt savoir s'il y a une authentification, opération ou transaction frauduleuse et ensuite rendre le compte compromis. Le deuxième ensemble de particularités (TDELTA) contient toutes les particularités de l'ensemble BASE plus la particularité delta-temps telle que décrite dans la section 3.2. Ce troisième ensemble de particularités (AGG) contient toutes les particularités de l'ensemble TDELTA plus 14 particularités agrégées comme décrit ci-dessus. On a agrégé les authentifications, opérations ou transactions des 24 heures précédentes en termes de la quantité et du nombre des authentifications, opérations ou transactions sur la base de toutes les combinaisons des variables nominales term-mcc, term-country et card-entry-mode. Voir le Tableau 2 pour une vue d'ensemble des particularités.
Tableau 2 : liste des particularités dans les présents ensembles de données.
Les particularités marquées (*) sont des particularités composites composées de plusieurs particularités de niveau inférieur.
Particularité Type
TERM-MCC Nominal
TERM-COUNTRY Nominal
TX-AMOUNT Proportionnel
TX-DATETIME (*) Nominal
TX-3D-SECURE Nominal
TX-EMV Nominal
TX-LOCAL-CURRENCY Nominal
TX-LOCAL-AMOUNT Proportionnel
TX-PROCESS Nominal
TX-CARD-ENTRY-MODE Nominal
BROKER Nominal
CARD-BRAND Nominal
CARD-EXPIRY Nominal
CARD-TYPE Nominal
CREDIT-LIMIT Proportionnel
CARD-AUTHENTICATION Nominal
TDELTA Proportionnel
AGGREGATIONS (*) Proportionnel [0047] Variables proportionnelles : on a appliqué une normalisation gaussienne à des variables proportionnelles telles que la quantité d'authentifications, d'opérations ou de transactions ou la limite de crédit pour centrer la variable sur μ = 0 avec un écart type σ = 1 . Cette normalisation n'a pas d'effet sur l'apprentissage d'une forêt aléatoire, mais elle accélère la convergence d'optimisation basée sur un gradient dans les réseaux neuronaux.
[0048] Variables nominales : dans le cas de la forêt aléatoire, les variables nominales peuvent être utilisées juste telles quelles. On a seulement établi une correspondance entre chaque valeur et un nombre entier. Dans le cas des réseaux neuronaux, on a voulu éviter d'avoir des vecteurs d'une seule particularité encodée par jeton (encodage one-hot) à dimension très élevée. On a, par conséquent, employé un mécanisme d'encodage d'étiquette qui est très populaire dans le domaine du traitement du langage naturel et des réseaux neuronaux, Collobert et al. [201 1 ], Socher et al. [2013], Tang et al. [2014], et qui est applicable pour donner un caractère arbitraire à des variables nominales autres que mots [Guo et Berkhahn, 2016]. Pour une variable nominale avec son ensemble de valeurs C, on a attribué à chaque valeur un vecteur de poids aléatoire à d dimensions v, qui provient d'une distribution uniforme à plusieurs variables v ~ U ([-0,05, 0,05]d), avec d = riog2(|C|)1 Les valeurs de particularité et leurs vecteurs correspondants (intégrations de vecteurs des valeurs de particularité) sont stockés à l'intérieur d'un dictionnaire. Pour encoder une valeur particulière de la variable nominale, on regarde la valeur de la particularité dans le dictionnaire et récupère son vecteur. Les vecteurs en intégration font partie des paramètres du modèle et peuvent être ajustés conjointement durant l'estimation des paramètres.
[0049] Fonction de temps : on considère la fonction de temps comme une composition de plusieurs variables nominales. Pour chaque résolution temporelle de la fonction de temps, c'est-à-dire l'année, le mois, le jour ouvré, le jour, l'heure, la minute et la seconde, on définit une variable nominale de la même façon que celle décrite ci-dessus.
[0050] Le réseau de mémoire à long et court terme a deux couches récurrentes et un classificateur de régression logistique empilé au-dessus de la dernière couche. Le classificateur de régression logistique peut être entraîné conjointement avec le modèle de transition d'état de LSTM via une rétropropagation d'erreur. On applique un abandon [Srivastava et al., 2014] aux nœuds de LSTM pour régulariser les paramètres et on entraîne tout le modèle en minimisant l'entropie croisée entre la distribution de classes prédite et la distribution de classes véritable avec l'algorithme ADAM. La présente implémentation se base sur la bibliothèque d'apprentissage profond Keras.
[0051 ] Comme on étudie les avantages potentiels d'une approche d'apprentissage de séquence basée sur une LSTM par rapport à un apprenant statique, il faut extraire une instance de la classe des apprenants statiques. On choisit ici de la comparer à des forêts aléatoires. Dans des expériences antérieures, on a observé que les forêts aléatoires constituent une forte base de référence pour cette tâche, qui explique aussi son usage largement répandu pour la détection des fraudes [Carneiro et al., 2017, Bahnsen et al., 2016, Ngai et al., 201 1 ]. On utilise l'implémentation de forêts aléatoires de SciKit-Learn.
[0052] Recherche en quadrillage : tant la forêt aléatoire (RF) que la LSTM doivent être paramétrées avec des hyper-paramètres. On a recherché l'espace des configurations en hyper-paramètres possibles en termes d'un quadrillage grossier chevauché par un sous-ensemble de tous les hyper- paramètres (voir le Tableau 3). On a ensuite sélectionné la configuration avec la valeur AU CP /¾,2 maximale sur l'ensemble de validation. Tableau 3 : hyper-paramètres pris en considération durant la recherche en quadrillage
Figure imgf000021_0001
[0053] Deux critères guident la sélection de valeurs métriques convenables de performances : la robustesse vis-à-vis de classes déséquilibrées et l'attention aux intérêts spécifiques d'un commerce.
[0054] AUCPR : on a employé une courbe de précision-rappel (PR) et en particulier la zone sous cette courbe pour quantifier la précision de détection. Chaque point sur la courbe PR correspond à la précision du classificateur à un niveau spécifique de rappel. Par conséquent, la courbe dans sa totalité donne une image complète de la précision d'un classificateur et de sa robustesse même dans des réglages déséquilibrés. L'intégrale au- dessus de cette courbe engendre un résumé à valeur unique de la performance, et on l'appelle AUCPR.
[0055] AUCPR@0.2 : du point de vue du commerce, un faible rappel et une précision élevée sont préférables à un rappel élevé et une faible précision. Un choix typique consiste par conséquent à mesurer la précision sur les K premiers éléments dans la liste de résultats hiérarchisés. Cette précision à K correspond à un point isolé sur la courbe PR et est susceptible de varier en raison des différents chois pour K. Afin de refléter les intérêts commerciaux et d'éviter un problème de variabilité, on suggère d'utiliser l'intégrale sur la courbe PR calculée jusqu'à un certain niveau de rappel (0,2 dans les présentes expériences). La valeur maximale pour AUCPR@0.2 est de 0,2. [0056] Indice de Jaccard : pour explorer les différences qualitatives entre les deux présentes approches, on a utilisé l'indice de Jaccard afin de mesurer le degré auquel deux classificateurs sont similaires en termes des fraudes qu'ils détectent. Avec deux ensembles de résultats (positifs vrais) A
fi 4 n\ = \AnB\ et B donnés, l'indice de Jaccard est défini par u v |Au.9|. Le seuil de décision est réglé à s.t. et correspond à un rappel de 0,2.
[0057] Economies : les économies constituent une autre mesure métrique qui est souvent utilisée dans le domaine de la détection de fraudes à la carte de crédit. Elles mesurent le bénéfice monétaire d'un certain algorithme par rapport à un accepteur/réjecteur trivial et se basent sur une matrice de coûts prédéfinie. Un test d'un classificateur binaire sur une unique authentification, opération ou transaction peut avoir quatre résultats possibles définis par les deux prédictions (p = 0 ou p = 1 ) et les deux jugements véritables (y = 0 ou y = 1 ). A chacun de ces résultats, on peut associer un coût monétaire induit par un processus d'investigation qui accepte p en tant que décision à la lumière de l'étiquette véritable y. Le Tableau 4 présente la matrice de coûts.
Tableau 4 : matrice de coûts
y = 1 y = 0 p - 1
P = 0 .ø(*») o
Les entrées individuelles sont composées d'un coût de traitement Cp, d'une réimputation CCb et d'un coût dépendant de la transaction g('). g représente la perte d'argent due aux fraudes se produisant pendant que le processus d'investigation est en cours. Elle est définie par :
, (Amt)
V
(8) ν ^ι [0058] où Fj est l'ensemble d'authentifications, opérations ou transactions frauduleuses qui surviennent jusqu'à T heures après l'authentification, opération ou transaction x,<.
F.t = fa I heures ( emps} , 'emps} ) < T Λ i rmde } = 1 }£,. (9 [0059] En raison des réglementations commerciales, on ne peut pas donner de détails sur les valeurs particulaires de Cp, CCb et T. On peut toutefois affirmer clairement qu'à l'extérieur d'un contexte commercial particulier, il n'y a pas de raison pour rapporter une performance de classification de modèles statistiques en termes d'économies d'argent. Cette mesure dépend entièrement de la matrice de coûts. On a incorporé cette valeur métrique uniquement parce qu'on a trouvé qu'elle était couramment utilisée dans des travaux apparentés. Par contraste, l'AUCPR devrait constituer une valeur métrique de choix pour des comparaisons entre différentes méthodes de classification. Elle est objective et donc permet des conclusions plus générales qui sont valides également à l'extérieur d'un contexte commercial particulier.
[0060] On a qualifié un modèle pour chaque combinaison d'ensemble de particularités, d'ensemble de données et de longueur de séquence, puis on a testé sa performance de classification sur l'ensemble de test détenu. Dans le cas des forêts aléatoires, la longueur de la séquence d'entrée n'a pas d'influence sur le modèle puisque seule la dernière authentification, opération ou transaction de la séquence d'entrée est utilisée. On a évalué les modèles qualifiés sur chacun des 24 jours de test individuellement, et on rapporte leur performance moyenne en regard des valeurs métriques définies ci-dessus.
[0061 ] Le Tableau 5 et le Tableau 6 montrent un résumé des résultats pour les ensembles de données de face à face et de commerce électronique. Une première observation est que la précision de détection globale est bien supérieure sur l'ECOM que sur le F2F, ce qui peut s'expliquer par la plus forte proportion de fraudes dans l'ECOM. Deuxièmement, des séquences d'entrée plus longues semblent ne pas avoir d'effet sur la précision de détection, ni pour F2F ni pour ECOM. Troisièmement, la prise en compte des authentifications, opérations ou transactions antérieures avec une LSTM améliore notablement la détection des fraudes en F2F. Toutefois, cette amélioration n'est pas observable en ECOM - à la place, les résultats de l'apprentissage basique et de l'approche d'apprentissage de séquence sont étonnamment similaires.
Tableau 5 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)
Figure imgf000024_0001
Tableau 6 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)
Particularités ECOM
AUCPR (μ) AUCPRo,2 (μ) Economies [%]
RF LSTM RF LSTM RF LSTM
LU BASE 0,179 0,180 0,102 0,099 7,13 % 18,82 % H
ce
Z) TDELTA 0,236 0,192 0,124 0,107 9,02 % 15,30 % o
o AGG 0,394 0,380 0,158 0,157 39,58 % 45,00 %
LU BASE 0,179 0,178 0,101 0,104 7,60 % 15,04 % _D
CD TDELTA 0,228 0,238 0,1 18 0,1 15 10,77 % 18,51 % "Z.
O
_l AGG 0,404 0,402 0,158 0,160 38,73 % 42,93 % [0062] Une autre observation confirme la découverte que des agrégations de particularités améliorent la détection des fraudes. Leur impact est bien plus évident sur l'ECOM que sur la F2F. L'observation que des agrégations de particularités sont utiles dans les cas où le modèle de séquence ne l'est pas suggère que ces deux formes de représentation de contexte ne sont pas corrélées, et que les approches sont complémentaires. Quelle que soit l'information que les états de LSTM pistent dans l'historique des authentifications, opérations ou transactions, elle n'est pas la même que celle qui a été ajoutée à la main par l'intermédiaire d'agrégations.
[0063] Apparemment, une LSTM améliore la détection des fraudes lors d'authentifications, opérations ou transactions face à face en termes d'AUCPR. Il est curieux de savoir d'où provient cette amélioration. La Figure 2 présente les courbes de précision-rappel de toutes les variantes de modèle. Sur la Figure 2a, on peut voir que les courbes PR de modèles RF ont un pic de précision élevé à de faibles niveaux de rappel, mais elles disparaissent rapidement lorsque le rappel augmente. Par contraste, les modèles LSTM ont une précision légèrement inférieure pour les faibles niveaux de rappel mais conservent une précision plus élevée lorsque le rappel augmente. Il y a toutefois une exception intéressante : une fois que l'on a ajouté des particularités agrégées, la courbe PR de la forêt aléatoire augmente avec une marge appréciable jusqu'à une performance qui est égale à celle des modèles LSTM. On ne peut pas du tout observer un tel gain net pour les LSTM. Lors d'authentifications, opérations ou transactions de commerce électronique (voir la Figure 2b), les courbes PR de la forêt aléatoire et de la LSTM sont pratiquement identiques pour tous les ensembles de particularités. Les RF et LSTM tirent avantage des particularités agrégées avec la même marge.
[0064] Les Tableaux 5 et 6 rapportent les statistiques moyennes sur tous les jours de test. Quand on trace les AUCPR des RF et LSTM pour les jours de test individuels, on peut voir sur la Figure 3 que les prédictions des deux classificateurs présentent de fortes variations selon les jours. Toutefois, comme les courbes sont corrélées, on peut en déduire que certains jours le problème de détection est plus difficile que d'autres jours. Par exemple, les deux classificateurs ont leur valeur w.r.t. minimale de l'AUPCR dans les périodes de temps 9/05 - 10/05 et 25/05 - 26/05. Par inspection manuelle, on a tenté de lier les authentifications, opérations ou transactions de ces jours à des événements publics ou du calendrier, mais on n'a pas pu trouver d'explication satisfaisante à cette médiocre performance.
[0065] Dans cette analyse, on a effectué un examen plus approfondi des fraudes détectées avec les RF et LSTM. On a extrait une paire de modèles, à partir de l'ensemble de tous les modèles qualifiés, et on a comparé leurs prédictions. Le seuil de décision a de nouveau été choisi de façon qu'il correspondît à un niveau de rappel de 0,2. Toutes les prédictions avec un score supérieur au seuil ont été considérées comme des prédictions positives, et toutes les autres comme des prédictions négatives. En fixant le rappel, on s'est assuré d'avoir un nombre égal de positifs vrais dans les ensembles de résultats d'une paire de modèles. Toutefois, on s'est intéressé à déterminer si les positifs vrais de la RF sont bien identiques à ceux de la LSTM. On a mesuré le chevauchement des ensembles positifs vrais d'une paire de modèles avec l'indice de Jaccard. La Figure 4 présente toutes les comparaisons par paires sous la forme d'une carte de densité.
[0066] Sur les deux cartes de densité, on observe quatre zones bien distinctes : deux zones qui correspondent aux comparaisons intra-modèle et deux zones qui correspondent aux comparaisons inter-modèles4. Les indices de Jaccard suggèrent que tant la RF que la LSTM sont cohérentes en regard des fraudes qu'elles détectent. Cette propriété est légèrement plus prononcée dans les comparaisons de forêts aléatoires. Toutefois, l'observation centrale et fascinante est le fait que les RF et LSTM tendent à détecter des fraudes différentes. Sur une F2F, les modèles RF s'accordent sur 50,8 % de leurs positifs vrais en moyenne et les modèles LSTM sur 37,8 %. Entre les deux classes de modèle, on observe un accord moyen de seulement 25,2 %. Ceci est similaire pour l'ECOM avec des accords intra- modèle moyens de 47,5 % (RF) et de 50,8 % (LSTM) et un accord intermodèle moyen de seulement 35,0 %. [0067] Il y a une exception à cette observation générale. Les modèles qui ont été entraînés avec des particularités agrégées tendent à détecter un ensemble commun unique de fraudes qui n'ont été détectées ni par les forêts aléatoires ni par les LSTM sans particularités agrégées. Cette propriété est bien plus prononcée pour l'ECOM que pour la F2F.
[0068] Durant les présentes expériences, on a trouvé que l'application de réseaux de mémoire à long et court terme à de telles données structurées n'est pas aussi simple qu'on pourrait le penser. On souhaiterait par conséquent partager certaines observations qui pourraient être utiles pour les praticiens.
[0069] Régularisation de modèle : quand on s'occupe d'un processus temporal pour lequel on vise à prévoir certaines propriétés d'événements futurs, aucune collecte de points de données historiques ne peut véritablement satisfaire aux exigences demandées à partir d'un ensemble de validation représentatif. La précision d'une prédiction le jour suivant tout juste la fin de l'ensemble d'entraînement est meilleure que pour les jours plus éloignés dans le futur, suggérant une dépendance au temps de la distribution conditionnelle. Quand on choisit les jours juste après la période d'apprentissage comme ensemble de validation, les résultats avec cet ensemble vont suggérer une petite régularisation du modèle. Mais ce choix a un effet contraire sur la performance pour les jours plus éloignés dans le futur. Un modèle exact et très fiable des données du jour sera probablement mauvais dans quelques jours, tandis qu'un modèle moins fiable du jour sera toujours valide dans quelques jours. Ceci est moins problématique pour les classificateurs d'ensembles tels que les forêts aléatoires, mais l'est pour les réseaux neuronaux. Un pur contournement consiste à utiliser un abandon (Dropout) sur la structure de réseau. Il échantillonne des réseaux plus petits à partir de la structure complète, les entraîne indépendamment et finalement fait une moyenne des hypothèses de ces réseaux plus petits. Les prédictions basées sur cette hypothèse mise sous forme de moyenne sont plus stables dans le temps. [0070] Apprentissage en ligne : la descente de gradient stochastique et les nombreuses variantes qui ont été développées pour l'entraînement de réseaux neuronaux (ADAM, RMSprop, Adagrad) sont capables de mettre à jour itérativement le modèle même à partir d'erreurs imprécises qui ont été estimées sur de petits ensembles d'exemples d'entraînement. Cette propriété se combine bien avec l'exigence qu'ont les commerces de maintenir à jour leurs modèles de détection avec le courant entrant de données d'authentifications, d'opérations ou de transactions.
[0071 ] Remarques concernant l'entraînement de LSTM : du fait de sa structure récurrente, la LSTM est susceptible d'un surapprentissage même quand les couches de LSTM n'ont que quelques nœuds. Par conséquent, il est recommandé de démarrer avec une structure plutôt petite et d'augmenter la taille avec précautions tant qu'il y a une raison de s'attendre à une performance de généralisation plus poussée. On a remarqué qu'une pénalité ¾ conduit à une convergence bien plus lisse et des optima bien meilleurs qu'une pénalité ½ . L'optimiseur ADAM fonctionne bien mieux qu'un algorithme SGD conventionnel dans les présentes expériences puisqu'il estime un schéma de vitesse d'apprentissage approprié à la volée.
[0072] Approche combinée : qualitativement, il reste une seule différence entre les forêts aléatoires et les LSTM même après l'addition de particularités agrégées. Lors de transactions face à face, la LSTM détecte un ensemble de fraudes différent de celui de la forêt aléatoire, invariablement davantage différent qu'à l'intérieur des familles individuelles. On présume que cette différence peut être expliquée par la présence de schémas de succession plus distincts, qui sont guidés et encadrés par des contraintes du monde réel. Par conséquent, dans le scénario F2F, la combinaison d'un apprenant de séquence avec un apprenant statique et des particularités agrégées est susceptible d'améliorer encore davantage la précision de détection.
[0073] Suivant le type d'application, ou le type des fraudes, défauts ou anomalies dans une authentification, opération ou transaction que l'opérateur veut détecter, le système peut utiliser uniquement le réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), ou le réseau neuronal pour l'apprentissage statistique du type d'arbre de décision, ou une combinaison des deux (voir la Figure 6).
[0074] On comprendra facilement, à la lecture de la présente description, que les caractéristiques de la présente invention, telles que globalement décrites et illustrées sur les figures, peuvent être agencées et conçues selon une large diversité de configurations différentes. Ainsi, la description de la présente invention et les figures qui l'accompagnent ne sont pas destinés à limiter la portée de l'invention, mais représentent uniquement des modes de réalisation sélectionnés.
[0075] L'homme du métier comprendra que les caractéristiques techniques d'un mode de réalisation donné peuvent en fait être combinées avec des caractéristiques d'un autre mode de réalisation, sauf si l'inverse est explicitement mentionné, ou s'il est évident que ces caractéristiques sont incompatibles. En outre, les caractéristiques techniques décrites dans un mode de réalisation peuvent être isolées des autres caractéristiques de ce mode, sauf si l'inverse est explicitement mentionné.
[0076] Il devrait apparaître de façon évidente à l'homme du métier que la présente invention permet des modes de réalisation sous de nombreuses autres formes spécifiques sans s'écarter de la portée définie par la protection visée. L'illustration et l'invention ne devraient pas être limitées aux détails donnés ci-dessus.

Claims

REVENDICATIONS
1 . Système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant :
• un agencement matériel et logiciel formant un système de prétraitement ;
• un agencement matériel et logiciel formant un réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), seul ou en combinaison avec un algorithme pour l'apprentissage statistique du type d'arbre de décision, et conduisant à un modèle de traitement de données enrichies agrégées issues du système de prétraitement,
• un agencement matériel et logiciel pour l'injection de données enrichies agrégées issues du système de prétraitement, dans le réseau neuronal,
• un agencement matériel et logiciel pour valider l'authentification, opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.
caractérisé en ce que le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente, le Classificateur de Régression Logistique prend en compte le temps écoulé entre deux authentifications, opérations ou transactions lors de sa mise en œuvre.
2. Système selon la revendication précédente, dans lequel l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier algorithme sous la forme d'un réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième algorithme pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.
3. Système selon l'une des revendications précédentes, qui est utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets dans la mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.
4. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU.
5. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un système de prétraitement comprend :
- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,
- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes,
- un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,
- un agencement matériel et logiciel pour agréger les données enrichies.
6. Système selon l'une des revendications précédentes, dans lequel le système de prétraitement utilise un mode multifil.
PCT/EP2018/069176 2017-07-18 2018-07-13 Systeme d'apprentissage machine pour diverses applications informatiques WO2019016106A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201880053753.5A CN110998608B (zh) 2017-07-18 2018-07-13 用于各种计算机应用程序的机器学习系统
EP18755710.3A EP3655893A1 (fr) 2017-07-18 2018-07-13 Systeme d'apprentissage machine pour diverses applications informatiques
US16/632,267 US11763137B2 (en) 2017-07-18 2018-07-13 Machine learning system for various computer applications

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1756823A FR3069357B1 (fr) 2017-07-18 2017-07-18 Systeme d'apprentissage machine pour diverses applications informatiques
FR1756823 2017-07-18

Publications (1)

Publication Number Publication Date
WO2019016106A1 true WO2019016106A1 (fr) 2019-01-24

Family

ID=60182698

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2018/069176 WO2019016106A1 (fr) 2017-07-18 2018-07-13 Systeme d'apprentissage machine pour diverses applications informatiques

Country Status (5)

Country Link
US (1) US11763137B2 (fr)
EP (1) EP3655893A1 (fr)
CN (1) CN110998608B (fr)
FR (1) FR3069357B1 (fr)
WO (1) WO2019016106A1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362494A (zh) * 2019-07-18 2019-10-22 腾讯科技(深圳)有限公司 微服务状态信息展示的方法、模型训练方法以及相关装置
CN111123894A (zh) * 2019-12-30 2020-05-08 杭州电子科技大学 一种基于lstm和mlp结合的化工过程故障诊断方法
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
US12033068B2 (en) 2018-06-22 2024-07-09 Advanced New Technologies Co., Ltd. Method and device for cash advance recognition

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829866B1 (en) * 2017-12-27 2023-11-28 Intuit Inc. System and method for hierarchical deep semi-supervised embeddings for dynamic targeted anomaly detection
FR3109232A1 (fr) * 2020-04-10 2021-10-15 Advestis Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees
JP6926279B1 (ja) * 2020-05-29 2021-08-25 楽天グループ株式会社 学習装置、認識装置、学習方法、認識方法、プログラム、及び再帰型ニューラルネットワーク
US11336507B2 (en) * 2020-09-30 2022-05-17 Cisco Technology, Inc. Anomaly detection and filtering based on system logs
US20220188837A1 (en) * 2020-12-10 2022-06-16 Jpmorgan Chase Bank, N.A. Systems and methods for multi-agent based fraud detection
CN112598118B (zh) * 2021-03-03 2021-06-25 成都晓多科技有限公司 有监督学习的标注异常处理方法、装置、存储介质及设备
CN113569993A (zh) * 2021-08-27 2021-10-29 浙江工业大学 一种聚合反应过程质量预测模型构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106600283A (zh) * 2016-12-16 2017-04-26 携程旅游信息技术(上海)有限公司 识别姓名国籍的方法、系统及判断交易风险的方法、系统
US10762423B2 (en) * 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"STUDIES IN COMPUTATIONAL INTELLIGENCE", vol. 247, 1 January 2009, Springer-Verlag Berlin Heidelberg, ISSN: 1860-949X, article BÉNARD WIESE ET AL: "Credit Card Transactions, Fraud Detection, and Machine Learning: Modelling Time with LSTM Recurrent Neural Networks", pages: 231 - 268, XP055458746, DOI: 10.1007/978-3-642-04003-0_10 *
ABDALLAH AISHA ET AL: "Fraud detection system: A survey", JOURNAL OF NETWORK AND COMPUTER APPLICATIONS, ACADEMIC PRESS, NEW YORK, NY, US, vol. 68, 13 April 2016 (2016-04-13), pages 90 - 113, XP029539503, ISSN: 1084-8045, DOI: 10.1016/J.JNCA.2016.04.007 *
ANDREA DAL POZZOLO ET AL: "Learned lessons in credit card fraud detection from a practitioner perspective", EXPERT SYSTEMS WITH APPLICATIONS, vol. 41, no. 10, 1 August 2014 (2014-08-01), GB, pages 4915 - 4928, XP055458801, ISSN: 0957-4174, DOI: 10.1016/j.eswa.2014.02.026 *
CORREA BAHNSEN ALEJANDRO ET AL: "Feature engineering strategies for credit card fraud detection", EXPERT SYSTEMS WITH APPLICATIONS, OXFORD, GB, vol. 51, 7 January 2016 (2016-01-07), pages 134 - 142, XP029409386, ISSN: 0957-4174, DOI: 10.1016/J.ESWA.2015.12.030 *
NUNO CARNEIRO ET AL: "A data mining based system for credit-card fraud detection in e-tail", DECISION SUPPORT SYSTEMS, vol. 95, 7 January 2017 (2017-01-07), NL, pages 91 - 101, XP055458718, ISSN: 0167-9236, DOI: 10.1016/j.dss.2017.01.002 *
YOSHIHIRO ANDO ET AL: "Detecting Fraudulent Behavior Using Recurrent Neural Networks", COMPUTER SECURITY SYMPOSIUM 2016, 11 October 2016 (2016-10-11), XP055458989 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12033068B2 (en) 2018-06-22 2024-07-09 Advanced New Technologies Co., Ltd. Method and device for cash advance recognition
CN110362494A (zh) * 2019-07-18 2019-10-22 腾讯科技(深圳)有限公司 微服务状态信息展示的方法、模型训练方法以及相关装置
CN110362494B (zh) * 2019-07-18 2021-06-15 腾讯科技(深圳)有限公司 微服务状态信息展示的方法、模型训练方法以及相关装置
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN111123894A (zh) * 2019-12-30 2020-05-08 杭州电子科技大学 一种基于lstm和mlp结合的化工过程故障诊断方法

Also Published As

Publication number Publication date
US11763137B2 (en) 2023-09-19
US20200257964A1 (en) 2020-08-13
FR3069357A1 (fr) 2019-01-25
EP3655893A1 (fr) 2020-05-27
CN110998608A (zh) 2020-04-10
FR3069357B1 (fr) 2023-12-29
CN110998608B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
WO2019016106A1 (fr) Systeme d&#39;apprentissage machine pour diverses applications informatiques
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
WO2019129977A1 (fr) Detection d&#39;anomalies par une approche combinant apprentissage supervise et non-supervise
RU2723448C1 (ru) Способ расчета кредитного рейтинга клиента
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
EP2374075A1 (fr) Procede et systeme pour classifier des donnees issues de base de donnees
Kulkarni et al. Advanced credit score calculation using social media and machine learning
Jonnalagadda et al. Credit card fraud detection using Random Forest Algorithm
CN116485406A (zh) 账户的检测方法及装置、存储介质和电子设备
US20230095834A1 (en) Methods and systems for identifying a re-routed transaction
FR3048840A1 (fr)
Gambo et al. A convolutional neural network model for credit card fraud detection
Jose et al. Detection of credit card fraud using resampling and boosting technique
Aziz et al. Fraudulent transactions detection in credit card by using data mining methods: A review
WO2021110763A1 (fr) Méthode mise en œuvre par ordinateur pour l&#39;allocation d&#39;une pièce comptable à un couple de comptes débiteur/créditeur et l&#39;écriture comptable
Frery Ensemble Learning for Extremely Imbalced Data Flows
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
Tang et al. Stock movement prediction: A multi‐input LSTM approach
MATHEW An Ensemble Machine Learning Model for Classification of Credit Card Fradulent Transactions
Liang et al. DeRisk: An Effective Deep Learning Framework for Credit Risk Prediction over Real-World Financial Data
US20240054356A1 (en) Systems and methods for generating multipurpose graph node embeddings for machine learning
Nithiya et al. Bitcoin Price Prediction Using Machine Learning
WO2023170303A1 (fr) Methode pour la detection d&#39;anomalie utilisant un modele global-local
US20230289610A1 (en) Artificial intelligence based methods and systems for unsupervised representation learning for bipartite graphs
Shetty A Hybrid Feature Selection and Hybrid Prediction Model for Credit Risk Prediction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18755710

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018755710

Country of ref document: EP

Effective date: 20200218