WO2019129977A1 - Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise - Google Patents

Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise Download PDF

Info

Publication number
WO2019129977A1
WO2019129977A1 PCT/FR2018/053512 FR2018053512W WO2019129977A1 WO 2019129977 A1 WO2019129977 A1 WO 2019129977A1 FR 2018053512 W FR2018053512 W FR 2018053512W WO 2019129977 A1 WO2019129977 A1 WO 2019129977A1
Authority
WO
WIPO (PCT)
Prior art keywords
tree
transaction
node
anomalies
metric
Prior art date
Application number
PCT/FR2018/053512
Other languages
English (en)
Inventor
Li Guo
Guillaume COTER
Original Assignee
Worldline
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline filed Critical Worldline
Publication of WO2019129977A1 publication Critical patent/WO2019129977A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Definitions

  • the present invention relates to the detection of anomalies in a set of transactions. It relates in particular to the detection of fraud in financial transactions.
  • the volume of data to be processed is enormous. This is particularly the case of the volume of financial transactions that the servers of a bank are required to manage daily (withdrawals and purchases by credit card, etc.). This may be the case for service transactions on web services (not necessarily financial).
  • the automatic techniques for considering this general problem are generally based on a learning mechanism, allowing to build a "model” that formalizes the "typicity” of transactions. The new transactions are then presented to this model which can then predict an abnormal character (including fraudulent) or not, compared to this type of typicity.
  • machine leaming can be divided into two broad families, based on supervised learning or unsupervised learning.
  • Supervised learning makes it possible to correctly detect anomalies that correspond to a class determined by the learning game. However, an anomaly that does not correspond to a previously determined class will not be correctly detected.
  • the other major methodological family is that of unsupervised learning.
  • a training game is also used but no information is associated with the training game transactions indicating whether it is a transaction representing an anomaly or not.
  • the model is thus constituted by determining "synthetic tendencies" in this training game, and the abnormal transactions are considered as those presenting an anomaly compared to the model thus constituted.
  • One advantage of this approach is to not make assumptions about types or classes of anomalies (or frauds). It allows to be more robust and effective for the detection of new types of fraud.
  • the object of the present invention is to provide a solution at least partially overcoming the aforementioned drawbacks.
  • the present invention provides a method for detecting anomalies in a set of transactions established through a telecommunication network and carried out by a server, said method comprising
  • the invention comprises one or more of the following features which can be used separately or in partial combination with one another or in total combination with one another:
  • the method further comprises a step of determining for each node of the path between said sheet and the root of said at least one tree, of a number of anomalies cumulating the indications that a transaction is in anomaly, associated with the set descending sheets of said node, and wherein said second metric is the sum of the numbers of anomalies on all the nodes of said path; the method further comprises a step of determining (S4) for each node of the path between said sheet and the root of said at least one tree, of a number of anomalies cumulating the indications that a transaction is in anomaly, associated with the set of falling sheets of said node, and wherein said second metric is the distance between said sheet and the node closest to said path for which said number of anomalies is non-zero;
  • said first metric is the depth of said sheet in said at least one shaft
  • said at least one tree forms a forest of trees, each tree of said forest being defined on a different training game
  • said at least one tree is defined, from a root node, by a recursive process comprising the steps of:
  • said recursive process stops when the considered node corresponds to a single value, so that each of the leaves of said tree corresponds to a single transaction of said training set, an indication whether it corresponds to a normal transaction or anomaly then being associated with said node considered.
  • said at least one shaft is a binary tree and said plurality of subassemblies is two subsets;
  • Another object of the invention relates to a computer program comprising code for implementing a method as defined above, when executed on a computer.
  • FIG. 1 schematically represents a flow diagram relating to one embodiment of the invention.
  • FIG. 2 diagrammatically represents an example of a tree constructed and driven according to one embodiment of the invention.
  • the invention is based on a learning phase which consists in creating and training at least one tree modeling all the transactions of the training game, then an exploitation phase during which new transactions are confronted to the tree or trees in order to deduce scores. These scores indicate whether the corresponding transactions are abnormal or normal.
  • these two steps can be concomitant, in the sense that the new transactions presented during the exploitation phase can also result in the tree, or the trees.
  • the model is thus dynamic and in constant adaptation to the data flow.
  • a plurality of trees forming a "forest” is considered. This way of doing things to bring a better robustness of the learning compared to the training game and the random draws carried out as part of the learning process that will be described.
  • Such a tree, or such a plurality of trees can be stored in a database, or memory, associated with the server in charge of the anomaly detection.
  • server here must be understood in a functional sense, and therefore encompass server farms or services offered by abstraction layers, particularly cloud-like.
  • a set of characteristic parameter values of the transactions is determined.
  • these parameters depends on the nature of the transactions considered and operational choices. For example, in the case of financial transactions (online purchases or credit card), we can determine as parameters: the amount of the transaction, the parties to the transaction (for example, a buyer and a seller, or more generally, a debtor and a creditor), a date, a time, a physical place of the parties at the time of the transaction, etc.
  • any element transmitted by the communication networks to the server in charge of carrying out the transaction can be taken into account, insofar as it can make it possible to characterize a possible anomaly in a set of transactions. Consequently, the invention is not limited to the above-mentioned example parameters, but may take into account any available parameter.
  • This step S1 is performed automatically by the server, aggregating the various available information sources and performing the correlations to assign the received information to each transaction processed to constitute this set of characteristic parameters.
  • the S2 learning phase is an iterative process aimed at creating a tree, or a tree forest, in which each iteration considers a parameter in order to subdivide the set of values taken by this parameter on the set of transactions of the game. of learning, so that, after a sufficient number of iterations, isolate each transaction in a leaf of the tree.
  • isolation tree This learning process is inspired by isolation trees, or "isolation tree” in English, or iTree.
  • isolation tree A definition of this type of tree is given in the article "Isolation Forest” by Feil Tony Liu, Kai Ming Ting and Zhi-Hua Zhou, in Proceedings of the 2008 Eighth International IEEE Conference on Data Mining (ICDM'08) .
  • an isolation tree is defined as a set of nodes T, so that T is either a leaf or an internal node associated with a test and exactly two child nodes Ti, T r .
  • the test consists of an attribute q and a pivot value p, so that q ⁇ p divides the space into two subassemblies assigned to the nodes Ti and T r respectively.
  • the invention is not limited to isolation trees thus defined, and in particular to binary trees: in fact, it is quite possible to subdivide the space of the values of the parameters into a plurality of subassemblies, the plurality being of any cardinality and in particular greater than two.
  • a forest of such trees is considered. We then constitute a different training game for the training of each of the trees of the forest.
  • a parameter is randomly selected from the set of transaction parameters of a training set. This first parameter corresponds to the root node.
  • this training game is part of the whole training game in case a forest is set up. It consists of a set of transactions, for which a set of parameter values has been determined.
  • a parameter is chosen randomly (for example, the date %), and in a step S22, the space of the values of this parameter is divided into a plurality of subsets.
  • This division can be implemented in different ways.
  • step S23 child nodes of the considered node (that is to say, during the first iteration, of the root node) are created. This process is then reiterated, recursively, for each of the child nodes, from the step of step S21. At each iteration, we understand that the trading space of the training game is divided into as many parts as created child nodes.
  • Figure 2 shows a possible tree obtained by this process.
  • the leaves Fl, F2, F3 ... Fl l of the tree therefore each correspond to a single transaction of the training game.
  • the internal nodes NO, N1, N2, N1, N12, N11, N112, N1121, N122, N22 each have exactly two child nodes.
  • S21-S23 only the very content of the training set is used for the creation of the tree. This is an unsupervised process.
  • a step S24 consists in associating with the node considered at the end of the process (that is to say on each sheet) an indication if it corresponds to a normal transaction or an anomalous transaction.
  • This step S24 therefore constitutes a supervised step that combines with the previous, unsupervised steps, and thus forms a mixed process.
  • indications A signifying that the corresponding transactions are in anomalies are associated with sheets F6, F9, F10.
  • the other sheets correspond to normal transactions (they may be associated with indications to this effect but not shown in the figure).
  • the invention can quite work without a "semi-supervised" mode in which the training set consists of transactions to which an indication is associated and transactions for which these indications do not exist.
  • the learning phase can be continuous, in parallel with the exploitation phase.
  • the tree continues to be developed for new transactions presented during the exploitation phase.
  • this tree can be stored in a memory associated with the server.
  • the server can then use the data structure formed by the trees available for the prediction.
  • This tree, or this forest of trees are then exploited in a prediction phase that aims to determine for a new transaction (therefore not belonging to the training game) if it is a normal transaction or anomaly.
  • the prediction phase is performed by the server for all or part of the transactions processed, using the trees stored in a database associated with the server.
  • the server has software means for implementing an algorithm for traversing these trees as a function of the transactions received from the telecommunication network.
  • the tree For each new transaction whose normal character or anomaly is to be estimated, the tree (or the trees) is traversed in a step S3. This traverses is carried out starting from the root and by comparing with each node met the value of the corresponding parameter with the subassemblies assigned to each of its threads (or with the criterion of division during the training phase, which amounts to the same). At each step, we aim to follow the path guided by the value of the parameters by choosing the child node that corresponds to the value of the parameter considered.
  • a step S4 for each node, the path between this sheet and the root of the tree is determined, a number of anomalies accumulating the indications that a transaction is in anomaly, associated with all the falling leaves of said node.
  • This determination can be a simple "reading" of a value that has been associated with each of the nodes previously, for example as a result of the training phase. This method avoids calculating the same number for each new transaction to be processed.
  • This number is represented in each circle representing the nodes of the example of FIG. For sheets, this number depends directly and only on the associated indication. Thus, for sheets F6, F9, F10 to which an indication A is associated, the values of this number are 1. For the other sheets, they are 0.
  • This number can be calculated for the internal nodes by going up in the tree and, for each node encountered, to cumulate the values of this number for each of the wires.
  • this number represents the total number of anomaly transactions within the training game.
  • a score is then determined for the transaction considered in function.
  • An example of a first metric is the depth of the leaf considered in the tree, that is to say the distance between the leaf and the root, in number of nodes.
  • the second metric is based on the cumulative numbers in each node of the tree, calculated or pre-calculated in the previous step S4.
  • the second metric is the sum of the number of anomalies on the set of nodes of the path between the leaf considered and the root.
  • the path is formed of the nodes
  • this first metric is therefore 4.
  • the path is formed of the nodes F9, N2, NO, with respectively as associated number of anomalies 1, 2, 3. In total, this first metric is worth 6.
  • the second metric is the distance between the sheet considered and the node closest to the path for which the number of anomalies is non-zero. To do this, it is a question of going up the path starting from the sheet considered towards the root, until meeting a number of non-zero anomalies associated with a node.
  • different metrics can be used to combine data from unsupervised learning (first metric based solely on tree structure), and data from supervised learning (second metric based on associated with the leaves).
  • a quotient can be simply done between the result of the second metric by the result of the first metric.
  • the numerator (second metric) is important for regions of the tree where the density of anomalies in the training game is important.
  • the use of the indications associated with the sheets makes it possible to reduce the rate of false positives.
  • the denominator (first metric) may correspond to the known process criterion of iTree or iForest ("isolation forest"). Anomalies tend to have shallow depths in the tree because they are "easier” to isolate than normal transactions. Even transactions corresponding to new types of anomalies (new types of fraud, etc.) are associated with shallow depths, as long as they differ from the majority of transactions.
  • this process according to the invention combining the techniques of the isolation forests and the indications on the sheets makes it possible to detect both anomalies of known types and new types.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention concerne un procédé pour la détection d'anomalies dans un ensemble de transactions établies au travers d'un réseau de télécommunication, comportant la détermination (S1) pour chaque transaction d'un ensemble de valeurs de paramètres associées à la transaction; le parcours (S3), pour chaque transaction, d'au moins un arbre préalablement défini sur un jeu d'entrainement, en comparant les valeurs des paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu'à ce qu'une feuille soit atteinte; l'arbre étant entrainé (S2) de sorte de sorte que chacune des feuilles corresponde à une unique transaction du jeu d'entrainement et que ses feuilles soient associées, chacune,à une indication si celles-ci correspondent à une transaction normale ou en anomalie, la détermination (S5) d'un score en fonction d'une première métrique dépendant de la position de la feuille dans l'arbre, et d'une seconde métrique dépendant de ces indications des feuilles, ledit score indiquant une estimation si la transaction est normale ou en anomalie.

Description

DETECTION D’ANOMALIES PAR UNE APPROCHE COMBINANT
APPRENTISSAGE SUPERVISE ET NON-SUPERVISE
DOMAINE DE L’INVENTION
La présente invention concerne la détection d'anomalies dans un ensemble de transactions. Elle concerne notamment la détection de fraudes dans des transactions financières.
CONTEXTE DE L’INVENTION
Dans la plupart des cas pratiques, le volume des données à traiter est énorme. C'est notamment le cas du volume des transactions financières que les serveurs d’une banque sont amenés à gérer quotidiennement (retraits et achats par carte bancaire, etc.). Ce peut être le cas des transactions de service sur des services web (non nécessairement financières).
Il est connu de faire appel à des techniques de traitement automatique des données afin de pouvoir analyser ces données et y déterminer des anomalies le plus rapidement possible. Ces anomalies peuvent être des simples erreurs, mais également des fraudes. Les fraudeurs cherchant à déjouer les parades mises en place, il est difficile de pouvoir caractériser un comportement typique qui pourrait guider la recherche de fraudes dans un important volume de données. Il est donc nécessaire d'analyser l'ensemble des données pour y détecter des transactions atypiques.
Ces transactions atypiques sont alors présentées à un opérateur humain qui les analyse afin de décider de leur caractère frauduleux ou non et déclencher d’éventuelles contremesures. Il est donc important d'à la fois déterminer un ensemble de transactions suspectes qui minimise les transactions frauduleuses non détectées, mais qui minimise aussi la sur-détection (ou fausses alertes) afin de limiter la charge des opérateurs humains.
Les techniques automatiques permettant de considérer cette problématique générale se basent en général sur un mécanisme d'apprentissage, permettant de construire un « modèle » qui formalise la « typicité » des transactions. Les nouvelles transactions sont ensuite présentées à ce modèle qui peut alors prédire un caractère anormal (notamment frauduleux) ou non, par rapport à ce modèle de typicité.
Ces techniques d’apprentissage (typiquement appelées « machine leaming » en anglais) peuvent se diviser en deux grandes familles, basées sur un apprentissage supervisé ou sur un apprentissage non supervisé.
Dans le cas d’un apprentissage supervisé, on indique pour chaque transaction du jeu d'entrainement si elle représente une anomalie ou non. Cette indication (ou étiquette, « label » en anglais) est utilisée pour la construction du modèle. En conséquence, la détection d’une anomalie pour une nouvelle transaction peut se ramener à une tâche de classification.
L’apprentissage supervisé permet de bien détecter les anomalies qui correspondent à une classe déterminée par le jeu d’apprentissage. Cependant, une anomalie qui ne correspond pas bien à une classe préalablement déterminée ne sera pas correctement détectée.
En fait, par essence même, ces méthodes visent à déterminer des classes correspondant aux anomalies présentées dans le jeu d’apprentissage. Or, les fraudeurs sont sans cesse en recherche de nouvelles stratégies de fraude, et leur comportement visent donc à échapper à toute tentative de classification déterministe. Il est alors nécessaire de régulièrement entraîner de nouveau le modèle de classification pour prendre en compte les nouveaux types d'anomalies. Mais tant que le nombre de transactions d'un nouveau type n'est pas suffisamment important, le modèle ne pourra pas les classifier correctement.
D'une façon plus générale, ce type d'approche souffre du faible nombre d’anomalies qui ne permet pas toujours une bonne classification.
L'autre grande famille méthodologique est celle de l'apprentissage non supervisée. Selon le principe, un jeu d'entrainement est également utilisé mais on n’associe aucune information aux transactions du jeu d’entrainement indiquant s’il s'agit d'une transaction représentant une anomalie ou non. Le modèle se constitue donc en déterminant des « tendances synthétiques » dans ce jeu d'entrainement, et les transactions anormales sont considérées comme celles présentant une anomalie par rapport au modèle ainsi constitué.
Un avantage de cette approche est de ne pas faire de supposition sur des types ou classes d’anomalies (ou fraudes). Elle permet ainsi d’être plus robuste et efficace pour la détection de nouveaux types de fraudes.
Toutefois, elle souffre de la difficulté de distinguer des transactions présentant effectivement une anomalie, de celles ne présentant pas d’anomalies mais détectées comme suspectes par le modèle. D’une façon générale, les méthodes non supervisés présentent un important taux de fausses alertes. RESUME DE L’INVENTION
Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités. A cette fin, la présente invention propose un procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication et effectuées par un serveur, ledit procédé comportant
la détermination pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction et transmis audit serveur à travers le réseau de télécommunication ;
le parcours, pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie,
la détermination d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie. Suivant des modes de réalisation préférés, l’invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :
- le procédé comporte en outre une étape de détermination pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin ; - le procédé comporte en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul ;
- ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre ;
- ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent ;
- ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :
choix aléatoire d’un paramètre parmi l’ensemble des paramètres des transactions dudit jeu d’entrainement ;
division de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous-ensembles ;
création de nœuds fils, chacun correspondant à l’un des sous- ensembles de ladite pluralité;
dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui- ci correspond à une transaction normale ou en anomalie étant alors associée audit nœud considéré.
ledit au moins un arbre est un arbre binaire et ladite pluralité de sous- ensembles est formée de deux sous-ensembles ;
ledit au moins arbre est un « itree ». Un autre objet de l’invention est relatif à un programme d’ordinateur comportant du code pour mettre en œuvre un procédé tel que précédemment défini, lorsque exécuté sur un ordinateur. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d’un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.
BREVE DESCRIPTION DES DESSINS
La figure 1 représente schématiquement un organigramme relatif à un mode de réalisation de l’invention.
La figure 2 représente schématiquement un exemple d’arbre construit et entraîné selon un mode de réalisation de l’invention.
DESCRIPTION DETAILLEE DE L’INVENTION
L’invention repose sur une phase d’apprentissage qui consiste à créer et entraîner au moins un arbre modélisant l’ensemble des transactions du jeu d’entrainement, puis une phase d’exploitation durant laquelle on confronte de nouvelles transactions à l’arbre ou arbres afin d’en déduire des scores. Ces scores permettent d’indiquer si les transactions correspondantes sont des anomalies ou normales.
Selon un mode de réalisation de l’invention, ces deux étapes peuvent être concomitantes, au sens que les nouvelles transactions présentées pendant la phase d’exploitation peuvent également entraîner l’arbre, ou les arbres. Le modèle est ainsi dynamique et en constante adaptation au flux de données.
Selon un mode de réalisation de l’invention, une pluralité d’arbres, formant une « forêt » est considérée. Cette façon de faire permet d’apporte une meilleure robustesse de l’apprentissage par rapport au jeu d’entrainement et aux tirages aléatoires effectuées dans le cadre du processus d’apprentissage qui va être décrit.
Un tel arbre, ou une telle pluralité d’arbre, peut être stockée dans une base de données, ou mémoire, associée au serveur en charge de la détection d’anomalie. Le terme « serveur » doit ici être compris dans un sens fonctionnel, et donc englober les fermes de serveurs ou les services offerts par des couches d’abstraction, notamment de type « cloud » (informatique en nuage).
Dans une première étape, indiquée S 1 sur la figure 1 , on détermine un ensemble de valeurs de paramètres caractéristiques des transactions.
Le choix de ces paramètres dépend de la nature des transactions considérées et de choix opérationnels. Par exemple, dans le cas de transactions financières (achats enligne ou par carte bancaire), on peut déterminer comme paramètres : le montant de la transaction, les parties à la transaction (par exemple, un acheteur et un vendeur, ou plus généralement, un débiteur et un créditeur), une date, un horaire, un lieu physique des parties au moment de la transaction, etc.
Tout élément transmis par les réseaux de communication au serveur en charge d’effectuer la transaction peuvent être pris en compte, dans la mesure où il peut permettre de caractériser une éventuelle anomalie dans un ensemble de transactions. En conséquence, l’invention ne se limite pas aux exemples de paramètres mentionnés ci-dessus, mais est susceptibles de prendre en compte tout paramètre disponible.
Cette étape Sl est réalisée de façon automatique par le serveur, en agrégeant les différentes sources d’information disponibles et en effectuant les corrélations pour affecter les informations reçues à chaque transaction traitée afin de constituer cet ensemble de paramètres caractéristiques. La phase d’apprentissage S2 est un processus itératif visant à créer un arbre, ou une forêt d’arbres, dans lequel chaque itération considère un paramètre afin de subdiviser l’ensemble des valeurs pris par ce paramètre sur l’ensemble des transactions du jeu d’apprentissage, de sorte à, au bout d’un nombre suffisant d’itérations, isoler chaque transaction dans une feuille de l’arbre.
Ce processus d’apprentissage s’inspire des arbres d’isolation, ou « isolation tree » en langue anglaise, ou encore iTree. Une définition de ce type d’arbre est notamment donné dans l’article « Isolation Forest » de Feil Tony Liu, Kai Ming Ting et Zhi-Hua Zhou, in Proceedings of the 2008 Eighth IEEE International Conférence on Data Mining (ICDM’08). Selon cet article, un arbre d’isolation est défini comme un ensemble de nœuds T, de sorte que T est soit une feuille, soit un nœud interne associé à un test et exactement deux nœuds fils Ti, Tr. Le test consiste en un attribut q et une valeur pivot p, de sorte que q<p divise l’espace en deux sous-ensembles attribués aux nœuds Ti et Tr respectivement.
L’invention, toutefois, ne se limite pas aux arbres d’isolation ainsi définis, et notamment aux arbres binaires : en effet, il est toute à fait envisageable de subdiviser l’espace des valeurs des paramètres en une pluralité de sous-ensembles, la pluralité étant de cardinalité quelconque et notamment supérieure à deux.
Selon un mode de réalisation préférentiel de l’invention, une forêt de tels arbres est considérée. On constitue alors un jeu d’entrainement différent pour l’entrainement de chacun des arbres de la forêt.
Pour ce faire, différentes approches sont possible. Par exemple, il peut suffire de partitionner le jeu d’entrainement disponible en autant de parts que l’on souhaite d’arbres dans la forêt. Préférentiellement toutefois, on peut utiliser le mécanisme classique consistent à tirer aléatoirement, pour chaque arbre, un échantillon de dimension prédéfinie, parmi l’ensemble du jeu d’entraînement. Pour chacun des arbres, on met alors en place un processus itératif permettant de le créer à partir d’un nœud racine.
Dans une première étape S21, un paramètre est choisi aléatoirement parmi l’ensemble des paramètres des transactions d’un jeu d’entrainement. Ce premier paramètre correspond au nœud racine.
Comme vu précédemment, ce jeu d’entrainement est une partie de l’ensemble du jeu d’entrainement dans le cas où une forêt est mise en place. Il est formé d’un ensemble de transactions, pour lesquelles un ensemble de valeurs de paramètres a été déterminé.
Un paramètre est choisi aléatoirement (par exemple, la date...), et dans une étape S22, on divise l’espace des valeurs de ce paramètre en une pluralité de sous-ensembles.
Cette division peut être mise en œuvre de différentes façons.
Par exemple, dans le cas où l’on veut construire un arbre binaire, il est possible de choisir les sous-ensembles de sorte à former deux sous- ensembles de cardinalité sensiblement identique. Pour ce faire, on peut calculer la valeur médiane prise par ce paramètre sur l’ensemble de jeu d’entrainement, et considérer deux sous-ensembles en fonction de cette valeur médiane.
On peut également utiliser le mécanisme classique de l’« itree » consistant à effectuer un tirage aléatoire de la valeur pivot. Cette façon de faire permet une plus grande variété des propriétés des arbres de la forêt, conférant à cette dernière une meilleure robustesse.
Pour des paramètres pouvant prendre des valeurs discrètes, il est possible de créer autant de sous-ensembles que de valeurs, ou bien de regrouper ces valeurs en un certain nombre de sous-ensembles (par exemple deux, si l’on souhaite un arbre binaire) selon une règle prédéfinie. Pour chacun des sous-ensembles, dans une étape S23, on créé des nœuds fils du nœud considéré (c’est-à-dire, lors de la première itération, du nœud racine). Ce processus est ensuite réitéré, de façon récursive, pour chacun des nœuds fils, à partir de l’étape de l’étape S21. A chaque itération, on comprend que l’espace des transactions du jeu d’entrainement est divisé en autant de parties que de nœuds fils créés.
On choisit donc ainsi un deuxième paramètre, permettant de subdiviser encore la population des transactions du jeu d’apprentissage, et d’ajouter des nœuds à l’arbre.
Ce processus se termine naturellement, pour chaque nœud, lorsqu’il n’y a plus de division possible de l’espace des transactions, c’est-à-dire lors que le nœud considéré correspond à une unique valeur. Chaque transaction du jeu d’entrainement est ainsi « isolée » sur une feuille de l’arbre construit.
Dans le cas particulier où un nœud contient plus d’une transaction que le paramètre courant ne permet pas de distinguer, on peut considérer un autre paramètre afin de les subdiviser et poursuivre la construction de l’arbre. Si ces transactions ne peuvent être distinguées quelque soit le paramètre, c’est qu’elles sont identiques et doivent donc correspondre à une même feuille.
Bien évidemment, ce processus s’arrête avec un nombre d’étapes variables selon les chemins de l’arbre, de sorte que l’arbre ainsi construit n’est, en général, pas régulier.
La figure 2 schématise un arbre possible obtenu par ce processus. Les feuilles Fl, F2, F3... Fl l de l’arbre correspondent donc chacune à une unique transaction du jeu d’entrainement. Les nœuds internes NO, Nl, N2, Nl l, N12, Nl l l, N112, N1121, N122, N22 ont chacun exactement deux nœuds fils. Dans ce processus récursif S21-S23, uniquement le contenu même du jeu d’entrainement est exploité pour la création de l’arbre. Il s’agit d’un processus non supervisé.
Selon l’invention, une étape S24 consiste à associer au nœud considéré en fin de processus (c’est-à-dire à chaque feuille) une indication si celui-ci correspond à une transaction normale ou à une transaction en anomalie.
Cette étape S24 constitue donc une étape supervisée qui vient se combiner avec les étapes précédentes, non-supervisées, et ainsi former un processus mixte.
Dans l’exemple de la figure 2, des indications A signifiant que les transactions correspondantes sont en anomalies sont associées aux feuilles F6, F9, F 10. Les autres feuilles correspondent à des transactions normales (elles peuvent être associées à des indications en ce sens mais non représentées sur la figure).
Il n’est pas nécessaire que ces indications soient disponibles pour l’ensemble des transactions. L’invention peut tout à fait fonctionner, sans un mode « semi-supervisé » selon lequel le jeu d’entraînement est constitué de transactions auxquelles une indication est associée et de transactions pour lesquelles ces indications n’existent pas.
Comme il a été vu précédemment, la phase d’apprentissage peut être continue, en parallèle de la phase d’exploitation. Autrement dit, l’arbre continue d’être développé pour les nouvelles transactions présentées pendant la phase d’exploitation. En ce cas, il est également possible de prendre en compte l’affectation d’une indication à une transaction pour une deuxième présentation pour l’entrainement de l’arbre, postérieurement, donc, à une première présentation de la même transaction sans cette indication.
Comme vu précédemment, cet arbre, ou cette forêt, peut être stockée dans une mémoire associée au serveur. Le serveur peut ensuite utiliser la structure de données formée par les arbres à disposition pour la phase de prédiction. Cet arbre, ou cette forêt d’arbres, sont ensuite exploités dans une phase de prédiction qui vise à déterminer pour une nouvelle transaction (n’appartenant donc pas au jeu d’entrainement) si celle-ci est une transaction normale ou en anomalie.
La phase de prédiction est réalisée par le serveur pour tout ou partie des transactions traitées, à l’aide des arbres stockées dans une base de données associée au serveur. Le serveur dispose pour ce faire des moyens logiciels pour mettre en œuvre un algorithme de parcours de ces arbres en fonction des transactions reçues du réseau de télécommunication.
Pour chaque nouvelle transaction dont on veut estimer le caractère normal ou anomalie, on parcourt l’arbre (ou les arbres), dans une étape S3. Ce parcourt s’effectue en partant de la racine et en comparant à chaque nœud rencontré la valeur du paramètre correspondant avec les sous- ensembles affectés à chaque de ses fils (ou au critère de division lors de la phase d’entrainement, ce qui revient au même). A chaque étape, on vise à suivre le chemin guidé par la valeur des paramètres en choisissant le nœud fils qui correspond à la valeur du paramètre considéré.
Ce parcourt se termine lorsqu’une feuille est atteinte.
Dans une étape S4, on détermine pour chaque nœud du chemin entre cette feuille et la racine de l’arbre, un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud.
Cette détermination peut être une simple « lecture » d’une valeur qui a été associée à chacun des nœuds préalablement, par exemple en suite de la phase d’entrainement. Cette façon de faire évite de calculer ce même nombre pour chaque nouvelle transaction à traiter.
Ce nombre est représenté dans chaque rond figurant les nœuds de l’exemple de la figure 2. Pour les feuilles, ce nombre dépend directement et uniquement de l’indication associée. Ainsi, pour les feuilles F6, F9, F10 auxquelles une indication A est associée, les valeurs de ce nombre sont 1. Pour les autres feuilles, elles sont 0.
On peut calculer ce nombre pour les nœuds internes en remontant dans l’arbre et, pour chaque nœud rencontré, cumuler les valeurs de ce nombre pour chacun des fils.
Ainsi, par exemple, pour le nœud N22, on additionne les nombres associés aux feuilles F 10 et Fl l, respectivement 1 et 0. Ce nombre vaut donc 1. De même, pour le nœud N2, on additionne les nombres associés aux nœuds fils F9 et N22, soit respectivement 1 et 1. Ce nombre vaut donc 2.
Bien évidemment, pour la racine, ce nombre représente le nombre total de transactions en anomalie au sein du jeu d’entrainement. Dans une étape S5, on détermine alors un score pour la transaction considérée en fonction
- d'une première métrique qui dépend de la position de la feuille dans l’arbre, et
- d’une seconde métrique qui dépend des indications associées aux feuilles de l’arbre.
Différentes premières métriques peuvent être mises en œuvre.
Un exemple de première métrique est la profondeur de la feuille considérée dans l’arbre, c’est-à-dire la distance entre la feuille et la racine, en nombre de nœuds.
De la même façon, différentes secondes métriques peuvent être mises en œuvre.
Préférentiellement, la seconde métrique se base sur les nombres cumulés en chaque nœud de l’arbre, calculés ou pré-calculés dans l’étape S4 précédente. Selon un mode de réalisation, la seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds du chemin entre la feuille considérée et la racine.
Ainsi, par exemple, pour la feuille Fl, le chemin est formé des nœuds
Fl, Nl l l, NI I, NI et NO, avec respectivement comme nombres d’anomalies associés 0, 0, 0, 1, 3. Au total, cette première métrique vaut donc 4.
Pour la feuille F9, le chemin est formé des nœuds F9, N2, NO, avec respectivement comme nombres d’anomalies associés 1, 2, 3. Au total, cette première métrique vaut 6.
Selon un deuxième mode de réalisation, la seconde métrique est la distance entre la feuille considérée et le nœud le plus proche du chemin pour lequel le nombre d’anomalies est non nul. Pour ce faire, il s’agit donc de remonter le chemin en partant de la feuille considérée vers la racine, jusqu’à rencontrer un nombre d’anomalies non nul associé à un nœud.
Ainsi, pour le nœud Fl de l’exemple illustré par la figure 2, il faut remonter jusqu’au nœud Nl, et cette distance est donc égale à 3. Pour le nœud F6, cette distance est égale à 0, puisque ce nœud F6 est lui-même associé à un nombre d’anomalie non nul (1).
Ainsi, différentes métriques peuvent être utilisées, permettant de combiner des données issues de l’apprentissage non supervisée (première métrique basée uniquement sur la structure de l’arbre), et des données issues de l’apprentissage supervisé (second métrique basée sur les indications associées aux feuilles).
Ces deux métriques peuvent être combinées afin de former un score de différentes façons. Par exemple, un quotient peut être simplement effectué entre le résultat de la deuxième métrique par le résultat de la première métrique. Ainsi, si on calcule la deuxième métrique selon le premier mode de réalisation, le score pour le nœud Fl est 4/5=0, 8 ; le score pour le nœud F9 est 6/3=2.
Intuitivement, on comprend que le numérateur (deuxième métrique) est important pour des régions de l’arbre où la densité d’anomalies dans le jeu d’entrainement est important. L’utilisation des indications associées aux feuilles permet de réduire le taux de faux positifs.
Le dénominateur (première métrique) peut correspondre au critère du processus connu de l’iTree ou de l’iForest (« isolation Forest »). Les anomalies tendent à avoir des profondeurs peu importantes dans l’arbre car elles sont plus « faciles » à isoler que les transactions normales. Même des transactions correspondant à des nouveaux types d’anomalies (nouveaux types de fraudes, etc.) sont associés à des faibles profondeurs, du moment qu’elles diffèrent de la majorité des transactions.
Ainsi, ce processus selon l’invention combinant les techniques des forêts d’isolation et les indications sur les feuilles permet de détecter à la fois des anomalies de types connus et de nouveaux types.
Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims

REVENDICATIONS
1. Procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication et effectuée par un serveur, ledit procédé comportant
la détermination (Sl) pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction et transmis audit serveur à travers ledit réseau de télécommunication ;
- le parcours (S3), pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné (S2) de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie,
la détermination (S5) d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie.
2. Procédé selon la revendication précédente, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin.
3. Procédé selon la revendication 1, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul.
4. Procédé selon l’une des revendications précédentes, dans lequel ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre.
5. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent.
6. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :
choix aléatoire (S21) d’un paramètre parmi l’ensemble des paramètres des transactions dudit jeu d’entrainement ;
- division (S22) de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous- ensembles ;
- création (S23) de nœuds fils, chacun correspondant à l’un des sous- ensembles de ladite pluralité;
dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui-ci correspond à une transaction normale ou en anomalie étant alors associée (S24) audit nœud considéré.
7. Procédé selon la revendication précédente, dans lequel ledit au moins un arbre est un arbre binaire et ladite pluralité de sous-ensembles est formée de deux sous-ensembles.
8. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins arbre est un « itree ».
9. Programme d’ordinateur comportant du code pour mettre en œuvre un procédé selon l’une des revendications précédentes, lorsque exécuté sur un ordinateur.
PCT/FR2018/053512 2017-12-28 2018-12-21 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise WO2019129977A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1763303 2017-12-28
FR1763303A FR3076384A1 (fr) 2017-12-28 2017-12-28 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Publications (1)

Publication Number Publication Date
WO2019129977A1 true WO2019129977A1 (fr) 2019-07-04

Family

ID=62143295

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2018/053512 WO2019129977A1 (fr) 2017-12-28 2018-12-21 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Country Status (2)

Country Link
FR (1) FR3076384A1 (fr)
WO (1) WO2019129977A1 (fr)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565171A (zh) * 2020-03-31 2020-08-21 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111666276A (zh) * 2020-06-11 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法
US20210049517A1 (en) * 2019-08-13 2021-02-18 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN112861895A (zh) * 2019-11-27 2021-05-28 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
WO2022100028A1 (fr) * 2020-11-16 2022-05-19 平安科技(深圳)有限公司 Procédé et appareil de détection d'anomalie de trafic d'interface, dispositif terminal, et support de stockage
WO2022227240A1 (fr) * 2021-04-28 2022-11-03 枣庄学院 Procédé de détection d'anomalie pour calandre moyenne-élevée contrôlable basé sur un arbre indépendant de conversion de domaine spatial

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887674B (zh) * 2021-12-06 2022-03-22 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133721A1 (en) * 2001-03-15 2002-09-19 Akli Adjaoute Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion
US6622137B1 (en) * 2000-08-14 2003-09-16 Formula Telecom Solutions Ltd. System and method for business decision implementation in a billing environment using decision operation trees
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622137B1 (en) * 2000-08-14 2003-09-16 Formula Telecom Solutions Ltd. System and method for business decision implementation in a billing environment using decision operation trees
US20020133721A1 (en) * 2001-03-15 2002-09-19 Akli Adjaoute Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"STUDIES IN COMPUTATIONAL INTELLIGENCE", vol. 247, 2 January 2009, Springer-Verlag Berlin Heidelberg, ISSN: 1860-949X, article BÉNARD WIESE ET AL: "Credit Card Transactions, Fraud Detection, and Machine Learning: Modelling Time with LSTM Recurrent Neural Networks", pages: 231 - 268, XP055458746, DOI: 10.1007/978-3-642-04003-0_10 *
ABDALLAH AISHA ET AL: "Fraud detection system: A survey", JOURNAL OF NETWORK AND COMPUTER APPLICATIONS, ACADEMIC PRESS, NEW YORK, NY, US, vol. 68, 13 April 2016 (2016-04-13), pages 90 - 113, XP029539503, ISSN: 1084-8045, DOI: 10.1016/J.JNCA.2016.04.007 *
ANDREA DAL POZZOLO ET AL: "Learned lessons in credit card fraud detection from a practitioner perspective", EXPERT SYSTEMS WITH APPLICATIONS, vol. 41, no. 10, 2 August 2014 (2014-08-02), GB, pages 4915 - 4928, XP055458801, ISSN: 0957-4174, DOI: 10.1016/j.eswa.2014.02.026 *
CORREA BAHNSEN ALEJANDRO ET AL: "Feature engineering strategies for credit card fraud detection", EXPERT SYSTEMS WITH APPLICATIONS, OXFORD, GB, vol. 51, 7 January 2016 (2016-01-07), pages 134 - 142, XP029409386, ISSN: 0957-4174, DOI: 10.1016/J.ESWA.2015.12.030 *
FEIL TONY LIU; KAI MING TING; ZHI-HUA ZHOU: "Isolation Forest", PROCEEDINGS OF THE 2008 EIGHTH IEEE INTERNATIONAL CONFÉRENCE ON DATA MINING (ICDM '08, 2008
NUNO CARNEIRO ET AL: "A data mining based system for credit-card fraud detection in e-tail", DECISION SUPPORT SYSTEMS, vol. 95, 1 March 2017 (2017-03-01), NL, pages 91 - 101, XP055458718, ISSN: 0167-9236, DOI: 10.1016/j.dss.2017.01.002 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210049517A1 (en) * 2019-08-13 2021-02-18 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
US11972334B2 (en) * 2019-08-13 2024-04-30 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN112861895A (zh) * 2019-11-27 2021-05-28 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN111565171A (zh) * 2020-03-31 2020-08-21 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111565171B (zh) * 2020-03-31 2022-09-20 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111666276A (zh) * 2020-06-11 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法
WO2022100028A1 (fr) * 2020-11-16 2022-05-19 平安科技(深圳)有限公司 Procédé et appareil de détection d'anomalie de trafic d'interface, dispositif terminal, et support de stockage
WO2022227240A1 (fr) * 2021-04-28 2022-11-03 枣庄学院 Procédé de détection d'anomalie pour calandre moyenne-élevée contrôlable basé sur un arbre indépendant de conversion de domaine spatial

Also Published As

Publication number Publication date
FR3076384A1 (fr) 2019-07-05

Similar Documents

Publication Publication Date Title
WO2019129977A1 (fr) Detection d&#39;anomalies par une approche combinant apprentissage supervise et non-supervise
US11330009B2 (en) Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning task-oriented digital threat mitigation platform
WO2019016106A1 (fr) Systeme d&#39;apprentissage machine pour diverses applications informatiques
US11562372B2 (en) Probabilistic feature engineering technique for anomaly detection
EP3846046A1 (fr) Procede et systeme de traitement de donnees pour la preparation d&#39;un jeu de donnees
EP3613003A1 (fr) Système et procédé pour gérer la détection de fraudes dans un système de transactions financières
EP3489831A1 (fr) Procédé et dispositif de surveillance d&#39;un processus générateur de données d&#39;une métrique pour la prédiction d&#39;anomalies
EP1820170B1 (fr) Suppression de fausses alertes parmi les alertes produites dans un systeme d&#39;informations surveille
EP3574462A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
Bigon et al. Prediction is very hard, especially about conversion. Predicting user purchases from clickstream data in fashion e-commerce
Horne et al. Trustworthy misinformation mitigation with soft information nudging
He et al. Online spam review detection: A survey of literature
EP2227755B1 (fr) Procede d&#39;analyse d&#39;un contenu multimedia, produit programme d&#39;ordinateur et dispositif d&#39;analyse correspondants
EP3846091A1 (fr) Procede et systeme de conception d&#39;un modele de prediction
Bouzidi et al. LSTM-based automated learning with smart data to improve marketing fraud detection and financial forecasting
EP3622445B1 (fr) Procede, mise en oeuvre par ordinateur, de recherche de regles d&#39;association dans une base de donnees
EP3502904B1 (fr) Procédé d&#39;amélioration du temps d&#39;exécution d&#39;une application informatique
WO2021009364A1 (fr) Procédé d&#39;identification de données aberrantes dans d&#39;un jeu de données d&#39;entrée acquises par au moins un capteur
CH716889A2 (fr) Méthode mise en oeuvre par ordinateur pour l&#39;allocation d&#39;une pièce comptable à un couple de comptes débiteur/créditeur et son écriture comptable.
EP3869368A1 (fr) Procede et dispositif de detection d&#39;anomalie
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
Perwej A Potent Technique for Identifying Fake Accounts on Social Platforms
dos Santos Label Noise Injection Methods for Model Robustness Assessment in Fraud Detection Datasets
EP3729768A1 (fr) Procédé de construction automatique de scénarios d&#39;attaques informatiques, produit programme d&#39;ordinateur et système de construction associés
BE1021030B1 (fr) Systeme et procede de caracterisation de messages financiers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18842798

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18842798

Country of ref document: EP

Kind code of ref document: A1