WO2019129977A1

WO2019129977A1 - Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Info

Publication number: WO2019129977A1
Application number: PCT/FR2018/053512
Authority: WO
Inventors: Li Guo; Guillaume COTER
Original assignee: Worldline
Priority date: 2017-12-28
Filing date: 2018-12-21
Publication date: 2019-07-04
Also published as: FR3076384A1

Abstract

L'invention concerne un procédé pour la détection d'anomalies dans un ensemble de transactions établies au travers d'un réseau de télécommunication, comportant la détermination (S1) pour chaque transaction d'un ensemble de valeurs de paramètres associées à la transaction; le parcours (S3), pour chaque transaction, d'au moins un arbre préalablement défini sur un jeu d'entrainement, en comparant les valeurs des paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu'à ce qu'une feuille soit atteinte; l'arbre étant entrainé (S2) de sorte de sorte que chacune des feuilles corresponde à une unique transaction du jeu d'entrainement et que ses feuilles soient associées, chacune,à une indication si celles-ci correspondent à une transaction normale ou en anomalie, la détermination (S5) d'un score en fonction d'une première métrique dépendant de la position de la feuille dans l'arbre, et d'une seconde métrique dépendant de ces indications des feuilles, ledit score indiquant une estimation si la transaction est normale ou en anomalie.

Description

DETECTION D’ANOMALIES PAR UNE APPROCHE COMBINANT

APPRENTISSAGE SUPERVISE ET NON-SUPERVISE

DOMAINE DE L’INVENTION

La présente invention concerne la détection d'anomalies dans un ensemble de transactions. Elle concerne notamment la détection de fraudes dans des transactions financières.

CONTEXTE DE L’INVENTION

Dans la plupart des cas pratiques, le volume des données à traiter est énorme. C'est notamment le cas du volume des transactions financières que les serveurs d’une banque sont amenés à gérer quotidiennement (retraits et achats par carte bancaire, etc.). Ce peut être le cas des transactions de service sur des services web (non nécessairement financières).

Il est connu de faire appel à des techniques de traitement automatique des données afin de pouvoir analyser ces données et y déterminer des anomalies le plus rapidement possible. Ces anomalies peuvent être des simples erreurs, mais également des fraudes. Les fraudeurs cherchant à déjouer les parades mises en place, il est difficile de pouvoir caractériser un comportement typique qui pourrait guider la recherche de fraudes dans un important volume de données. Il est donc nécessaire d'analyser l'ensemble des données pour y détecter des transactions atypiques.

Ces transactions atypiques sont alors présentées à un opérateur humain qui les analyse afin de décider de leur caractère frauduleux ou non et déclencher d’éventuelles contremesures. Il est donc important d'à la fois déterminer un ensemble de transactions suspectes qui minimise les transactions frauduleuses non détectées, mais qui minimise aussi la sur-détection (ou fausses alertes) afin de limiter la charge des opérateurs humains.

Les techniques automatiques permettant de considérer cette problématique générale se basent en général sur un mécanisme d'apprentissage, permettant de construire un « modèle » qui formalise la « typicité » des transactions. Les nouvelles transactions sont ensuite présentées à ce modèle qui peut alors prédire un caractère anormal (notamment frauduleux) ou non, par rapport à ce modèle de typicité.

Ces techniques d’apprentissage (typiquement appelées « machine leaming » en anglais) peuvent se diviser en deux grandes familles, basées sur un apprentissage supervisé ou sur un apprentissage non supervisé.

Dans le cas d’un apprentissage supervisé, on indique pour chaque transaction du jeu d'entrainement si elle représente une anomalie ou non. Cette indication (ou étiquette, « label » en anglais) est utilisée pour la construction du modèle. En conséquence, la détection d’une anomalie pour une nouvelle transaction peut se ramener à une tâche de classification.

L’apprentissage supervisé permet de bien détecter les anomalies qui correspondent à une classe déterminée par le jeu d’apprentissage. Cependant, une anomalie qui ne correspond pas bien à une classe préalablement déterminée ne sera pas correctement détectée.

En fait, par essence même, ces méthodes visent à déterminer des classes correspondant aux anomalies présentées dans le jeu d’apprentissage. Or, les fraudeurs sont sans cesse en recherche de nouvelles stratégies de fraude, et leur comportement visent donc à échapper à toute tentative de classification déterministe. Il est alors nécessaire de régulièrement entraîner de nouveau le modèle de classification pour prendre en compte les nouveaux types d'anomalies. Mais tant que le nombre de transactions d'un nouveau type n'est pas suffisamment important, le modèle ne pourra pas les classifier correctement.

D'une façon plus générale, ce type d'approche souffre du faible nombre d’anomalies qui ne permet pas toujours une bonne classification.

L'autre grande famille méthodologique est celle de l'apprentissage non supervisée. Selon le principe, un jeu d'entrainement est également utilisé mais on n’associe aucune information aux transactions du jeu d’entrainement indiquant s’il s'agit d'une transaction représentant une anomalie ou non. Le modèle se constitue donc en déterminant des « tendances synthétiques » dans ce jeu d'entrainement, et les transactions anormales sont considérées comme celles présentant une anomalie par rapport au modèle ainsi constitué.

Un avantage de cette approche est de ne pas faire de supposition sur des types ou classes d’anomalies (ou fraudes). Elle permet ainsi d’être plus robuste et efficace pour la détection de nouveaux types de fraudes.

Toutefois, elle souffre de la difficulté de distinguer des transactions présentant effectivement une anomalie, de celles ne présentant pas d’anomalies mais détectées comme suspectes par le modèle. D’une façon générale, les méthodes non supervisés présentent un important taux de fausses alertes. RESUME DE L’INVENTION

Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités. A cette fin, la présente invention propose un procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication et effectuées par un serveur, ledit procédé comportant

la détermination pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction et transmis audit serveur à travers le réseau de télécommunication ;

le parcours, pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie,

la détermination d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie. Suivant des modes de réalisation préférés, l’invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :

- le procédé comporte en outre une étape de détermination pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin ; - le procédé comporte en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul ;

- ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre ;

- ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent ;

- ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :

choix aléatoire d’un paramètre parmi l’ensemble des paramètres des transactions dudit jeu d’entrainement ;

division de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous-ensembles ;

création de nœuds fils, chacun correspondant à l’un des sous- ensembles de ladite pluralité;

dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui- ci correspond à une transaction normale ou en anomalie étant alors associée audit nœud considéré.

ledit au moins un arbre est un arbre binaire et ladite pluralité de sous- ensembles est formée de deux sous-ensembles ;

ledit au moins arbre est un « itree ». Un autre objet de l’invention est relatif à un programme d’ordinateur comportant du code pour mettre en œuvre un procédé tel que précédemment défini, lorsque exécuté sur un ordinateur. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d’un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.

BREVE DESCRIPTION DES DESSINS

La figure 1 représente schématiquement un organigramme relatif à un mode de réalisation de l’invention.

La figure 2 représente schématiquement un exemple d’arbre construit et entraîné selon un mode de réalisation de l’invention.

DESCRIPTION DETAILLEE DE L’INVENTION

L’invention repose sur une phase d’apprentissage qui consiste à créer et entraîner au moins un arbre modélisant l’ensemble des transactions du jeu d’entrainement, puis une phase d’exploitation durant laquelle on confronte de nouvelles transactions à l’arbre ou arbres afin d’en déduire des scores. Ces scores permettent d’indiquer si les transactions correspondantes sont des anomalies ou normales.

Selon un mode de réalisation de l’invention, ces deux étapes peuvent être concomitantes, au sens que les nouvelles transactions présentées pendant la phase d’exploitation peuvent également entraîner l’arbre, ou les arbres. Le modèle est ainsi dynamique et en constante adaptation au flux de données.

Selon un mode de réalisation de l’invention, une pluralité d’arbres, formant une « forêt » est considérée. Cette façon de faire permet d’apporte une meilleure robustesse de l’apprentissage par rapport au jeu d’entrainement et aux tirages aléatoires effectuées dans le cadre du processus d’apprentissage qui va être décrit.

Un tel arbre, ou une telle pluralité d’arbre, peut être stockée dans une base de données, ou mémoire, associée au serveur en charge de la détection d’anomalie. Le terme « serveur » doit ici être compris dans un sens fonctionnel, et donc englober les fermes de serveurs ou les services offerts par des couches d’abstraction, notamment de type « cloud » (informatique en nuage).

Dans une première étape, indiquée S 1 sur la figure 1 , on détermine un ensemble de valeurs de paramètres caractéristiques des transactions.

Le choix de ces paramètres dépend de la nature des transactions considérées et de choix opérationnels. Par exemple, dans le cas de transactions financières (achats enligne ou par carte bancaire), on peut déterminer comme paramètres : le montant de la transaction, les parties à la transaction (par exemple, un acheteur et un vendeur, ou plus généralement, un débiteur et un créditeur), une date, un horaire, un lieu physique des parties au moment de la transaction, etc.

Tout élément transmis par les réseaux de communication au serveur en charge d’effectuer la transaction peuvent être pris en compte, dans la mesure où il peut permettre de caractériser une éventuelle anomalie dans un ensemble de transactions. En conséquence, l’invention ne se limite pas aux exemples de paramètres mentionnés ci-dessus, mais est susceptibles de prendre en compte tout paramètre disponible.

Cette étape Sl est réalisée de façon automatique par le serveur, en agrégeant les différentes sources d’information disponibles et en effectuant les corrélations pour affecter les informations reçues à chaque transaction traitée afin de constituer cet ensemble de paramètres caractéristiques. La phase d’apprentissage S2 est un processus itératif visant à créer un arbre, ou une forêt d’arbres, dans lequel chaque itération considère un paramètre afin de subdiviser l’ensemble des valeurs pris par ce paramètre sur l’ensemble des transactions du jeu d’apprentissage, de sorte à, au bout d’un nombre suffisant d’itérations, isoler chaque transaction dans une feuille de l’arbre.

Ce processus d’apprentissage s’inspire des arbres d’isolation, ou « isolation tree » en langue anglaise, ou encore iTree. Une définition de ce type d’arbre est notamment donné dans l’article « Isolation Forest » de Feil Tony Liu, Kai Ming Ting et Zhi-Hua Zhou, in Proceedings of the 2008 Eighth IEEE International Conférence on Data Mining (ICDM’08). Selon cet article, un arbre d’isolation est défini comme un ensemble de nœuds T, de sorte que T est soit une feuille, soit un nœud interne associé à un test et exactement deux nœuds fils Ti, T_r. Le test consiste en un attribut q et une valeur pivot p, de sorte que q<p divise l’espace en deux sous-ensembles attribués aux nœuds Ti et T_r respectivement.

L’invention, toutefois, ne se limite pas aux arbres d’isolation ainsi définis, et notamment aux arbres binaires : en effet, il est toute à fait envisageable de subdiviser l’espace des valeurs des paramètres en une pluralité de sous-ensembles, la pluralité étant de cardinalité quelconque et notamment supérieure à deux.

Selon un mode de réalisation préférentiel de l’invention, une forêt de tels arbres est considérée. On constitue alors un jeu d’entrainement différent pour l’entrainement de chacun des arbres de la forêt.

Pour ce faire, différentes approches sont possible. Par exemple, il peut suffire de partitionner le jeu d’entrainement disponible en autant de parts que l’on souhaite d’arbres dans la forêt. Préférentiellement toutefois, on peut utiliser le mécanisme classique consistent à tirer aléatoirement, pour chaque arbre, un échantillon de dimension prédéfinie, parmi l’ensemble du jeu d’entraînement. Pour chacun des arbres, on met alors en place un processus itératif permettant de le créer à partir d’un nœud racine.

Dans une première étape S21, un paramètre est choisi aléatoirement parmi l’ensemble des paramètres des transactions d’un jeu d’entrainement. Ce premier paramètre correspond au nœud racine.

Comme vu précédemment, ce jeu d’entrainement est une partie de l’ensemble du jeu d’entrainement dans le cas où une forêt est mise en place. Il est formé d’un ensemble de transactions, pour lesquelles un ensemble de valeurs de paramètres a été déterminé.

Un paramètre est choisi aléatoirement (par exemple, la date...), et dans une étape S22, on divise l’espace des valeurs de ce paramètre en une pluralité de sous-ensembles.

Cette division peut être mise en œuvre de différentes façons.

Par exemple, dans le cas où l’on veut construire un arbre binaire, il est possible de choisir les sous-ensembles de sorte à former deux sous- ensembles de cardinalité sensiblement identique. Pour ce faire, on peut calculer la valeur médiane prise par ce paramètre sur l’ensemble de jeu d’entrainement, et considérer deux sous-ensembles en fonction de cette valeur médiane.

On peut également utiliser le mécanisme classique de l’« itree » consistant à effectuer un tirage aléatoire de la valeur pivot. Cette façon de faire permet une plus grande variété des propriétés des arbres de la forêt, conférant à cette dernière une meilleure robustesse.

Pour des paramètres pouvant prendre des valeurs discrètes, il est possible de créer autant de sous-ensembles que de valeurs, ou bien de regrouper ces valeurs en un certain nombre de sous-ensembles (par exemple deux, si l’on souhaite un arbre binaire) selon une règle prédéfinie. Pour chacun des sous-ensembles, dans une étape S23, on créé des nœuds fils du nœud considéré (c’est-à-dire, lors de la première itération, du nœud racine). Ce processus est ensuite réitéré, de façon récursive, pour chacun des nœuds fils, à partir de l’étape de l’étape S21. A chaque itération, on comprend que l’espace des transactions du jeu d’entrainement est divisé en autant de parties que de nœuds fils créés.

On choisit donc ainsi un deuxième paramètre, permettant de subdiviser encore la population des transactions du jeu d’apprentissage, et d’ajouter des nœuds à l’arbre.

Ce processus se termine naturellement, pour chaque nœud, lorsqu’il n’y a plus de division possible de l’espace des transactions, c’est-à-dire lors que le nœud considéré correspond à une unique valeur. Chaque transaction du jeu d’entrainement est ainsi « isolée » sur une feuille de l’arbre construit.

Dans le cas particulier où un nœud contient plus d’une transaction que le paramètre courant ne permet pas de distinguer, on peut considérer un autre paramètre afin de les subdiviser et poursuivre la construction de l’arbre. Si ces transactions ne peuvent être distinguées quelque soit le paramètre, c’est qu’elles sont identiques et doivent donc correspondre à une même feuille.

Bien évidemment, ce processus s’arrête avec un nombre d’étapes variables selon les chemins de l’arbre, de sorte que l’arbre ainsi construit n’est, en général, pas régulier.

La figure 2 schématise un arbre possible obtenu par ce processus. Les feuilles Fl, F2, F3... Fl l de l’arbre correspondent donc chacune à une unique transaction du jeu d’entrainement. Les nœuds internes NO, Nl, N2, Nl l, N12, Nl l l, N112, N1121, N122, N22 ont chacun exactement deux nœuds fils. Dans ce processus récursif S21-S23, uniquement le contenu même du jeu d’entrainement est exploité pour la création de l’arbre. Il s’agit d’un processus non supervisé.

Selon l’invention, une étape S24 consiste à associer au nœud considéré en fin de processus (c’est-à-dire à chaque feuille) une indication si celui-ci correspond à une transaction normale ou à une transaction en anomalie.

Cette étape S24 constitue donc une étape supervisée qui vient se combiner avec les étapes précédentes, non-supervisées, et ainsi former un processus mixte.

Dans l’exemple de la figure 2, des indications A signifiant que les transactions correspondantes sont en anomalies sont associées aux feuilles F6, F9, F 10. Les autres feuilles correspondent à des transactions normales (elles peuvent être associées à des indications en ce sens mais non représentées sur la figure).

Il n’est pas nécessaire que ces indications soient disponibles pour l’ensemble des transactions. L’invention peut tout à fait fonctionner, sans un mode « semi-supervisé » selon lequel le jeu d’entraînement est constitué de transactions auxquelles une indication est associée et de transactions pour lesquelles ces indications n’existent pas.

Comme il a été vu précédemment, la phase d’apprentissage peut être continue, en parallèle de la phase d’exploitation. Autrement dit, l’arbre continue d’être développé pour les nouvelles transactions présentées pendant la phase d’exploitation. En ce cas, il est également possible de prendre en compte l’affectation d’une indication à une transaction pour une deuxième présentation pour l’entrainement de l’arbre, postérieurement, donc, à une première présentation de la même transaction sans cette indication.

Comme vu précédemment, cet arbre, ou cette forêt, peut être stockée dans une mémoire associée au serveur. Le serveur peut ensuite utiliser la structure de données formée par les arbres à disposition pour la phase de prédiction. Cet arbre, ou cette forêt d’arbres, sont ensuite exploités dans une phase de prédiction qui vise à déterminer pour une nouvelle transaction (n’appartenant donc pas au jeu d’entrainement) si celle-ci est une transaction normale ou en anomalie.

La phase de prédiction est réalisée par le serveur pour tout ou partie des transactions traitées, à l’aide des arbres stockées dans une base de données associée au serveur. Le serveur dispose pour ce faire des moyens logiciels pour mettre en œuvre un algorithme de parcours de ces arbres en fonction des transactions reçues du réseau de télécommunication.

Pour chaque nouvelle transaction dont on veut estimer le caractère normal ou anomalie, on parcourt l’arbre (ou les arbres), dans une étape S3. Ce parcourt s’effectue en partant de la racine et en comparant à chaque nœud rencontré la valeur du paramètre correspondant avec les sous- ensembles affectés à chaque de ses fils (ou au critère de division lors de la phase d’entrainement, ce qui revient au même). A chaque étape, on vise à suivre le chemin guidé par la valeur des paramètres en choisissant le nœud fils qui correspond à la valeur du paramètre considéré.

Ce parcourt se termine lorsqu’une feuille est atteinte.

Dans une étape S4, on détermine pour chaque nœud du chemin entre cette feuille et la racine de l’arbre, un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud.

Cette détermination peut être une simple « lecture » d’une valeur qui a été associée à chacun des nœuds préalablement, par exemple en suite de la phase d’entrainement. Cette façon de faire évite de calculer ce même nombre pour chaque nouvelle transaction à traiter.

Ce nombre est représenté dans chaque rond figurant les nœuds de l’exemple de la figure 2. Pour les feuilles, ce nombre dépend directement et uniquement de l’indication associée. Ainsi, pour les feuilles F6, F9, F10 auxquelles une indication A est associée, les valeurs de ce nombre sont 1. Pour les autres feuilles, elles sont 0.

On peut calculer ce nombre pour les nœuds internes en remontant dans l’arbre et, pour chaque nœud rencontré, cumuler les valeurs de ce nombre pour chacun des fils.

Ainsi, par exemple, pour le nœud N22, on additionne les nombres associés aux feuilles F 10 et Fl l, respectivement 1 et 0. Ce nombre vaut donc 1. De même, pour le nœud N2, on additionne les nombres associés aux nœuds fils F9 et N22, soit respectivement 1 et 1. Ce nombre vaut donc 2.

Bien évidemment, pour la racine, ce nombre représente le nombre total de transactions en anomalie au sein du jeu d’entrainement. Dans une étape S5, on détermine alors un score pour la transaction considérée en fonction

- d'une première métrique qui dépend de la position de la feuille dans l’arbre, et

- d’une seconde métrique qui dépend des indications associées aux feuilles de l’arbre.

Différentes premières métriques peuvent être mises en œuvre.

Un exemple de première métrique est la profondeur de la feuille considérée dans l’arbre, c’est-à-dire la distance entre la feuille et la racine, en nombre de nœuds.

De la même façon, différentes secondes métriques peuvent être mises en œuvre.

Préférentiellement, la seconde métrique se base sur les nombres cumulés en chaque nœud de l’arbre, calculés ou pré-calculés dans l’étape S4 précédente. Selon un mode de réalisation, la seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds du chemin entre la feuille considérée et la racine.

Ainsi, par exemple, pour la feuille Fl, le chemin est formé des nœuds

Fl, Nl l l, NI I, NI et NO, avec respectivement comme nombres d’anomalies associés 0, 0, 0, 1, 3. Au total, cette première métrique vaut donc 4.

Pour la feuille F9, le chemin est formé des nœuds F9, N2, NO, avec respectivement comme nombres d’anomalies associés 1, 2, 3. Au total, cette première métrique vaut 6.

Selon un deuxième mode de réalisation, la seconde métrique est la distance entre la feuille considérée et le nœud le plus proche du chemin pour lequel le nombre d’anomalies est non nul. Pour ce faire, il s’agit donc de remonter le chemin en partant de la feuille considérée vers la racine, jusqu’à rencontrer un nombre d’anomalies non nul associé à un nœud.

Ainsi, pour le nœud Fl de l’exemple illustré par la figure 2, il faut remonter jusqu’au nœud Nl, et cette distance est donc égale à 3. Pour le nœud F6, cette distance est égale à 0, puisque ce nœud F6 est lui-même associé à un nombre d’anomalie non nul (1).

Ainsi, différentes métriques peuvent être utilisées, permettant de combiner des données issues de l’apprentissage non supervisée (première métrique basée uniquement sur la structure de l’arbre), et des données issues de l’apprentissage supervisé (second métrique basée sur les indications associées aux feuilles).

Ces deux métriques peuvent être combinées afin de former un score de différentes façons. Par exemple, un quotient peut être simplement effectué entre le résultat de la deuxième métrique par le résultat de la première métrique. Ainsi, si on calcule la deuxième métrique selon le premier mode de réalisation, le score pour le nœud Fl est 4/5=0, 8 ; le score pour le nœud F9 est 6/3=2.

Intuitivement, on comprend que le numérateur (deuxième métrique) est important pour des régions de l’arbre où la densité d’anomalies dans le jeu d’entrainement est important. L’utilisation des indications associées aux feuilles permet de réduire le taux de faux positifs.

Le dénominateur (première métrique) peut correspondre au critère du processus connu de l’iTree ou de l’iForest (« isolation Forest »). Les anomalies tendent à avoir des profondeurs peu importantes dans l’arbre car elles sont plus « faciles » à isoler que les transactions normales. Même des transactions correspondant à des nouveaux types d’anomalies (nouveaux types de fraudes, etc.) sont associés à des faibles profondeurs, du moment qu’elles diffèrent de la majorité des transactions.

Ainsi, ce processus selon l’invention combinant les techniques des forêts d’isolation et les indications sur les feuilles permet de détecter à la fois des anomalies de types connus et de nouveaux types.

Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims

REVENDICATIONS

1. Procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication et effectuée par un serveur, ledit procédé comportant

la détermination (Sl) pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction et transmis audit serveur à travers ledit réseau de télécommunication ;

- le parcours (S3), pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné (S2) de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie,

la détermination (S5) d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie.

2. Procédé selon la revendication précédente, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin.

3. Procédé selon la revendication 1, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul.

4. Procédé selon l’une des revendications précédentes, dans lequel ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre.

5. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent.

6. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :

choix aléatoire (S21) d’un paramètre parmi l’ensemble des paramètres des transactions dudit jeu d’entrainement ;

- division (S22) de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous- ensembles ;

- création (S23) de nœuds fils, chacun correspondant à l’un des sous- ensembles de ladite pluralité;

dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui-ci correspond à une transaction normale ou en anomalie étant alors associée (S24) audit nœud considéré.

7. Procédé selon la revendication précédente, dans lequel ledit au moins un arbre est un arbre binaire et ladite pluralité de sous-ensembles est formée de deux sous-ensembles.

8. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins arbre est un « itree ».

9. Programme d’ordinateur comportant du code pour mettre en œuvre un procédé selon l’une des revendications précédentes, lorsque exécuté sur un ordinateur.