WO2021122918A1

WO2021122918A1 - Procédé d'anonymisation d'une base de données et produit programme ordinateur associé

Info

Publication number: WO2021122918A1
Application number: PCT/EP2020/086673
Authority: WO
Inventors: Vincent THOUVENOT; Stéphane Lorin; Thibaut DUBOIS
Original assignee: Thales
Priority date: 2019-12-19
Filing date: 2020-12-17
Publication date: 2021-06-24
Also published as: CN114868125A; FR3105488B1; FR3105488A1; EP4078422A1

Abstract

L'invention concerne un procédé d'anonymisation d'une base de données (12), la base de données (12) comprenant des données spatio-temporelles relatives à une pluralité d'individus, le procédé comprenant au moins les étapes suivantes : - agrégation des données afin de définir au moins une distribution de présence représentative du nombre d'individus appartenant à une catégorie d'intérêt et présents à un endroit d'intérêt pendant un intervalle de temps donné; - projection de la distribution de présence dans une base de fonctions prédéterminées afin d'associer la distribution de présence à au moins un coefficient dans ladite base; - ajout d'un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d'obtenir au moins un coefficient bruité; et - reconstruction d'une distribution anonymisée à partir du ou de chaque coefficient bruité.

Description

TITRE : Procédé d’anonymisation d’une base de données et produit programme ordinateur associé

La présente invention concerne un procédé d’anonymisation d’une base de données respectant des hypothèses de confidentialité différentielle.

La présente invention concerne également un produit programme ordinateur comprenant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé d’anonymisation.

La base de données comprend en particulier des données spatio-temporelles relatives à une pluralité d’individus.

Ces données spatio-temporelles sont par exemple des données billettiques comprenant des instants et des lieux de validation d’usagers dans un réseau de transport, notamment ferroviaire. Ces données sont recueillies par exemple à partir des cartes d’abonnements constituées d’une carte à puce communiquant avec une borne de validation fixe, notamment au moyen des technologies RFID (de l’anglais « Radio Frequency Identification ») ou NFC (de l’anglais « Near Field Communication »).

Ces données permettent le suivi des usagers dans le temps et dans l’espace par l’exploitant du réseau ferroviaire afin d’optimiser la circulation des véhicules ferroviaires.

Toutefois, ces données sont des données personnelles des usagers qu’il est nécessaire de protéger. En particulier, il est important qu’il ne soit pas possible d’isoler un individu à partir des données recueillies afin de connaître par exemple ses trajets quotidiens.

A cet effet, il est connu d’agréger ces données agrégées à grande échelle afin d’obtenir une anonymisation de ces données. Par exemple, il ne sera uniquement fourni le nombre de voyageurs quotidien passant par une certaine gare ou une évolution globale de l’affluence sur le réseau de transport complet en fonction de l’heure dans la journée.

Il s’en suit donc une perte importante d’informations dans la base de données et ainsi les utilisations de ces données, par exemple pour l’optimisation du réseau de transport, sont limitées.

Il existe donc un besoin pour un procédé d’anonymisation d’une base de données comprenant des données spatio-temporelles permettant une perte d’informations moindre tout en assurant l’anonymat des individus associés aux données spatio-temporelles.

A cet effet, l’invention a pour objet un procédé d’anonymisation d’une base de données, la base de données comprenant des données spatio-temporelles relatives à une pluralité d’individus, le procédé comprenant au moins les étapes suivantes : - agrégation des données afin de définir au moins une distribution de présence représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné ;

- projection de la distribution de présence dans une base de fonctions prédéterminées afin d’associer la distribution de présence à au moins un coefficient dans ladite base ;

- ajout d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d’obtenir au moins un coefficient bruité ; et

- reconstruction d’une distribution anonymisée à partir du ou de chaque coefficient bruité.

Suivant d’autres aspects avantageux de l’invention, le procédé d’anonymisation comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles :

- le procédé comprend en outre une étape de comparaison de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions ;

- l’étape de comparaison est effectuée à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif ;

- le procédé comprend en outre une étape de vérification de l’anonymisation de la fonction anonymisée par calcul de la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée ;

- le procédé comprend une réitération des étapes du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté et la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé ;

- le procédé comprend en outre une étape de mise à disposition de données relatives à la distribution anonymisée à la pluralité d’individus ;

- l’étape de projection de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète ;

- l’endroit d’intérêt est une gare d’un réseau de transport public ; et

- la catégorie d’intérêt est le groupe socioprofessionnel de chaque individu.

L’invention a également pour objet un produit programme d'ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé d’anonymisation tel que défini précédemment. Ces caractéristiques et avantages de l’invention apparaîtront à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

- [Fig 1] la figure 1 est une représentation schématique d’un ensemble électronique propre à mettre en œuvre un procédé d’anonymisation selon l’invention; et

- [Fig 2] la figure 2 est un organigramme d’un procédé d’anonymisation selon l’invention.

Un ensemble électronique 10 est représenté sur la figure 1. L’ensemble électronique 10 comprend au moins une base de données 12, un module de prétraitement 14, un module de traitement 16 et un module de post-traitement 18

La base de données 12 est propre à stocker une pluralité de données. Chaque donnée est une donnée spatio-temporelle relative à un individu. Une donnée spatio- temporelle est une donnée relative à la position géographique de l’individu à un instant temporel donné.

La base de données 12 comprend par exemple des données billettiques comprenant des instants et des lieux de validation d’usagers dans un réseau de transport, notamment ferroviaire. En variante, la base de données 12 comprend par exemple des données comprenant des instants et des lieux de validations d’employés ou de visiteurs dans un bâtiment d’une entreprise.

En variante, la base de données 12 est extérieure à l’ensemble électronique 10.

Comme visible sur la figure 1 , le module de prétraitement 14 est propre à recevoir des données de la base de données 12, à traiter lesdites données afin d’obtenir au moins une distribution de données, comme cela sera expliqué par la suite, et à transmettre la ou chaque distribution au module de traitement 16.

Le module de traitement 16 est propre à recevoir la ou chaque distribution de la part du module de prétraitement 14, à traiter ces distributions afin d’obtenir au moins une distribution anonymisée, comme cela sera également expliqué par la suite, et à transmettre la ou chaque distribution anonymisée au module de post-traitement 18.

Le module de post-traitement 18 est propre à recevoir la ou chaque distribution anonymisées de la part du module de traitement 16 et à traiter ces distributions anonymisées comme cela sera également expliqué par la suite, et à transmettre ces données à une base de données extérieure 20.

Selon un exemple de réalisation, le module de prétraitement 14, le module de traitement 16 et le module de post-traitement 18 se présentent chacun sous la forme d’un calculateur indépendant comprenant en outre au moins un processeur et une mémoire. En variante ou en complément, les modules précités se présentent au moins partiellement sous la forme de circuits logiques programmables de type FPGA (de l’anglais « Field- Programmable Gâte Array ») et/ou de logiciels stockés dans la mémoire du calculateur et exécutables par le processeur de celui-ci. L’homme du métier comprendra que le module de prétraitement 14, le module de traitement 16 et le module de post-traitement 18 se présentent en variante sous la forme d’un calculateur unique.

Un procédé d’anonymisation sera désormais expliqué en référence à la figure 2 présentant un organigramme de ses étapes.

Initialement, la base de données 12 comprend des données spatio-temporelles relatives à une pluralité d’individus récoltées antérieurement, par exemple dans un réseau de transport.

Le procédé d’anonymisation comprend une étape initiale d’agrégation 100 des données de la base de données 12.

En particulier, le module de prétraitement 14 reçoit les données de la base de données 12 et les traite afin de définir au moins une distribution de présence.

On entend par distribution, une distribution statistique associant un évènement donné à sa fréquence d’apparition. Un exemple de distribution donne le nombre d’usagers ayant transité par une certaine gare toutes les demi-heures ou encore le nombre d’étudiants ayant été dans une zone précise de la ville comprenant plusieurs gares sur une plage horaire définie.

La distribution de présence est donc représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné.

La catégorie d’intérêt est avantageusement le groupe socioprofessionnel de chaque individu. Le groupe socio professionnel est par exemple défini par la nomenclature définie en France par l’Institut National de la Statistique des Etudes Economiques (INSEE) ou en Europe par la Nomenclature Socio-économique Européenne (« European Socioeconomic Classification » en anglais) permettant de classer les différents métiers. Il est ainsi possible d’agréger les individus par catégories telles que étudiants, chômeurs, cadres, ouvriers, etc.

En variante, la catégorie d’intérêt est par exemple l’âge des individus.

En variante encore, la catégorie d’intérêt définit si les individus utilisant le réseau de transport sont des locaux ou des touristes.

En variante encore, la catégorie d’intérêt définit une zone géographique d’habitation des usagers du réseau, tel que par exemple, le département. Il est entendu qu’en variante, aucune catégorie d’intérêt peut être considérée, les agrégats se faisant alors sur l’ensemble de la population.

L’endroit d’intérêt est avantageusement une gare d’un réseau de transport public.

Il est ainsi possible d’agréger le nombre d’individus passant par cette gare pendant un intervalle de temps donné.

En variante, l’endroit d’intérêt est un quartier d’une ville comprenant plusieurs gares.

En variante encore, l’endroit d’intérêt est la porte d’entrée d’un bâtiment d’une entreprise.

L’intervalle de temps donné est avantageusement inférieur à 1 heure, notamment inférieur à 30 minutes, en particulier inférieur à 15 minutes afin d’obtenir des informations suffisamment précises.

A la fin de l’étape d’agrégation 100, le module de prétraitement 14 transmet la ou les distributions de présence au module de traitement 16.

Puis, le procédé d’anonymisation comprend une étape de projection 110 de la distribution de présence dans une base de fonctions prédéterminées.

En particulier, le module de traitement 16 détermine une décomposition de la distribution de présence dans ladite base afin d’obtenir au moins un coefficient dans ladite base.

Avantageusement, la projection de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète.

En particulier, de manière connue en soi, pour un signal s de N échantillons, la transformée de Fourier discrète est égale à :

[Math

Lesdits coefficients sont ici égaux aux différentes valeurs de S(k).

Puis, le procédé d’anonymisation comprend une étape d’ajout 120 d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence.

On entend par bruit numérique une modification d’un coefficient d’un écart faible relativement à la valeur initiale du coefficient. En particulier, le rapport entre le bruit numérique et la valeur initiale du coefficient est tel que les données bruitées respectent une propriété de confidentialité différentielle telle que définie au préalable par l’utilisateur.

Le bruit numérique présente avantageusement la forme d’une fonction gaussienne ou laplacienne.

Le module de traitement 16 applique ainsi un bruit numérique au ou à chaque coefficient afin d’obtenir au moins un coefficient bruité. Puis, le procédé d’anonymisation comprend une étape de reconstruction 130 d’une distribution anonymisée à partir du ou de chaque coefficient bruité.

En particulier, le module de traitement 16 applique la fonction inverse associée à la transformation utilisée pour calculer les coefficients.

En particulier, de manière connue en soi, pour un signal s de N échantillons, la transformée de Fourier discrète inverse est égale à :

[Math

Les valeurs de la distribution anonymisée sont ici égales aux différentes valeurs de s(n).

Il est ainsi obtenu une distribution anonymisée, différente de la distribution de présence initiale mais dont la perte d’information entre les deux distributions est limitée.

A la fin de l’étape de reconstruction 130, le module de traitement 6 transmet la distribution anonymisée au module de post-traitement 18.

Afin de s’assurer que la perte d’information est bien limitée, le procédé d’anonymisation comprend une étape optionnelle de comparaison 140 de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions.

Le critère d’évaluation est un critère statistique permettant de mesurer la variabilité des valeurs entre les deux distributions. Chaque critère d’évaluation est associé à une valeur seuil prédéterminée permettant de déterminer si les deux distributions sont considérées comme étant en adéquation ou non, c’est-à-dire si la perte d’informations entre les deux distributions est considérée comme acceptable.

Ce critère d’évaluation est par exemple un critère d’évaluation absolu mesurant un écart numérique absolu entre les distributions tel que par exemple l’écart moyen quadratique.

En variante, ce critère d’évaluation est par exemple un critère d’évaluation relatif mesurant un écart rapporté à la valeur initiale des données de la distribution de présence initiale, tel que « Mean Average Percentage Error » (MAPE ou Pourcentage d’erreur absolu moyen en français) seuillé.

Dans un mode de réalisation avantageux, le module de post-traitement 18 effectue la comparaison à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif.

Afin de vérifier la confidentialité de la nouvelle distribution anonymisée, le procédé comprend en outre une étape optionnelle de vérification 150 de l’anonymisation de la fonction anonymisée. En particulier, le module de post-traitement 18 calcule la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée.

Ce calcul est réalisé par des méthodes connues en soi notamment issues du domaine de la confidentialité différentielle.

A la suite de l’étape de comparaison 140 et de l’étape de vérification 150, le module de post-traitement 18 vérifie si le ou les critères d’évaluation sont respectés. Le module de post-traitement 18 vérifie en outre si la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.

Le procédé d’anonymisation comprend alors une réitération 160 des étapes 110 à 130 du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté ; et

- la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.

En particulier, si l’un des critères d’évaluation n’est pas respecté, l’étape d’ajout 120 est réalisée avec un bruit numérique moins important afin d’obtenir une distribution anonymisée plus proche de la distribution de présence initiale.

Si la probabilité de pouvoir isoler un individu est trop importante, l’étape d’ajout 120 est réalisée avec un bruit numérique plus important afin d’obtenir une distribution anonymisée plus éloignée de la distribution de présence initiale et ainsi de garantir une confidentialité des individus plus importante.

La ou les réitération(s) des étapes du procédé permettent ainsi de converger vers un compromis entre une perte d’informations limitée et une confidentialité suffisante garantie.

Enfin, le procédé comprend une étape optionnelle de mise à disposition 170 de données relatives à la distribution anonymisée à la pluralité d’individus.

En particulier, le module de post-traitement 18 envoie la distribution anonymisée à la base de données extérieure 20.

A titre d’exemple, les usagers du réseau de transport peuvent alors avoir accès à différentes statistiques sur la fréquentation d’une gare ou d’une ligne de train afin d’adapter leur trajet en fonction. La distribution étant anonymisée, il n’y a pas de risque pour la confidentialité des données personnelles de chaque individu.

On conçoit alors que la présente invention présente un certain nombre d’avantages.

En effet, l’invention permet d’obtenir des distributions de données spatio- temporelles anonymisées plus précises. En particulier, l’invention permet au moyen du bruit numérique ajouté de rendre les distributions anonymes en modifiant légèrement ces distributions tout en s’assurant que la perte d’informations est acceptable.

L’invention permet de trouver un bon compromis entre la minimisation de la perte d’informations et l’anonymisation des distributions.

Ainsi, l’invention permet une exploitation des données de la base de données plus pertinente et complète, notamment pour gérer le réseau de transport, tout en garantissant la confidentialité ses individus.

Claims

REVENDICATIONS

1. Procédé d’anonymisation d’une base de données (12), la base de données (12) comprenant des données spatio-temporelles relatives à une pluralité d’individus, le procédé comprenant au moins les étapes suivantes :

- agrégation (100) des données afin de définir au moins une distribution de présence représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné ;

- projection (110) de la distribution de présence dans une base de fonctions prédéterminées afin d’associer la distribution de présence à au moins un coefficient dans ladite base ;

- ajout (120) d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d’obtenir au moins un coefficient bruité ; et

- reconstruction (130) d’une distribution anonymisée à partir du ou de chaque coefficient bruité.

2. Procédé d’anonymisation selon la revendication 1 , comprenant en outre une étape de comparaison (140) de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions.

3. Procédé d’anonymisation selon la revendication 2, dans lequel l’étape de comparaison (140) est effectuée à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif.

4. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, comprenant en outre une étape de vérification (150) de l’anonymisation de la fonction anonymisée par calcul de la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée.

5. Procédé d’anonymisation selon les revendications 2 et 4, comprenant une réitération (160) des étapes du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté ; et - la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.

6. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, comprenant en outre une étape de mise à disposition (170) de données relatives à la distribution anonymisée à la pluralité d’individus.

7. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel l’étape de projection (110) de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète.

8. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel l’endroit d’intérêt est une gare d’un réseau de transport public.

9. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel la catégorie d’intérêt est le groupe socioprofessionnel de chaque individu.

10. Produit programme ordinateur comprenant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé d’anonymisation selon l’une quelconque des revendications 1 à 9.