WO2021122918A1 - Procédé d'anonymisation d'une base de données et produit programme ordinateur associé - Google Patents

Procédé d'anonymisation d'une base de données et produit programme ordinateur associé Download PDF

Info

Publication number
WO2021122918A1
WO2021122918A1 PCT/EP2020/086673 EP2020086673W WO2021122918A1 WO 2021122918 A1 WO2021122918 A1 WO 2021122918A1 EP 2020086673 W EP2020086673 W EP 2020086673W WO 2021122918 A1 WO2021122918 A1 WO 2021122918A1
Authority
WO
WIPO (PCT)
Prior art keywords
distribution
anonymized
anonymization
individuals
database
Prior art date
Application number
PCT/EP2020/086673
Other languages
English (en)
Inventor
Vincent THOUVENOT
Stéphane Lorin
Thibaut DUBOIS
Original Assignee
Thales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales filed Critical Thales
Priority to EP20824272.7A priority Critical patent/EP4078422A1/fr
Priority to CN202080089017.2A priority patent/CN114868125A/zh
Publication of WO2021122918A1 publication Critical patent/WO2021122918A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Definitions

  • TITLE Process for anonymizing a database and associated computer program product
  • the present invention relates to a method of anonymizing a database respecting differential confidentiality assumptions.
  • the present invention also relates to a computer program product comprising software instructions which, when executed by a computer, implement such an anonymization method.
  • the database comprises in particular spatio-temporal data relating to a plurality of individuals.
  • These spatio-temporal data are, for example, ticketing data comprising times and places of validation of users in a transport network, in particular rail.
  • These data are collected, for example, from subscription cards made up of a smart card communicating with a fixed validation terminal, in particular by means of RFID (for “Radio Frequency Identification”) or NFC (for “Radio Frequency Identification”) technologies. 'English Near Field Communication').
  • the subject of the invention is a method for anonymizing a database, the database comprising spatio-temporal data relating to a plurality of individuals, the method comprising at least the following steps: - Aggregation of the data in order to define at least one distribution of presence representative of the number of individuals belonging to a category of interest and present at a place of interest during a given time interval;
  • the anonymization process comprises one or more of the following characteristics, taken in isolation or in any technically possible combination:
  • the method further comprises a step of comparing the presence distribution and the anonymized distribution on the basis of at least one criterion for evaluating the adequacy between the two distributions;
  • the comparison step is carried out on the basis of at least two evaluation criteria including at least one absolute evaluation criterion and at least one relative evaluation criterion;
  • the method further comprises a step of verifying the anonymization of the anonymized function by calculating the probability of being able to isolate an individual from among the plurality of individuals from the anonymized distribution;
  • the method comprises a reiteration of the steps of the method when at least one of the following conditions is met: at least one evaluation criterion is not met and the probability of being able to isolate an individual is greater than a predetermined threshold;
  • the method further comprises a step of providing data relating to the anonymized distribution to the plurality of individuals;
  • the presence distribution projection step is performed by a discrete Fourier transform or by a discrete cosine transform
  • the place of interest is a station of a public transport network
  • the category of interest is the socio-professional group of each individual.
  • Figure 1 is a schematic representation of an electronic assembly suitable for implementing an anonymization process according to the invention.
  • Figure 2 is a flowchart of an anonymization process according to the invention.
  • the electronic assembly 10 comprises at least a database 12, a preprocessing module 14, a processing module 16 and a postprocessing module 18
  • the database 12 is suitable for storing a plurality of data.
  • Each data is spatio-temporal data relating to an individual.
  • a spatio-temporal datum is a datum relating to the geographical position of the individual at a given temporal instant.
  • the database 12 includes, for example, ticketing data comprising times and places of validation of users in a transport network, in particular rail.
  • the database 12 comprises, for example, data comprising times and places of validation of employees or visitors in a building of a company.
  • the database 12 is external to the electronic assembly 10.
  • the preprocessing module 14 is able to receive data from the database 12, to process said data in order to obtain at least one distribution of data, as will be explained subsequently, and to transmit the or each distribution to the processing module 16.
  • the processing module 16 is able to receive the or each distribution from the preprocessing module 14, to process these distributions in order to obtain at least one anonymized distribution, as will also be explained later, and to transmit the or each distribution anonymized to the post-processing module 18.
  • the post-processing module 18 is suitable for receiving the or each anonymized distribution from the processing module 16 and for processing these anonymized distributions as will also be explained below, and for transmitting these data to an external database. 20.
  • the preprocessing module 14, the processing module 16 and the postprocessing module 18 each take the form of an independent computer further comprising at least one processor and one memory.
  • the aforementioned modules are at least partially in the form of programmable logic circuits of FPGA type (standing for “Field-Programmable Gâte Array”) and / or software stored in the memory of the computer and executable. by the processor thereof.
  • the preprocessing module 14, the processing module 16 and the postprocessing module 18 alternatively take the form of a single computer.
  • the database 12 comprises spatio-temporal data relating to a plurality of individuals collected previously, for example in a transport network.
  • the anonymization process comprises an initial step of aggregating 100 data from the database 12.
  • the preprocessing module 14 receives the data from the database 12 and processes them in order to define at least one presence distribution.
  • Distribution is understood to mean a statistical distribution associating a given event with its frequency of occurrence.
  • An example of a distribution gives the number of users who have passed through a certain station every half hour or the number of students who have been in a specific area of the city comprising several stations over a defined time slot.
  • the presence distribution is therefore representative of the number of individuals belonging to a category of interest and present at a place of interest during a given time interval.
  • the category of interest is advantageously the socio-professional group of each individual.
  • the socio-professional group is for example defined by the nomenclature defined in France by the National Institute of Statistics of Economic Studies (INSEE) or in Europe by the European Socioeconomic Classification ("European Socioeconomic Classification" in English) making it possible to classify the different trades. It is thus possible to aggregate individuals by categories such as students, unemployed, managers, workers, etc.
  • the category of interest is, for example, the age of individuals.
  • the category of interest defines whether the individuals using the transport network are locals or tourists.
  • the category of interest defines a geographic area of residence of network users, such as, for example, the department. It is understood that as a variant, no category of interest can be considered, the aggregates then being made over the entire population.
  • the place of interest is advantageously a station of a public transport network.
  • the place of interest is a district of a city with several stations.
  • the place of interest is the front door of a business building.
  • the time interval given is advantageously less than 1 hour, in particular less than 30 minutes, in particular less than 15 minutes in order to obtain sufficiently precise information.
  • the preprocessing module 14 transmits the presence distribution (s) to the processing module 16.
  • the anonymization process comprises a step 110 of projecting the presence distribution in a base of predetermined functions.
  • the processing module 16 determines a decomposition of the presence distribution in said base in order to obtain at least one coefficient in said base.
  • the projection of the presence distribution is performed by a discrete Fourier transform or by a discrete cosine transform.
  • Said coefficients are here equal to the different values of S (k).
  • the anonymization process comprises a step 120 of adding digital noise to the or each a coefficient associated with the presence distribution.
  • digital noise is meant a modification of a coefficient by a small deviation from the initial value of the coefficient.
  • the ratio between the digital noise and the initial value of the coefficient is such that the noisy data respects a differential confidentiality property as defined beforehand by the user.
  • the digital noise advantageously has the form of a Gaussian or Laplacian function.
  • the processing module 16 thus applies a digital noise to the or to each coefficient in order to obtain at least one noisy coefficient.
  • the anonymization method comprises a step of reconstructing 130 an anonymized distribution from the or each noisy coefficient.
  • the processing module 16 applies the inverse function associated with the transformation used to calculate the coefficients.
  • the values of the anonymized distribution are here equal to the different values of s (n).
  • An anonymized distribution is thus obtained, different from the initial presence distribution but where the loss of information between the two distributions is limited.
  • the processing module 6 transmits the anonymized distribution to the post-processing module 18.
  • the anonymization method comprises an optional step 140 of comparing the presence distribution and the anonymized distribution on the basis of at least one criterion for evaluating the 'adequacy between the two distributions.
  • the evaluation criterion is a statistical criterion making it possible to measure the variability of the values between the two distributions.
  • Each evaluation criterion is associated with a predetermined threshold value making it possible to determine whether the two distributions are considered to be in adequacy or not, that is to say if the loss of information between the two distributions is considered acceptable.
  • This evaluation criterion is for example an absolute evaluation criterion measuring an absolute numerical difference between the distributions such as for example the root mean square difference.
  • this evaluation criterion is for example a relative evaluation criterion measuring a deviation relative to the initial value of the data of the initial presence distribution, such as “Mean Average Percentage Error” (MAPE or Absolute Percentage Error). average in French) thresholded.
  • MME Mel Average Percentage Error
  • the post-processing module 18 performs the comparison from at least two evaluation criteria including at least one absolute evaluation criterion and at least one relative evaluation criterion.
  • the method further comprises an optional step 150 of verifying the anonymization of the anonymized function.
  • the post-processing module 18 calculates the probability of being able to isolate an individual among the plurality of individuals from the anonymized distribution.
  • the post-processing module 18 checks whether the evaluation criteria or criteria are met. The post-processing module 18 further checks whether the probability of being able to isolate an individual is greater than a predetermined threshold.
  • the anonymization process then comprises a reiteration 160 of steps 110 to 130 of the process when at least one of the following conditions is met: at least one evaluation criterion is not met; and
  • the probability of being able to isolate an individual is greater than a predetermined threshold.
  • the adding step 120 is performed with less digital noise in order to obtain an anonymized distribution closer to the initial presence distribution.
  • the addition step 120 is performed with greater digital noise in order to obtain an anonymized distribution further from the initial presence distribution and thus to guarantee confidentiality of the individuals. more important.
  • the method comprises an optional step of making available 170 data relating to the anonymized distribution to the plurality of individuals.
  • the post-processing module 18 sends the anonymized distribution to the external database 20.
  • users of the transport network can then have access to various statistics on the use of a station or a train line in order to adapt their journey accordingly.
  • the distribution is anonymized, there is no risk to the confidentiality of the personal data of each individual.
  • the invention makes it possible to obtain more precise anonymous spatio-temporal data distributions.
  • the invention allows by means of the added digital noise to make the distributions anonymous by slightly modifying these distributions while ensuring that the loss of information is acceptable.
  • the invention makes it possible to find a good compromise between minimizing the loss of information and the anonymization of distributions.
  • the invention allows a more relevant and complete use of data from the database, in particular to manage the transport network, while guaranteeing the confidentiality of its individuals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

L'invention concerne un procédé d'anonymisation d'une base de données (12), la base de données (12) comprenant des données spatio-temporelles relatives à une pluralité d'individus, le procédé comprenant au moins les étapes suivantes : - agrégation des données afin de définir au moins une distribution de présence représentative du nombre d'individus appartenant à une catégorie d'intérêt et présents à un endroit d'intérêt pendant un intervalle de temps donné; - projection de la distribution de présence dans une base de fonctions prédéterminées afin d'associer la distribution de présence à au moins un coefficient dans ladite base; - ajout d'un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d'obtenir au moins un coefficient bruité; et - reconstruction d'une distribution anonymisée à partir du ou de chaque coefficient bruité.

Description

TITRE : Procédé d’anonymisation d’une base de données et produit programme ordinateur associé
La présente invention concerne un procédé d’anonymisation d’une base de données respectant des hypothèses de confidentialité différentielle.
La présente invention concerne également un produit programme ordinateur comprenant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé d’anonymisation.
La base de données comprend en particulier des données spatio-temporelles relatives à une pluralité d’individus.
Ces données spatio-temporelles sont par exemple des données billettiques comprenant des instants et des lieux de validation d’usagers dans un réseau de transport, notamment ferroviaire. Ces données sont recueillies par exemple à partir des cartes d’abonnements constituées d’une carte à puce communiquant avec une borne de validation fixe, notamment au moyen des technologies RFID (de l’anglais « Radio Frequency Identification ») ou NFC (de l’anglais « Near Field Communication »).
Ces données permettent le suivi des usagers dans le temps et dans l’espace par l’exploitant du réseau ferroviaire afin d’optimiser la circulation des véhicules ferroviaires.
Toutefois, ces données sont des données personnelles des usagers qu’il est nécessaire de protéger. En particulier, il est important qu’il ne soit pas possible d’isoler un individu à partir des données recueillies afin de connaître par exemple ses trajets quotidiens.
A cet effet, il est connu d’agréger ces données agrégées à grande échelle afin d’obtenir une anonymisation de ces données. Par exemple, il ne sera uniquement fourni le nombre de voyageurs quotidien passant par une certaine gare ou une évolution globale de l’affluence sur le réseau de transport complet en fonction de l’heure dans la journée.
Il s’en suit donc une perte importante d’informations dans la base de données et ainsi les utilisations de ces données, par exemple pour l’optimisation du réseau de transport, sont limitées.
Il existe donc un besoin pour un procédé d’anonymisation d’une base de données comprenant des données spatio-temporelles permettant une perte d’informations moindre tout en assurant l’anonymat des individus associés aux données spatio-temporelles.
A cet effet, l’invention a pour objet un procédé d’anonymisation d’une base de données, la base de données comprenant des données spatio-temporelles relatives à une pluralité d’individus, le procédé comprenant au moins les étapes suivantes : - agrégation des données afin de définir au moins une distribution de présence représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné ;
- projection de la distribution de présence dans une base de fonctions prédéterminées afin d’associer la distribution de présence à au moins un coefficient dans ladite base ;
- ajout d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d’obtenir au moins un coefficient bruité ; et
- reconstruction d’une distribution anonymisée à partir du ou de chaque coefficient bruité.
Suivant d’autres aspects avantageux de l’invention, le procédé d’anonymisation comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles :
- le procédé comprend en outre une étape de comparaison de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions ;
- l’étape de comparaison est effectuée à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif ;
- le procédé comprend en outre une étape de vérification de l’anonymisation de la fonction anonymisée par calcul de la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée ;
- le procédé comprend une réitération des étapes du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté et la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé ;
- le procédé comprend en outre une étape de mise à disposition de données relatives à la distribution anonymisée à la pluralité d’individus ;
- l’étape de projection de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète ;
- l’endroit d’intérêt est une gare d’un réseau de transport public ; et
- la catégorie d’intérêt est le groupe socioprofessionnel de chaque individu.
L’invention a également pour objet un produit programme d'ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé d’anonymisation tel que défini précédemment. Ces caractéristiques et avantages de l’invention apparaîtront à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
- [Fig 1] la figure 1 est une représentation schématique d’un ensemble électronique propre à mettre en œuvre un procédé d’anonymisation selon l’invention; et
- [Fig 2] la figure 2 est un organigramme d’un procédé d’anonymisation selon l’invention.
Un ensemble électronique 10 est représenté sur la figure 1. L’ensemble électronique 10 comprend au moins une base de données 12, un module de prétraitement 14, un module de traitement 16 et un module de post-traitement 18
La base de données 12 est propre à stocker une pluralité de données. Chaque donnée est une donnée spatio-temporelle relative à un individu. Une donnée spatio- temporelle est une donnée relative à la position géographique de l’individu à un instant temporel donné.
La base de données 12 comprend par exemple des données billettiques comprenant des instants et des lieux de validation d’usagers dans un réseau de transport, notamment ferroviaire. En variante, la base de données 12 comprend par exemple des données comprenant des instants et des lieux de validations d’employés ou de visiteurs dans un bâtiment d’une entreprise.
En variante, la base de données 12 est extérieure à l’ensemble électronique 10.
Comme visible sur la figure 1 , le module de prétraitement 14 est propre à recevoir des données de la base de données 12, à traiter lesdites données afin d’obtenir au moins une distribution de données, comme cela sera expliqué par la suite, et à transmettre la ou chaque distribution au module de traitement 16.
Le module de traitement 16 est propre à recevoir la ou chaque distribution de la part du module de prétraitement 14, à traiter ces distributions afin d’obtenir au moins une distribution anonymisée, comme cela sera également expliqué par la suite, et à transmettre la ou chaque distribution anonymisée au module de post-traitement 18.
Le module de post-traitement 18 est propre à recevoir la ou chaque distribution anonymisées de la part du module de traitement 16 et à traiter ces distributions anonymisées comme cela sera également expliqué par la suite, et à transmettre ces données à une base de données extérieure 20.
Selon un exemple de réalisation, le module de prétraitement 14, le module de traitement 16 et le module de post-traitement 18 se présentent chacun sous la forme d’un calculateur indépendant comprenant en outre au moins un processeur et une mémoire. En variante ou en complément, les modules précités se présentent au moins partiellement sous la forme de circuits logiques programmables de type FPGA (de l’anglais « Field- Programmable Gâte Array ») et/ou de logiciels stockés dans la mémoire du calculateur et exécutables par le processeur de celui-ci. L’homme du métier comprendra que le module de prétraitement 14, le module de traitement 16 et le module de post-traitement 18 se présentent en variante sous la forme d’un calculateur unique.
Un procédé d’anonymisation sera désormais expliqué en référence à la figure 2 présentant un organigramme de ses étapes.
Initialement, la base de données 12 comprend des données spatio-temporelles relatives à une pluralité d’individus récoltées antérieurement, par exemple dans un réseau de transport.
Le procédé d’anonymisation comprend une étape initiale d’agrégation 100 des données de la base de données 12.
En particulier, le module de prétraitement 14 reçoit les données de la base de données 12 et les traite afin de définir au moins une distribution de présence.
On entend par distribution, une distribution statistique associant un évènement donné à sa fréquence d’apparition. Un exemple de distribution donne le nombre d’usagers ayant transité par une certaine gare toutes les demi-heures ou encore le nombre d’étudiants ayant été dans une zone précise de la ville comprenant plusieurs gares sur une plage horaire définie.
La distribution de présence est donc représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné.
La catégorie d’intérêt est avantageusement le groupe socioprofessionnel de chaque individu. Le groupe socio professionnel est par exemple défini par la nomenclature définie en France par l’Institut National de la Statistique des Etudes Economiques (INSEE) ou en Europe par la Nomenclature Socio-économique Européenne (« European Socioeconomic Classification » en anglais) permettant de classer les différents métiers. Il est ainsi possible d’agréger les individus par catégories telles que étudiants, chômeurs, cadres, ouvriers, etc.
En variante, la catégorie d’intérêt est par exemple l’âge des individus.
En variante encore, la catégorie d’intérêt définit si les individus utilisant le réseau de transport sont des locaux ou des touristes.
En variante encore, la catégorie d’intérêt définit une zone géographique d’habitation des usagers du réseau, tel que par exemple, le département. Il est entendu qu’en variante, aucune catégorie d’intérêt peut être considérée, les agrégats se faisant alors sur l’ensemble de la population.
L’endroit d’intérêt est avantageusement une gare d’un réseau de transport public.
Il est ainsi possible d’agréger le nombre d’individus passant par cette gare pendant un intervalle de temps donné.
En variante, l’endroit d’intérêt est un quartier d’une ville comprenant plusieurs gares.
En variante encore, l’endroit d’intérêt est la porte d’entrée d’un bâtiment d’une entreprise.
L’intervalle de temps donné est avantageusement inférieur à 1 heure, notamment inférieur à 30 minutes, en particulier inférieur à 15 minutes afin d’obtenir des informations suffisamment précises.
A la fin de l’étape d’agrégation 100, le module de prétraitement 14 transmet la ou les distributions de présence au module de traitement 16.
Puis, le procédé d’anonymisation comprend une étape de projection 110 de la distribution de présence dans une base de fonctions prédéterminées.
En particulier, le module de traitement 16 détermine une décomposition de la distribution de présence dans ladite base afin d’obtenir au moins un coefficient dans ladite base.
Avantageusement, la projection de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète.
En particulier, de manière connue en soi, pour un signal s de N échantillons, la transformée de Fourier discrète est égale à :
[Math
Figure imgf000007_0001
Lesdits coefficients sont ici égaux aux différentes valeurs de S(k).
Puis, le procédé d’anonymisation comprend une étape d’ajout 120 d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence.
On entend par bruit numérique une modification d’un coefficient d’un écart faible relativement à la valeur initiale du coefficient. En particulier, le rapport entre le bruit numérique et la valeur initiale du coefficient est tel que les données bruitées respectent une propriété de confidentialité différentielle telle que définie au préalable par l’utilisateur.
Le bruit numérique présente avantageusement la forme d’une fonction gaussienne ou laplacienne.
Le module de traitement 16 applique ainsi un bruit numérique au ou à chaque coefficient afin d’obtenir au moins un coefficient bruité. Puis, le procédé d’anonymisation comprend une étape de reconstruction 130 d’une distribution anonymisée à partir du ou de chaque coefficient bruité.
En particulier, le module de traitement 16 applique la fonction inverse associée à la transformation utilisée pour calculer les coefficients.
En particulier, de manière connue en soi, pour un signal s de N échantillons, la transformée de Fourier discrète inverse est égale à :
[Math
Figure imgf000008_0001
Les valeurs de la distribution anonymisée sont ici égales aux différentes valeurs de s(n).
Il est ainsi obtenu une distribution anonymisée, différente de la distribution de présence initiale mais dont la perte d’information entre les deux distributions est limitée.
A la fin de l’étape de reconstruction 130, le module de traitement 6 transmet la distribution anonymisée au module de post-traitement 18.
Afin de s’assurer que la perte d’information est bien limitée, le procédé d’anonymisation comprend une étape optionnelle de comparaison 140 de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions.
Le critère d’évaluation est un critère statistique permettant de mesurer la variabilité des valeurs entre les deux distributions. Chaque critère d’évaluation est associé à une valeur seuil prédéterminée permettant de déterminer si les deux distributions sont considérées comme étant en adéquation ou non, c’est-à-dire si la perte d’informations entre les deux distributions est considérée comme acceptable.
Ce critère d’évaluation est par exemple un critère d’évaluation absolu mesurant un écart numérique absolu entre les distributions tel que par exemple l’écart moyen quadratique.
En variante, ce critère d’évaluation est par exemple un critère d’évaluation relatif mesurant un écart rapporté à la valeur initiale des données de la distribution de présence initiale, tel que « Mean Average Percentage Error » (MAPE ou Pourcentage d’erreur absolu moyen en français) seuillé.
Dans un mode de réalisation avantageux, le module de post-traitement 18 effectue la comparaison à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif.
Afin de vérifier la confidentialité de la nouvelle distribution anonymisée, le procédé comprend en outre une étape optionnelle de vérification 150 de l’anonymisation de la fonction anonymisée. En particulier, le module de post-traitement 18 calcule la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée.
Ce calcul est réalisé par des méthodes connues en soi notamment issues du domaine de la confidentialité différentielle.
A la suite de l’étape de comparaison 140 et de l’étape de vérification 150, le module de post-traitement 18 vérifie si le ou les critères d’évaluation sont respectés. Le module de post-traitement 18 vérifie en outre si la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.
Le procédé d’anonymisation comprend alors une réitération 160 des étapes 110 à 130 du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté ; et
- la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.
En particulier, si l’un des critères d’évaluation n’est pas respecté, l’étape d’ajout 120 est réalisée avec un bruit numérique moins important afin d’obtenir une distribution anonymisée plus proche de la distribution de présence initiale.
Si la probabilité de pouvoir isoler un individu est trop importante, l’étape d’ajout 120 est réalisée avec un bruit numérique plus important afin d’obtenir une distribution anonymisée plus éloignée de la distribution de présence initiale et ainsi de garantir une confidentialité des individus plus importante.
La ou les réitération(s) des étapes du procédé permettent ainsi de converger vers un compromis entre une perte d’informations limitée et une confidentialité suffisante garantie.
Enfin, le procédé comprend une étape optionnelle de mise à disposition 170 de données relatives à la distribution anonymisée à la pluralité d’individus.
En particulier, le module de post-traitement 18 envoie la distribution anonymisée à la base de données extérieure 20.
A titre d’exemple, les usagers du réseau de transport peuvent alors avoir accès à différentes statistiques sur la fréquentation d’une gare ou d’une ligne de train afin d’adapter leur trajet en fonction. La distribution étant anonymisée, il n’y a pas de risque pour la confidentialité des données personnelles de chaque individu.
On conçoit alors que la présente invention présente un certain nombre d’avantages.
En effet, l’invention permet d’obtenir des distributions de données spatio- temporelles anonymisées plus précises. En particulier, l’invention permet au moyen du bruit numérique ajouté de rendre les distributions anonymes en modifiant légèrement ces distributions tout en s’assurant que la perte d’informations est acceptable.
L’invention permet de trouver un bon compromis entre la minimisation de la perte d’informations et l’anonymisation des distributions.
Ainsi, l’invention permet une exploitation des données de la base de données plus pertinente et complète, notamment pour gérer le réseau de transport, tout en garantissant la confidentialité ses individus.

Claims

REVENDICATIONS
1. Procédé d’anonymisation d’une base de données (12), la base de données (12) comprenant des données spatio-temporelles relatives à une pluralité d’individus, le procédé comprenant au moins les étapes suivantes :
- agrégation (100) des données afin de définir au moins une distribution de présence représentative du nombre d’individus appartenant à une catégorie d’intérêt et présents à un endroit d’intérêt pendant un intervalle de temps donné ;
- projection (110) de la distribution de présence dans une base de fonctions prédéterminées afin d’associer la distribution de présence à au moins un coefficient dans ladite base ;
- ajout (120) d’un bruit numérique au ou à chaque un coefficient associé à la distribution de présence afin d’obtenir au moins un coefficient bruité ; et
- reconstruction (130) d’une distribution anonymisée à partir du ou de chaque coefficient bruité.
2. Procédé d’anonymisation selon la revendication 1 , comprenant en outre une étape de comparaison (140) de la distribution de présence et de la distribution anonymisée à partir d’au moins un critère d’évaluation de l’adéquation entre les deux distributions.
3. Procédé d’anonymisation selon la revendication 2, dans lequel l’étape de comparaison (140) est effectuée à partir d’au moins deux critères d’évaluation dont au moins un critère d’évaluation absolu et au moins un critère d’évaluation relatif.
4. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, comprenant en outre une étape de vérification (150) de l’anonymisation de la fonction anonymisée par calcul de la probabilité de pouvoir isoler un individu parmi la pluralité d’individus à partir de la distribution anonymisée.
5. Procédé d’anonymisation selon les revendications 2 et 4, comprenant une réitération (160) des étapes du procédé lorsqu’au moins l’une des conditions suivantes est respectée : au moins un critère d’évaluation n’est pas respecté ; et - la probabilité de pouvoir isoler un individu est supérieure à un seuil prédéterminé.
6. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, comprenant en outre une étape de mise à disposition (170) de données relatives à la distribution anonymisée à la pluralité d’individus.
7. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel l’étape de projection (110) de la distribution de présence est effectuée par une transformation de Fourier discrète ou par une transformée en cosinus discrète.
8. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel l’endroit d’intérêt est une gare d’un réseau de transport public.
9. Procédé d’anonymisation selon l’une quelconque des revendications précédentes, dans lequel la catégorie d’intérêt est le groupe socioprofessionnel de chaque individu.
10. Produit programme ordinateur comprenant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé d’anonymisation selon l’une quelconque des revendications 1 à 9.
PCT/EP2020/086673 2019-12-19 2020-12-17 Procédé d'anonymisation d'une base de données et produit programme ordinateur associé WO2021122918A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20824272.7A EP4078422A1 (fr) 2019-12-19 2020-12-17 Procédé d'anonymisation d'une base de données et produit programme ordinateur associé
CN202080089017.2A CN114868125A (zh) 2019-12-19 2020-12-17 用于匿名化数据库的方法和相关联的计算机程序产品

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1914871A FR3105488B1 (fr) 2019-12-19 2019-12-19 Procede d'anonymisation d'une base de donnees et produit programme ordinateur associe
FRFR1914871 2019-12-19

Publications (1)

Publication Number Publication Date
WO2021122918A1 true WO2021122918A1 (fr) 2021-06-24

Family

ID=71452300

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/086673 WO2021122918A1 (fr) 2019-12-19 2020-12-17 Procédé d'anonymisation d'une base de données et produit programme ordinateur associé

Country Status (4)

Country Link
EP (1) EP4078422A1 (fr)
CN (1) CN114868125A (fr)
FR (1) FR3105488B1 (fr)
WO (1) WO2021122918A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110283099A1 (en) * 2010-05-13 2011-11-17 Microsoft Corporation Private Aggregation of Distributed Time-Series Data
WO2014088903A1 (fr) * 2012-12-03 2014-06-12 Thomson Licensing Procédé et appareil pour convolution privée presque optimale
EP3567508A1 (fr) * 2018-05-09 2019-11-13 Fujitsu Limited Détection et prévention de violation de confidentialité due à une libération de base de données

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110283099A1 (en) * 2010-05-13 2011-11-17 Microsoft Corporation Private Aggregation of Distributed Time-Series Data
WO2014088903A1 (fr) * 2012-12-03 2014-06-12 Thomson Licensing Procédé et appareil pour convolution privée presque optimale
EP3567508A1 (fr) * 2018-05-09 2019-11-13 Fujitsu Limited Détection et prévention de violation de confidentialité due à une libération de base de données

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VIBHOR RASTOGI ET AL: "Differentially private aggregation of distributed time-series with transformation and encryption", PROCEEDINGS OF THE 2010 INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, SIGMOD '10, 6 June 2010 (2010-06-06), New York, New York, USA, pages 735, XP055069841, ISBN: 978-1-45-030032-2, DOI: 10.1145/1807167.1807247 *

Also Published As

Publication number Publication date
CN114868125A (zh) 2022-08-05
FR3105488B1 (fr) 2021-11-26
FR3105488A1 (fr) 2021-06-25
EP4078422A1 (fr) 2022-10-26

Similar Documents

Publication Publication Date Title
US20180049043A1 (en) Multifactorial optimization system and method
AU2021203090A1 (en) Method and system for applying dynamic and adaptive testing techniques to a software system to improve selection of predictive models for personalizing user experiences in the software system
US20210110343A1 (en) Methods and systems for generating address score information
US20170186097A1 (en) Method and system for using temporal data and/or temporally filtered data in a software system to optimize, improve, and/or modify generation of personalized user experiences for users of a tax return preparation system
Jilke Choice and equality: are vulnerable citizens worse off after liberalization reforms?
US20090276346A1 (en) System and method for classifying a financial transaction as a recurring financial transaction
CN111105221A (zh) 用于对等网络上的车辆共享的系统和方法
CN107798552B (zh) 活动信息推送方法、系统、服务器和介质
CN110991789B (zh) 置信区间的确定方法和装置、存储介质及电子装置
Zhang et al. Behavior-based telecommunication churn prediction with neural network approach
Braaksma et al. ``Re-make/Re-model'': Should big data change the modelling paradigm in official statistics?
CN109741482A (zh) 一种信息共享方法及装置
US20200019994A1 (en) Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
CN112163963A (zh) 业务推荐方法、装置、计算机设备和存储介质
Hong et al. Insights on data quality from a large-scale application of smartphone-based travel survey technology in the Phoenix metropolitan area, Arizona, USA
Jaisingh et al. Paving the way for intelligent transport systems (its) privacy implications of vehicle infotainment and telematics systems
US11069001B1 (en) Method and system for providing personalized user experiences in compliance with service provider business rules
Allegretto et al. Tipped wage effects on earnings and employment in full‐service restaurants
US11356808B2 (en) Systems and methods for using spatial and temporal analysis to associate data sources with mobile devices
WO2021122918A1 (fr) Procédé d'anonymisation d'une base de données et produit programme ordinateur associé
US11030631B1 (en) Method and system for generating user experience analytics models by unbiasing data samples to improve personalization of user experiences in a tax return preparation system
FR3048101A1 (fr) Procede et dispositif d'evaluation de la robustesse d'une anonymisation d'un jeu de donnees
Davis et al. Suspicious election campaign activity on Facebook
Arbia et al. From mobile crowdsourcing to crowd-trusted food price in Nigeria: statistical pre-processing and post-sampling
US11036786B2 (en) Determining user segmentation based on a photo library

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20824272

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020824272

Country of ref document: EP

Effective date: 20220719