WO2019158840A1 - Automatic processing method for anonymizing a digital data set - Google Patents

Automatic processing method for anonymizing a digital data set Download PDF

Info

Publication number
WO2019158840A1
WO2019158840A1 PCT/FR2019/050280 FR2019050280W WO2019158840A1 WO 2019158840 A1 WO2019158840 A1 WO 2019158840A1 FR 2019050280 W FR2019050280 W FR 2019050280W WO 2019158840 A1 WO2019158840 A1 WO 2019158840A1
Authority
WO
WIPO (PCT)
Prior art keywords
variables
status
attributes
data
sensitive
Prior art date
Application number
PCT/FR2019/050280
Other languages
French (fr)
Inventor
Fatma BOUATTOUR
Mohamed KASRAOUI
Paul-Olivier GIBERT
Original Assignee
Digital & Ethics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital & Ethics filed Critical Digital & Ethics
Priority to EP19710728.7A priority Critical patent/EP3752948A1/en
Publication of WO2019158840A1 publication Critical patent/WO2019158840A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to the field of digital data processing and more particularly automatic processing of large volumes of digital data by modifying the content and / or structure of these data in order to make it very difficult or impossible to "re-identify” the data.
  • anonymizing data is often the result of an ethical, legal and ethical compromise between a desire or an obligation to protect individuals and their personal data.
  • anonymization is used for the dissemination and sharing of data deemed to be of public interest, such as open data.
  • a first step usually consists of removing the identifiers from the cards or databases concerned, such as surnames, first names, tax identifiers, social security numbers, etc.
  • the next step will be to apply to the files or databases "filters” and “cryptographic transformations” (eg encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm), but before this work , the data manager carries out or commission a study clarifying its need for anonymisation, its objectives and its requirements (eg must there be a possible reversibility of the anonymisation), prioritizing where necessary the data to be protected, according to their degree of "sensitivity” and according to the purpose of the treatment that must then undergo the information. It can thus produce and compare several anonymisation scenarios in order to better choose the solution that seems most relevant to it (according to its requirements, and the requirements of the Law). In all cases the anonymization must resist dictionary attacks.
  • filters eg encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm
  • the notion of anonymized identity and re-identification of the patient concerns the direct and indirect means of re-identification (eg name, address %) but also the encrypted data if the decryption means is available .
  • a person (ex: a patient) is included in an anonymous database only if it is obligatory or really useful, and to a project can be associated only one anonymized database .
  • Increased legal certainty is obtained if all the persons listed in it have given their consent (in writing or via the provision of their identifier, for a medico-commercial study, for example), but this type of basis induces interpretation bias. .
  • Mechanisms should be provided to detect and block attempts to intrude (through the Internet or other means) and in particular malicious attempts at data inference, abuse of power, etc.
  • Patent application WO 2015066523 describes an example of a computer-implemented method, to provide better levels of data privacy, anonymity and security by allowing subjects to whom data belong, to remain "anonymous dynamically," otherwise Anonymous says as long as they wish and to the extent desired.
  • Embodiments include systems that create, access, use, store, and / or erase data with increased levels of privacy, anonymity, and security, thereby obtaining better qualified and more accurate information.
  • embodiments may make possible controlled information sharing that can deliver temporally, geographically and / or usage limited information to the receiving party.
  • anonymity score scores can be calculated for the shared data items, so that a level of consent / commitment required by the data object before the sharing of the relevant data items to third parties can be done. to be specified.
  • the patent application WO2012080081 relates to a computer-implemented method of anonymizing data from a data source for a target application, the method comprising: identifying sensitive data elements in data from the source of data; data through a discovery tool and generating data definitions for data items indicating the sensitive data items, the data definitions including at least one property for the data items; specify a set of runtime rules including at least one runtime rule, the runtime rule including an runtime anonymizer protocol, the runtime engine rule set being specified by via an interface; map the runtime ruleset to the data definitions generated by the discovery tool for each of the sensitive data items; and consuming the generated data definitions and applying the mapped runtime anonymization protocol to the sensitive data item data definition, to anonymize the sensitive data item for the target application.
  • Patent Application EP2752786 is also known which describes an anonymization device and an anonymization method characterized in that all the data satisfy the requested anonymity levels for each, and in that they prevent the loss of value of the information that results from the abstraction of the entire data collection.
  • the present anonymization device comprises: an anonymization means for performing an anonymization processing in which a group of data is treated as a processing unit for a data collection comprising at least two data; an anonymity level specifying means for specifying an adaptive anonymity level for each group; and an anonymity rating means for judging whether a group meets the specified adaptive anonymity level.
  • the anonymization means on the basis of the evaluation result of the anonymity evaluation means, further performs an anonymization processing of the data collection for which the anonymization processing has been carried out.
  • European Patent Application EP2573699 discloses another example of an anonymization device for automatically configuring a general hierarchical tree of attribute values in identity information protection technology.
  • the anonymization device describes, quantitatively evaluates the amount of information that is lost during the generalization of an attribute value, and can thus automatically evaluate priorities between anonymized data and between data that are being anonymized.
  • Information of each person includes attribute values of the person for a plurality of attributes.
  • An anonymization is performed by obscuring the attribute values, and a structure in which attribute values to be obscured, are expressed in a tree structure according to the obscuration level is called a general hierarchical tree.
  • the described identity information anonymization device performs automatic configuration by configuring a tree using frequency information of attribute values.
  • a quantity of information lost between two anonymized data or between data being anonymized is quantitatively evaluated.
  • US patent application 2107/0124336 describes an automated method of identifying the attributes for the anonymisation exercise. This method is based on data encryption, a step prior to studying the level of sensitivity of the data and therefore their degree of requirement in terms of anonymization.
  • This patent proposes three methods for choosing values / attributes for anonymization.
  • a first method consists in comparing the different values with values present in a dictionary, with which different levels of sensitivity are associated. Attributes for which the presence of sensitive values in the dataset exceeds a certain predetermined threshold will be selected for anonymization.
  • a second classification method is based on a comparison of the distributions of the values of an attribute in the dataset and in a known distribution. This method can confirm the results of the first method of identifying the attributes to be anonymized.
  • a final method is to provide the anonymizer with a portion of the dataset in its version. original (before encryption) and generate from this sample a number of expressions for one or more attribute (s). The rest of the dataset will be encrypted and compared to these generated expressions to identify certain attributes and their sensitivity.
  • the solutions of the prior art are adapted to prepare anonymous databases when they are created. On the other hand, these solutions do not make it possible to easily change the anonymization, for example when the addition of new entries modifies the context of anonymisation.
  • the solutions of the prior art require in this case the reprocessing of the entire database, which may require considerable computation time, for databases that may represent several terabytes.
  • sex information combined with age information can be identifying, which requires a transformation / anonymization action, especially when data contains in addition information relating to a given pathology.
  • the information is in fact not identifiable. But if new entries change this situation, the information "sex" or "age” may require different treatment.
  • the anonymization requires a preliminary step of identifying the attributes / values to be anonymized. This step is left to the choice of the anonymizer / user and is therefore subject to a problem of subjectivity and non-precision of the classification. Moreover, even work that focuses on the classification of attributes does not provide a clear and documented methodology for qualifying attributes.
  • the present invention aims to overcome these disadvantages by proposing a method for having different levels of anonymization through a classification of the variables of a database.
  • the invention relates in its most general sense to a method of automatically processing a digital data set consisting of:
  • a digital file constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables
  • An order of the power of identification of the different census variables o
  • a numerical file constituted by a table of variables with an established order of the degree of facility (208) by which an attacking potential can access the information on the different variables. This order can be deduced from some databases tracing the history of attacks.
  • o A digital file consisting of a table of "sensitive" attributes, for which the values / modalities are classified in order of sensitivity.
  • a first indicator for the availability of the associated value from external data sources, such as from a web crawler or a repository or historical attacks
  • the data set is a subset
  • a sensitivity indicator by referring to a list of sensitive variables with their different modalities / values ranging from the most sensitive to the least sensitive. These indicators are calculated based on the occurrence frequency of the most sensitive values of the sensitive attribute. They will then be compared to a frequency threshold
  • a fourth processing concerning the residual variables associated with a "general" sensitivity parameter of assigning some of said variables a "hidden” status to prevent their normal use in said set of data comprises, prior to the first classification step, a processing for assigning to each of the variables for which no correspondence with the attribute repository (201) is established, a provisional status in the attribute repository (201) , which can be changed to definitive status or rejected according to the opinion of an operator.
  • the method further comprises a step consisting in dynamically applying to the variables that can not be associated with the referential of the attributes, a specific processing consisting in registering in said repository the pair "variable, status" awaiting validation / rejection according to the opinion of an operator.
  • a step consisting in dynamically applying to the variables that can not be associated with the referential of the attributes, a specific processing consisting in registering in said repository the pair "variable, status" awaiting validation / rejection according to the opinion of an operator.
  • said processes are applied periodically [for example during each evolution of the data set (210) or at each evolution of the regulatory framework].
  • said treatments applied to the "hidden" variables / values consist of:
  • Figure 1 shows the flow diagram of the set of treatments.
  • FIG. 2 represents the set of processing modules for implementing the invention.
  • Figure 3 shows a detailed view of the logic diagram of the first classification step.
  • Figure 4 presents a detailed view of the logic diagram of the attribute identification power analysis.
  • Figure 5 provides a detailed view of the logic diagram of attribute sensitivity analysis.
  • the present invention relates to the automatic classification of the attributes of a digital data set to better target the anonymisation and / or risk assessment of re-identification (RI) exercises.
  • the aim is to automate the technical processes to ensure compliance with the regulatory framework on the protection of personal data.
  • the anonymisation and assessment of the risk of disclosure of personal data generally concern certain variables in a dataset, particularly those with an identifying nature or those with a sensitive character.
  • anonymization involves loss of information about the dataset, which can affect the usefulness of the data for users such as researchers. For that, it is relevant for a user or owner of the data to target the variables on which the anonymization or the re-identification risk measurement will be carried out.
  • the classification of the attributes of a dataset would be an asset in striking a balance between the obligation to respect one's private life and the guarantee of the usefulness of the data.
  • the classification of the attributes is carried out by a "manual" treatment by the owner of the data and remains linked to its appreciation. This leaves the question of the classification of variables subject to subjectivity and thus may result in decisions of anonymisation or assessment of the risk of re-identification that are not in conformity with the requirements of the manipulation of personal data.
  • the context of dissemination of datasets, the evolution of laws and customs as well as the characteristics of certain data sets mean that the classification of variables is not final and that an expert assessment is always desirable to ensure the ethical use of personal data. Given these elements, there is therefore a technical problem related to the preliminary analysis (manual or automatic) of the attributes of a dataset in order to target the anonymisation exercises and / or assessment of the risk of re-identification. data by a potential attacker of the dataset.
  • the present invention provides an attribute classification methodology to help data owners share their data while respecting the requirements of personal data automatically and dynamically, allowing the parameters to be automatically scaled according to the introduction of new data into the database.
  • the data owner accesses a dataset with attributes.
  • Each attribute has a name to classify it.
  • Each attribute can take different modalities / values and so can also be classify according to the composition of these values (distribution, frequency or other).
  • the innovation of this classification methodology therefore lies particularly in the intervention of the modalities of the different attributes of a dataset in the classification process of the attributes.
  • This invention has two stages of classification of the data.
  • the classification begins with a first step, where the attributes of the dataset to be processed are subject to a first classification, using a created database called "Attributes Repository".
  • This invention will be described according to a detailed example with reference to Figures 1 to 5 annexed showing the functional architecture and the logic of the main functional modules.
  • the "Attributes framework” (201) consists of applying a classification of the attributes according to two main criteria of anonymization of the personal data, namely:
  • the identifier character (202) results in the recording of a three-state numerical sequence: "I” when the variable is directly identifying as the social security number, "IQ” when the variable can become an identifier, combined with other variables associated with the same state as the postal code, or "NP".
  • the variables associated with the numerical sequence "NP" are not treated in the the scope of this invention, which can reduce computational time in the anonymization process / process (204).
  • the sensitive character (203) results in the recording of a digital sequence that can take two states: "S” when the variable is sensitive in the sense that its disclosure should be avoided and "NS” in the other cases.
  • the repository (201) is translated into a file containing variables, listed from the state of the art, the recommendations of the institutes for the protection of privacy and the use cases encountered. These variables are categorized to facilitate the use of the repository when classifying the attributes of a given dataset. The categories listed are: health, education and work, addresses, numbers and dates ...
  • Attribute classification is then based on two elements:
  • Attributes belonging, according to the law, to a "particular category" are classified as sensitive variables assigned to the numerical sequence "S", for example health data, criminal record, etc.
  • This repository (201) can be continuously enriched and is supposed to bring together a large set of variables related to many sectors of activity, in order to increase its usefulness.
  • Attribute The name of the attribute.
  • Identifier status This is to classify the variable as identifier "I, to be eliminated from the anonymized version", quasi-identifier "IQ" or not.
  • Sensitivity includes sensitivity in the legal sense but also in the sense of ethics, custom, society, ...
  • the "sensitivity of attributes” repository (205) proposes to reference, according to the degree of sensitivity, the different modalities / values of an attribute classified as sensitive and therefore assigned the numerical sequence "S".
  • Certain attributes classified as “sensitive” and assigned to the numerical sequence “S” take values that do not necessarily have the same degree of sensitivity and / or protection requirement, hence the interest of proposing a more refined analysis of sensitivity and sensitivity order for the different modalities of the sensitive attributes (206).
  • the "Attributes Sensitivity Repository” (205) is constituted by the list of sensitive attributes identified by the “Attributes Reference” (201) and for each attribute, the various possible modalities (that can evolve) are classified by order sensitivity and / or requirement in terms of protection of privacy and from a socio-cultural point of view.
  • the qualification of the quasi-identifier attributes assigned to a numerical sequence "IQ" can be improved by passing to a finer degree of analysis (212). Indeed, the power of identification can vary from one quasi-identifying attribute to another. Thus, the level of requirement in terms of anonymization and / or anonymization evaluation could be different depending on the level of power of a virtual identifier in the re-identification of an individual.
  • Dates easy to access dates of birth, ...
  • Dates less accessible dates of hospitalization, ...
  • Dates difficult to access medical check dates, ...
  • the goal is to have a repository of quasi-identifying attributes, affected by the numerical sequence "IQ", classified according to their ease of access by an attacking potential.
  • the "Reference Population Reference” (209) is therefore based on the distribution of the different attributes in the reference population, for example a country. For France, we refer for example to the data of the last census of the French population of 2013 to deduce the distribution of a set of attributes.
  • the data recorded concern the following variables at this level: age, socio-professional category, department of birth, department of previous residence, department of current residence, department of work, degree obtained, nationality, sector of activity, region of birth, region of previous residence, region of work, sex, marital status and type of activity.
  • This list can be enriched by other data on the French population which will expand the list of attributes.
  • This processing makes it possible to give an order of power of identification of the attributes.
  • This reference population reference system (209) can be extended by taking into account the characteristics of other reference populations, such as the United States or Canada. We will have, in fine, a database giving the main characteristics of the reference populations (populations to which the data sets are attached).
  • the two criteria may be complementary to cover the most quasi-identifying attributes, assigned the numerical sequence "IQ", of a dataset.
  • Step (1) the data owner / user accesses a dataset (210) that contains attributes with different denominations.
  • the data owner examines the attribute dictionary (if it exists) or attributes directly to classify them.
  • Step (2) During this step, the user accesses the "attribute repository" (201).
  • Step (3) In this step, the calculator processes the data set (210) to match each of the attributes with the attribute repository (201). For attributes of the dataset (210), for which matching is performed, the processing consists of assign them a marker. This correspondence can be done manually by the user by comparing the list of attributes of his dataset to the attribute repository or automatically by creating search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or else semantic search algorithms such as the Lesk algorithm.
  • search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or else semantic search algorithms such as the Lesk algorithm.
  • Step (4) This step distinguishes the attributes of the dataset (201) for which a matching has been performed on the one hand, and the attributes for which no matching has been determined, on the other hand .
  • Step (5) This step consists in registering in the attribute repository (201) the attributes of the dataset (210) for which no match has been found. These variables are registered with a temporary status, which can be changed to final status or rejected according to the opinion of an operator.
  • Step (6) This step to perform a first classification of the attributes, denoted “Initial Classification” (211), based on “the referential of the attributes” (201). This step only affects those attributes for which a match with the "attribute repository” (201) has been established. At the end of this step, each of the marked attributes will have a status based on the attribute repository (201) translated by a numerical sequence that can take different states: "I”, "IQ”,
  • a user / owner of the data can make a first classification, denoted "Initial Classification” (211) of the attributes of its data set in order to target the anonymisation / disclosure risk measurement exercises.
  • a user accesses (301) the attribute dictionary of the dataset to be studied and the "attribute repository" (201). For attributes whose matching in the attribute repository has been found (303), a determination of their identifier (304) / sensitive (305) status will allow for an initial classification of the attributes (306). The determination of this first classification is done by referring to the different columns of the file of the "referential of the attributes” (201). Again, the correspondence between the attributes of the dataset (201) and their status in the "attribute repository” (201) can be done manually or automatically by search automation algorithms.
  • the initial classification of the attributes (306) corresponds to their definitive classification. These attributes will therefore be permanently stored in the classification module (213), on which the anonymization process is based:
  • Step (7) The user then determines an option to grant the attributes assigned to a digital sequence "IQ" or "S” a hidden status preventing their normal use in the final data set (215) and go directly to the anonymisation process (204) or to further processing of the data set (210), described below.
  • Step (8) This step only applies to attributes, assigned to a numerical sequence "S”, determined by a filtering module (501). This step, called “sensitivity analysis” (206), is presented in more detail by the logic diagram, object of FIG.
  • the processing will be based on the result of the initial classification of the attributes (306) and the "sensitivity reference" (205).
  • the calculator By accessing (502) the "attribute sensitivity repository" (205), the calculator will examine the distribution of the modalities of the sensitive attribute in the data set (503). The occurrence frequencies of the most sensitive categories of the attribute are then calculated for the data set to be studied (504).
  • Step (9) This step only applies to the attributes assigned to a numerical sequence "QI" determined by a filtering module (401). This step, named “Analysis of the power of identification” (212), is presented in more detail by the logic diagram, object of Figure 4.
  • the processing will be based on the result of the initial classification of the attributes (306) and on the "identification power referential" (207).
  • the computer accesses (402) the "attribute access facility repository” (208) and compares (403) thereafter the degrees of ease of access of the various attributes of the dataset (210) assigned to a digital sequence "IQ" ", Based on the same repository (208). This comparison results in an order of "ease of access” of the different attributes.
  • the calculator then accesses (404) the "reference population reference” (209) and will sort (405) attributes assigned a numerical sequence "IQ" according to the order established in the "reference population reference”. (209).
  • This order can be done manually or automatically by sorting algorithms, namely “selection sorting", “tree sorting” ...
  • Step (10) This step presents the end of the classification process of the attributes of the dataset (210).
  • the results of the sensitivity analyzes (206) and the identification power (212) are grouped in a classification module (213), on which the computer for the data processing (204) of the data set (210) will be based. .
  • This processing may result in an anonymization of certain attributes, with different degrees of requirement in order to arrive at a final version of the dataset (215). In all cases, data processing must meet privacy needs while maintaining the usefulness of the dataset (210).

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

The invention relates to the field of digital data processing, more particularly to the automatic processing of large volumes of digital data, consisting in modifying the content and/or the structure of these data in order to make it very difficult or impossible to identify the (natural or artificial) person or entity in question, in particular by anonymizing the data.

Description

PROCEDE DE TRAITEMENT AUTOMATIQUE POUR L'ANONYMISATION  AUTOMATIC PROCESSING METHOD FOR ANONYMIZATION
D'UN JEU DE DONNEES NUMERIQUES  A DIGITAL DATA GAME
Domaine de 1 ' invention Field of the invention
La présente invention concerne le domaine du traitement des données numériques et plus particulièrement des traitements automatiques de grands volumes de données numériques consistant à modifier le contenu et/ou la structure de ces données afin de rendre très difficile ou impossible la « ré-identification » des personnes (physiques ou morales) ou des entités concernées, notamment en procédant à 1 ' anonymisation .  The present invention relates to the field of digital data processing and more particularly automatic processing of large volumes of digital data by modifying the content and / or structure of these data in order to make it very difficult or impossible to "re-identify" the data. persons (natural or legal) or entities concerned, including anonymisation.
Les entreprises accumulent aujourd'hui d'importants volumes de données dont le traitement et la monétisation peut créer de la valeur. Ces données couvrent les données à caractère personnel ce qui les soumet à des exigences réglementaires et éthiques avant leur diffusion. L'anonymisation des données est donc une étape cruciale pour prévenir l'accès aux données à caractère personnel. L'anonymisation engendre généralement une perte d'informations qu'il faudra cependant contrôler afin de garder l'utilité des données pour les utilisateurs. Afin de bien cibler l'anonymisation, il convient donc de décider des variables qualifiées comme identificatrices ou comme sensibles à la divulgation. Une analyse rationnalisée des attributs d'un jeu de données, de leurs caractéristiques et de leurs modalités est donc indispensable pour faire la classification des attributs, préalable aux exercices d'anonymisation et/ ou d'évaluation du risque de divulgation des données à caractère personnel. La rationalisation de l'identification des attributs pour anonymisation permettre de résoudre les potentiels problèmes de subjectivité et / ou de non précision des analyses, qui pourront émerger quand la classification des attributs est laissée au choix de l'utilisateur/ anonymisateur et ne se base pas sur l'avis d'un expert. Businesses are now accumulating large volumes of data that can be value-added through processing and monetization. These data cover personal data, which makes them subject to regulatory and ethical requirements before they are disseminated. The anonymisation of data is therefore a crucial step to prevent access to personal data. Anonymisation usually results in a loss of information that must be controlled in order to keep the usefulness of the data for users. In order to target anonymisation, it is therefore necessary to decide which variables qualify as identifiers or as sensitive to disclosure. A rationalized analysis of the attributes of a dataset, their characteristics and their modalities is therefore indispensable for the classification of the attributes, prior to the anonymisation exercises and / or assessment of the risk of disclosure of personal data. . The rationalization of the identification of the attributes for anonymization makes it possible to solve the potential problems of subjectivity and / or non-precision of the analyzes, which can emerge when the classification of the attributes is left to the choice of the user / anonymizer and is not based on the opinion of an expert.
Le choix d'anonymiser des données résulte souvent d'un compromis déontologique, juridique et éthique, entre une volonté ou une obligation de protéger les individus et leurs données personnelles. L'anonymisation est en particulier employée pour la diffusion et le partage de données jugées d'intérêt public, comme les données ouvertes (Open data). The choice of anonymizing data is often the result of an ethical, legal and ethical compromise between a desire or an obligation to protect individuals and their personal data. In particular, anonymization is used for the dissemination and sharing of data deemed to be of public interest, such as open data.
Une première étape consiste généralement à supprimer les identifiants des fiches ou des bases de données concernées tels que les noms, prénoms, identifiants fiscaux, numéros de sécurité sociale, ...  A first step usually consists of removing the identifiers from the cards or databases concerned, such as surnames, first names, tax identifiers, social security numbers, etc.
L'étape suivante consistera à appliquer aux fichiers ou bases de données des « filtres » et « transformations cryptographiques » (ex : chiffrement et/ou hachage de données par un algorithme dédié, par exemple SHA pour Secure Hash Algorithm) , mais avant ce travail, le gestionnaire des données procède ou fait procéder à une étude clarifiant son besoin d'anonymisation, ses objectifs et ses exigences (ex : doit-il y avoir une réversibilité possible de l'anonymisation), hiérarchisant le cas échéant les données à protéger, selon leur degré de "sensibilité" et en fonction de la finalité du traitement que doivent ensuite subir les informations. Il peut ainsi produire et comparer plusieurs scenarii d'anonymisation pour mieux choisir la solution lui semblant la plus pertinente (en fonction de ses exigences, et des exigences de la Loi). Dans tous les cas l'anonymisation doit résister aux attaques par dictionnaire.  The next step will be to apply to the files or databases "filters" and "cryptographic transformations" (eg encryption and / or hashing of data by a dedicated algorithm, for example SHA for Secure Hash Algorithm), but before this work , the data manager carries out or commission a study clarifying its need for anonymisation, its objectives and its requirements (eg must there be a possible reversibility of the anonymisation), prioritizing where necessary the data to be protected, according to their degree of "sensitivity" and according to the purpose of the treatment that must then undergo the information. It can thus produce and compare several anonymisation scenarios in order to better choose the solution that seems most relevant to it (according to its requirements, and the requirements of the Law). In all cases the anonymization must resist dictionary attacks.
Plusieurs phases et niveaux d'anonymisation se succèdent parfois : par exemple l'hôpital procède à une première anonymisation, le centre de traitement des données peut ensuite compléter ce travail, et les utilisateurs secondaires (chercheurs en général) peuvent encore sur- anonymiser la donnée retravaillée (avant sa publication dans une revue ou distribution à d'autres utilisateurs). De nombreuses méthodes existent (effacement de certaines données (suppression) et/ou transcodage manuel, généralisation, ajout de bruit; utilisation de pseudonymes par exemple pour le couple médecin/patient ; de chiffrement (généralement avec une clé publique - éventuellement fragmentée - possédée par 1 ' autorité compétente ) . Several phases and levels of anonymisation sometimes succeed each other: for example the hospital proceeds to a first anonymisation, the data processing center can then complete this work, and the secondary users (researchers in general) can still over-anonymize the data. reworked (before its publication in a review or distribution to other users). Many methods exist (deletion of some data (deletion) and / or manual transcoding, generalization, addition of noise, use of pseudonyms for example for the doctor / patient pair, encryption (usually with a public key - possibly fragmented - possessed by The competent authority).
Dans le domaine médical, la notion d'identité anonymisée et de ré-identification du patient concerne les moyens directs et indirects de ré-identification (ex : nom, adresse...) mais également les données chiffrées si le moyen de décryptage est disponible.  In the medical field, the notion of anonymized identity and re-identification of the patient concerns the direct and indirect means of re-identification (eg name, address ...) but also the encrypted data if the decryption means is available .
Pour limiter les risques de fuites d'informations, une personnes (ex : un patient) ne figure dans une base de donnée anonyme que si cela est obligatoire ou vraiment utile, et à un projet peut n'être associé qu'une seule base anonymisée. Une sécurité juridique accrue est obtenue si toutes les personnes y figurant ont donné leur consentement (par écrit ou via la fourniture de son identifiant, pour une étude de nature médico-commerciale, par exemple, mais ce type de base induit des biais d'interprétation.  To limit the risk of information leakage, a person (ex: a patient) is included in an anonymous database only if it is obligatory or really useful, and to a project can be associated only one anonymized database . Increased legal certainty is obtained if all the persons listed in it have given their consent (in writing or via the provision of their identifier, for a medico-commercial study, for example), but this type of basis induces interpretation bias. .
Bien entendu, à chaque niveau de production ou stockage de données :  Of course, at each level of production or data storage:
- Les personnels internes doivent être soumis à des mécanismes de contrôles d'accès devant interdire tout accès non autorisé ; - Internal staff must be subject to access control mechanisms to prevent unauthorized access;
- Des mécanismes doivent être prévus pour détecter et bloquer les tentatives d'intrusion (par l'Internet ou d'autres moyens) et en particulier les tentatives malveillantes d'inférence de données, d'abus de pouvoir, etc.  - Mechanisms should be provided to detect and block attempts to intrude (through the Internet or other means) and in particular malicious attempts at data inference, abuse of power, etc.
Etat de la technique La demande de brevet WO 2015066523 décrit un exemple de procédé implémenté par ordinateur, pour fournir de meilleurs niveaux de confidentialité des données, d'anonymat et de sécurité en autorisant des sujets auxquels des données appartiennent, à rester "anonymes de façon dynamique," autrement dit anonymes aussi longtemps qu'ils le souhaitent et dans la mesure souhaitée. State of the art Patent application WO 2015066523 describes an example of a computer-implemented method, to provide better levels of data privacy, anonymity and security by allowing subjects to whom data belong, to remain "anonymous dynamically," otherwise Anonymous says as long as they wish and to the extent desired.
Des modes de réalisation comprennent des systèmes qui créent, accèdent à, utilisent, enregistrent et/ou effacent des données avec des niveaux accrus de confidentialité, anonymat et sécurité, pour obtenir ainsi des informations mieux qualifiées et plus précises. Pour les données devant être partagées avec des tiers, des modes de réalisation peuvent rendre possible un partage contrôlé d'informations qui permet de délivrer des informations limitées temporellement , géographiquement et/ou par l'usage, à la partie réceptrice. Dans un exemple, des scores de mesures d'anonymat peuvent être calculés pour les éléments de données partagés, de sorte qu'un niveau de consentement/engagement requis par l'objet de données avant le partage des éléments de données pertinents à des tiers puisse être spécifié.  Embodiments include systems that create, access, use, store, and / or erase data with increased levels of privacy, anonymity, and security, thereby obtaining better qualified and more accurate information. For data to be shared with third parties, embodiments may make possible controlled information sharing that can deliver temporally, geographically and / or usage limited information to the receiving party. In one example, anonymity score scores can be calculated for the shared data items, so that a level of consent / commitment required by the data object before the sharing of the relevant data items to third parties can be done. to be specified.
La demande de brevet W02012080081 porte sur un procédé mis en oeuvre par ordinateur d'anonymisation de données provenant d'une source de données pour une application cible, le procédé consistant à : identifier des éléments de données sensibles dans des données provenant de la source de données par l'intermédiaire d'un outil de découverte et générer des définitions de données pour des éléments de données indiquant les éléments de données sensibles, les définitions de données comprenant au moins une propriété pour les éléments de données ; spécifier un ensemble de règles de moteur d ' exécution comprenant au moins une règle de moteur d'exécution, la règle de moteur d'exécution comprenant un protocole d'anonymisation de moteur d'exécution, l'ensemble de règles de moteur d'exécution étant spécifiées par l'intermédiaire d'une interface ; mapper l'ensemble de règles de moteur d'exécution aux définitions de données générées par l'outil de découverte pour chacun des éléments de données sensibles ; et consommer les définitions de données générées et appliquer le protocole d'anonymisation de moteur d'exécution mappé à la définition de données d'élément de données sensible, afin d'anonymisation l'élément de données sensible pour l'application cible. The patent application WO2012080081 relates to a computer-implemented method of anonymizing data from a data source for a target application, the method comprising: identifying sensitive data elements in data from the source of data; data through a discovery tool and generating data definitions for data items indicating the sensitive data items, the data definitions including at least one property for the data items; specify a set of runtime rules including at least one runtime rule, the runtime rule including an runtime anonymizer protocol, the runtime engine rule set being specified by via an interface; map the runtime ruleset to the data definitions generated by the discovery tool for each of the sensitive data items; and consuming the generated data definitions and applying the mapped runtime anonymization protocol to the sensitive data item data definition, to anonymize the sensitive data item for the target application.
On connaît aussi la demande de brevet EP2752786 qui décrit un dispositif d'anonymisation et un procédé d'anonymisation caractérisés en ce que toutes les données satisfont des niveaux demandés d'anonymat pour chacune, et en ce qu'ils empêchent la perte de valeur de l'information qui résulte de l'abstraction de la collection de données tout entière. Le présent dispositif d'anonymisation comprend : un moyen d'anonymisation servant à effectuer un traitement d'anonymisation lors duquel un groupe de données est traité comme une unité de traitement pour une collection de données comprenant au moins deux données ; un moyen de spécification du niveau d'anonymat servant à spécifier un niveau d'anonymat adaptatif pour chaque groupe ; et un moyen d'évaluation de l'anonymat servant à juger si un groupe satisfait le niveau d'anonymat adaptatif spécifié. Le moyen d'anonymisation, sur la base du résultat d'évaluation du moyen d'évaluation de l'anonymat, effectue de plus un traitement d'anonymisation de la collection de données pour laquelle le traitement d'anonymisation a été effectué.  Patent Application EP2752786 is also known which describes an anonymization device and an anonymization method characterized in that all the data satisfy the requested anonymity levels for each, and in that they prevent the loss of value of the information that results from the abstraction of the entire data collection. The present anonymization device comprises: an anonymization means for performing an anonymization processing in which a group of data is treated as a processing unit for a data collection comprising at least two data; an anonymity level specifying means for specifying an adaptive anonymity level for each group; and an anonymity rating means for judging whether a group meets the specified adaptive anonymity level. The anonymization means, on the basis of the evaluation result of the anonymity evaluation means, further performs an anonymization processing of the data collection for which the anonymization processing has been carried out.
La demande de brevet européenne EP2573699 décrit un autre exemple de dispositif d'anonymisation servant à configurer automatiquement un arbre hiérarchique général de valeurs d'attribut dans la technologie de protection des informations d'identité. De plus, le dispositif d'anonymisation décrit, évalue quantitativement la quantité d'informations qui est perdue lors de la généralisation d'une valeur d'attribut, et peut ainsi automatiquement évaluer des priorités entre des données anonymisées et entre des données qui sont en cours d'anonymisation. Des informations de chaque personne comprennent des valeurs d'attribut de la personne pour une pluralité d'attributs. Une anonymisation est réalisée par obscurcissement des valeurs d'attribut, et une structure dans laquelle des valeurs d'attribut devant être obscurcies, sont exprimées dans une structure arborescente conformément au niveau d'obscurcissement est appelée arbre hiérarchique général. Le dispositif d'anonymisation d'informations d'identité décrit réalise une configuration automatique par configuration d'un arbre à l'aide d'informations de fréquence de valeurs d'attribut. De plus, par définition d'un moyen de mesure de quantité d'informations perdue, à l'aide de l'arbre hiérarchique général, une quantité d'informations perdue entre deux données anonymisées ou entre des données en cours d'anonymisation est quantitativement évaluée. European Patent Application EP2573699 discloses another example of an anonymization device for automatically configuring a general hierarchical tree of attribute values in identity information protection technology. In addition, the anonymization device describes, quantitatively evaluates the amount of information that is lost during the generalization of an attribute value, and can thus automatically evaluate priorities between anonymized data and between data that are being anonymized. Information of each person includes attribute values of the person for a plurality of attributes. An anonymization is performed by obscuring the attribute values, and a structure in which attribute values to be obscured, are expressed in a tree structure according to the obscuration level is called a general hierarchical tree. The described identity information anonymization device performs automatic configuration by configuring a tree using frequency information of attribute values. Moreover, by definition of a means for measuring the amount of information lost, using the general hierarchical tree, a quantity of information lost between two anonymized data or between data being anonymized is quantitatively evaluated.
La demande de brevet US 2107/ 0124336 décrit une méthode automatisée d'identification des attributs pour l'exercice d'anonymisation. Cette méthode se base sur un cryptage des données, étape préalable à l'étude du niveau de sensibilité des données et donc de leurs degrés d'exigence en termes d'anonymisation. Ce brevet propose trois méthodes pour choisir les valeurs / attributs pour anonymisation. Une première méthode consiste en la comparaison des différentes valeurs avec des valeurs présentes dans un dictionnaire, auxquelles sont associés différents niveaux de sensibilité. Les attributs pour lesquels la présence des valeurs sensibles dans le jeu de données dépasse un certain seuil prédéterminé, seront sélectionnés pour anonymisation. Une deuxième méthode de classification est basée sur une comparaison des distributions des valeurs d'un attribut dans le jeu de données et dans une distribution connue. Cette méthode peut confirmer les résultats de la première méthode d'identification des attributs à anonymiser. Une dernière méthode est de fournir à 1 ' anonymisateur une partie du jeu de données dans sa version originale (avant cryptage) et de générer à partir de cet échantillon un nombre d'expressions pour un ou plusieurs attribut (s). Le reste du jeu de données sera crypté et comparé à ces expressions générées afin d'identifier certains attributs et leur sensibilité. US patent application 2107/0124336 describes an automated method of identifying the attributes for the anonymisation exercise. This method is based on data encryption, a step prior to studying the level of sensitivity of the data and therefore their degree of requirement in terms of anonymization. This patent proposes three methods for choosing values / attributes for anonymization. A first method consists in comparing the different values with values present in a dictionary, with which different levels of sensitivity are associated. Attributes for which the presence of sensitive values in the dataset exceeds a certain predetermined threshold will be selected for anonymization. A second classification method is based on a comparison of the distributions of the values of an attribute in the dataset and in a known distribution. This method can confirm the results of the first method of identifying the attributes to be anonymized. A final method is to provide the anonymizer with a portion of the dataset in its version. original (before encryption) and generate from this sample a number of expressions for one or more attribute (s). The rest of the dataset will be encrypted and compared to these generated expressions to identify certain attributes and their sensitivity.
Inconvénients de l'art antérieur Disadvantages of prior art
Les solutions de l'art antérieur sont adaptées pour préparer des bases de données anonymisées lors de leur création. Par contre, ces solutions ne permettent pas de faire évoluer facilement l'anonymisation, par exemple lorsque l'ajout de nouvelles entrées modifie le contexte de d'anonymisation. Les solutions de l'art antérieur nécessitent dans ce cas le retraitement de l'intégralité de la base de données, ce qui peut nécessiter un temps de calcul considérable, pour des bases de données pouvant représenter plusieurs téraoctets.  The solutions of the prior art are adapted to prepare anonymous databases when they are created. On the other hand, these solutions do not make it possible to easily change the anonymization, for example when the addition of new entries modifies the context of anonymisation. The solutions of the prior art require in this case the reprocessing of the entire database, which may require considerable computation time, for databases that may represent several terabytes.
Par ailleurs, les solutions de l'art antérieur ne permettent pas d'ajuster de manière flexible, et dynamiquement évolutive, le niveau d'exigence d'anonymisation en fonction des possibilités de ré-identification par des traitements élaborés des données.  Furthermore, the solutions of the prior art do not allow to adjust in a flexible manner, and dynamically scalable, the level of anonymization requirement according to the possibilities of re-identification by elaborate processing of the data.
Une anonymisation trop exigeante conduit à la perte de toute utilité/valeur des données.  An overly demanding anonymisation leads to the loss of any usefulness / value of the data.
Par contre, si on privilégie la richesse des informations accessibles par le traitement des données, l'anonymisation risque d'être insuffisante au regard des normes règlementaires.  On the other hand, if one privileges the richness of the information accessible by the treatment of the data, the anonymization risks being insufficient with respect to the regulatory standards.
Cet arbitrage entre ces deux contraintes évolue en fonction du nombre et de la nature des entrées enregistrées dans la base de données.  This arbitrage between these two constraints evolves according to the number and the nature of the entries recorded in the database.
A titre d'exemple, une information relative au sexe combinée avec une information relative à l'âge peut être identificatrice , ce qui nécessite une action de transformation/ anonymisation, surtout lorsque le jeu de données contient en plus des informations relatives à une pathologie donnée. Toutefois, si la totalité des entrées/ enregistrements correspondent à un même sexe, ou à une même tranche d'âge, l'information n'est en réalité pas identificatrice . Mais si des entrées nouvelles modifient cette situation, l'information « sexe » ou « âge » peut nécessiter un traitement différent. For example, sex information combined with age information can be identifying, which requires a transformation / anonymization action, especially when data contains in addition information relating to a given pathology. However, if all the entries / registrations correspond to the same sex, or to the same age group, the information is in fact not identifiable. But if new entries change this situation, the information "sex" or "age" may require different treatment.
De plus, l'anonymisation nécessite une étape préalable d'identification des attributs / valeurs à anonymiser. Cette étape est laissée au choix de 1 ' anonymisateur/ utilisateur et est donc sujette à un problème de subjectivité et de non précision de la classification. De plus, même les travaux qui se concentrent sur la classification des attributs, ne fournissent pas de méthodologie claire et documentée de qualification des attributs .  In addition, the anonymization requires a preliminary step of identifying the attributes / values to be anonymized. This step is left to the choice of the anonymizer / user and is therefore subject to a problem of subjectivity and non-precision of the classification. Moreover, even work that focuses on the classification of attributes does not provide a clear and documented methodology for qualifying attributes.
Solution apportée par l'invention Solution provided by the invention
La présente invention vise à remédier à ces inconvénients en proposant un procédé permettant d'avoir différents niveaux d'anonymisation au travers d'une classification des variables d'une base de données. The present invention aims to overcome these disadvantages by proposing a method for having different levels of anonymization through a classification of the variables of a database.
L'invention concerne selon son acception la plus générale un procédé de traitement automatique d'un jeu de données numériques consistant :  The invention relates in its most general sense to a method of automatically processing a digital data set consisting of:
à enregistrer dans une mémoire non permanente un jeu de données originelles,  save in a non-permanent memory a set of original data,
à enregistrer dans une mémoire permanente  to record in a permanent memory
o un fichier numérique constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables  a digital file constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables
■ un paramètre « Statut identifiant »  ■ an "Identifier Status" parameter
[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ] un paramètre « Statut Sensibilité » [ : oui[identifier "I", quasi-identifier "IQ", non-identifier "NP"] a parameter "Status Sensitivity" [: yes
« S », ou non « NS » ] . Ce paramètre dépend de la définition de sensibilité retenue : "S", or not "NS"]. This parameter depends on the selected sensitivity definition:
Sensibilité « règlementaire » , se limitant aux exigences juridiques en termes de protection de la vie privée.  "Regulatory" sensitivity, limited to the legal requirements in terms of protection of privacy.
- Sensibilité « générale », englobant d'autres aspects comme le psychologique, le culturel,... o Un fichier numérique constitué par une table de variables de recensement de la population de référence avec pour chacune  - "General" sensitivity, encompassing other aspects such as psychological, cultural, ... o A digital file constituted by a table of census variables of the reference population with for each
Les différentes modalités/ valeurs prises par chaque variable selon le recensement The different modalities / values taken by each variable according to the census
La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis , .. ) The frequency of appearance of each category in the reference population (France, United States, ..)
Un ordre du pouvoir d'identification des différentes variables du recensement o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables. Cet ordre peut être déduit de certaines bases de données retraçant l'historique des attaques. o Un fichier numérique constitué par une table d'attributs « sensibles », pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité. An order of the power of identification of the different census variables o A numerical file constituted by a table of variables with an established order of the degree of facility (208) by which an attacking potential can access the information on the different variables. This order can be deduced from some databases tracing the history of attacks. o A digital file consisting of a table of "sensitive" attributes, for which the values / modalities are classified in order of sensitivity.
Le procédé consistant à appliquer : The method of applying:
un premier traitement se basant sur le référentiel des attributs, noté « Classification Initiale » consistant à o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» (« I », « Qi » ou « S »), c'est-à-dire nécessitant une action avant partage des données, pour empêcher leur utilisation normale (sans anonymisation par exemple) dans ledit jeu de données a first treatment based on the referential of the attributes, noted "Initial Classification" consisting of o associating with each of the variables of said original data set a "status" parameter and processing the variables associated with a "hidden" status ("I", "Qi" or "S"), that is to say requiring an action before sharing the data, to prevent their normal use (without anonymisation for example) in said data set
o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs dans le jeu de données final un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :  o to assign to each of the variables associated with a status "NP" / "NS" a flag of non-processing and final conservation in the final data set a second treatment concerning the residual variables associated with a status "quasi-identifier" consisting at :
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale dudit jeu de données OU  o Prohibit their exploitation by assigning a "hidden" status to prevent their normal use in the final version of that dataset OR
affecter à chacune desdites variables résiduelles : assign to each of said residual variables:
un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures, par exemple à partir d'un web crawler ou d'un référentiel ou d'historiques d'attaques a first indicator for the availability of the associated value from external data sources, such as from a web crawler or a repository or historical attacks
et/ou  and or
un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale (appelée aussi population de référence) dont le jeu de données constitue un sous-ensemble a second indicator corresponding to the frequency values of said variables associated in the general population (also called reference population), the data set is a subset
à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation. Cet ordre traduit la classification finale des attributs affectés à une séquence numérique « QI » . un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à : ordering each of said residual variables according to said associated indicators, which will result, for example, in different processing / anonymization levels during the process anonymisation. This order translates the final classification of the attributes assigned to a numerical sequence "IQ". a third treatment concerning the residual variables associated with a "regulatory" sensitivity parameter consisting of:
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données  o Prohibit their exploitation of assigning a "hidden" status to prevent their normal use in the final version (215) of that dataset
OU  OR
o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs allant des plus sensibles aux moins sensibles. Ces indicateurs sont calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible. Ils seront ensuite comparés à un seuil de fréquence o Assign to each of these residual variables a sensitivity indicator by referring to a list of sensitive variables with their different modalities / values ranging from the most sensitive to the least sensitive. These indicators are calculated based on the occurrence frequency of the most sensitive values of the sensitive attribute. They will then be compared to a frequency threshold
« acceptable » préalablement défini, "Acceptable" previously defined,
o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données,  o Keeping for each of the residual variables characterized by a frequency of occurrence of the sensitive values greater than a threshold value, their "hidden" status to prevent their normal use in said data set,
o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation.  o Assign the remaining variables a "hidden" status but more "flexible" in terms of processing requirements during the anonymization process.
Selon un mode de mise en œuvre particulier, un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. Selon une variante, le procédé comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur. According to a particular embodiment, a fourth processing concerning the residual variables associated with a "general" sensitivity parameter of assigning some of said variables a "hidden" status to prevent their normal use in said set of data. According to one variant, the method comprises, prior to the first classification step, a processing for assigning to each of the variables for which no correspondence with the attribute repository (201) is established, a provisional status in the attribute repository (201) , which can be changed to definitive status or rejected according to the opinion of an operator.
Avantageusement, le procédé comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs, un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité ». Advantageously, the method further comprises a step consisting in dynamically applying to the variables that can not be associated with the referential of the attributes, a specific processing consisting in registering in said repository the pair "variable, status" awaiting validation / rejection according to the opinion of an operator. This would also imply potential enrichments of the "Power of identification" (207) and / or "sensitivity" repositories.
Selon une variante, lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire] . According to a variant, said processes are applied periodically [for example during each evolution of the data set (210) or at each evolution of the regulatory framework].
Avantageusement, lesdits traitements appliqués aux variables / valeurs « cachées» consistent à : Advantageously, said treatments applied to the "hidden" variables / values consist of:
supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I »)  delete said variables / values (especially for variables assigned to status "I")
enregistrer lesdites variables dans une DMZ  save the said variables in a DMZ
l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.  the anonymization of at least a part of the values corresponding to said variables.
Description détaillée d'un exemple non limitatif de Detailed description of a non-limiting example of
1 ' invention La présente invention sera mieux comprise à la lecture de la description détaillée d'un exemple non limitatif de l'invention qui suit, se référant aux dessins annexés, où : The invention The present invention will be better understood on reading the detailed description of a nonlimiting example of the invention which follows, with reference to the appended drawings, in which:
La figure 1 représente du logigramme de l'ensemble des traitements.  Figure 1 shows the flow diagram of the set of treatments.
- La figure 2 représente l'ensemble des modules des traitements pour la mise en œuvre de l'invention.  FIG. 2 represents the set of processing modules for implementing the invention.
La figure 3 présente une vue détaillée du logigramme de la première étape de classification.  Figure 3 shows a detailed view of the logic diagram of the first classification step.
La figure 4 présente une vue détaillée du logigramme de l'analyse du pouvoir d'identification des attributs.  Figure 4 presents a detailed view of the logic diagram of the attribute identification power analysis.
La figure 5 présente une vue détaillée du logigramme de l'analyse de la sensibilité des attributs .  Figure 5 provides a detailed view of the logic diagram of attribute sensitivity analysis.
Contexte de l'invention Context of the invention
La présente invention concerne la classification automatique des attributs d'un jeu de données numériques permettant de mieux cibler les exercices d'anonymisation et/ ou d'évaluation du risque de ré-identification (RI). Le but est d'automatiser les traitements techniques permettant d'assurer le respect du cadre règlementaire sur la protection des données à caractère personnel. The present invention relates to the automatic classification of the attributes of a digital data set to better target the anonymisation and / or risk assessment of re-identification (RI) exercises. The aim is to automate the technical processes to ensure compliance with the regulatory framework on the protection of personal data.
La multiplication des données à caractère personnel et les évolutions juridiques et légales dans ce domaine rendent l'exercice de l'anonymisation des bases de données un enjeu pour les propriétaires/ utilisateurs des bases de données numériques .  The proliferation of personal data and legal and legal developments in this area make the exercise of database anonymisation an issue for the owners / users of digital databases.
Certains organismes nationaux et européens tels que la CNIL ou le G29 insistent sur l'importance de la protection des données à caractère personnel, en proposant des méthodologies d'anonymisation permettant d'avoir un compromis entre la protection de la vie privée et l'exploitation des données. Le cadre réglementaire est renforcé en plus par le règlement européen sur la protection des données (RGPD) qui vise à harmoniser les législations européennes sur la question de la protection des données à caractère personnel. Afin de garantir la protection des données, les travaux d'anonymisation devront être vérifiés en évaluant le risque de ré-identification des données à caractère personnel. Some national and European bodies such as the CNIL and the G29 insist on the importance of the protection of personal data, by proposing anonymisation methodologies allowing a compromise between the protection of privacy and exploitation. of the data. The regulatory framework is further strengthened by the European Data Protection Regulation (GDPR), which aims to harmonize European legislation on the issue of personal data protection. In order to guarantee the protection of data, the anonymisation work must be verified by assessing the risk of re-identification of personal data.
L'anonymisation et l'évaluation du risque de divulgation des données à caractère personnel concernent généralement certaines variables d'un jeu de données, particulièrement celles ayant un caractère identifiant ou celles ayant un caractère sensible. En même temps, l'anonymisation implique une perte d'information sur le jeu de données, pouvant affecter l'utilité des données pour des utilisateurs tels que les chercheurs. Pour cela, il est pertinent pour un utilisateur ou propriétaire des données de bien cibler les variables sur lesquelles l'anonymisation ou la mesure de risque de ré-identification seront effectuées. Ainsi, la classification des attributs d'un jeu de données serait-elle un atout pour faire l'équilibre entre l'obligation du respect de la vie privée et la garantie de l'utilité des données .  The anonymisation and assessment of the risk of disclosure of personal data generally concern certain variables in a dataset, particularly those with an identifying nature or those with a sensitive character. At the same time, anonymization involves loss of information about the dataset, which can affect the usefulness of the data for users such as researchers. For that, it is relevant for a user or owner of the data to target the variables on which the anonymization or the re-identification risk measurement will be carried out. For example, the classification of the attributes of a dataset would be an asset in striking a balance between the obligation to respect one's private life and the guarantee of the usefulness of the data.
La classification des attributs est effectuée par un traitement « manuel » par le propriétaire des données et reste liée à son appréciation. Cela laisse la question de la classification des variables sujette à la subjectivité et donc pouvant engendrer des décisions d'anonymisation ou d'évaluation du risque de ré-identification qui ne sont pas en conformité avec les exigences de la manipulation des données à caractère personnel. De plus, le contexte de diffusion des jeux de données, l'évolution des lois et des coutumes ainsi que les caractéristiques de certains jeux de données font que la classification des variables n'est pas définitive et qu'une appréciation d'expert est toujours souhaitable pour garantir l'utilisation éthique des données à caractère personnel. Au vu de ces éléments, Il existe donc un problème technique lié à l'analyse préalable (manuelle ou automatique) des attributs d'un jeu de données afin de bien cibler les exercices d'anonymisation et/ ou d'évaluation du risque de réidentification des données par un attaquant potentiel du jeu de données . The classification of the attributes is carried out by a "manual" treatment by the owner of the data and remains linked to its appreciation. This leaves the question of the classification of variables subject to subjectivity and thus may result in decisions of anonymisation or assessment of the risk of re-identification that are not in conformity with the requirements of the manipulation of personal data. In addition, the context of dissemination of datasets, the evolution of laws and customs as well as the characteristics of certain data sets mean that the classification of variables is not final and that an expert assessment is always desirable to ensure the ethical use of personal data. Given these elements, there is therefore a technical problem related to the preliminary analysis (manual or automatic) of the attributes of a dataset in order to target the anonymisation exercises and / or assessment of the risk of re-identification. data by a potential attacker of the dataset.
Il existe dans ce cas un besoin de rationaliser la classification des attributs afin d'introduire tout d'abord de l'objectivité à cette tâche souvent sujette à la subjectivité, de manière automatique compte tenu du nombre considérable de données nécessitant un traitement, dans certaines applications. Cela rendra possible la comparaison entre jeux de données de même nature, en termes de risque de divulgation. Une bonne classification des attributs facilitera la décisions concernant les méthodes d'anonymisation et / ou de mesure de risque de divulgation des données à caractère personnel. De plus, avoir une classification des attributs qui dépend du jeu de données et qui n'est pas forcément définitive offre plus de flexibilité pour les propriétaires des données pour pouvoir satisfaire différents couples contextes d'utilisation/nature des clients. In this case, there is a need to rationalize the classification of attributes in order to introduce objectivity first to this task, which is often subject to subjectivity, automatically in view of the considerable number of data requiring treatment, in some cases. applications. This will make it possible to compare data sets of the same kind, in terms of the risk of disclosure. A good classification of the attributes will facilitate the decisions concerning the methods of anonymisation and / or measurement of the risk of disclosure of the personal data. In addition, having a classification of attributes that depends on the dataset and which is not necessarily definitive offers more flexibility for the owners of the data to be able to satisfy different couples contexts of use / nature of the customers.
La présente invention propose une méthodologie de classification des attributs afin d'aider les propriétaires des données à partager leurs données tout en respectant les exigences des données à caractère personnel de manière automatique et de manière dynamique, permettant de faire évoluer automatiquement les paramètres en fonction de l'introduction de nouvelles données dans la base de données. The present invention provides an attribute classification methodology to help data owners share their data while respecting the requirements of personal data automatically and dynamically, allowing the parameters to be automatically scaled according to the introduction of new data into the database.
Le propriétaire des données accède à un jeu de données comportant des attributs . Chaque attribut a une dénomination permettant de le classer. Chaque attribut peut prendre différentes modalités/ valeurs et peut être donc aussi classer selon la composition de ces valeurs (distribution, fréquence ou autre). The data owner accesses a dataset with attributes. Each attribute has a name to classify it. Each attribute can take different modalities / values and so can also be classify according to the composition of these values (distribution, frequency or other).
L'innovation de cette méthodologie de classification réside donc particulièrement dans l'intervention des modalités des différents attributs d'un jeu de données dans le processus de classification des attributs.  The innovation of this classification methodology therefore lies particularly in the intervention of the modalities of the different attributes of a dataset in the classification process of the attributes.
Description de l'invention Description of the invention
Cette invention comporte deux étapes de classification des données. La classification commence par une première étape, où les attributs du jeu de données à traiter sont soumis à un premier classement, en se servant d'une base de données créée appelée « Référentiel des attributs » . Cette invention sera décrite selon un exemple détaillé en référence aux figures 1 à 5 annexées présentant l'architecture fonctionnelle et les logigrammes des principaux modules fonctionnels . This invention has two stages of classification of the data. The classification begins with a first step, where the attributes of the dataset to be processed are subject to a first classification, using a created database called "Attributes Repository". This invention will be described according to a detailed example with reference to Figures 1 to 5 annexed showing the functional architecture and the logic of the main functional modules.
1- Référentiel des attributs (201) 1- Repository of attributes (201)
Le «Référentiel des attributs» (201) consiste à appliquer une classification des attributs selon deux principaux critères d'anonymisation des données personnelles à savoir :  The "Attributes framework" (201) consists of applying a classification of the attributes according to two main criteria of anonymization of the personal data, namely:
- leur caractère identifiant (202) et  - their identifying character (202) and
- leur caractère sensible (203)  - their sensitive nature (203)
Le caractère identifiant (202) se traduit par l'enregistrement d'une séquence numérique pouvant prendre trois états : « I » lorsque la variable est directement identificatrice comme le numéro de sécurité sociale , « QI » lorsque la variable peut devenir identificatrice , combinée avec d'autres variables associées à un même état comme le code postal, ou « NP ». Les variables associées à la séquence numérique « NP » ne font pas l'objet d'un traitement dans le cadre de cette invention, ce qui peut réduire le temps de calcul dans le processus/ la démarche d'anonymisation (204).The identifier character (202) results in the recording of a three-state numerical sequence: "I" when the variable is directly identifying as the social security number, "IQ" when the variable can become an identifier, combined with other variables associated with the same state as the postal code, or "NP". The variables associated with the numerical sequence "NP" are not treated in the the scope of this invention, which can reduce computational time in the anonymization process / process (204).
Le caractère sensible (203) se traduit par l'enregistrement d'une séquence numérique pouvant prendre deux états : « S » lorsque la variable est sensible dans le sens où sa divulgation doit être évitée et « NS » dans les autres cas. The sensitive character (203) results in the recording of a digital sequence that can take two states: "S" when the variable is sensitive in the sense that its disclosure should be avoided and "NS" in the other cases.
Le référentiel (201) se traduit par un fichier rassemblant des variables, recensées à partir de l'état de l'art, des préconisations des instituts de protection de la vie privée ainsi que des cas d'usage rencontrés. Ces variables sont classées par catégorie afin de faciliter l'utilisation du référentiel lors de la classification des attributs d'un jeu de données considéré. Les catégories recensées sont les suivantes : santé, éducation et travail, adresses, numéros et dates...  The repository (201) is translated into a file containing variables, listed from the state of the art, the recommendations of the institutes for the protection of privacy and the use cases encountered. These variables are categorized to facilitate the use of the repository when classifying the attributes of a given dataset. The categories listed are: health, education and work, addresses, numbers and dates ...
La classification des attributs est ensuite basée sur deux éléments:  Attribute classification is then based on two elements:
- le caractère identifiant (202) des attributs et précisément leur pouvoir d'identification des attributs, et  the identifying character (202) of the attributes and precisely their attribute identification power, and
- le caractère sensible (203) des données au sens de la loi et aussi plus généralement au sens des coutumes, société... Pour le caractère sensible, on considère :  - the sensitive nature (203) of the data in the sense of the law and also more generally in the sense of the customs, society ... For the sensitive character, one considers:
- l'appartenance à une catégorie particulière au sens juridique et  - belonging to a particular category in the legal sense and
- une sensibilité plus générale ne se limitant pas au niveau d'exigence juridique.  - a more general sensitivity not limited to the level of legal requirement.
Les attributs appartenant, selon la loi, à une «catégorie particulière» sont classés en tant que variables sensibles affectées de la séquence numérique « S », par exemple les données de santé, le casier judiciaire...  Attributes belonging, according to the law, to a "particular category" are classified as sensitive variables assigned to the numerical sequence "S", for example health data, criminal record, etc.
La sensibilité « générale » ne se réduit cependant pas à la sensibilité juridique ; elle prend en compte des aspects éthiques et sociaux. Le nombre de redoublements par exemple peut être considéré comme une variable sensible, et donc cette variable pourra être associée à une séquence « S » ou « NS » selon le choix de l'utilisateur. "General" sensitivity is not, however, reduced to legal sensitivity; it takes into account ethical and social aspects. The number of repetitions by example can be considered as a sensitive variable, and thus this variable can be associated with a sequence "S" or "NS" depending on the user's choice.
Ces critères sont issus de la littérature sur l'anonymisation et leur prise en compte pour faire la catégorisation des variables permet d'atténuer la subjectivité de la qualification et des analyses. En effet, la plupart des logiciels/ outils d'anonymisation ne fournissent pas de l'assistance à leurs utilisateurs dans l'étape de classification des attributs des jeux de données.  These criteria come from the literature on anonymization and their inclusion in categorizing variables helps to reduce the subjectivity of qualification and analysis. Indeed, most of the anonymization software / tools do not provide support to their users in the step of classifying the attributes of the datasets.
Ce référentiel (201) peut être enrichi de façon continue et est supposé rassembler un ensemble important de variables se rattachant à de nombreux secteurs d'activité, afin de faire croître son utilité.  This repository (201) can be continuously enriched and is supposed to bring together a large set of variables related to many sectors of activity, in order to increase its usefulness.
Le traitement se traduit par l'enrichissement de la table des données constituant le référentiel (201) par des paramètres numériques définis comme suit:  The processing results in the enrichment of the data table constituting the repository (201) by numerical parameters defined as follows:
Catégorie : Il s'agit du thème auquel se rapporte 1 ' attribut . Category: This is the theme to which the attribute refers.
Attribut : Dénomination de l'attribut. Attribute: The name of the attribute.
Statut Identifiant : Il s'agit de classer la variable comme identificatrice « I, à éliminer de la version anonymisée », quasi-identificatrice « QI » ou non Identifier status: This is to classify the variable as identifier "I, to be eliminated from the anonymized version", quasi-identifier "IQ" or not.
« NP » . "NP".
Catégorie particulière au sens juridique : Il Special category in the legal sense: It
s'agit des attributs qui doivent être considérés comme sensibles et donc à protéger au sens la loi.  these are the attributes that must be considered sensitive and thus to be protected within the meaning of the law.
Sensibilité Générale : La sensibilité inclut la sensibilité au sens juridique mais aussi au sens de l'éthique, la coutume, la société, ... General Sensitivity: Sensitivity includes sensitivity in the legal sense but also in the sense of ethics, custom, society, ...
Remarques supplémentaires : Précisions à prendre en compte lors de la classification. Deux autres référentiels s'ajoutent pour affiner la classification des attributs (2eme étape de classification) : Additional remarks: Precisions to be taken into account when classifying. Two other standards are added to refine the classification of attributes (2nd classification stage):
2- Référentiel de sensibilité des attributs (205) 2- Repository of sensitivity of the attributes (205)
Afin d'offrir une flexibilité aux utilisateurs au moment de la classification des attributs, le référentiel de « sensibilité des attributs » (205) propose de référencer selon le degré de sensibilité, les différentes modalités / valeurs d'un attribut classé comme sensible et donc affecté de la séquence numérique « S ». In order to provide flexibility to users at the time of classification of the attributes, the "sensitivity of attributes" repository (205) proposes to reference, according to the degree of sensitivity, the different modalities / values of an attribute classified as sensitive and therefore assigned the numerical sequence "S".
Certains attributs classés « sensibles » et affectés à la séquence numérique « S » prennent des valeurs n'ayant pas forcément le même degré de sensibilité et/ ou d'exigence de protection, d'où l'intérêt de proposer une analyse plus fine de sensibilité et de un ordre de sensibilité pour les différentes modalités des attributs sensibles (206).  Certain attributes classified as "sensitive" and assigned to the numerical sequence "S" take values that do not necessarily have the same degree of sensitivity and / or protection requirement, hence the interest of proposing a more refined analysis of sensitivity and sensitivity order for the different modalities of the sensitive attributes (206).
Par exemple, pour établir l'ordre de sensibilité des modalités que peut prendre l'attribut « Maladie », il est pertinent de prendre en compte que certaines maladies sont plus sensibles à la divulgation que d'autres, c'est-à-dire que leur divulgation pourrait causer plus de préjudice à la (les) personne ( s ) concernée ( s ) .  For example, to establish the order of sensitivity of the "Disease" attribute, it is relevant to take into account that certain diseases are more sensitive to disclosure than others, that is to say that their disclosure could cause more harm to the person (s) concerned.
En se basant sur les classifications internationales des maladies publiées par l'Organisation Mondiale de Santé (OMS), nous pouvons proposer un ordre de sensibilité des différentes maladies (selon le degré de dangerosité et/ ou de jugements sociaux) qui prendra par exemple la forme suivante :  Based on the international classifications of diseases published by the World Health Organization (WHO), we can propose an order of sensitivity of different diseases (depending on the degree of dangerousness and / or social judgments) which will take the form of next :
Maladies à sensibilité forte: Maladies sexuellement transmissibles, ...  High Sensitivity Diseases: Sexually Transmitted Diseases, ...
Maladies à sensibilité modérée: Maladies chroniques ,...  Diseases with Moderate Sensitivity: Chronic Diseases, ...
Maladies à faible sensibilité : autres La validation de cette catégorisation nécessiterait 1 'avis d 'un expert . Low Sensitivity Diseases: Other Validation of this categorization would require the advice of an expert.
In fine, le « Référentiel de sensibilité des attributs » (205) est constitué par la liste des attributs sensibles recensée grâce au « Référentiel des attributs » (201) et pour chaque attribut, les différentes modalités possibles (pouvant évoluer) sont classées par ordre de sensibilité et / ou d'exigence en termes de protection de la vie privée et d'un point de vue socio-culturel.  Finally, the "Attributes Sensitivity Repository" (205) is constituted by the list of sensitive attributes identified by the "Attributes Reference" (201) and for each attribute, the various possible modalities (that can evolve) are classified by order sensitivity and / or requirement in terms of protection of privacy and from a socio-cultural point of view.
3- Référentiel du Pouvoir d'identification des données 207) 3- Repository of the Power of identification of the data 207)
La qualification des attributs quasi-identifiants , affectés à une séquence numérique « QI » peut être améliorée en passant à un degré plus fin d'analyse (212). En effet, le pouvoir d'identification peut varier d'un attribut quasi- identifiant à un autre. Ainsi, le niveau d'exigence en termes d'anonymisation et / ou d'évaluation d'anonymisation pourrait être différent selon le niveau de pouvoir d'un quasi- identifiant dans la ré-identification d'un individu. The qualification of the quasi-identifier attributes assigned to a numerical sequence "IQ" can be improved by passing to a finer degree of analysis (212). Indeed, the power of identification can vary from one quasi-identifying attribute to another. Thus, the level of requirement in terms of anonymization and / or anonymization evaluation could be different depending on the level of power of a virtual identifier in the re-identification of an individual.
Deux règles de décisions facilitant le classement des quasi-identifiants selon leur pouvoir d'identification sont déterminées, le but étant de créer un « Référentiel de Pouvoir d'identification » (207). Précisément, nous proposons deux critères sur lesquels se base l'ordre de pouvoir d'identification : la « facilité d'accès des attributs» et la « fréquence d'apparition dans la population de référence». Two decision rules facilitating the classification of quasi-identifiers according to their power of identification are determined, the aim being to create an "Identification Power Referential" (207). Specifically, we propose two criteria on which the order of identifying power is based: the "ease of access of the attributes" and the "frequency of appearance in the reference population".
3.1- *Référentiel de facilité d'accès des attributs (208) 3.1- * Facilitated Accessibility Repository (208)
Le principe de base de ce « Référentiel de facilité d'accès des attributs» (208) est qu'un attaquant potentiel ne pourrait pas accéder à tous les attributs quasi- identificateurs, affectés à la séquence numérique « QI », avec le même degré de facilité. En effet, toutes choses étant égales par ailleurs, certains attributs quasi-identifiants « QI » sont plus faciles d'accès que d'autres du fait de leur disponibilité publique (sur Internet, sur les sites officiels, les résultats de concours,..). The basic principle of this "Facilitated Accessibility Repository" (208) is that a potential attacker would not be able to access all the attributes identifiers, assigned to the numerical sequence "IQ", with the same degree of ease. Indeed, all other things being equal, some quasi-ID "QI" attributes are easier to access than others because of their public availability (on the Internet, on official sites, competition results, etc.). ).
Nous proposons donc un ordre par catégorie d'attributs. Si on considère par exemple la catégorie des « dates », les différentes dates qu'on peut trouver dans les jeux de données n'ont pas forcément le même degré d'accessibilité. Nous considérons par exemple la classification suivante:  We therefore propose an order by category of attributes. If we consider, for example, the category of "dates", the different dates that can be found in datasets do not necessarily have the same degree of accessibility. We consider for example the following classification:
Dates faciles d'accès : dates de naissance,... Dates easy to access: dates of birth, ...
Dates moins accessibles : dates d'hospitalisation,... Dates less accessible: dates of hospitalization, ...
Dates difficiles d'accès : dates de contrôle médical ,...  Dates difficult to access: medical check dates, ...
Le but est d'avoir un référentiel des attributs quasi-identifiants , affectés par la séquence numérique « QI », classés selon leur facilité d'accès par un potentiel attaquant .  The goal is to have a repository of quasi-identifying attributes, affected by the numerical sequence "IQ", classified according to their ease of access by an attacking potential.
3.2- *Référentiel de Population de référence (209) 3.2- * Referential of Reference Population (209)
Nous considérons aussi que le pouvoir d'identification d'un attribut quasi-identifiant, affecté par une séquence numérique « QI » , pourrait dépendre de la fréquence de l'apparition de ses différentes modalités dans la population de référence, comme la population française. Par exemple, toutes choses étant égales par ailleurs, nous pouvons considérer que la variable « date de naissance » a un pouvoir d'identification plus élevé que l'âge. La « date de naissance » donne en effet plus d'information que ce l'âge donne et est plus identificatrice des individus. Dans le même esprit, « être une femme/ homme » est moins identifiant qu' « être un enseignant en philosophie». We also consider that the power of identification of a quasi-identifier attribute, affected by a numerical sequence "IQ", could depend on the frequency of the appearance of its different modalities in the reference population, like the French population. For example, all things being equal, we can consider that the variable "date of birth" has a higher identification power than age. The "date of birth" actually gives more information than age gives and is more identifying individuals. In the same spirit, " being a woman / man "is less identifying than" being a teacher in philosophy ".
Le « Référentiel de Population de référence » (209) se base donc sur la distribution des différents attributs dans la population de référence, par exemple un pays. Pour la France, nous nous référons par exemple aux données du dernier recensement de la population française de 2013 pour en déduire la distribution d'un ensemble d'attributs. The "Reference Population Reference" (209) is therefore based on the distribution of the different attributes in the reference population, for example a country. For France, we refer for example to the data of the last census of the French population of 2013 to deduce the distribution of a set of attributes.
Les données recensées concernent à ce niveau les variables suivantes : âge, catégorie socio-professionnelle, département de naissance, département de résidence antérieure, département de résidence actuelle, département de travail, diplôme obtenu, nationalité, le secteur d'activité, la région de naissance, la région de résidence antérieure, la région de travail, le sexe, l'état matrimonial et le type d'activité. Cette liste peut être enrichie par d'autres données sur la population française ce qui permettra d'élargir la liste des attributs . The data recorded concern the following variables at this level: age, socio-professional category, department of birth, department of previous residence, department of current residence, department of work, degree obtained, nationality, sector of activity, region of birth, region of previous residence, region of work, sex, marital status and type of activity. This list can be enriched by other data on the French population which will expand the list of attributes.
A partir de ce recensement, les attributs sont classés selon les fréquences d'apparition de leurs différentes modalités / valeurs proposées. La règle de décision est la suivante : From this census, the attributes are classified according to the frequency of appearance of their different modalities / proposed values. The decision rule is:
Les fréquences d'apparition des valeurs/modalités les moins fréquentes, de deux attributs quasi-identifiants A et B, sont comparées. L'attribut pour lequel la modalité la moins fréquente a un pourcentage d'apparition plus faible sera considéré comme attribut ayant un pouvoir d'identification supérieur, ce qui se traduira par la suite par un niveau d'anonymisation et/ ou de risque de ré-identification plus important . Ce traitement permet de donner un ordre de pouvoir d'identification des attributs. Ce référentiel de population de référence (209) peut être élargi par la prise en compte des caractéristiques d'autres populations de référence, comme les Etats Unis ou le Canada. Nous aurons donc, in fine, une base de données donnant les principales caractéristiques des populations de référence (populations auxquelles se rattachent les jeux de données). The occurrence frequencies of the less frequent values / modalities, of two quasi-identifying attributes A and B, are compared. The attribute for which the least frequent category has a lower percentage of appearance will be considered as an attribute with a higher identification power, which will subsequently result in a level of anonymisation and / or risk of re-identification. -identification more important. This processing makes it possible to give an order of power of identification of the attributes. This reference population reference system (209) can be extended by taking into account the characteristics of other reference populations, such as the United States or Canada. We will have, in fine, a database giving the main characteristics of the reference populations (populations to which the data sets are attached).
Ces deux critères de « facilité d’ accès » et de « population de référence » permettront d’ avoir un référentiel de pouvoir d’ identification (207).  These two criteria of "ease of access" and "reference population" will make it possible to have an identification power reference system (207).
Les deux critères peuvent être complémentaires pour couvrir le plus d’ attributs quasi-identifiants , affectés de la séquence numérique « QI », d’ un jeu de données.  The two criteria may be complementary to cover the most quasi-identifying attributes, assigned the numerical sequence "IQ", of a dataset.
Description d'un exemple de mise en œuyre de l'invention Description of an Example of Implementation of the Invention
La classification des attributs peut suivre la méthodologie suivante :  Classification of attributes can follow the following methodology:
Etape (1) s le propriétaire des données/ utilisateur accède à un jeu de données (210) qui contient des attributs avec des dénominations différentes. Le propriétaire des données examine le dictionnaire des attributs (s'il existe) ou directement les attributs afin de les classer. Step (1) the data owner / user accesses a dataset (210) that contains attributes with different denominations. The data owner examines the attribute dictionary (if it exists) or attributes directly to classify them.
Etape (2) : Au cours de cette étape, l'utilisateur accède au « référentiel des attributs » (201). Step (2): During this step, the user accesses the "attribute repository" (201).
Etape (3) : Au cours de cette étape, le calculateur traite le jeu de données (210) pour mettre en concordance chacun des attributs avec le référentiel des attributs (201). Pour les attributs du jeu de données (210), pour lesquels une mise en concordance est réalisée, le traitement consiste à leur affecter un marqueur. Cette correspondance peut se faire manuellement par l'utilisateur en comparant la liste des attributs de son jeu de données au référentiel des attributs ou automatiquement en créant des algorithmes d'automatisation de la recherche tels que l'algorithme Rabin-Karp, String searching, approximate string searching, ou encore les algorithmes de recherche sémantique tels que l'algorithme de Lesk. Step (3): In this step, the calculator processes the data set (210) to match each of the attributes with the attribute repository (201). For attributes of the dataset (210), for which matching is performed, the processing consists of assign them a marker. This correspondence can be done manually by the user by comparing the list of attributes of his dataset to the attribute repository or automatically by creating search automation algorithms such as the Rabin-Karp algorithm, String searching, approximate string searching, or else semantic search algorithms such as the Lesk algorithm.
Etape (4) : Cette étape distingue les attributs du jeu de données (201) pour lesquels une mise en concordance a été réalisée d'une part, et les attributs pour lesquels aucune mise en concordance n'a été déterminée, d'autre part. Step (4): This step distinguishes the attributes of the dataset (201) for which a matching has been performed on the one hand, and the attributes for which no matching has been determined, on the other hand .
Etape (5) : Cette étape consiste à enregistrer dans le référentiel des attributs (201), les attributs du jeu de données (210) pour lesquels aucune concordance n'a été trouvée. Ces variables sont enregistrées avec un statut provisoire, qui pourra être modifié en statut définitif ou rejeté selon l'avis d'un opérateur. Step (5): This step consists in registering in the attribute repository (201) the attributes of the dataset (210) for which no match has been found. These variables are registered with a temporary status, which can be changed to final status or rejected according to the opinion of an operator.
Etape ( 6 ) : Cette étape à procéder à une première classification des attributs, notée « Classification Initiale » (211), en se basant sur « le référentiel des attributs » (201). Cette étape ne concerne que les attributs pour lesquels une concordance avec le « référentiel des attributs » (201) a été établie. A la fin de cette étape, chacun des attributs marqués aura un statut basé sur le référentiel des attributs (201) traduit par une séquence numérique qui peut prendre différents états : « I », « QI »,Step (6): This step to perform a first classification of the attributes, denoted "Initial Classification" (211), based on "the referential of the attributes" (201). This step only affects those attributes for which a match with the "attribute repository" (201) has been established. At the end of this step, each of the marked attributes will have a status based on the attribute repository (201) translated by a numerical sequence that can take different states: "I", "IQ",
« NP », « S » ou « NS » . "NP", "S" or "NS".
Cette étape est décrite plus en détail en référence au logigramme objet de la figure 3.  This step is described in more detail with reference to the logic diagram object of FIG.
En se servant de ce référentiel, un utilisateur/ un propriétaire des données peut faire une première classification, notée « Classification Initiale » (211) des attributs de son jeu de données en vue de bien cibler les exercices d'anonymisation/mesure du risque de divulgation. Using this repository, a user / owner of the data can make a first classification, denoted "Initial Classification" (211) of the attributes of its data set in order to target the anonymisation / disclosure risk measurement exercises.
Un utilisateur accède (301) au dictionnaire des attributs du jeu de données à étudier et au « référentiel des attributs » (201). Pour les attributs dont une correspondance dans le référentiel des attributs a été trouvée (303), une détermination de leur statut identifiant (304)/ sensible (305) permettra d'avoir une classification initiale des attributs (306). La détermination de cette première classification se fait en se référant aux les différentes colonnes du fichier du « référentiel des attributs » (201). Là encore, la correspondance entre les attributs du jeu de données (201) et leur statut dans le « référentiel des attributs » (201) peut se faire manuellement ou automatiquement par des algorithmes d'automatisation de la recherche.  A user accesses (301) the attribute dictionary of the dataset to be studied and the "attribute repository" (201). For attributes whose matching in the attribute repository has been found (303), a determination of their identifier (304) / sensitive (305) status will allow for an initial classification of the attributes (306). The determination of this first classification is done by referring to the different columns of the file of the "referential of the attributes" (201). Again, the correspondence between the attributes of the dataset (201) and their status in the "attribute repository" (201) can be done manually or automatically by search automation algorithms.
Pour les attributs du jeu de données (210) affectés d'une séquence numérique « I », « NP » ou « NS », la classification initiale des attributs (306) correspond à leur classification définitive. Ces attributs seront donc conservés de manière définitive dans le module de classification (213), sur lequel se base le processus d'anonymisation :  For the attributes of the dataset (210) assigned a numerical sequence "I", "NP" or "NS", the initial classification of the attributes (306) corresponds to their definitive classification. These attributes will therefore be permanently stored in the classification module (213), on which the anonymization process is based:
- Les attributs affectés à une séquence numérique « I » subiront des traitements particuliers et n ' apparaîtront pas dans le jeu de données final (215) afin de garantir le respect de la vie privée. - Attributes assigned to a numerical "I" sequence will undergo special processing and will not appear in the final dataset (215) to ensure privacy.
- Les attributs affectés d'une séquence numérique « NP » ou « NS » ne subiront pas (214) de traitements particuliers (204) et seront conservés directement dans le jeu de données final (215).  - Attributes assigned a numerical sequence "NP" or "NS" will not undergo (214) particular processing (204) and will be kept directly in the final dataset (215).
Etape (7) : L'utilisateur détermine ensuite une option consistant à accorder aux attributs affectés à une séquence numérique « QI » ou « S » un statut caché empêchant leur utilisation normale dans le jeu de données final (215) et à passer directement au processus d'anonymisation (204) ou de procéder à un traitement additionnel du jeu de données (210), décrit ci-après. Step (7): The user then determines an option to grant the attributes assigned to a digital sequence "IQ" or "S" a hidden status preventing their normal use in the final data set (215) and go directly to the anonymisation process (204) or to further processing of the data set (210), described below.
Etape (8) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « S », déterminés par un module de filtrage (501). Cette étape, nommée « Analyse de la sensibilité » (206), est présentée de manière plus détaillée par le logigramme, objet de la figure 5. Step (8): This step only applies to attributes, assigned to a numerical sequence "S", determined by a filtering module (501). This step, called "sensitivity analysis" (206), is presented in more detail by the logic diagram, object of FIG.
Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de sensibilité » (205).  The processing will be based on the result of the initial classification of the attributes (306) and the "sensitivity reference" (205).
En accédant (502) au « référentiel de sensibilité des attributs» (205), le calculateur examinera la distribution des modalités de l'attribut sensible dans le jeu de données (503). Les fréquences d'apparition des modalités les plus sensibles de l'attribut sont ensuite calculées pour le jeu de données à étudier (504). By accessing (502) the "attribute sensitivity repository" (205), the calculator will examine the distribution of the modalities of the sensitive attribute in the data set (503). The occurrence frequencies of the most sensitive categories of the attribute are then calculated for the data set to be studied (504).
La fréquence d'apparition des modalités sensibles (de cet attribut sensible) est ensuite comparée à un seuil de fréquence défini auparavant (505). L'attribut en question conservera son caractère « sensible » si la fréquence d'apparition des modalités « sensibles » dans le jeu de données dépasse le seuil préalablement choisi (506). Sinon, l'attribut sera affecté à une classe « moins sensible » (507). On obtient donc une classification finale des attributs sensibles (508). Cette règle permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204) dans le but d'obtenir la version finale du jeu de données ( 215 ) . Etape (9) : Cette étape ne s'applique qu'aux attributs, affectés à une séquence numérique « QI », déterminés par un module de filtrage (401). Cette étape, nommée « Analyse du pouvoir d'identification » (212), est présentée de manière plus détaillée par le logigramme, objet de la figure 4. The frequency of appearance of the sensitive modalities (of this sensitive attribute) is then compared to a frequency threshold defined previously (505). The attribute in question will retain its "sensitive" character if the frequency of appearance of the "sensitive" modalities in the data set exceeds the threshold previously chosen (506). Otherwise, the attribute will be assigned to a "less sensitive" class (507). We thus obtain a final classification of the sensitive attributes (508). This rule will provide flexibility to the users during the anonymization process (204) in order to obtain the final version of the dataset (215). Step (9): This step only applies to the attributes assigned to a numerical sequence "QI" determined by a filtering module (401). This step, named "Analysis of the power of identification" (212), is presented in more detail by the logic diagram, object of Figure 4.
Le traitement s'appuiera sur le résultat de la classification initiale des attributs (306) et sur le « référentiel de pouvoir d'identification » (207).  The processing will be based on the result of the initial classification of the attributes (306) and on the "identification power referential" (207).
Le calculateur accède (402) au « référentiel de facilité d'accès des attributs » (208) et compare (403) ensuite les degrés de facilité d'accès des différents attributs du jeu de données (210) affectés à une séquence numérique « QI », en se basant sur le même référentiel (208). Cette comparaison aboutit à un ordre de « facilité d'accès » des différents attributs. The computer accesses (402) the "attribute access facility repository" (208) and compares (403) thereafter the degrees of ease of access of the various attributes of the dataset (210) assigned to a digital sequence "IQ" ", Based on the same repository (208). This comparison results in an order of "ease of access" of the different attributes.
Le calculateur accède ensuite (404) au « référentiel de population de référence» (209) et fera un tri (405) des attributs affectés d'une séquence numérique « QI » selon l'ordre établi dans le « référentiel de population de référence » (209). Cet ordre peut être fait manuellement ou automatiquement par des algorithmes de tri, à savoir « le tri par sélection » , le « tri arborescent »...  The calculator then accesses (404) the "reference population reference" (209) and will sort (405) attributes assigned a numerical sequence "IQ" according to the order established in the "reference population reference". (209). This order can be done manually or automatically by sorting algorithms, namely "selection sorting", "tree sorting" ...
La comparaison des attributs quasi-identifiants d'un point de vue de la facilité d'accès (403) et l'ordre des différents attributs en termes des caractéristiques dans la population de référence (405), permettent d'avoir un ordre final (406) des attributs affectés à une séquence numérique « QI » selon leur pouvoir de ré-identification. Cet ordre permettra d'offrir une certaine flexibilité aux utilisateurs lors du processus d'anonymisation (204), en termes de besoin d'anonymisation pour les différents attributs marqués du jeu de données (210). Etape (10) : Cette étape présente la fin du processus de classification des attributs du jeu de données (210). Les résultats des analyses de sensibilité (206) et du pouvoir d'identification (212) sont groupés dans un module de classification (213), sur lequel se basera le calculateur pour le traitement des données (204) du jeu de données (210). Ce traitement peut se traduire par une anonymisation de certains attributs, avec des degrés d'exigence différents afin d'aboutir à une version finale du jeu de données (215). Dans tous les cas, le traitement des données doit répondre à des besoins de protection de la vie privée tout en conservant l'utilité du jeu de données (210). The comparison of the quasi-identifying attributes from an easy access point of view (403) and the order of the different attributes in terms of the characteristics in the reference population (405) make it possible to have a final order ( 406) attributes assigned to a numerical sequence "IQ" according to their power of re-identification. This order will provide flexibility to the users during the anonymization process (204), in terms of the need for anonymization for the different tagged attributes of the dataset (210). Step (10): This step presents the end of the classification process of the attributes of the dataset (210). The results of the sensitivity analyzes (206) and the identification power (212) are grouped in a classification module (213), on which the computer for the data processing (204) of the data set (210) will be based. . This processing may result in an anonymization of certain attributes, with different degrees of requirement in order to arrive at a final version of the dataset (215). In all cases, data processing must meet privacy needs while maintaining the usefulness of the dataset (210).

Claims

Revendications claims
1 - Procédé de traitement automatique d'un jeu de données numériques consistant :  1 - Method of automatically processing a digital data set consisting of:
à enregistrer dans une mémoire non permanente un jeu de données originelles,  save in a non-permanent memory a set of original data,
à enregistrer dans une mémoire permanente  to record in a permanent memory
o un fichier numérique (201) constitué par une table déterminant au moins des identifiants/ dénominations des variables, et pour chacune desdites variables  a digital file (201) constituted by a table determining at least identifiers / denominations of the variables, and for each of said variables
un paramètre « Statut identifiant » an "Identifier Status" parameter
[identifiant « I », quasi-identifiant « QI », non identifiant « NP » ]  [identifier "I", quasi-identifier "IQ", non-identifier "NP"]
un paramètre « Statut Sensibilité » [ : oui a parameter "Status Sensitivity" [: yes
« S », ou non « NS » ] "S", or not "NS"]
o Un fichier numérique constitué par une table de variables de recensement de la population de référence (209) avec pour chacune  o A digital file consisting of a table of census variables of the reference population (209) with for each
Les différentes modalités/ valeurs prises par chaque variable selon le recensement The different modalities / values taken by each variable according to the census
La fréquence d'apparition de chaque modalité dans la population de référence (France, Etats Unis , .. ) The frequency of appearance of each category in the reference population (France, United States, ..)
Un ordre du pouvoir d'identification des différentes variables du recensement An order of the power of identification of the different census variables
o Un fichier numérique constitué par une table de variables avec un ordre établi du degré de facilité (208) par lequel un potentiel attaquant peut accéder à l'information sur les différentes variables o Un fichier numérique constitué par une table d'attributs « sensibles » (205), pour lesquels les valeurs/ modalités sont classées par ordre de sensibilité . le procédé consistant à appliquer : un premier traitement se basant sur le référentiel des attributs (201), noté « Classification Initiale » (211) consistant à o A digital file constituted by a table of variables with an established order of the degree of facility (208) by which an attacking potential can access the information on the various variables o A digital file consisting of a "sensitive" attribute table (205), for which the values / terms are ranked in order of sensitivity. the method of applying: a first processing based on the attribute reference system (201), denoted "Initial Classification" (211) consisting of
o associer à chacune des variables dudit jeu de données originel un paramètre « statut » et à traiter les variables associées à un statut « caché» ( « I », « QI » ou « S » ) ,  o associating with each of the variables of said original data set a "status" parameter and processing the variables associated with a "hidden" status ("I", "IQ" or "S"),
o à affecter à chacune des variables associées à un statut « NP» / « NS» un drapeau de non traitement et de conservation définitifs (214) dans le jeu de données final (215) un deuxième traitement concernant les variables résiduelles associées à un statut « quasi-identifiant » consistant à :  o assigning to each of the variables associated with an "NP" / "NS" status a flag of non-processing and final preservation (214) in the final data set (215) a second processing relating to the residual variables associated with a status "Quasi-identifier" consisting of:
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données (210)  o Prohibit their exploitation by assigning a "hidden" status to prevent their normal use in the final version (215) of said dataset (210)
OU  OR
o affecter à chacune desdites variables résiduelles : o assign to each of said residual variables:
un premier indicateur correspondant à la disponibilité de la valeur associée à partir de sources de données extérieures a first indicator corresponding to the availability of the associated value from external data sources
et/ou  and or
un second indicateur correspondant à la fréquence des valeurs de ladite variables associées dans la population générale dont le jeu de données constitue un sous-ensemble o à ordonner chacune desdites variables résiduelles en fonction desdits indicateurs associés, ce qui se traduira par exemple par des niveaux de traitement/ anonymisation différents lors du processus d'anonymisation (204) déterminant la classification finale des attributs affectés à une séquence numérique « QI » (406) un troisième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « règlementaire » consistant à : a second indicator corresponding to the frequency values of said variables associated in the general population whose data set is a subset o to direct each said residual variables in accordance with said associated indicators, which will result, for example by levels different processing / anonymisation during the anonymization process (204) determining the classification final assignment of attributes assigned to a digital sequence "QI" (406) a third processing concerning the residual variables associated with a "regulatory" sensitivity parameter consisting of:
o Interdire leur exploitation consistant à affecter un statut « caché» pour empêcher leur utilisation normale dans la version finale (215) dudit jeu de données (210)  o Prohibit their exploitation by assigning a "hidden" status to prevent their normal use in the final version (215) of said dataset (210)
OU  OR
o Affecter à chacune de ces variables résiduelles un indicateur de sensibilité en se référant à une liste de variables sensibles avec leurs différentes modalités/ valeurs (205) allant des plus sensibles aux moins sensibles, calculés sur la base de la fréquence d'apparition des valeurs les plus sensibles de l'attribut sensible  o Assign to each of these residual variables a sensitivity indicator by referring to a list of sensitive variables with their different modalities / values (205) ranging from the most sensitive to the least sensitive, calculated on the basis of the frequency of appearance of the values. the most sensitive of the sensitive attribute
o Garder pour chacune des variables résiduelles caractérisées, par une fréquence d'apparition des valeurs sensibles supérieure à une valeur seuil, leur statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données,  o Keeping for each of the residual variables characterized by a frequency of occurrence of the sensitive values greater than a threshold value, their "hidden" status to prevent their normal use in said data set,
o Affecter aux variables restantes un statut « caché » mais plus « flexible » en termes d'exigences de traitements lors du processus d'anonymisation (204).  o Assign the remaining variables a "hidden" status but more "flexible" in terms of processing requirements during the anonymization process (204).
2 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre un quatrième traitement concernant les variables résiduelles associées à un paramètre de sensibilité « générale » consistant à affecter à certaines desdites variables un statut « caché» pour empêcher leur utilisation normale dans ledit jeu de données. 3 - Procédé selon la revendication 2 caractérisé en ce qu'il comporte avant l'étape de première classification un traitement pour affecter à chacune des variables pour lesquelles aucune correspondance avec le référentiel des attributs (201) n'est établie, un statut provisoire dans le référentiel des attributs (201), qui peut être modifié en statut définitif ou rejeté selon l'avis d'un opérateur. 2 - Process according to claim 1 characterized in that it further comprises a fourth treatment concerning the residual variables associated with a "general" sensitivity parameter of assigning some of said variables a "hidden" status to prevent their normal use in said data set. 3 - Process according to claim 2 characterized in that it comprises before the first classification step a processing for assigning to each of the variables for which no correspondence with the referential attributes (201) is established, a temporary status in the attribute repository (201), which can be changed to definitive status or rejected according to the opinion of an operator.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape consistant à appliquer dynamiquement aux variables non associables au référentiel des attributs (201), un traitement spécifique consistant à enregistrer dans ledit référentiel le couple « variable, statut » en attente de validation/ rejet selon l'avis d'un opérateur. Cela impliquerait aussi des enrichissements potentiels des référentiels de « Pouvoir d'identification » (207) et/ ou de « sensibilité » (205). 4 - Process according to claim 1 characterized in that it further comprises a step of dynamically applying to non-associatable variables to the repository attributes (201), a specific processing of recording in said repository the couple "variable, status" waiting for validation / rejection according to the opinion of an operator. This would also imply potential enrichments of the "Power of identification" (207) and / or "sensitivity" frameworks (205).
5 - Procédé selon la revendication 1, caractérisé en ce que lesdits traitements sont appliqués périodiquement [par exemple lors de chaque évolution du jeu de données (210) ou à chaque évolution du cadre règlementaire]. 5 - Process according to claim 1, characterized in that said treatments are applied periodically [for example during each evolution of the data set (210) or at each evolution of the regulatory framework].
6 - Procédé selon la revendication 1 caractérisé en ce que lesdits traitements appliqués aux variables / valeurs « cachées» consistent à : 6 - Process according to claim 1 characterized in that said treatments applied to the variables / "hidden" values consist of:
supprimer lesdites variables / valeurs (notamment pour les variables affectées au statut « I »)  delete said variables / values (especially for variables assigned to status "I")
enregistrer lesdites variables dans une DMZ  save the said variables in a DMZ
l'anonymisation d'une partie au moins des valeurs correspondant auxdites variables.  the anonymization of at least a part of the values corresponding to said variables.
PCT/FR2019/050280 2018-02-13 2019-02-08 Automatic processing method for anonymizing a digital data set WO2019158840A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP19710728.7A EP3752948A1 (en) 2018-02-13 2019-02-08 Automatic processing method for anonymizing a digital data set

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1851182 2018-02-13
FR1851182A FR3077894B1 (en) 2018-02-13 2018-02-13 AUTOMATIC PROCESSING PROCESS FOR THE ANONYMIZATION OF A DIGITAL DATA SET

Publications (1)

Publication Number Publication Date
WO2019158840A1 true WO2019158840A1 (en) 2019-08-22

Family

ID=62528569

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2019/050280 WO2019158840A1 (en) 2018-02-13 2019-02-08 Automatic processing method for anonymizing a digital data set

Country Status (3)

Country Link
EP (1) EP3752948A1 (en)
FR (1) FR3077894B1 (en)
WO (1) WO2019158840A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111298432A (en) * 2020-01-16 2020-06-19 腾讯科技(深圳)有限公司 Virtual object information acquisition method and device, server and readable storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468561B (en) * 2021-06-18 2024-04-23 宝湾资本管理有限公司 Data protection method, device and server

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012080081A1 (en) 2010-12-14 2012-06-21 International Business Machines Corporation De-identification of data
EP2573699A1 (en) 2010-05-19 2013-03-27 Hitachi, Ltd. Identity information de-identification device
EP2752786A1 (en) 2011-09-02 2014-07-09 NEC Corporation De-identification device and de-identification method
WO2015066523A2 (en) 2013-11-01 2015-05-07 Anonos Inc. Dynamic de-identification and anonymity
US20160171243A1 (en) * 2014-12-12 2016-06-16 Panasonic Intellectual Property Management Co., Ltd. History information anonymization method and history information anonymization device for anonymizing history information
US20170124336A1 (en) 2015-11-03 2017-05-04 Palo Alto Research Center Incorporated Computer-Implemented System And Method For Automatically Identifying Attributes For Anonymization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2573699A1 (en) 2010-05-19 2013-03-27 Hitachi, Ltd. Identity information de-identification device
WO2012080081A1 (en) 2010-12-14 2012-06-21 International Business Machines Corporation De-identification of data
EP2752786A1 (en) 2011-09-02 2014-07-09 NEC Corporation De-identification device and de-identification method
WO2015066523A2 (en) 2013-11-01 2015-05-07 Anonos Inc. Dynamic de-identification and anonymity
US20160171243A1 (en) * 2014-12-12 2016-06-16 Panasonic Intellectual Property Management Co., Ltd. History information anonymization method and history information anonymization device for anonymizing history information
US20170124336A1 (en) 2015-11-03 2017-05-04 Palo Alto Research Center Incorporated Computer-Implemented System And Method For Automatically Identifying Attributes For Anonymization
EP3166053A1 (en) * 2015-11-03 2017-05-10 Palo Alto Research Center, Incorporated Computer-implemented system and method for automatically identifying attributes for anonymization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Data Sanitization Techniques", 24 January 2009 (2009-01-24), pages 1 - 10, XP055025158, Retrieved from the Internet <URL:http://web.archive.org/web/20090124083826/http://datamasker.com/datasanitization_whitepaper.pdf> [retrieved on 20120420] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111298432A (en) * 2020-01-16 2020-06-19 腾讯科技(深圳)有限公司 Virtual object information acquisition method and device, server and readable storage medium

Also Published As

Publication number Publication date
FR3077894A1 (en) 2019-08-16
EP3752948A1 (en) 2020-12-23
FR3077894B1 (en) 2021-10-29

Similar Documents

Publication Publication Date Title
Dehghanniri et al. Crime scripting: A systematic review
CN107818344B (en) Method and system for classifying and predicting user behaviors
KR102430649B1 (en) Computer-implemented system and method for automatically identifying attributes for anonymization
Diakopoulos Algorithmic accountability reporting: On the investigation of black boxes
Goldsteen et al. Data minimization for GDPR compliance in machine learning models
Al-Saggaf et al. Data mining and privacy of social network sites’ users: Implications of the data mining problem
CN111709052B (en) Private data identification and processing method, device, equipment and readable medium
US20220100899A1 (en) Protecting sensitive data in documents
Paraschakis Towards an ethical recommendation framework
EP3908952B1 (en) Method of creating avatars for protecting sensitive data
Koch et al. No matter how you slice it: Machine unlearning with SISA comes at the expense of minority classes
WO2019158840A1 (en) Automatic processing method for anonymizing a digital data set
Min Global business analytics models: Concepts and applications in predictive, healthcare, supply chain, and finance analytics
Nazah et al. An unsupervised model for identifying and characterizing dark web forums
Wagner Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996--2021
Rizk et al. Media coverage of online social network privacy issues in Germany: A thematic analysis
CN112511632A (en) Object pushing method, device and equipment based on multi-source data and storage medium
Siadaty et al. Locating previously unknown patterns in data-mining results: a dual data-and knowledge-mining method
Bhat et al. A privacy preserved data mining approach based on k-partite graph theory
Alben When artificial intelligence and big data collide—How data aggregation and predictive machines threaten our privacy and autonomy
Martin et al. No Cookies For You!: Evaluating The Promises Of Big Tech’s ‘Privacy-Enhancing’Techniques.
Alonso Zero-Order Privacy Violations and Automated Decision-Making about Individuals
da Silveira Democracy and invisible codes: How algorithms are modulating behaviors and political choices
Olson et al. The Best Ends for the Best Means: Ethical Concerns in App Reviews
Patela et al. Survey of Feature-based Bot Detection Methodologies

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19710728

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019710728

Country of ref document: EP

Effective date: 20200914